このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220727となっている論文です。

PDF登録状況(公開日: 20220727)

TitleAuthorsAbstract論文公表日・翻訳日
# 教師なし学習による量子状態の観測から複雑性へ

From observations to complexity of quantum states via unsupervised learning ( http://arxiv.org/abs/2102.11328v3 )

ライセンス: Link先を確認
Markus Schmitt and Zala Lenar\v{c}i\v{c}(参考訳) 膨大な複雑性は、一般量子状態の恐ろしい性質であり、理論的な処理、特に非平衡状態において大きな課題となる。 したがって、局所的にあまり複雑ではなく、したがって(古典的な)実効理論で説明可能な状態を認識することは不可欠である。 オートエンコーダニューラルネットワークを用いた教師なし学習を用いて,局所観測の再現に必要な最小パラメータ数を決定することにより,時間発展状態の局所的複雑度を検出する。 後者は熱化のプローブとして、密度行列の局所的な複雑性を開なセットアップで割り当てたり、基礎となるハミルトニアン作用素の再構成に使うことができる。 我々のアプローチは、(ノイズの多い)量子シミュレータから得られたデータに対して理想的な診断ツールである。

The vast complexity is a daunting property of generic quantum states that poses a significant challenge for theoretical treatment, especially in non-equilibrium setups. Therefore, it is vital to recognize states which are locally less complex and thus describable with (classical) effective theories. We use unsupervised learning with autoencoder neural networks to detect the local complexity of time-evolved states by determining the minimal number of parameters needed to reproduce local observations. The latter can be used as a probe of thermalization, to assign the local complexity of density matrices in open setups and for the reconstruction of underlying Hamiltonian operators. Our approach is an ideal diagnostics tool for data obtained from (noisy) quantum simulators because it requires only practically accessible local observations.
翻訳日:2023-04-10 05:31:26 公開日:2022-07-27
# 一般化均衡に基づく署名ネットワークの最適分割による米国下院における隠れた連立の同定

Identifying hidden coalitions in the US House of Representatives by optimally partitioning signed networks based on generalized balance ( http://arxiv.org/abs/2105.01913v4 )

ライセンス: Link先を確認
Samin Aref and Zachary P. Neal(参考訳) ネットワーク科学において、一般化バランス理論に基づいて、符号付きネットワークの最適分割を内部結合性および相互分割クラスタに識別することは、計算的に困難である。 我々は,この課題に取り組む2つの二項線形プログラミングモデルを再構成し,一般化し,米国下院におけるコラボレーションの分断ネットワークに適用することにより,その実用性を示す。 これらのモデルは、グローバルに最適なネットワーク分割を保証し、最大30,000のエッジを含む署名付きネットワークに実質的に適用することができる。 米国下院の文脈では、3つのクラスタの分割は従来の2つのクラスタの分割よりも優れており、他の隠れた第3の連立政権は、イデオロギー的に多数派と一致した非常に効果的な立法者で構成されている。

In network science, identifying optimal partitions of a signed network into internally cohesive and mutually divisive clusters based on generalized balance theory is computationally challenging. We reformulate and generalize two binary linear programming models that tackle this challenge, demonstrating their practicality by applying them them to partition networks of collaboration in the US House of Representatives. These models guarantee a globally optimal network partition and can be practically applied to signed networks containing up to 30,000 edges. In the US House context, we find that a three-cluster partition is better than a conventional two-cluster partition, where the otherwise hidden third coalition is composed of highly effective legislators who are ideologically aligned with the majority party.
翻訳日:2023-04-01 13:24:51 公開日:2022-07-27
# 一般化Aubry-Andr\'{e}-Harperモデルにおける局所化促進散逸とオーミック浴

Localization-enhanced dissipation in a generalized Aubry-Andr\'{e}-Harper model coupled with Ohmic baths ( http://arxiv.org/abs/2108.00265v4 )

ライセンス: Link先を確認
H. T. Cui, M. Qin, L.Tang, H. Z. Shen, and X. X. Yi(参考訳) 本研究は,オーミック型環境と結合した一般オーブリー・アンドル・マイン・ハーパーモデルにおける励起の正確なダイナミクスを,システムの生存確率と逆参加率を評価することによって論じる。 局在化が環境への散逸を防ぐためのシステムの初期状態の情報を保存するという一般的な信念とは対照的に,強い局在化は代わりに量子情報の散逸を高めることができる。 力学の徹底的な検討により、システムのエネルギー状態間のコヒーレントな遷移が、この異常な振る舞いを理解するために重要であることを示す。 この状況下では、系とその環境の間の結合誘起エネルギー交換は、系の状態に対する周期的な励起の集団を誘導することができる。 結果として、系の状態間のエネルギー差に依存して、安定あるいは局所化による励起の減衰を観測することができる。 この点は、システムと環境との結合がより強い場合、システム内の励起のダイナミクスの変化をチェックすることによってさらに検証される。

In this work, the exact dynamics of excitation in the generalized Aubry-Andr\'{e}-Harper model coupled with an Ohmic-type environment is discussed by evaluating the survival probability and inverse participation ratio of the state of system. In contrast to the common belief that localization will preserve the information of the initial state in the system against dissipation into the environment, our study found that strong localization can enhance the dissipation of quantum information instead. By a thorough examination of the dynamics, we show that the coherent transition between the energy state of system is crucial for understanding this unusual behavior. Under this circumstance, the coupling induced energy exchange between the system and its environment can induce the periodic population of excitation on the states of system. As a result, the stable or localization-enhanced decaying of excitation can be observed, dependent on the energy difference between the states of system. This point is verified in further by checking the varying of dynamics of excitation in the system when the coupling between the system and environment is more strong.
翻訳日:2023-03-20 07:02:10 公開日:2022-07-27
# 圧縮フェルミオン模型の量子超越状態

Quantum supremacy regime for compressed fermionic models ( http://arxiv.org/abs/2110.09550v2 )

ライセンス: Link先を確認
Guillermo Bl\'azquez-Cruz, Pierre-Luc Dallaire-Demers(参考訳) 圧縮可能なモデルは量子コンピュータにおけるシミュレーション可能なシステムの領域を拡張するが、その適用可能性の正確な限界についてはほとんど知られていない。 圧縮可能なマッチゲート回路の理論を用いて、圧縮空間でシミュレーション可能な二次フェルミオンハミルトニアンのクラスを同定する。 特に、近傍相互作用を持つ2局所量子ビットモデルに符号化されたn$軌道の系では、n$サイトが配置される次元の数とは無関係に、基底状態エネルギーをo\left(\log n\right)$測定値のセットで評価することができる。 また、可変量子固有解法を用いて圧縮基底状態を求めるために、対数数の量子ビットで表現可能な回路ansatzを提供する。 圧縮回路の複雑性解析から、圧縮されたガウスフェルミオン模型をサンプリングするための量子超越性の体系を見出した。

Compressible models extend the domain of simulable systems in quantum computers, but little is known about their precise limits of applicability. Using the theory of compressible matchgate circuits, we identify a class of quadratic fermionic Hamiltonians that can be simulated in compressed space. In particular, for systems of $n$ orbitals encoded to 2-local qubit models with nearest neighbour interactions, the ground state energy can be evaluated with $O\left(\log n\right)$ sets of measurements, independently of the number of dimensions in which the $n$ sites are arranged. We also provide an expressible circuit ansatz in a logarithmic number of qubits for finding the compressed ground state with a variational quantum eigensolver. From the complexity analysis of the compressed circuits, we find a regime of quantum supremacy for sampling compressed Gaussian fermionic models.
翻訳日:2023-03-11 03:58:40 公開日:2022-07-27
# 光ねじりばねを用いたリニアキャビティミラーの角度トラッピング

Angular trapping of a linear-cavity mirror with an optical torsional spring ( http://arxiv.org/abs/2110.13507v2 )

ライセンス: Link先を確認
Takuya Kawasaki, Kentaro Komori, Hiroki Fujimoto, Yuta Michimura, Masaki Ando(参考訳) 光学系は様々な物理実験で注目を集めている。 光学系では、光学干渉計を用いて機械振動子に作用する力の変位を正確に測定することができる。 機械的な発振器として、吊り上げ鏡はミリグラムスケールの光機械システムでしばしば用いられる。 しかし、直線キャビティ内の小さな吊り上げ鏡は、光学的放射圧によるヨー回転の自由度で不安定になる可能性がある。 この不安定性はキャビティが蓄積できる光学力を抑制し、感度に制限を課す。 ここでは,キャビティの$g$係数が負であり,一方のミラーが他方のミラーよりも重い場合,懸濁鏡の回転運動を付加的なアクティブフィードバック制御なしで捕捉するために光放射圧が使用できることを示す。 さらに,トラッピングの有効性を実験的に示す。 種々のキャビティパワーを有する吊り下げられた小型鏡の回転剛性を測定した。 その結果,キャビティ内のレーザー光の放射圧は正の復元トルクとして実際に働くことがわかった。 さらに, 量子放射圧力変動を観測する可能性について, トラッピング構成の応用として実験的に検討した。

Optomechanical systems have been attracting intensive attention in various physical experiments. With an optomechanical system, the displacement of or the force acting on a mechanical oscillator can be precisely measured by utilizing optical interferometry. As a mechanical oscillator, a suspended mirror is often used in over milligram scale optomechanical systems. However, the tiny suspended mirror in a linear cavity can be unstable in its yaw rotational degree of freedom due to optical radiation pressure. This instability curbs the optical power that the cavity can accumulate in it, and imposes a limitation on the sensitivity. Here, we show that the optical radiation pressure can be used to trap the rotational motion of the suspended mirror without additional active feedback control when the $g$ factors of the cavity are negative and one mirror is much heavier than the other one. Furthermore, we demonstrate experimentally the validity of the trapping. We measured the rotational stiffness of a suspended tiny mirror with various intracavity power. The result indicates that the radiation pressure of the laser beam inside the cavity actually works as a positive restoring torque. Moreover, we discuss the feasibility of observing quantum radiation pressure fluctuation with our experimental setup as an application of our trapping configuration.
翻訳日:2023-03-10 05:41:21 公開日:2022-07-27
# ジョセフソン接合における散逸量子相転移の欠如と存在

Absence versus Presence of Dissipative Quantum Phase Transition in Josephson Junctions ( http://arxiv.org/abs/2111.13710v3 )

ライセンス: Link先を確認
Kanta Masuki, Hiroyuki Sudo, Masaki Oshikawa and Yuto Ashida(参考訳) 消散的量子相転移は、具体的な実験証拠の欠如にもかかわらず、抵抗器と結合したジョセフソン接合で起こると広く信じられている。 ここでは、数値的および解析的非摂動的再正規化群(RG)解析の両方に基づいて、以前の摂動論の分解を明らかにし、遷移は常に量子抵抗$R_{Q} \! は h/(4e^2)$ である。 非摂動状態におけるRG流は電荷エネルギーの非単調再正規化を誘導し、絶縁体相が深い電荷状態(クーパーペアボックス)に強く抑制されるような定性的に異なる位相図へと導かれる。 我々は,これまで見過ごされていた危険かつ無関係な用語を,従来の理解の失敗の原因と捉えている。 我々の予測は、高インピーダンス長波長超伝導導波路を実現する最近の実験で検証され、ジョセフソン接合における散逸性量子相転移の運命に関する長年の論争への解決策となる。

Dissipative quantum phase transition has been widely believed to occur in a Josephson junction coupled to a resistor despite a lack of concrete experimental evidence. Here, on the basis of both numerical and analytical nonperturbative renormalization group (RG) analyses, we reveal breakdown of previous perturbative arguments and defy the common wisdom that the transition always occurs at the quantum resistance $R_{Q} \!=\! h/(4e^2)$. We find that RG flows in nonperturbative regimes induce nonmonotonic renormalization of the charging energy and lead to a qualitatively different phase diagram, where the insulator phase is strongly suppressed to the deep charge regime (Cooper pair box), while the system is always superconducting in the transmon regime. We identify a previously overlooked dangerously irrelevant term as an origin of the failure of conventional understandings. Our predictions can be tested in recent experiments realizing high-impedance long superconducting waveguides and would provide a solution to the long-standing controversy about the fate of dissipative quantum phase transition in the resistively shunted Josephson junction.
翻訳日:2023-03-06 19:33:45 公開日:2022-07-27
# 典型的な純量子状態の体積則エントロピー

Volume-law entanglement entropy of typical pure quantum states ( http://arxiv.org/abs/2112.06959v2 )

ライセンス: Link先を確認
Eugenio Bianchi, Lucas Hackl, Mario Kieburg, Marcos Rigol, Lev Vidmar(参考訳) 量子多体ハミルトニアンの典型的な固有状態のエンタングルメントエントロピーは、最近量子カオスと可積分性の診断であると推測されている。 量子カオス系では典型的な純粋な状態のように振る舞うことが知られ、可積分系では典型的な純粋なガウス状態のように振る舞うことが示されている。 このチュートリアルでは、典型的な純粋状態のサブシステムと典型的な純粋ガウス状態の絡み合いエントロピーについて、既知の結果を教育的に紹介する。 両者とも、システムの体積の半分以下の場合、サブシステムの体積とスケールする先行用語を示すが、ボリュームローの要素は基本的に異なる。 典型的な純粋状態に対して定数(および最大)であり、典型的なガウス状態に対するサブシステムとシステム全体の体積の比率に依存する。 粒子数保存は多くの物理ハミルトニアンにおいて重要な役割を担っているため、その効果は典型的な純粋状態と典型的な純粋ガウス状態について議論する。 先行するボリュームロー項の挙動は定性的に変化しないが、サブリーディング項の性質は変化することが証明される。 特に、サブリーディング補正は、サブシステムの体積の平方根に依存するように見える。 私たちはその修正の原点を明らかにします。 最後に, 典型的な純状態の絡み合いエントロピーとランダム行列理論の文脈で得られた解析結果との関係と, 物理的ハミルトニアンの数値計算結果について考察する。

The entanglement entropy of subsystems of typical eigenstates of quantum many-body Hamiltonians has been recently conjectured to be a diagnostic of quantum chaos and integrability. In quantum chaotic systems it has been found to behave as in typical pure states, while in integrable systems it has been found to behave as in typical pure Gaussian states. In this tutorial, we provide a pedagogical introduction to known results about the entanglement entropy of subsystems of typical pure states and of typical pure Gaussian states. They both exhibit a leading term that scales with the volume of the subsystem, when smaller than one half of the volume of the system, but the prefactor of the volume law is fundamentally different. It is constant (and maximal) for typical pure states, and it depends on the ratio between the volume of the subsystem and of the entire system for typical pure Gaussian states. Since particle-number conservation plays an important role in many physical Hamiltonians, we discuss its effect on typical pure states and on typical pure Gaussian states. We prove that while the behavior of the leading volume-law terms does not change qualitatively, the nature of the subleading terms can change. In particular, subleading corrections can appear that depend on the square root of the volume of the subsystem. We unveil the origin of those corrections. Finally, we discuss the connection between the entanglement entropy of typical pure states and analytical results obtained in the context of random matrix theory, as well as numerical results obtained for physical Hamiltonians.
翻訳日:2023-03-04 16:24:07 公開日:2022-07-27
# 単純な量子回路における厳密重力双対

Exact Gravity Duals for Simple Quantum Circuits ( http://arxiv.org/abs/2112.12158v2 )

ライセンス: Link先を確認
Johanna Erdmenger, Mario Flory, Marius Gerbershagen, Michal P. Heller and Anna-Lena Weigel(参考訳) ホログラフィック複雑性の提案は、量子場理論における状態準備のコストとその双対重力の表象化を定量化することに関心を引いた。 複雑性を定義する最も基本的な要素は、与えられた参照状態に作用するときに、すべて望ましいターゲット状態を生成する一連の回路の概念である。 本研究では、一般の2次元共形場理論において局所共形変換を行う回路の研究を行い、そのような回路と厳密な重力双対を構築する。 ホログラフィック複雑性に対する我々のアプローチでは、最適回路への重力双対は、各回路に割り当てられた外部選択コストを最小化するものである。 我々の結果は、第一原理から回路コストに対する正確な重力双対の研究の基礎となる。

Holographic complexity proposals have sparked interest in quantifying the cost of state preparation in quantum field theories and its possible dual gravitational manifestations. The most basic ingredient in defining complexity is the notion of a class of circuits that, when acting on a given reference state, all produce a desired target state. In the present work we build on studies of circuits performing local conformal transformations in general two-dimensional conformal field theories and construct the exact gravity dual to such circuits. In our approach to holographic complexity, the gravity dual to the optimal circuit is the one that minimizes an externally chosen cost assigned to each circuit. Our results provide a basis for studying exact gravity duals to circuit costs from first principles.
翻訳日:2023-03-03 19:54:06 公開日:2022-07-27
# 情報完成測定:条件、最適性、射影性、局所性

Informationally completed measurements: conditions, optimalities, projectivities, and localities ( http://arxiv.org/abs/2112.13052v4 )

ライセンス: Link先を確認
Hao Shu(参考訳) 情報完備化(IC)測定の背後にある物理的問題は、状態トモグラフィと呼ばれる測定結果によって統計的に未知の状態を決定することである。 チャネル推定、デバイステスト、量子鍵分布などの量子情報処理において重要な役割を担っている。 しかし,良質な測定器の構築は長期にわたる課題である。 本研究では, 条件, 最適性, 射影性, 局所性などのIC測定について検討する。 より正確には、情報完全性の条件を示し、練習中の装置の効率を表す新しい最適性を最適化されたスキームで論じる。 次に, 極小射影IC測定(MPICM)を素数次元のシステムでの最初の一般的な構成を提案し, 大規模システムにおける単一射影測定によるC^{n}$の未知の状態を決定することを含む, IC測定の射影的実現について検討した。 最後に、結果は局所的な状態トモグラフィに拡張できる。

The physical problem behind informationally completed (IC) measurements is determining an unknown state statistically by measurement outcomes, known as state tomography. It is of central importance in quantum information processing such as channel estimating, device testing, quantum key distribution, etc. However, constructing such measurements with good properties is a long standing problem. In this work, we investigate IC measurements including conditions, optimalities, projectivities and localities. Precisely, conditions of informational completeness are presented and a new optimality, representing the efficiency of devices in practise, is discussed with an optimized scheme provided. Then the projective realizations of IC measurements, including proposing the first general construction of minimal projective IC measurements (MPICM) in no prime power dimensional systems, as well as determining an unknown state in $C^{n}$ via a single projective measurement in a larger system, are investigated. Finally, the results can be extended to local state tomography.
翻訳日:2023-03-03 09:14:52 公開日:2022-07-27
# 電磁界の第3量子化の実験的検討

Experimental test of the third quantization of the electromagnetic field ( http://arxiv.org/abs/2201.06611v2 )

ライセンス: Link先を確認
J.D. Franson(参考訳) 電磁界の各モード $\small{j}$ は、二次表現における波動関数 $\small{\psi_j(x_j)}$ によって記述される調和振動子と数学的に等価である。 最近、波動関数 $\small{\psi_j(x_j)}$ が場の作用素 $\small{{\hat \psi}_j(x_j)}$ [J.D. Franson, Phys. A 104, 063702 (2021)] を生成するためにさらに量子化されたアプローチが導入された。 このアプローチは、未知の混合角$\small{\gamma}$に基づいて量子光学と量子電磁力学の一般化を可能にする。 この理論は、$\small{\gamma=0}$の場合、従来の量子力学と等価であるが、$\small{\gamma\neq0}$の場合、新しい非弾性光子散乱の形式を予測する。 ここでは, 電場演算子 $\small{{\hat \psi}_j(x_j)} が生成する粒子が無視できる質量を持つことを条件として, 99%の信頼度レベルに$\small{\gamma\leq 1.93 \times 10^{-4}} の上限値を設定する光学散乱実験の結果を報告する。 これらの粒子の質量が非常に大きい場合、高エネルギーの実験が理論をテストするために必要となる。

Each mode $\small{j}$ of the electromagnetic field is mathematically equivalent to a harmonic oscillator described by a wave function $\small{\psi_j(x_j)}$ in the quadrature representation. An approach was recently introduced in which the wave function $\small{\psi_j(x_j)}$ was further quantized to produce a field operator $\small{{\hat \psi}_j(x_j)}$ [J.D. Franson, Phys. Rev. A 104, 063702 (2021)]. This approach allows a generalization of quantum optics and quantum electrodynamics based on an unknown mixing angle $\small{\gamma}$ that is somewhat analogous to the Cabibbo angle or the Weinberg angle. The theory is equivalent to conventional quantum electrodynamics if $\small{\gamma=0}$, while it predicts a new form of inelastic photon scattering if $\small{\gamma\neq0}$. Here we report the results of an optical scattering experiment that set an upper bound of $\small{\gamma\leq 1.93 \times 10^{-4}}$ at the 99% confidence level, provided that the particles created by the field operator $\small{{\hat \psi}_j(x_j)}$ have negligible mass. High-energy experiments would be required to test the theory if the mass of these particles is very large.
翻訳日:2023-02-28 22:37:25 公開日:2022-07-27
# 一般化パラボース状態

Generalized para-Bose states ( http://arxiv.org/abs/2202.06721v2 )

ライセンス: Link先を確認
A. S. Pereira, A. S. Lemos, F. A. Brito(参考訳) 本稿では,一般時間依存二次ハミルトニアンに対するパラボース定式化における運動積分を構築し,その変換は反射作用素と可換となる。 この文脈では、ウィグナーパラメータを用いて圧縮真空状態(svs)とコヒーレント状態(cs)の一般化を得る。 さらに,Wignerパラメータにより一般化されたSVSに対して完全性関係が存在することを示す。 確率遷移の研究において、偏移パラメータは奇数状態へのアクセスを可能にすることによって遷移パラメータとして機能し、ウィグナーパラメータは分布の分散を制御する。 真空状態のパリティが偶数であることを示すことにより、ウィグナーパラメータが量子化されることを示す。 本稿では, 時間非依存のパラボース発振器の場合に適用し, 座標と運動量の平均値が単純な高調波発振器と同様の振動挙動を示すのに対して, 標準偏差は圧縮, 変位, ウィグナーパラメータの補正を行う。

In this paper, we construct integrals of motion in a para-Bose formulation for a general time-dependent quadratic Hamiltonian, which, in its turn, commutes with the reflection operator. In this context, we obtain generalizations for the squeezed vacuum states (SVS) and coherent states (CS) in terms of the Wigner parameter. Furthermore, we show that there is a completeness relation for the generalized SVS owing to the Wigner parameter. In the study of the probability transition, we found that the displacement parameter acts as a transition parameter by allowing access to odd states, while the Wigner parameter controls the dispersion of the distribution. We show that the Wigner parameter is quantized by imposing that the vacuum state has even parity. We apply the general results to the case of the time-independent para-Bose oscillator and find that the mean values of the coordinate and momentum have an oscillatory behavior similarly to the simple harmonic oscillator, while the standard deviation presents corrections in terms of the squeeze, displacement, and Wigner parameters.
翻訳日:2023-02-25 21:06:43 公開日:2022-07-27
# 量子コンピュータ上でのリプキン模型の励起状態のシミュレーション

Simulating excited states of the Lipkin model on a quantum computer ( http://arxiv.org/abs/2203.01478v3 )

ライセンス: Link先を確認
Manqoba Q. Hlatshwayo, Yinu Zhang, Herlik Wibowo, Ryan LaRose, Denis Lacroix, Elena Litvinova(参考訳) 最近提案されたQuantum Equation of Motion (qEOM) 法によるリプキンモデルの励起状態のシミュレーションを行った。 qEOM は古典的コンピュータ上で EOM を一般化し、準ボソン作用素 $\hat{O}^\dagger_n(\alpha)$ に基づく集合励起へのアクセスを与える。 特に、精度が量子ビット符号化のフェルミオンに強く依存していることが示される。 標準エンコーディングは大きなエラーをもたらすが、対称性とグレーコードの使用は量子リソースを減少させ、現在のノイズの多い量子デバイスにおける結果を大幅に改善する。 この符号化方式では,IBM量子マシンを用いて,N=2,3$,4$の粒子のエネルギースペクトルを計算し,精度を正確な解と比較する。 2次ランダム位相近似 (srpa) の類似である$\alpha = 2$ のアプローチの結果は、ランダム位相近似 (rpa) に対応する$\alpha = 1$よりも原理上正確であるが、srpaは大きな結合強度を持つノイズに対してより快適であることがわかった。 提案手法は, 適切な誤差緩和法を適用した場合, 構成の複雑度が高い実装により, 高い分光精度を実現する可能性を示す。

We simulate the excited states of the Lipkin model using the recently proposed Quantum Equation of Motion (qEOM) method. The qEOM generalizes the EOM on classical computers and gives access to collective excitations based on quasi-boson operators $\hat{O}^\dagger_n(\alpha)$ of increasing configuration complexity $\alpha$. We show, in particular, that the accuracy strongly depends on the fermion to qubit encoding. Standard encoding leads to large errors, but the use of symmetries and the Gray code reduces the quantum resources and improves significantly the results on current noisy quantum devices. With this encoding scheme, we use IBM quantum machines to compute the energy spectrum for a system of $N=2, 3$ and $4$ particles and compare the accuracy against the exact solution. We found that the results of the approach with $\alpha = 2$, an analog of the second random phase approximation (SRPA), are, in principle, more accurate than with $\alpha = 1$, which corresponds to the random phase approximation (RPA), but the SRPA is more amenable to noise for large coupling strengths. Thus, the proposed scheme shows potential for achieving higher spectroscopic accuracy by implementations with higher configuration complexity, if a proper error mitigation method is applied.
翻訳日:2023-02-23 05:59:05 公開日:2022-07-27
# 検索エンジンがニュース消費に与える影響--ニュース選択におけるランキングと代表性は親しみ度を上回る

Search engine effects on news consumption: ranking and representativeness outweigh familiarity in news selection ( http://arxiv.org/abs/2206.08578v2 )

ライセンス: Link先を確認
Roberto Ulloa, Celina Sylwia Kacperski(参考訳) オンラインプラットフォームは、個人がニュースにアクセスしたり対話したりする方法を変えてきた。 web追跡行動データを用いて,検索結果に現れるニュース記事の選択に影響を与える2つのアルゴリズム(ランキングと代表性)と1つの心理的(家族性)の3つの競合要因を分析した。 参加者(n=280)のニュースエンゲージメントは,親しみの指標であり,google検索ページ(n=1221)に提示されるニュース記事を調査する。 本研究は,ニュース消費に対するアルゴリズムの要因が,親密性と比較してステアリング能力を示すものである。 しかし、ランキングの強い影響にもかかわらず、ニュース記事はニュース以外の記事よりも少ない役割を担っている。 われわれは、Google検索が個人を不慣れな情報源へと駆り立て、政治的オーディエンスからニュースソースへの多様性を高めることを確認した。 提案手法では,アルゴリズムによって形成されるデジタルコンテキストにおいて,社会科学理論をテストする際の課題に対処する。

Online platforms have transformed the way in which individuals access and interact with news, with a high degree of trust particularly placed in search engine results. We use web tracked behavioral data across a 2-month period and analyze three competing factors, two algorithmic (ranking and representativeness) and one psychological (familiarity) that could influence the selection of news articles that appear in search results. Participants' (n=280) news engagement is our proxy for familiarity, and we investigate news articles presented on Google search pages (n=1221). Our results demonstrate the steering power of the algorithmic factors on news consumption as compared to familiarity. But despite the strong effect of ranking, we find that it plays a lesser role for news articles compared to non-news. We confirm that Google Search drives individuals to unfamiliar sources and find that it increases the diversity of the political audience to news sources. With our methodology, we take a step in tackling the challenges of testing social science theories in digital contexts shaped by algorithms.
翻訳日:2023-02-19 17:49:14 公開日:2022-07-27
# 依存性、データ、デコロニゼーション:協調ai研究におけるデコロニアル思考のためのフレームワーク

Dependency, Data and Decolonisation: A Framework for Decolonial Thinking in Collaborative AI Research ( http://arxiv.org/abs/2206.03212v2 )

ライセンス: Link先を確認
Dennis Reddyhoff(参考訳) このエッセイは、アカデミアの政治経済、生産の学術的手段へのアクセスの不平等、およびデータのエンパワーメントにおける植民地的実践に関する考えを結びつけようとしている。 これを示すために、西洋アカデミーの新植民地的かつ抽出的実践を簡単に分析し、デコロニアルaiの実践に関する概念を紹介し、それらを調査的枠組みとして使用します。 この枠組みを用いて,ウガンダのカンパラにおけるAirQoプロジェクトの簡単な事例研究を行う。 このプロジェクトの目的は、低コストの大気汚染センサーネットワークを市内に展開することであり、機械学習を使ってこれらのセンサーを基準機器に校正し、高品質の大気汚染データを低コストで提供する。

This essay seeks to tie together thoughts on the political economy of academia, the inequities in access to the academic means of production and decolonial practice in data empowerment. To demonstrate this I will provide a brief analysis of the neo-colonial, extractive practices of the Western Academy, introduce concepts around decolonial AI practice and then use these to form an investigative framework. Using this framework, I present a brief case study of the AirQo project in Kampala, Uganda. The project aims to deploy a low-cost air pollution sensor network across the city, using machine learning methods to calibrate these sensors against reference instruments, providing high-quality air pollution data at a far lower cost.
翻訳日:2023-02-19 17:32:30 公開日:2022-07-27
# 新型コロナウイルスのデータセットの概要

A Summary of COVID-19 Datasets ( http://arxiv.org/abs/2202.02824v2 )

ライセンス: Link先を確認
Syed Raza Bashir, Shaina Raza, Vidhi Thakkar, Usman Naseem(参考訳) 本研究では,covid-19研究のために開発されたデータセットについて概説する。 このコレクションは、新型コロナウイルス(covid-19)の効果的な治療と管理方針を追求するために、コンピューティングコミュニティ、バイオメディカル専門家、政策立案者たちの協力を継続することを願っている。 世界保健機関(WHO)、ジョン・ホプキンス、国立衛生研究所(NIH)、新型コロナウイルス(COVID-19)のオープンサイエンステーブル4など、世界中の多くの組織が、多くのデータセットを一般公開している。 しかし、これらのデータセットは様々なソースやイニシアチブに由来する。 本研究の目的は、オープンなCOVID-19データセットを要約して、健康システムの設計と分析のために研究コミュニティによりアクセスしやすくすることである。

This research presents a review of main datasets that are developed for COVID-19 research. We hope this collection will continue to bring together members of the computing community, biomedical experts, and policymakers in the pursuit of effective COVID-19 treatments and management policies. Many organizations, such as the World Health Organization (WHO), John Hopkins, National Institute of Health (NIH), COVID-19 open science table4 and such, in the world, have made numerous datasets available to the public. However, these datasets originate from a variety of different sources and initiatives. The purpose of this research is to summarize the open COVID-19 datasets to make them more accessible to the research community for health systems design and analysis.
翻訳日:2023-02-19 14:44:19 公開日:2022-07-27
# データ駆動型プログラミングフィードバックシステムのためのマルチ基準評価:正確性、有効性、妥当性、学生の反応

A Multicriteria Evaluation for Data-Driven Programming Feedback Systems: Accuracy, Effectiveness, Fallibility, and Students' Response ( http://arxiv.org/abs/2208.05326v1 )

ライセンス: Link先を確認
Preya Shabrina, Samiha Marwan, Andrew Bennison, Min Chi, Thomas Price, Tiffany Barnes(参考訳) データ駆動型プログラミングフィードバックシステムは、初心者が人間の教師がいない状態でプログラムするのに役立つ。 先行評価の結果、これらのシステムはテストスコアやタスク完了効率の観点から学習を改善することがわかった。 しかし、これらの評価では、学習に影響を与える重要な側面や、このようなシステムの将来的な改善に重要な洞察が無視される。 これらの側面には、現在の最先端の固有の誤認、正しい/間違ったフィードバックに対する生徒のプログラミング行動、効果的な/非効率なシステムコンポーネントが含まれる。 そのため、このようなシステムについて多くの知識が見つかっていない。 本稿では,ブロックベースの初心者プログラミング環境に統合されたデータ駆動型フィードバックシステムに対して,5つの基準でマルチ基準評価を適用する。 評価のそれぞれの基準は、システムのユニークな重要な側面を明らかにします。 1) フィードバックシステムはどの程度正確か。 2)プログラミング科目を通して学生を指導する方法 3) タスク完了の学生にどのように役立つか。 4) 故障した場合に何が起こるか,及び 5) 学生が一般にシステムにどう反応するか。 評価結果から,本システムは学生にとって有効設計とフィードバック表現に有用であることがわかった。 しかし、初心者は、高い信頼と自己評価の欠如により、この誤認によって負の影響を受けうる。 否定的な影響には、作業時間の増加、実装、不正確な/部分的正しいソリューションの提出が含まれる。 評価結果は,データ駆動型フィードバックシステムの適正な利用,誤り可能性緩和ステップの設計,今後の改善に向けた研究の推進に有用な洞察を見出しながら,マルチクリトリアシステム評価の必要性を補強した。

Data-driven programming feedback systems can help novices to program in the absence of a human tutor. Prior evaluations showed that these systems improve learning in terms of test scores, or task completion efficiency. However, crucial aspects which can impact learning or reveal insights important for future improvement of such systems are ignored in these evaluations. These aspects include inherent fallibility of current state-of-the-art, students' programming behavior in response to correct/incorrect feedback, and effective/ineffective system components. Consequently, a great deal of knowledge is yet to be discovered about such systems. In this paper, we apply a multi-criteria evaluation with 5 criteria on a data-driven feedback system integrated within a block-based novice programming environment. Each criterion in the evaluation reveals a unique pivotal aspect of the system: 1) How accurate the feedback system is; 2) How it guides students throughout programming tasks; 3) How it helps students in task completion; 4) What happens when it goes wrong; and 5) How students respond generally to the system. Our evaluation results showed that the system was helpful to students due to its effective design and feedback representation despite being fallible. However, novices can be negatively impacted by this fallibility due to high reliance and lack of self-evaluation. The negative impacts include increased working time, implementation, or submission of incorrect/partially correct solutions. The evaluation results reinforced the necessity of multi-criteria system evaluations while revealing important insights helpful to ensuring proper usage of data-driven feedback systems, designing fallibility mitigation steps, and driving research for future improvement.
翻訳日:2023-02-19 10:30:02 公開日:2022-07-27
# 科学のマルチプラットフォーム共有における情報保持

Information Retention in the Multi-platform Sharing of Science ( http://arxiv.org/abs/2207.13815v1 )

ライセンス: Link先を確認
Sohyeon Hwang, Em\H{o}ke-\'Agnes Horv\'at, Daniel M. Romero(参考訳) 最近の公衆衛生危機で強調された、正確な科学コミュニケーションに対する大衆の関心は、コンテンツがオンラインに広まるにつれて重要な情報を失うことを強調している。 しかしながら、この現象のマルチプラットフォーム解析は、データ収集の課題のために制限されている。 Altmetric LLCが追跡した研究の言及を収集し、ブログサイト、Facebook、ニュースサイト、Twitter、ウィキペディアにまたがる最も有望な科学記事9,765件について、400万件以上のオンライン投稿で情報保持を調査した。 そこで我々は,様々なプラットフォーム間での科学に関するオンライン議論を調べるためのバーストベースのフレームワークを提案する。 情報保持度を測定するために,オンライン投稿を科学論文の要約と比較するキーワードベースの計算尺度を開発した。 フィールドエキスパートがラベル付けした根拠真理データを用いて測定値を評価する。 第一に、ソーシャルメディアで注意が集中し始める時以外は、明らかな損失の軌跡に続き、情報保持のレベルが低くなる傾向が見られます。 第二に、プラットフォームは情報保持に大きな違いを示す。 第三に、より多くのプラットフォームを含むシーケンスは、高い情報保持と関連付けられる傾向がある。 研究者、政策立案者、市民にも重大な懸念を抱いているが、マルチプラットフォームに関する議論は情報保持を全般的に改善する可能性があることを示唆している。

The public interest in accurate scientific communication, underscored by recent public health crises, highlights how content often loses critical pieces of information as it spreads online. However, multi-platform analyses of this phenomenon remain limited due to challenges in data collection. Collecting mentions of research tracked by Altmetric LLC, we examine information retention in the over 4 million online posts referencing 9,765 of the most-mentioned scientific articles across blog sites, Facebook, news sites, Twitter, and Wikipedia. To do so, we present a burst-based framework for examining online discussions about science over time and across different platforms. To measure information retention we develop a keyword-based computational measure comparing an online post to the scientific article's abstract. We evaluate our measure using ground truth data labeled by within field experts. We highlight three main findings: first, we find a strong tendency towards low levels of information retention, following a distinct trajectory of loss except when bursts of attention begin in social media. Second, platforms show significant differences in information retention. Third, sequences involving more platforms tend to be associated with higher information retention. These findings highlight a strong tendency towards information loss over time - posing a critical concern for researchers, policymakers, and citizens alike - but suggest that multi-platform discussions may improve information retention overall.
翻訳日:2023-02-19 10:11:26 公開日:2022-07-27
# 社会文化的・地理的文脈における歩道アクセシビリティのマッピングと評価に向けて

Towards Mapping and Assessing Sidewalk Accessibility Across Sociocultural and Geographic Contexts ( http://arxiv.org/abs/2207.13626v1 )

ライセンス: Link先を確認
Jon E. Froehlich, Michael Saugstad, Manaswi Saha, Matthew Johnson(参考訳) 移動性、アクセシビリティ、公衆衛生を支える歩道の役割にもかかわらず、高品質なデータセットが欠如しており、歩道の存在と状況に関する対応する分析が行われている。 まず、世界中の都市の歩道を見つけて評価するためのスケーラブルなメカニズムを開発し、次に、このデータを新しい都市分析とモビリティツールをサポートするために利用します。 本研究は,このアプローチによって実現される2つの予備的都市科学探査について報告する。 地理的空間パターンと歩道アクセシビリティの鍵関係を探索し, 地域間における歩道インフラの違いを検討する。

Despite the important role of sidewalks in supporting mobility, accessibility, and public health, there is a lack of high-quality datasets and corresponding analyses on sidewalk existence and condition. Our work explores a twofold vision: first, to develop scalable mechanisms to locate and assess sidewalks in cities across the world, and second, to use this data to support new urban analyses and mobility tools. We report on two preliminary urban science explorations enabled by our approach: exploring geo-spatial patterns and key correlates of sidewalk accessibility and examining differences in sidewalk infrastructure across regions.
翻訳日:2023-02-19 10:10:49 公開日:2022-07-27
# BrainActivity1: 大学生のための脳波データ収集と機械学習分析フレームワーク

BrainActivity1: A Framework of EEG Data Collection and Machine Learning Analysis for College Students ( http://arxiv.org/abs/2207.13239v1 )

ライセンス: Link先を確認
Zheng Zhou, Guangyao Dou, Xiaodong Qu(参考訳) 機械学習とディープラーニングを使って脳波(EEG)信号から認知タスクを予測することは、Brain-Computer Interfaces(BCI)において急速に発展している分野である。 しかし、新型コロナウイルス(COVID-19)のパンデミックの間、データ収集と分析は以前よりも困難になる可能性がある。 本稿では,BCI分類タスクのためのパーソナルコンピュータ上で効率的に動作可能な機械学習アルゴリズムについて検討する。 また,このようなbci実験をzoomを用いて遠隔で行う方法についても検討した。 その結果,Random Forest と RBF SVM は脳波分類タスクにおいて良好に機能していた。 パンデミック時の遠隔実験はいくつかの課題を生じさせ,可能な解決策について議論した。しかしながら,このようなデータ収集のガイドラインに興味のある非専門家に許可を与えるプロトコルを開発した。

Using Machine Learning and Deep Learning to predict cognitive tasks from electroencephalography (EEG) signals has been a fast-developing area in Brain-Computer Interfaces (BCI). However, during the COVID-19 pandemic, data collection and analysis could be more challenging than before. This paper explored machine learning algorithms that can run efficiently on personal computers for BCI classification tasks. Also, we investigated a way to conduct such BCI experiments remotely via Zoom. The results showed that Random Forest and RBF SVM performed well for EEG classification tasks. The remote experiment during the pandemic yielded several challenges, and we discussed the possible solutions; nevertheless, we developed a protocol that grants non-experts who are interested a guideline for such data collection.
翻訳日:2023-02-19 10:10:19 公開日:2022-07-27
# ビジュアルを超えて : データビジュアライゼーションへのアクセスにおける視覚障害者の体験

Beyond Visuals : Examining the Experiences of Geoscience Professionals With Vision Disabilities in Accessing Data Visualizations ( http://arxiv.org/abs/2207.13220v1 )

ライセンス: Link先を確認
Nihanth W Cherukuru, David A Bailey, Tiffany Fourment, Becca Hatheway, Marika M Holland, Matt Rehme(参考訳) データの可視化はあらゆる分野においてユビキタスであり、データ分析と洞察のコミュニケーションの主要な手段となっている。 しかし、データの視覚的エンコーディングに大きく依存しているため、視覚障害者にとってアクセシビリティ障壁が生まれ、科学、技術、工学、数学(STEM)の分野に代表されることになる。 本研究は,stem分野(geosciences)において視覚障害者がデータビジュアライゼーションにアクセスする際の経験を理解することを目的としている。 社会技術的レンズによるデータ可視化に関するアクセシビリティ研究のインフォメーション改善のためのアクセシビリティ障壁と領域を検討するため、7人の専門家との詳細な半構造化インタビューを行った。 反射的セマンティック分析では、キャリアパスに影響を与える可視化の影響、研究のためのデータ探索ツールの欠如、同僚の作品へのアクセス障壁、可視化とアクセシビリティの研究のミスマッチしたペースが明らかになった。 記事には、これらのアクセシビリティ障壁に対処する参加者からのレコメンデーションも含まれている。

Data visualizations are ubiquitous in all disciplines and have become the primary means of analysing data and communicating insights. However, the predominant reliance on visual encoding of data continues to create accessibility barriers for people who are blind/vision impaired resulting in their under representation in Science, Technology, Engineering and Mathematics (STEM) disciplines. This research study seeks to understand the experiences of professionals who are blind/vision impaired in one such STEM discipline (geosciences) in accessing data visualizations. In-depth, semi-structured interviews with seven professionals were conducted to examine the accessibility barriers and areas for improvement to inform accessibility research pertaining to data visualizations through a socio-technical lens. A reflexive thematic analysis revealed the negative impact of visualizations in influencing their career path, lack of data exploration tools for research, barriers in accessing works of peers and mismatched pace of visualization and accessibility research. The article also includes recommendations from the participants to address some of these accessibility barriers.
翻訳日:2023-02-19 10:09:43 公開日:2022-07-27
# どんな意味でユニークか? 音楽における多種の独特性と人気の相互関係

Unique in what sense? Heterogeneous relationships between multiple types of uniqueness and popularity in music ( http://arxiv.org/abs/2207.12943v2 )

ライセンス: Link先を確認
Yulin Yu, Pui Yin Cheung, Yong-Yeol Ahn, Paramveer Dhillon(参考訳) 私たちの社会は、文化品の独特さをどう評価しますか。 この基本的なパズルは心理学、社会学、人類学、マーケティングなど多くの分野の学者を惹きつけてきた。 慣れ親しみとノベルティのバランスをとる文化商品がより普及する可能性が高いと理論化されている。 しかし、文化商品の新規性は通常多面的である。 本稿では,歌を事例研究として,個性と成功との関係について考察する。 最初は、曲の斬新さや独特さの複数の面を解き放ち、次に、曲の人気への影響を測る。 我々は、歌詞、コード進行、オーディオ特性に関連する歌の人気と新規性との関係を研究するために、一連の統計モデルを用いている。 5万曲以上のデータセットで行った分析の結果、あらゆる種類の曲のノベルティと人気の間に一貫して否定的な相関が見られた。 全体として、歌詞の独特さは、その人気と最も重要な関連性があることを発見した。 しかし、オーディオの独特さは歌の人気の最も強い予測者であり、歌のジャンルを条件としていた。 さらに、歌の歌詞のテーマと反復性が、歌の人気とノベルティの関係を仲介することを発見した。 本研究の結果は,「最適特異性理論」(新奇性と親密性のバランス)と矛盾し,文化的商品の特異性を示す多次元的側面の解明を求めるものである。

How does our society appreciate the uniqueness of cultural products? This fundamental puzzle has intrigued scholars in many fields, including psychology, sociology, anthropology, and marketing. It has been theorized that cultural products that balance familiarity and novelty are more likely to become popular. However, a cultural product's novelty is typically multifaceted. This paper uses songs as a case study to study the multiple facets of uniqueness and their relationship with success. We first unpack the multiple facets of a song's novelty or uniqueness and, next, measure its impact on a song's popularity. We employ a series of statistical models to study the relationship between a song's popularity and novelty associated with its lyrics, chord progressions, or audio properties. Our analyses performed on a dataset of over fifty thousand songs find a consistently negative association between all types of song novelty and popularity. Overall we found a song's lyrics uniqueness to have the most significant association with its popularity. However, audio uniqueness was the strongest predictor of a song's popularity, conditional on the song's genre. We further found the theme and repetitiveness of a song's lyrics to mediate the relationship between the song's popularity and novelty. Broadly, our results contradict the "optimal distinctiveness theory" (balance between novelty and familiarity) and call for an investigation into the multiple dimensions along which a cultural product's uniqueness could manifest.
翻訳日:2023-02-19 10:09:22 公開日:2022-07-27
# ソーシャルメディア上の誤情報スーパースプリーダーの同定と特性評価

Identification and characterization of misinformation superspreaders on social media ( http://arxiv.org/abs/2207.09524v3 )

ライセンス: Link先を確認
Matthew R. DeVerna, Rachith Aiyappa, Diogo Pacheco, John Bryden, Filippo Menczer(参考訳) 世界のデジタル情報エコシステムは、偽情報の拡散に苦戦し続けている。 以前の研究は、不釣り合いな低信頼性コンテンツ(いわゆるスーパースプリーダー)を一貫して広めるユーザーがこの問題の中心にあることを示唆している。 我々は,この仮説を定量的に検証し,数ヶ月後に上位の誤報スーパースプレッドラーを予測するための単純な指標を導入する。 次に、最も多能なスーパースプレッダを特徴付ける定性的なレビューを行い、それらの共有行動を分析する。 superspreaderには、大きなフォロワーを持つパンディット、信頼性の低いメディアコンセント、これらのメディアコンセントに付随する個人アカウント、さまざまなインフルエンサーが含まれる。 それらは本質的に政治的であり、典型的なユーザ情報共有の誤報よりも有害な言語を使用する。 また、Twitterが著名なスーパースレッダーを見落としていることを示す証拠も見つかっている。 この研究が悪役を公衆に理解し、健全なデジタル談話に対する悪影響を緩和するためのステップを促進することを願っている。

The world's digital information ecosystem continues to struggle with the spread of misinformation. Prior work has suggested that users who consistently disseminate a disproportionate amount of low-credibility content -- so-called superspreaders -- are at the center of this problem. We quantitatively confirm this hypothesis and introduce simple metrics to predict the top misinformation superspreaders several months into the future. We then conduct a qualitative review to characterize the most prolific superspreaders and analyze their sharing behaviors. Superspreaders include pundits with large followings, low-credibility media outlets, personal accounts affiliated with those media outlets, and a range of influencers. They are primarily political in nature and use more toxic language than the typical user sharing misinformation. We also find concerning evidence suggesting that Twitter may be overlooking prominent superspreaders. We hope this work will further public understanding of bad actors and promote steps to mitigate their negative impacts on healthy digital discourse.
翻訳日:2023-02-19 09:58:22 公開日:2022-07-27
# 減衰発振器のポテンシャルに基づく量子化法

A Potential Based Quantization Procedure of the Damped Oscillator ( http://arxiv.org/abs/2204.02893v2 )

ライセンス: Link先を確認
Ferenc M\'arkus and Katalin Gamb\'ar(参考訳) 今日、最も繁栄している物理学分野は量子コンピューティングとスピントロニクスである。 どちらも、情報の喪失と消散が重要な役割を担っている。 本研究は, 上記のことばの理解を支援する散逸発振器の量子化を定式化し, 将来これらの問題を克服するための理論的枠組みを創出する。 減衰ばね系のラグランジアン枠組みに基づき、正準共役対と系のハミルトニアンが得られ、量子化手順を起動し、一貫して適用することができる。 その結果、消散振動子の減衰量子波動方程式が導出され、この方程式の正確な減衰波解が得られる。 したがって、量子損失を記述できるような可逆的な量子論にたどり着く。

Nowadays, two of the most prospering fields of physics are quantum computing and spintronics. In both, the loss of information and dissipation plays a crucial role. In the present work we formulate the quantization of the dissipative oscillator, which aids understanding of the above mentioned, and creates a theoretical frame to overcome these issues in the future. Based on the Lagrangian framework of the damped spring system, the canonically conjugated pairs and the Hamiltonian of the system are obtained, by which the quantization procedure can be started and consistently applied. As a result, the damping quantum wave equation of the dissipative oscillator is deduced, by which an exact damping wave solution of this equation is obtained. Consequently, we arrive at such an irreversible quantum theory by which the quantum losses can be described.
翻訳日:2023-02-18 02:41:25 公開日:2022-07-27
# 非真空量子ゆらぎからの2つの慣性Unruh-DeWitt検出器間の絡み合い

Entanglement harvesting between two inertial Unruh-DeWitt detectors from non-vacuum quantum fluctuations ( http://arxiv.org/abs/2205.08505v2 )

ライセンス: Link先を確認
Dipankar Barman, Subhajit Barman, Bibhas Ranjan Majhi(参考訳) 量子場からの絡み合いは、近年、平坦で異なる曲線の背景において、より厳密に研究されていることで知られる事実である。 一般的に理解されている定式化は、量子真空ゆらぎの影響により、2つの非相関なunruh-dewitt検出器が時間とともに絡み合う可能性を研究している。 本研究は,非真空背景変動による絡み合い収穫を実現するための詳細な定式化について述べる。 特に、この研究のために、単励起場状態と一対の慣性検出器をそれぞれ$(1+1)$と$(1+3)$次元で検討する。 本研究は, この状況下での真空変動に比べ, 絡み合い収穫が抑制されることを示す。 他の観測では、この背景にある非ゼロの個人検出器遷移確率を確認し、並列コムーブメント検出器の絡み合いを解消する。 収穫された絡み合いの特徴を考察し, 異なるシステムパラメータへの依存性について考察する。

Entanglement harvesting from the quantum field is a well-known fact that, in recent times, is being rigorously investigated further in flat and different curved backgrounds. The usually understood formulation studies the possibility of two uncorrelated Unruh-DeWitt detectors getting entangled over time due to the effects of quantum vacuum fluctuations. Our current work presents a thorough formulation to realize the entanglement harvesting from non-vacuum background fluctuations. In particular, we further consider single excitation field states and a pair of inertial detectors, respectively, in $(1+1)$ and $(1+3)$ dimensions for this investigation. Our main observation asserts that entanglement harvesting is suppressed compared to the vacuum fluctuations in this situation. Our other observations confirm a non-zero individual detector transition probability in this background and vanishing entanglement harvesting for parallel co-moving detectors. We look into the characteristics of the harvested entanglement and discuss its dependence on different system parameters.
翻訳日:2023-02-12 21:07:43 公開日:2022-07-27
# 微分力学シミュレーションと最大エントロピー損失関数を用いた慣性融合プラズマ物理学の教師なし発見

Unsupervised Discovery of Inertial-Fusion Plasma Physics using Differentiable Kinetic Simulations and a Maximum Entropy Loss Function ( http://arxiv.org/abs/2206.01637v2 )

ライセンス: Link先を確認
Archis S. Joglekar, Alexander G. R. Thomas(参考訳) プラズマは集合モードと粒子-波相互作用をサポートし、慣性核融合エネルギー応用における複雑な挙動をもたらす。 プラズマは時々荷電流体としてモデル化されるが、プラズマ力学の完全複雑性を記述する高次元運動量配置位相空間における非線形効果の研究には、運動論的記述が有用である。 プラズマ運動学3次元偏微分方程式の微分可能解法を作成し, 領域固有の目的関数を導入する。 このフレームワークを用いてニューラルネットワークの勾配に基づく最適化を行い、初期条件のセットを与えられた微分可能解法に強制関数パラメータを提供する。 これを慣性核融合関連構成に適用し,これまで未発見であった新しい物理効果を最適化プロセスが活用していることを見いだす。

Plasma supports collective modes and particle-wave interactions that leads to complex behavior in inertial fusion energy applications. While plasma can sometimes be modeled as a charged fluid, a kinetic description is useful towards the study of nonlinear effects in the higher dimensional momentum-position phase-space that describes the full complexity of plasma dynamics. We create a differentiable solver for the plasma kinetics 3D partial-differential-equation and introduce a domain-specific objective function. Using this framework, we perform gradient-based optimization of neural networks that provide forcing function parameters to the differentiable solver given a set of initial conditions. We apply this to an inertial-fusion relevant configuration and find that the optimization process exploits a novel physical effect that has previously remained undiscovered.
翻訳日:2023-02-10 20:17:21 公開日:2022-07-27
# 対数深さ量子変換器:ワンホット符号化からバイナリ符号化へ

A Logarithm Depth Quantum Converter: From One-hot Encoding to Binary Encoding ( http://arxiv.org/abs/2206.11166v2 )

ライセンス: Link先を確認
Bingren Chen, Hanqing Wu, Haomu Yuan, Lei Wu, Xin Li(参考訳) 量子コンピューティングでは、正規化されたベクトル $\{ \alpha_i \}$ を符号化する方法が2つある。 1つのホットエンコーディングとバイナリエンコーディングです。 1つのホットエンコーディング状態は$\left | \psi_o^{(n)} \right \rangle=\sum_{i=0}^{n-1} \alpha_i \left |0 \right \rangle^{\otimes n-i-1} \left |1 \right \rangle \left |0 \right \rangle ^{\otimes i} と表記され、バイナリエンコーディング状態は$\left | \psi_b^{(n)} \right \rangle=\sum_{i=0}^{n-1} \alpha_i \left |b_i \right \rangle$と表記される。 本稿では,1ホットエンコーディング状態と2値エンコーディング状態の変換を遷移状態とし,edick状態は$\left | \psi_e^{(n)} \right \rangle=\sum_{i=0}^{n-1} \alpha_i \left |0 \right \rangle^{\otimes n-i-1} \left |1 \right \rangle ^{\otimes i}$と定義する手法を提案する。 初期の研究と比較すると、我々の回路は指数的スピードアップを$O(\log^2N)$ depth と $O(N)$ size で達成している。

Within the quantum computing, there are two ways to encode a normalized vector $\{ \alpha_i \}$. They are one-hot encoding and binary coding. The one-hot encoding state is denoted as $\left | \psi_O^{(N)} \right \rangle=\sum_{i=0}^{N-1} \alpha_i \left |0 \right \rangle^{\otimes N-i-1} \left |1 \right \rangle \left |0 \right \rangle ^{\otimes i}$ and the binary encoding state is denoted as $\left | \psi_B^{(N)} \right \rangle=\sum_{i=0}^{N-1} \alpha_i \left |b_i \right \rangle$, where $b_i$ is interpreted in binary of $i$ as the tensor product sequence of qubit states. In this paper, we present a method converting between the one-hot encoding state and the binary encoding state by taking the Edick state as the transition state, where the Edick state is defined as $\left | \psi_E^{(N)} \right \rangle=\sum_{i=0}^{N-1} \alpha_i \left |0 \right \rangle^{\otimes N-i-1} \left |1 \right \rangle ^{\otimes i}$. Compared with the early work, our circuit achieves the exponential speedup with $O(\log^2 N)$ depth and $O(N)$ size.
翻訳日:2023-02-08 09:47:22 公開日:2022-07-27
# 格子を必要としない:時間依存schr\"odinger方程式に対する適応完全フレキシブルガウシアン

No need for a grid: Adaptive fully-flexible gaussians for the time-dependent Schr\"odinger equation ( http://arxiv.org/abs/2207.00271v2 )

ライセンス: Link先を確認
Simen Kvaal, Caroline Lasser, Thomas Bondo Pedersen, Ludwik Adamowicz(参考訳) 非線形パラメータが変化するような複素ガウス函数の線型結合は、1つの空間次元における時間依存シュル=オディンガー方程式の解の非常に柔軟な表現であることが示されている。 ディラック-フランケル変分原理を用いたそのような波動関数の伝播は明らかに困難であり、代わりに垂直線法やローテ法に基づくスキームを提案する。 極端レーザーパルスを受ける原子を模倣する簡易な試験系に適用し,複雑なイオン化ダイナミクスを発生させる。 このスキームは、このモデルで非常にうまく機能することが示されている。 伝播法はガウス積分と期待値を用いて完全に定式化することができるので、一握りのガウス関数のみを用いた大きな格子の必要性をなくすことができるが、精度は同じである。 これにより、ボルン-オッペンハイマー近似を超えた多原子分子に対する時間依存シュリンガー方程式の正確かつ安価な解法が導かれる。

Linear combinations of complex gaussian functions, where the nonlinear parameters are allowed to vary, are shown to be an extremely flexible representation for the solution of the time-dependent Schr\"odinger equation in one spatial dimension. Propagation of such wavefunctions using the Dirac--Frenkel variational principle is notoriously hard, and we present instead a scheme based on the method of vertical lines, or Rothe's method. We apply the method to a simple test system mimicking an atom subject to an extreme laser pulse, producing complicated ionization dynamics. The scheme is shown to perform very well on this model. Since the propagation method can be formulated entirely in terms of gaussian integrals and expectation values, we eliminate the need for large grids using only a handful of gaussian functions but with the same accuracy. This paves the way for accurate and affordable solutions of the time-dependent Schr\"odinger equation for multi-atom molecules beyond the Born--Oppenheimer approximation.
翻訳日:2023-02-07 02:08:49 公開日:2022-07-27
# 量子平面ロータの外部電位による熱化

Thermalization of the Quantum Planar Rotor with external potential ( http://arxiv.org/abs/2207.04810v2 )

ライセンス: Link先を確認
Birthe Schrinski, Yoon Jun Chan, Bj\"orn Schrinski(参考訳) 分離,拡散,摩擦,および外部電位の存在下で平面ロータを熱分解する方法について検討した。 周期位相空間における補助ウィグナー関数の観点から量子マスター方程式を表現することは、熱分解過程を簡潔に表現するだけでなく、開量子力学とその近似解析記述の効率的な数値評価を可能にする。 特に,高温状態ではギブス状態に近い定常状態の存在を解析的,数値的に検証する。 また,平面回転子時間発展の固有古典的限界を導出し,実例的な数値実験を行い,結果の検証を行った。

We study decoherence, diffusion, friction, and how they thermalize a planar rotor in the presence of an external potential. Representing the quantum master equation in terms of auxiliary Wigner functions in periodic phase space not only illustrates the thermalization process in a concise way, but also allows for an efficient numerical evaluation of the open quantum dynamics and its approximate analytical description. In particular, we analytically and numerically verify the existence of a steady state that, in the high-temperature regime, closely approximates a Gibbs state. We also derive the proper classical limit of the planar rotor time evolution and present exemplary numerical studies to verify our results.
翻訳日:2023-02-05 12:32:27 公開日:2022-07-27
# 多体ライドバーグ原子系の臨界点における高次計測

Enhanced metrology at the critical point of a many-body Rydberg atomic system ( http://arxiv.org/abs/2207.11947v2 )

ライセンス: Link先を確認
Dong-Sheng Ding, Zong-Kai Liu, Bao-Sen Shi, Guang-Can Guo, Klaus M{\o}lmer, Charles S. Adams(参考訳) 相互作用する多体系のスペクトル特性は臨界特性を示し、精度気象学に潜在的に応用できる可能性がある。 本稿では,非平衡リドバーグ原子ガス中のマイクロ波(mw)電界の多体強化メトロロジーを示す。 臨界に近く、外部のMW電場に対するライドバーグ原子の高感度と多体増強との組み合わせは、光伝送に大きな変化をもたらす。 この行動は漁獲情報を用いて定量化する。 臨界点における連続光伝送では、フィッシャー情報は独立粒子系よりも3桁大きく、測定されたデータは49 nV/cm/$\textrm{Hz}^{1/2}$に相当する感度を提供する。 報告された結果は、精密計測における多体効果の適用に向けたマイルストーンである。

The spectral properties of an interacting many-body system may display critical character and have potential applications in precision metrology. Here, we demonstrate such many-body enhanced metrology for microwave (MW) electric fields in a non-equilibrium Rydberg atomic gas. Near criticality the high sensitivity of Rydberg atoms to external MW electric fields, combined with many-body enhancement induces significant changes in the optical transmission. We quantify this behavior using the Fisher information. For continuous optical transmission at the critical point, the Fisher information is three orders of magnitude larger than in independent particle systems, the measured data provides an equivalent sensitivity of 49 nV/cm/$\textrm{Hz}^{1/2}$. The reported results constitute a milestone towards the application of many-body effects in precision metrology.
翻訳日:2023-02-03 19:52:04 公開日:2022-07-27
# 同一粒子の量子統計

Quantum Statistics of Identical Particles ( http://arxiv.org/abs/2207.13231v1 )

ライセンス: Link先を確認
J. C. Garrison(参考訳) 同一粒子の系は常にボースまたはフェルミの統計に従うという経験則は、非相対論的量子力学の公理にそれを加えることによって、他の統計的挙動が先行性から除外されるという理論に慣習的に課される。 より一般的なアプローチは、他の多粒子統計が同一粒子の不一致性と一致しているかどうかを問うことである。 この戦略は、パウリの排他原則の違反の可能性について議論する方法を提供し、状態の調整と置換群の下での不変性から生じる超選択規則に関するいくつかの興味深い問題を引き起こす。

The empirical rule that systems of identical particles always obey either Bose or Fermi statistics is customarily imposed on the theory by adding it to the axioms of nonrelativistic quantum mechanics, with the result that other statistical behaviors are excluded a priori. A more general approach is to ask what other many-particle statistics are consistent with the indistinguishability of identical particles. This strategy offers a way to discuss possible violations of the Pauli Exclusion Principle, and it leads to some interesting issues related to preparation of states and a superselection rule arising from invariance under the permutation group.
翻訳日:2023-02-03 08:00:43 公開日:2022-07-27
# 還元密度行列の凸幾何学を用いた量子相転移の量子シミュレーション

Quantum Simulation of Quantum Phase Transitions Using the Convex Geometry of Reduced Density Matrices ( http://arxiv.org/abs/2207.13225v1 )

ライセンス: Link先を確認
Samuel Warren, LeeAnn M. Sager-Smith and David A. Mazziotti(参考訳) 絶対零温度の異なる相間の多粒子量子系の遷移(量子相転移)は、粒子相関の正確な処理を必要とする。 本研究では,減密度行列の幾何学的構造を利用する量子相転移に対する一般量子計算手法を提案する。 量子相転移の典型的なアプローチは次数パラメータの不連続性を調べるが、相転移の起源(次数パラメータと対称性の破れ)は2粒子還元密度行列(2-rdms)の集合から幾何学的に理解することができる。 2-RDMの凸集合は、それぞれの位相とこれらの位相を接続する遷移を含む量子系の包括的マップを提供する。 2-RDMは、量子系が強い相関関係にあるとしても、非指数的なコストで量子コンピュータ上で計算できるため、量子相転移に対する量子計算アプローチに理想的に適している。 我々はIBM超伝導量子プロセッサ上でのLipkin-Meshkov-Glickスピンモデルに対する2-RDMの凸集合を計算する。 計算はデバイスノイズによる少数粒子モデルに限られるが、古典的に解ける1000粒子モデルと比較すると、有限粒子量子解が強い相関や対称性の破れを含む相転移の鍵となる特徴を捉えていることがわかる。

Transitions of many-particle quantum systems between distinct phases at absolute-zero temperature, known as quantum phase transitions, require an exacting treatment of particle correlations. In this work, we present a general quantum-computing approach to quantum phase transitions that exploits the geometric structure of reduced density matrices. While typical approaches to quantum phase transitions examine discontinuities in the order parameters, the origin of phase transitions -- their order parameters and symmetry breaking -- can be understood geometrically in terms of the set of two-particle reduced density matrices (2-RDMs). The convex set of 2-RDMs provides a comprehensive map of the quantum system including its distinct phases as well as the transitions connecting these phases. Because 2-RDMs can potentially be computed on quantum computers at non-exponential cost, even when the quantum system is strongly correlated, they are ideally suited for a quantum-computing approach to quantum phase transitions. We compute the convex set of 2-RDMs for a Lipkin-Meshkov-Glick spin model on IBM superconducting-qubit quantum processors. Even though computations are limited to few-particle models due to device noise, comparisons with a classically solvable 1000-particle model reveal that the finite-particle quantum solutions capture the key features of the phase transitions including the strong correlation and the symmetry breaking.
翻訳日:2023-02-03 08:00:31 公開日:2022-07-27
# Chopped Random Basis 最適制御によるトランスモン系における普遍ゲートセット実装のロバスト性

Robustness of a universal gate set implementation in transmon systems via Chopped Random Basis optimal control ( http://arxiv.org/abs/2207.13447v1 )

ライセンス: Link先を確認
Herv\`e Ats\`e Corti (1), Leonardo Banchi (2, 3), Alessandro Cidronali (4) ((1) Department of Information Engineering, University of Pisa (2) Department of Physics and Astronomy, University of Florence (3) INFN Sezione di Firenze (4) Department of Information Engineering, University of Florence)(参考訳) CNOT, Hadamard, phase と $\pi/8$ gates から構成される汎用2量子ゲートセットの実装について, 数値的に検討する。 このようなゲートを実装するための制御信号は、目標ゲート不忠実度が10^{-2}$のチョッペランダムバス最適制御技術を用いて得られる。 最適化の過程では、トランスモン量子ビットに影響を及ぼす重要な非理想性である非計算状態へのリークを考慮する。 また,トランスモン系の制御信号に影響を及ぼす2つの重要な非理想性であるガウス白色雑音とスペクトル歪の導入に対する最適制御解の検証とベンチマークを行った。

We numerically study the implementation of a universal two-qubit gate set, composed of CNOT, Hadamard, phase and $\pi/8$ gates, for transmon-based systems. The control signals to implement such gates are obtained using the Chopped Random Basis optimal control technique, with a target gate infidelity of $10^{-2}$. During the optimization processes we account for the leakage toward non-computational states, an important non-ideality affecting transmon qubits. We also test and benchmark the optimal control solutions against the introduction of Gaussian white noise and spectral distortion, two key non-idealities that affect the control signals in transmon systems.
翻訳日:2023-02-03 07:58:49 公開日:2022-07-27
# 2つのスピン-1系の結合状態のスクイーズ

Squeezing of a coupled state of two spin-1 systems ( http://arxiv.org/abs/2207.13439v1 )

ライセンス: Link先を確認
Akhilesh K. S.(参考訳) スピンスクイージングの性質は、usha deviらによって、2つのスピノールの結合状態についてより早く研究されてきた。 とJ)。 Phys a: 数学。 第36代5333代(2003年)。 本稿では,この研究を2つのスピン-1系の結合状態にまで拡張する。 ここでは、2つのスピン-1状態の直接積が、2つのスピノルの直接積と異なりスクイーズを示すことを示す。 2つのスピン-1系の非分離結合状態に対するスクイージングの性質を調べ、スクイージングの存在の原因となるパラメータを同定する。 また、外部の相互作用によってそれらを生成する方法も提供します。

The nature of spin squeezing has been studied earlier for a coupled state of two spinors by Usha Devi et. al. (J. Phys. A: Math. Gen. 36 5333 (2003)). In this paper, we extend this study to a coupled state of two spin-1 systems. Here, we show that the direct product of two spin-1 states exhibits squeezing unlike the direct product of two spinors. We investigate the nature of squeezing for non-separable coupled state of two spin-1 systems and identify the parameters which are responsible for the existence of squeezing. We also provide ways to generate them by external interactions.
翻訳日:2023-02-03 07:58:34 公開日:2022-07-27
# 純、コヒーレント、点滅のない単一光子放射を持つ表面量子ドット

Surface quantum dots with pure, coherent, and blinking-free single photon emission ( http://arxiv.org/abs/2207.13387v1 )

ライセンス: Link先を確認
Xin Cao, Jingzhong Yang, Pengji Li, Tom Fandrich, Eddy P. Rugeramigabo, Vlastimil K\v{r}\'apek, Chenxi Ma, Frederik Benthin, Robert Keil, Benedikt Brechtken, Rolf J. Haug, Michael Oestreich, Yiteng Zhang, Constantin Schmidt, Zhao An, Michael Zopf, Fei Ding(参考訳) 半導体ナノ構造の表面は、電子的および光学的性質に大きな影響を与える。 表面層の障害と欠陥は典型的には荷電担体輸送の劣化と放射的再結合のダイナミクスを引き起こす。 しかし、多くのスケーラブルなナノ光学応用では表面近傍は避けられない。 エピタキシャル成長した量子ドットは、高性能な単一光子放出の最適候補であり、量子技術に大きな可能性を示す。 しかし、これらのエミッタは半導体ホストに深く埋め込まれている場合のみ、優れた性質を示す。 今日まで、表面に近い量子ドットは弱い、広く、不安定な放出をもたらす。 ここでは半導体表面上で直接成長した量子ドットから光学特性の完全な復元を示す。 as-grownサンプルからの消光発光は、硫黄のパッシベーション後に明るく、超安定で、コヒーレントで、瞬きのない単一光子に変化する。 準共鳴励起下では、単一光子は98.8%の純度、77%の識別不能、ライン幅は4ドルの\mu$ev、99.69%の持続性を持つ。 発光は2年後にも安定であり、ナノ製造プロセスの対象となる。 これにより、表面優位の量子ドットの長いブロックが取り除かれ、量子通信やセンシングにおけるハイブリッドナノデバイスや応用への新たな可能性が明らかにされる。

The surface of semiconductor nanostructures has a major impact on their electronic and optical properties. Disorder and defects in the surface layer typically cause degradation of charge carrier transport and radiative recombination dynamics. However, surface vicinity is inevitable for many scalable nano-optical applications. Epitaxially grown quantum dots are the best candidate for high-performance single photon emission and show great potential for quantum technologies. Yet, these emitters only reveal their excellent properties if they are deeply embedded in a semiconductor host. Until today, quantum dots close to surfaces yield weak, broad, and unstable emissions. Here, we show the complete restoration of optical properties from quantum dots grown directly on a semiconductor surface. The vanishing luminescence from the as-grown sample turns into bright, ultra-stable, coherent and blinking-free single photon emission after sulphur passivation. Under quasi-resonant excitation, single photons are generated with 98.8% purity, 77% indistinguishability, linewidths down to 4 $\mu$eV and 99.69% persistency across 11 orders of magnitude in time. The emission is stable even after two years and when being subjected to nanomanufacturing processes. Some long-standing stumbling blocks for surface-dominated quantum dots are thereby removed, unveiling new possibilities for hybrid nano-devices and applications in quantum communication or sensing.
翻訳日:2023-02-03 07:58:24 公開日:2022-07-27
# 単一アシラと円形接続を用いた安定化型量子誤り訂正符号のクラスの実現

Realizing a class of stabilizer quantum error correction codes using a single ancilla and circular connectivity ( http://arxiv.org/abs/2207.13356v1 )

ライセンス: Link先を確認
A.V. Antipov, E.O. Kiktenko, A.K. Fedorov(参考訳) 本稿では, 近接ブロック型安定化器の量子誤り訂正符号のクラスを記述し, 単一アンシラと円形近接量子ビット接続を用いて, 資源効率の高い実装を可能であることを示す。 本稿では,3ビット,5ビット,9ビットの安定化符号スキームに対して,クラスからのコードに対するシンドローム測定回路の実装を提案する。 3ビットと5ビットの符号に対して提案されたスキームは、2ビットのCNS(CNOT-SWAP)ゲートのみを使用するという特性を持つ。 提案手法では, 繰り返し符号と5量子ビット符号に対して, 最小重みマッチング手法を用いて効率的な復号手法を開発した。 3ビットおよび5ビットのケースにおいて、記憶された論理状態の忠実度を改善することができるノイズレベルの解析を行う。 我々は,クラウドベースの量子プロセッサと状態ベクトルシミュレータを用いた5キュービット符号を用いた3キュービット符号の開発手法を実現することで,その結果を補完する。

We describe a class of "neighboring-blocks" stabilizer quantum error correction codes and demonstrate that such class of codes can be implemented in a resource-efficient manner using a single ancilla and circular near-neighbor qubit connectivity. We propose an implementation for syndrome-measurement circuits for codes from the class and illustrate its workings for cases of three-, five-, and nine-qubits stabilizer code schemes. For three- and five-qubit codes suggested scheme has the property that it uses only native two-qubit CNS (CNOT-SWAP) gates, which potentially reduces the amount of non-correctable errors due to the shorter gate time. We developed efficient decoding procedures for repetition codes and the five-qubit code using a minimum weight-perfect matching approach to account for the specific order of measurements in our scheme. The analysis of noise levels for which the scheme could show improvements in the fidelity of a stored logical state in the three- and five-qubit cases is provided. We complement our results by realizing the developed scheme for a three-qubit code using a cloud-based quantum processor and the five-qubit code using the state-vector simulator.
翻訳日:2023-02-03 07:58:04 公開日:2022-07-27
# 量子ステアリング - 実践的課題と展望

Quantum Steering: Practical Challenges and Perspectives ( http://arxiv.org/abs/2207.13342v1 )

ライセンス: Link先を確認
Yu Xiang, Shuming Cheng, Qihuang Gong, Zbigniew Ficek, Qiongyi He(参考訳) アインシュタイン=ローゼン=ポドルスキー(Einstein-Rosen-Podolsky、EPR)のステアリングまたは量子ステアリング(quantum steering)は、ある絡み合った状態を共有すると、一方の当事者が他方の状態をリモートで変更できる「スポーキー・アクション・アット・ア・ディスタンス(spooky-action-at-a-distance)」を記述する。 一般に、操舵者の装置を信頼せずに絡み合いを検証するタスクとして運用的解釈を認めており、ベル非局所性と絡み合いの間の中間に位置する。 非対称的な性質とともに、量子ステアリングは過去数十年間、理論的および実験的側面からかなりの関心を集めてきた。 本稿では,最近の進歩に着目したeprステアリングの概要,現在の課題,機会について議論し,今後の方向性について提案する。 我々は、より高次元のステアリングを明らかにするために、無質量・微視的なシステムを超えて研究をより大規模なレベルへと誘導し、複数のパーティからなるステアリングネットワークを構築する未来を考察する。

Einstein-Rosen-Podolsky (EPR) steering or quantum steering describes the "spooky-action-at-a-distance" that one party is able to remotely alter the states of the other if they share a certain entangled state. Generally, it admits an operational interpretation as the task of verifying entanglement without trust in the steering party's devices, making it lying intermediate between Bell nonlocality and entanglement. Together with the asymmetrical nature, quantum steering has attracted a considerable interest from theoretical and experimental sides over past decades. In this Perspective, we present a brief overview of the EPR steering with emphasis on recent progress, discuss current challenges, opportunities and propose various future directions. We look to the future which directs research to a larger-scale level beyond massless and microscopic systems to reveal steering of higher dimensionality, and to build up steered networks composed of multiple parties.
翻訳日:2023-02-03 07:57:13 公開日:2022-07-27
# 量子ラビ模型の超ラジアント位相の特徴付け

Characterizing Superradiant Phase of the Quantum Rabi Model ( http://arxiv.org/abs/2207.13285v1 )

ライセンス: Link先を確認
Yun-Tong Yang and Hong-Gang Luo(参考訳) 近年,量子ラビモデル(qrm)で理論上初めて予測された超ラジアント相転移が実験的に検証されている。 このことは、QRMの光と物質の相互作用を記述する基本的な役割から、相転移の過程と超ラジカル相の性質の研究への関心をさらに刺激し、さらに重要なことに、QRMは単純さにもかかわらずさらなる探査を継続するリッチな物理学を含んでいる。 本稿では,qrmの基底状態と励起状態の波動関数を,弱結合から深結合までのフルパラメータで精度良く得るための2次対角化スキームを提案する。 したがって、相転移がどのように発生し、光子が超ラジアント相のフォック空間にどのように蓄積するかを見ることができる。 我々は、ランダム行列理論で分布の概念を借りて光子集団を特徴づけ、位相遷移が生じたときに光子集団がポアソニアン様分布に従うことを発見し、さらに結合強度の増加としてガウスユニタリアンアンサンブルの統計を示す。 さらに興味深いことに、励起状態の光子はガウス直交アンサンブルの統計のように振る舞う。 我々の結果は超ラジカル相転移の理解を深めるだけでなく、QRMの超放射相の性質と関連するモデルに関する洞察を与える。

Recently, a superradiant phase transition first predicted theoretically in the quantum Rabi model (QRM) has been verified experimentally. This further stimulates the interest in the study of the process of phase transition and the nature of the superradiant phase since the fundamental role of the QRM in describing the interaction of light and matter, and more importantly, the QRM contains rich physics deserving further exploration despite its simplicity. Here we propose a scheme consisting of two successive diagonalization to accurately obtain the ground-state and excited states wavefunctions of the QRM in full parameter regime ranging from weak to deep-strong couplings. Thus one is able to see how the phase transition happens and how the photons populate in Fock space of the superradiant phase. We characterize the photon populations by borrowing the distribution concept in random matrix theory and find that the photon population follows a Poissonian-like distribution once the phase transition happens and further exhibits the statistics of Gaussian unitary ensemble as increasing coupling strength. More interestingly, the photons in the excited states behave even like the statistics of Gaussian orthogonal ensemble. Our results not only deepen understanding on the superradiant phase transition but also provide an insight on the nature of the superradiant phase of the QRM and related models.
翻訳日:2023-02-03 07:56:52 公開日:2022-07-27
# 損失チャネル上の絡み合いの蒸留技術の比較

Comparison of Techniques for Distillation of Entanglement over a Lossy Channel ( http://arxiv.org/abs/2207.13284v1 )

ライセンス: Link先を確認
Caroline Mauron, Timothy C. Ralph(参考訳) 論文で提案されている3つの量子通信プロトコルを解析し,それらがいかに単線絡み合いを良好に伝達しているかを比較した。 我々は、出力状態の純度と成功確率に特定の指標を使用し、不完全な光子源と検出成分を含む。 その結果,aliceとbobの中間に位置するリレー点を持つ分散ノイズレス線形増幅(nla)プロトコルは,距離が非常に小さく,光子源成分が非常に良好でない限り,ほとんどの条件下でnlaと最近提案された浄化プロトコルを上回っていることがわかった。

We analyze three quantum communication protocols that have been proposed in the literature, and compare how well they communicate single-rail entanglement. We use specific metrics for output state purity and probability of success and include the presence of imperfect photon source and detection components. We find that a distributed noiseless linear amplification (NLA) protocol with a relay point placed half-way between Alice and Bob outperforms NLA at Bob's end and a recently proposed purification protocol under most conditions, unless the distance is very small or the photon source component is very good.
翻訳日:2023-02-03 07:56:30 公開日:2022-07-27
# 量子コンピューティングによる光線分布振幅の探索

Exploring Light-Cone Distribution Amplitudes from Quantum Computing ( http://arxiv.org/abs/2207.13258v1 )

ライセンス: Link先を確認
Tianyin Li, Xingyu Guo, Wai Kin Lai, Xiaohui Liu, Enke Wang, Hongxi Xing, Dan-Bo Zhang, Shi-Liang Zhu(参考訳) 光円錐分布振幅(LCDA)は排他的高エネルギーQCD過程の理論予測に必須な非摂動量である。 本稿では,従来のハードウェア上での1+1次元のNambu-Jona-Lasinio(NJL)モデルにおけるLCDAのシミュレーションに,最近提案された量子アルゴリズムを用いてLCDAを計算する可能性を示す。 量子シミュレーションと正確な対角化の合意は、提案された量子アルゴリズムを正当化する。 その結果,NJLモデルのLCDAはQCDのLCDAと共通する特徴を示すことがわかった。 さらに,wilson線とその進化を効率的に評価するための戦略について考察する。

Light-cone distribution amplitudes (LCDAs) are essential nonperturbative quantities for theoretical predictions of exclusive high-energy QCD processes. We demonstrate the prospect of calculating LCDAs on a quantum computer by applying a recently proposed quantum algorithm, with staggered fermions, to the simulation of the LCDA in the 1+1 dimensional Nambu-Jona-Lasinio (NJL) model on classical hardware. The agreement between the quantum simulation and the exact diagonalization justifies the proposed quantum algorithm. We find that the resulting LCDA in the NJL model exhibits features shared with the LCDAs in QCD. In addition, we discuss the possible strategies to efficiently evaluate the Wilson line and its evolution.
翻訳日:2023-02-03 07:56:15 公開日:2022-07-27
# リモートダブル量子ドットスピン量子ビットにおける共鳴シングルショットCNOT

Resonant single-shot CNOT in remote double quantum dot spin qubits ( http://arxiv.org/abs/2207.13588v1 )

ライセンス: Link先を確認
Stephen R. McMillan, Guido Burkard(参考訳) スケーラブル量子プロセッサの実現に向けた重要な要素は、ノード間の非局所結合である。 近接する隣り合う相互作用を超えて接続をスケールするには、しばしば「量子バス」と呼ばれる仲介相互作用の実装が必要である。 キャビティ光子は超伝導量子ビットコミュニティによって長い間バスとして用いられてきたが、二重量子ドットアーキテクチャにおけるスピンベースの量子ビットが強い結合状態に達し、実または仮想光子の交換によってスピン-スピン相互作用を示すことが最近証明された。 2量子ビットゲート操作は、キャビティ損失があまり顕著な役割を果たす分散状態において予測される。 本研究では、超伝導共振器の共通モードに分散結合した2つの非局所単一スピン量子ビット間のcnot演算の文脈において、交流駆動量子ゲートの枠組みを提案する。 既存の技術では、ゲートタイムが150 ns近く、フィディティが90%を超えると期待しています。

A critical element towards the realization of scalable quantum processors is non-local coupling between nodes. Scaling connectivity beyond nearest-neighbor interactions requires the implementation of a mediating interaction often termed a 'quantum bus'. Cavity photons have long been used as a bus by the superconducting qubit community, but it has only recently been demonstrated that spin-based qubits in double quantum dot architectures can reach the strong coupling regime and exhibit spin-spin interactions via the exchange of real or virtual photons. Two-qubit gate operations are predicted in the dispersive regime where cavity loss plays a less prominent role. In this work we propose a framework for ac-driven quantum gates, in the context of a CNOT operation, between two non-local single-spin qubits dispersively coupled to a common mode of a superconducting resonator. We expect gate times near 150 ns and fidelities above 90% with existing technology.
翻訳日:2023-02-03 07:48:40 公開日:2022-07-27
# 量子コンピュータを用いたソルキン試験とペレス試験の誤差解析

Error-analysis for the Sorkin and Peres tests performed on a quantum computer ( http://arxiv.org/abs/2207.13585v1 )

ライセンス: Link先を確認
Simanraj Sadana, Lorenzo Maccone, Urbasi Sinha(参考訳) 我々は量子コンピュータを用いて量子力学の基礎を量子アルゴリズムを通してテストし、理論の仮定に基づいていくつかの実験実験を実行する。 これらのアルゴリズムは、完全なハードウェアの前提の下での物理理論のテストや、量子理論が正しいという前提の下でのハードウェアのテストとして使用できる。 本稿では,量子力学の仮定に従う量子コンピュータの有効性をテストするためのアルゴリズムについて述べる。 異なる種類の誤差が投射物の実験結果に及ぼす影響について検討した。 この誤り分析の顕著な特徴は、系統的誤りが量子コンピュータの量子性にどのように影響するかを強調するため、量子力学の基本に深く根ざしていることである。

We use quantum computers to test the foundations of quantum mechanics through quantum algorithms that implement some of the experimental tests as the basis of the theory's postulates. These algorithms can be used as a test of the physical theory under the premise of a perfect hardware or as a test of the hardware under the premise that quantum theory is correct. In this paper, we show how the algorithms can be used to test the efficacy of a quantum computer in obeying the postulates of quantum mechanics. We study the effect of different types of errors on the results of experimental tests of the postulates. A salient feature of this error analysis is that it is deeply rooted in the fundamentals of quantum mechanics as it highlights how systematic errors affect the quantumness of the quantum computer.
翻訳日:2023-02-03 07:48:24 公開日:2022-07-27
# Harrow-Hassidim-Lloydアルゴリズムのディジタルアナログ共設計

Digital-analog co-design of the Harrow-Hassidim-Lloyd algorithm ( http://arxiv.org/abs/2207.13528v1 )

ライセンス: Link先を確認
Ana Martin, Ruben Ibarrondo, and Mikel Sanz(参考訳) harrow-hassidim-lloyd量子アルゴリズムは、方程式 $a\vec{x} = \vec{b}$ の線形系を解くために提案され、様々な応用の中核である。 しかし、問題行列の逆行列である$A$を補助量子ビットにマッピングするサブルーチンに対する明示的な量子回路は存在しない。 これにより、現在の量子デバイスの実装に挑戦し、ハイブリッドアプローチを使わざるを得ません。 本稿では,このサブルーチンを実装するための体系的な手法を提案する。これは行列 $a$ の他の関数$f(a)$ に適用でき,アルゴリズムの深さを減少させる共設計の量子プロセッサを提案し,そのディジタルアナログ実装を紹介する。 提案の深さは$\epsilon$を$\mathcal{o}(\epsilon^{-1})$という精度でスケールする。 harrow-hassidim-lloydアルゴリズムの共設計は"kite-like"アーキテクチャにつながり、必要なスワップゲートの数を減らすことができる。 最後に、共設計の量子プロセッサアーキテクチャとデジタルアナログ実装を組み合わせることで、アルゴリズムの実験的実現時のノイズ源の低減に寄与する。

The Harrow-Hassidim-Lloyd quantum algorithm was proposed to solve linear systems of equations $A\vec{x} = \vec{b}$ and it is the core of various applications. However, there is not an explicit quantum circuit for the subroutine which maps the inverse of the problem matrix $A$ into an ancillary qubit. This makes challenging the implementation in current quantum devices, forcing us to use hybrid approaches. Here, we propose a systematic manner to implement this subroutine, which can be adapted to other functions $f(A)$ of the matrix $A$, we present a co-designed quantum processor which reduces the depth of the algorithm, and we introduce its digital-analog implementation. The depth of our proposal scales with the precision $\epsilon$ as $\mathcal{O}(\epsilon^{-1})$, which is bounded by the number of samples allowed for a certain experiment. The co-design of the Harrow-Hassidim-Lloyd algorithm leads to a "kite-like" architecture, which allows us to reduce the number of required SWAP gates. Finally, merging a co-design quantum processor architecture with a digital-analog implementation contributes to the reduction of noise sources during the experimental realization of the algorithm.
翻訳日:2023-02-03 07:47:17 公開日:2022-07-27
# 量子多体傷による絡み合い増強メロロジー

Entanglement enhanced metrology with quantum many-body scars ( http://arxiv.org/abs/2207.13521v1 )

ライセンス: Link先を確認
Shane Dooley, Silvia Pappalardi, John Goold(参考訳) エンタングルメントは量子エンハンス・メトロロジーの重要な資源であるが、全てのエンタングルメントが有用ではない。 例えば多体熱化の過程において、二成分の絡み合いは急速に成長し、自然に体積則に飽和する。 この種の絡み合い生成は自然界では普遍的であるが、ほとんどの量子技術では知られていない。 一方, 真のマルチパート・エンタングルメントの生成, 安定化, 利用は, メタロジカル・アプリケーションにははるかに好まれる。 近年、量子多体傷は広範囲に多成分の絡み合いを持つことが示されている。 しかし、この構造の実際の用途へのアクセシビリティは、かなり不明確である。 本研究では,量子多体スカーを含むシステムを用いて安定な多成分絡み合いを動的に生成する方法を示し,この構造を標準量子限界を超える精度で位相推定に利用する方法について述べる。 これの鍵となるのは、ハミルトニアンを物理的に動機づけた修正であり、スカー部分空間の力学を通して様々な多部交絡状態を生成する。

Although entanglement is a key resource for quantum-enhanced metrology, not all entanglement is useful. For example in the process of many-body thermalisation, bipartite entanglement grows rapidly, naturally saturating to a volume law. This type of entanglement generation is ubiquitous in nature but has no known application in most quantum technologies. The generation, stabilisation and exploitation of genuine multipartite entanglement, on the other hand, is far more elusive yet highly desirable for metrological applications. Recently it has been shown that quantum many-body scars can have extensive multipartite entanglement. However the accessibility of this structure for real application has been so far unclear. In this work, we show how systems containing quantum many-body scars can be used to dynamically generate stable multipartite entanglement, and describe how to exploit this structure for phase estimation with a precision that beats the standard quantum limit. Key to this is a physically motivated modification of a Hamiltonian that generates a variety of multipartite entangled states through the dynamics in the scar subspace.
翻訳日:2023-02-03 07:46:52 公開日:2022-07-27
# 遅延工学的周期ポテンシャルによる波動操作

Wave manipulation via delay-engineered periodic potentials ( http://arxiv.org/abs/2207.13474v1 )

ライセンス: Link先を確認
Alessandro Alberucci and Chandroth P. Jisha and Monika Monika and Ulf Peschel and Stefan Nolte(参考訳) 非均質ゲージ場による波の半古典的横トラッピングについて考察する。 提案手法では, 時間周期摂動を経時的に変化させ, 付与された遅延は横方向に依存する。 カピツァ効果により、遅延の逆微分の平方に比例する実効ポテンシャルが生じることを示す。 より物理的に、遅延は波に作用する横方向に変化する周期的な力を誘導し、運動エネルギーの局所的な変調による位相遅延を与える。 以上の結果は非常に汎用的であり、寒冷原子から光学まで、いくつかの分野に応用できる:したがって、ファイバーループに基づく光集合を用いて実験的な原理証明を提供する。

We discuss the semi-classical transverse trapping of waves by means of an inhomogeneous gauge field. In the proposed scheme a temporally-periodic perturbation is shifted in time, the imparted delay being dependent on the transverse direction. We show that, due to the Kapitza effect, an effective potential proportional to the square of the transverse derivative of the delay arises. On a more physical ground, the delay induces a transversely-varying periodic force acting on the wave, in turn providing a phase delay owing to the local modulation of the kinetic energy. Our results are quite generic and can find application in several fields, ranging from cold atoms to optics: accordingly, an experimental proof-of-principle is provided using an optical set-up based upon fiber loops.
翻訳日:2023-02-03 07:46:36 公開日:2022-07-27
# 雑音量子力学における時間-エネルギー不確実性関係

Time-energy uncertainty relation for noisy quantum metrology ( http://arxiv.org/abs/2207.13707v1 )

ライセンス: Link先を確認
Philippe Faist, Mischa P. Woods, Victor V. Albert, Joseph M. Renes, Jens Eisert, John Preskill(参考訳) 弱い力の検出と時間の測定は、量子計測の科学と技術への多くの応用の2つである。 純粋な状態において初期化され、その進化がハミルトニアンの$h$によってゴバーリングされる量子系を考える。 本研究では,ノイズが量子時計の精度を低下させる量と,環境に漏れるクロックのエネルギーに関する情報量とを関連づける基本的なトレードオフについて検討する。 具体的には、アリスが最初の純粋なクロック状態を準備し、正確には分かっていない時間t$でクロックを進化させ、それからノイズの多いチャンネルを介してbobにクロックを送信する理想的なシナリオを考える。 環境(Eve)は、失われた情報を受信する。 我々は、Bobの量子フィッシャー情報(QFI)の約$t$の損失が、補完エネルギーパラメータに関するEveのQFIの利得と等しいことを証明した。 また、Bob と Eve が2つの非可換観測値に関連するパラメータの値を見積もる場合に適用される、より一般的なトレードオフを証明します。 我々は、ノイズの影響を受けないクロックの精度に必要な十分な条件を導出する。 これらは Knill-Laflamme の誤り訂正条件のサブセットであり、これらの条件を満たす状態はメートル法符号を形成すると言われている。 我々は、安定化形式において、メトロロジー符号を構築するためのスキームを提供する。 同様の距離で量子誤り訂正符号として書けないメロジカル符号が存在し、ハミルトニアンが論理演算子として機能し、ノイズチャネルの適用により感度を失うことのない状態を構成するための新しいスキームを提供する可能性がある。 本研究は,消去や振幅減衰雑音を受ける多体状態を用いたセンシングへの応用について検討する。

Detection of weak forces and precise measurement of time are two of the many applications of quantum metrology to science and technology. We consider a quantum system initialized in a pure state and whose evolution is goverened by a Hamiltonian $H$; a measurement can later estimate the time $t$ for which the system has evolved. In this work, we introduce and study a fundamental trade-off which relates the amount by which noise reduces the accuracy of a quantum clock to the amount of information about the energy of the clock that leaks to the environment. Specifically, we consider an idealized scenario in which Alice prepares an initial pure state of the clock, allows the clock to evolve for a time $t$ that is not precisely known, and then transmits the clock through a noisy channel to Bob. The environment (Eve) receives any information that is lost. We prove that Bob's loss of quantum Fisher information (QFI) about $t$ is equal to Eve's gain of QFI about a complementary energy parameter. We also prove a more general trade-off that applies when Bob and Eve wish to estimate the values of parameters associated with two non-commuting observables. We derive the necessary and sufficient conditions for the accuracy of the clock to be unaffected by the noise. These are a subset of the Knill-Laflamme error-correction conditions; states satisfying these conditions are said to form a metrological code. We provide a scheme to construct metrological codes in the stabilizer formalism. We show that there are metrological codes that cannot be written as a quantum error-correcting code with similar distance in which the Hamiltonian acts as a logical operator, potentially offering new schemes for constructing states that do not lose any sensitivity upon application of a noisy channel. We discuss applications of our results to sensing using a many-body state subject to erasure or amplitude-damping noise.
翻訳日:2023-02-03 07:40:42 公開日:2022-07-27
# 量子周波数変換によるイオン量子ビットと780nm光子との絡み合い

Entanglement between a trapped ion qubit and a 780-nm photon via quantum frequency conversion ( http://arxiv.org/abs/2207.13680v1 )

ライセンス: Link先を確認
John Hannegan, James D. Siverns and Qudsia Quraishi(参考訳) 将来の量子ネットワークは、物質量子ビットから自然に放出されない光子周波数で物質-光子絡み合いを発生させる能力を必要とする。 これにより、これらの光子は、多重化、ルーティング、ストレージといったタスクに有用な他のツールや量子技術と結合できるが、マターキュービットソースとは異なる波長で動作すると同時に、ネットワーク損失を低減できるハイブリッドネットワークアーキテクチャが実現される。 ここでは、閉じ込められたイオンと780nmの光子との絡み合いを、中性Rbベースの量子ネットワークデバイスと相互作用できる波長で示す。 単一のバリウムイオンは、493 nmの光子を発生させ、その光子はエンタングルメントを維持しながら780 nmに変換される。 我々は493nmと780nmの光子に対して、それぞれ$\geq$ 0.93(2)と$\geq$ 0.84(2)のイオン光子絡みを発生させ、検出器の信号ノイズの低減から生じるフィダリティ降下を493nmと比較した。

Future quantum networks will require the ability to produce matter-photon entanglement at photon frequencies not naturally emitted from the matter qubit. This allows for a hybrid network architecture, where these photons can couple to other tools and quantum technologies useful for tasks such as multiplexing, routing, and storage, but which operate at wavelengths different from that of the matter qubit source, while also reducing network losses. Here, we demonstrate entanglement between a trapped ion and a 780 nm photon, a wavelength which can interact with neutral-Rb-based quantum networking devices. A single barium ion is used to produce 493 nm photons, entangled with the ion, which are then frequency converted to 780 nm while preserving the entanglement. We generate ion-photon entanglement with fidelities $\geq$ 0.93(2) and $\geq$ 0.84(2) for 493 nm and 780 nm photons respectively with the fidelity drop arising predominantly from a reduction in the signal-noise of our detectors at 780 nm compared with at 493 nm.
翻訳日:2023-02-03 07:39:59 公開日:2022-07-27
# イオンを閉じ込めたボソニック系のプログラム可能な量子シミュレーション

Programmable quantum simulations of bosonic systems with trapped ions ( http://arxiv.org/abs/2207.13653v1 )

ライセンス: Link先を確認
Or Katz, Christopher Monroe(参考訳) 閉じ込められた原子イオン結晶はスピン系の量子シミュレーションの主要なプラットフォームであり、結晶中のフォノンの励起によってプログラム可能かつ長距離のスピンスピン-スピン相互作用が促進される。 本稿では,閉じ込めイオン結晶中のフォノンを用いたボソニック系の量子シミュレーションのための相補的アプローチについて述べる。 このスキームはボソニックカップリングの高密度グラフ上の高い可視性を備えており、ボソンサンプリングや長距離ボソニックおよびスピンボソンハミルトニアンのシミュレーションのようなハード問題に適している。

Trapped atomic ion crystals are a leading platform for quantum simulations of spin systems, with programmable and long-range spin-spin interactions mediated by excitations of phonons in the crystal. We describe a complementary approach for quantum simulations of bosonic systems using phonons in trapped-ion crystals, here mediated by excitations of the trapped ion spins. The scheme features a high degree of programability over a dense graph of bosonic couplings and is suitable for hard problems such as boson sampling and simulations of long range bosonic and spin-boson Hamiltonians.
翻訳日:2023-02-03 07:39:34 公開日:2022-07-27
# isingソルバを用いた混合双対最適化のための共負計画法

Copositive programming for mixed-binary quadratic optimization via Ising solvers ( http://arxiv.org/abs/2207.13630v1 )

ライセンス: Link先を確認
Robin Brown, David E. Bernal Neira, Davide Venturelli, Marco Pavone(参考訳) 近年、量子/量子にインスパイアされた技術は、イジングスピンハミルトニアンの基底状態のおよその探索が可能になった。 このような技術を活用して難しい最適化問題の解決を加速するという約束は、直接転写から既存の最適化アルゴリズムに根ざしたハイブリッド量子古典的アプローチまで、ソリューションプロセスの一部としてIsing問題を統合する方法の探求への関心を高めている。 基礎となるイジングソルバのヒューリスティックでブラックボックスな性質のため、そのようなアプローチの多くは最適化の保証が限られている。 一部のハイブリッドアルゴリズムはグローバル・オプティマに収束するかもしれないが、彼らの基礎となる古典的アルゴリズムは概して徹底的な探索に依存しているため、そのようなアルゴリズム的足場がイジング・ソルバが提供するスピードアップを活用できるかどうかは不明である。 本稿では,ブラックボックスとヒューリスティックイジングの解法を用いて,混合二項二次プログラム(MBQP)を大域的最適に解くための枠組みを提案する。 MBQPの凸共正再構成の正確性を示すとともに,ハイブリッド量子古典的切削平面アルゴリズムを用いて解くことを提案する。 このハイブリッドフレームワークの古典的な部分は多項式時間であることが保証されており、NPハード問題に適用すると、解の複雑さはイジング解法によって処理されるサブルーチンに移る。

Recent years have seen significant advances in quantum/quantum-inspired technologies capable of approximately searching for the ground state of Ising spin Hamiltonians. The promise of leveraging such technologies to accelerate the solution of difficult optimization problems has spurred an increased interest in exploring methods to integrate Ising problems as part of their solution process, with existing approaches ranging from direct transcription to hybrid quantum-classical approaches rooted in existing optimization algorithms. Due to the heuristic and black-box nature of the underlying Ising solvers, many such approaches have limited optimality guarantees. While some hybrid algorithms may converge to global optima, their underlying classical algorithms typically rely on exhaustive search, making it unclear if such algorithmic scaffolds are primed to take advantage of speed-ups that the Ising solver may offer. In this paper, we propose a framework for solving mixed-binary quadratic programs (MBQP) to global optimality using black-box and heuristic Ising solvers. We show the exactness of a convex copositive reformulation of MBQPs, which we propose to solve via a hybrid quantum-classical cutting-plane algorithm. The classical portion of this hybrid framework is guaranteed to be polynomial time, suggesting that when applied to NP-hard problems, the complexity of the solution is shifted onto the subroutine handled by the Ising solver.
翻訳日:2023-02-03 07:39:04 公開日:2022-07-27
# 自由フェルミオンの一般化された深部熱分解

Generalized Deep Thermalization for Free Fermions ( http://arxiv.org/abs/2207.13628v1 )

ライセンス: Link先を確認
Maxime Lucas, Lorenzo Piroli, Jacopo De Nardis, Andrea De Luca(参考訳) 非相互作用的孤立量子系において、局所サブシステムは通常非熱的定常状態に緩和される。 標準枠組みでは、システムの残りの情報は破棄され、そのような状態は一般化ギブスアンサンブル(gge)によって記述され、局所保存法によって課される制約を尊重しながらエントロピーを最大化する。 そこで本研究では,システム内の他の部分の投影計測を行い,その結果を記録することで構築した,最近導入された投影アンサンブル(PE)を特徴付ける。 強結合鎖におけるフェルミオンガウス状態の時間的進化に着目して、我々は局所保存法則から構成されたランダムアンサンブルを、ディープGE(Deep GGE)と呼ぶ。 無限温度の初期状態に対して、dGGE はガウス状態の多様体上の普遍的ハールランダムアンサンブルと一致することを示す。 無限温度と有限温度の両方において、モンテカルロ法を用いて、PEに対するdGGEの予測を数値的にテストする。 特に,状態共分散行列と絡み合いエントロピーの$k$-モーメントについて検討し,良好な一致を見いだした。 我々の研究は、カオスシステムや無限温度を超えた、投影されたアンサンブルの体系的な特徴づけに向けた第一歩となる。

In non-interacting isolated quantum systems out of equilibrium, local subsystems typically relax to non-thermal stationary states. In the standard framework, information on the rest of the system is discarded, and such states are described by a Generalized Gibbs Ensemble (GGE), maximizing the entropy while respecting the constraints imposed by the local conservation laws. Here we show that the latter also completely characterize a recently introduced projected ensemble (PE), constructed by performing projective measurements on the rest of the system and recording the outcomes. By focusing on the time evolution of fermionic Gaussian states in a tight-binding chain, we put forward a random ensemble constructed out of the local conservation laws, which we call deep GGE (dGGE). For infinite-temperature initial states, we show that the dGGE coincides with a universal Haar random ensemble on the manifold of Gaussian states. For both infinite and finite temperatures, we use a Monte Carlo approach to test numerically the predictions of the dGGE against the PE. We study in particular the $k$-moments of the state covariance matrix and the entanglement entropy, finding excellent agreement. Our work provides a first step towards a systematic characterization of projected ensembles beyond the case of chaotic systems and infinite temperatures.
翻訳日:2023-02-03 07:38:36 公開日:2022-07-27
# マルコフフィードバック制御による光格子内の熱輸送

Heat transport in an optical lattice via Markovian feedback control ( http://arxiv.org/abs/2207.13622v1 )

ライセンス: Link先を確認
Ling-Na Wu and Andr\'e Eckardt(参考訳) 超低温原子は、クリーンでよく制御された環境で多体物理学を研究するユニークな機会を提供する。 しかし、量子気体の孤立した性質は、凝縮物質物理学において重要な観測可能な系の輸送特性を研究するのを困難にしている。 本研究では,1次元Bose-Hubbard鎖の境界に結合する2つの有効熱浴をマルコフフィードバック制御により合成する。 これにより、熱電流輸送状態が実現される。 本研究は,システムサイズによるスケーリングと乱れに対する応答を含む定常熱電流について検討する。 大規模システムの研究には,半古典的モンテカルロシミュレーションと運動論を用いる。 両者のアプローチによる数値的な結果は、予想通り、非相互作用系と無秩序系では、熱浴に結合した系で見られるように、系の大きさに対して熱流のスケーリングが同じであることを示している。 最後に, エネルギーの流れを測定する手法を提案し, 検証する。 したがって、原子状量子ガス中の物質の熱電流を輸送する定常状態の量子シミュレーションの経路を提供する。

Ultracold atoms offer a unique opportunity to study many-body physics in a clean and well-controlled environment. However, the isolated nature of quantum gases makes it difficult to study transport properties of the system, which are among the key observables in condensed matter physics. In this work, we employ Markovian feedback control to synthesize two effective thermal baths that couple to the boundaries of a one-dimensional Bose-Hubbard chain. This allows for the realization of a heat-current-carrying state. We investigate the steady-state heat current, including its scaling with system size and its response to disorder. In order to study large systems, we use semi-classical Monte-Carlo simulation and kinetic theory. The numerical results from both approaches show, as expected, that for non- and weakly interacting systems with and without disorder one finds the same scaling of the heat current with respect to the system size as it is found for systems coupled to thermal baths. Finally, we propose and test a scheme for measuring the energy flow. Thus, we provide a route for the quantum simulation of heat-current-carrying steady states of matter in atomic quantum gases.
翻訳日:2023-02-03 07:38:13 公開日:2022-07-27
# 波動パケット伝搬と古典的軌道の物質化

Wave packet propagation and the materialization of classical trajectories ( http://arxiv.org/abs/2207.13617v1 )

ライセンス: Link先を確認
James M. Feagin and John S. Briggs(参考訳) マクロ空間と時間座標に伝播する非有界な波束は、より早い時期にその(フーリエ変換)運動量分布に比例し、漸近座標と初期モーメントは適切な古典的軌道によって至るところで接続される。 この漸近イメージング定理は、ミクロな体積から生じる断片のマクロ抽出と検出を含む全ての量子反応に関係している。 これは粒子検出器の設計に使用される古典的な粒子運動の通常の仮定を正当化する。 この量子-半古典的遷移を、量子力学の入門講義で扱われる標準問題である1次元の波状パケットの自由伝播の例で説明する。 より先進的な議論に適した一般化を示す。

Unbound wave packets propagating to macroscopic space and time coordinates become proportional to their (Fourier transform) momentum distribution at earlier times whereby the asymptotic coordinates and the initial momenta are connected everywhere by appropriate classical trajectories. This asymptotic imaging theorem is relevant to every quantum reaction involving macroscopic extraction and detection of fragments emerging from a microscopic volume. It justifies the usual assumption of classical particle motion used in the design of particle detectors. We illustrate this quantum to semiclassical transition with the example of the free propagation of a wave packet in one dimension, a standard problem treated in introductory lectures on quantum mechanics. We indicate generalizations appropriate for more advanced discussions.
翻訳日:2023-02-03 07:37:57 公開日:2022-07-27
# 非相対論的量子力学と電磁気学について

About non-relativistic quantum mechanics and electromagnetism ( http://arxiv.org/abs/2207.14390v1 )

ライセンス: Link先を確認
Ladislaus Alexander B\'anyai and Mircea Bundaru(参考訳) ここでは、相互作用荷電粒子の非相対論的量子力学的多体理論における電磁磁性のコヒーレントな定式化について述べる。 場の理論の数学的枠組みとQEDの精神における量子化を用いる。 これは、特に磁場とゲージ不変性に関して誤解の多様体が現れたため必要である。 量子力学の歴史的発展は、与えられた電磁場の存在下での単一粒子のシュル=オディンガー方程式から始まり、クーロン相互作用のみを持つ多くの荷電同質粒子の多体理論によって決定された。 非相対論的QEDへの我々のアプローチはゲージ不変性と外部場の役割を強調する。 我々は、この理論の1/c^2$近似をさらに発展させ、光子なしで相互作用する荷電粒子の閉記述を可能にする。 結果として生じるハミルトニアンは、現在の磁気相互作用であるクーロンの他にダーウィン・ハミルトニアンの量子化バージョンと一致する。 我々は、この多体理論の拡張の重要性をいくつかの例で示す。

We describe here the coherent formulation of electromagnetism in the non-relativistic quantum-mechanical many-body theory of interacting charged particles. We use the mathematical frame of the field theory and its quantization in the spirit of the QED. This is necessary because a manifold of misinterpretations emerged especially regarding the magnetic field and gauge invariance. The situation was determined by the historical development of quantum mechanics, starting from the Schr\"odinger equation of a single particle in the presence of given electromagnetic fields, followed by the many-body theories of many charged identical particles having just Coulomb interactions. Our approach to the non-relativistic QED emphasizes the role of the gauge-invariance and of the external fields. We develop further the $1/c^2$ approximation of this theory allowing a closed description of the interacting charged particles without photons. The resulting Hamiltonian coincides with the quantized version of the Darwin Hamiltonian containing besides the Coulomb also a current-current diamagnetic interaction. We show on some examples the importance of this extension of the many-body theory.
翻訳日:2023-02-03 07:31:05 公開日:2022-07-27
# 観測量の観点からの量子運動学と絡み合った2量子状態のキラリティー

Quantum Kinematics in Terms of Observable Quantities, and the Chirality of Entangled Two-Qubit States ( http://arxiv.org/abs/2207.13808v1 )

ライセンス: Link先を確認
Daniel F. V. James(参考訳) 二成分量子状態のキネマティックスを観測可能な量、特にサブシステムのブロッホベクトルによって決定されると考える。 一対の2レベルシステムの最も単純な場合を調べると、ブロッホベクトルの相関行列の特異値分解によって生成される2つの基底の非古典的相関の存在とキラリティの間には顕著な関係がある。 この効果の量子力学によって課される限界と、システムの非古典的振る舞いを定量化する他の方法との関係について検討する。

We consider the kinematics of bi-partite quantum states as determined by observable quantities, in particular the Bloch vectors of the subsystems. In examining the simplest case of a pair of two-level systems, there is a remarkable connection between the presence of non-classical correlations and the chirality of the two bases generated by the singular value decomposition of the correlation matrix of the Bloch vectors. We investigate the limits imposed by quantum mechanics of this effect and it relationship with other methods on quantifying the system's non-classical behaviour.
翻訳日:2023-02-03 07:30:50 公開日:2022-07-27
# 一次元量子物質における正方性絡み合い

Squashed entanglement in one-dimensional quantum matter ( http://arxiv.org/abs/2207.13805v1 )

ライセンス: Link先を確認
Alfonso Maiellaro, Francesco Romeo, Roberta Citro, Fabrizio Illuminati(参考訳) 一次元量子物質におけるシステムエッジ間の密接な絡み合いの概念を導入する。 本研究では, 位相絶縁体とトポロジカル超伝導体の間で, それぞれ異なる量子化値をとることにより, エッジの絡み合いは, エッジモードの統計量に応じて, それぞれベル状態の絡み合いと半分のベル状態の絡み合いとを区別することを示した。 このようなトポロジカルな絡み合いは、乱れや局所的な摂動によるサンプル条件の変化の下で堅牢であり、システムサイズと指数関数的にスケールし、相互作用の存在下でも量子化されたトポロジ的不変量に漸近的に収束する。 これをエンタングルメント負性度と比較することにより、トポロジカル・スクアッシュ・エンタングルメントが量子物質の非局所相関パターンの自然な測度を定義することを示す。 最後に,実験的なアクセシビリティの問題と,高次元への一般化について論じる。

We introduce the concept of squashed entanglement between a system edges in one-dimensional quantum matter. We show that edge squashed entanglement discriminates unambiguously between topological insulators and topological superconductors by taking different quantized values, respectively to Bell-state entanglement and half Bell-state entanglement, depending on the statistics of the edge modes. Such topological squashed entanglement is robust under variations of the sample conditions due to disorder or local perturbations and scales exponentially with the system size, converging asymptotically to a quantized topological invariant also in the presence of interactions. By comparing it with the entanglement negativity, we show that topological squashed entanglement defines the natural measure of nonlocal correlation patterns in quantum matter. Finally, we discuss issues of experimental accessibility as well as possible generalizations to higher dimensions.
翻訳日:2023-02-03 07:30:38 公開日:2022-07-27
# 5000量子ビットプログラマブルスピングラスにおける量子臨界ダイナミクス

Quantum critical dynamics in a 5000-qubit programmable spin glass ( http://arxiv.org/abs/2207.13800v1 )

ライセンス: Link先を確認
Andrew D. King, Jack Raymond, Trevor Lanting, Richard Harris, Alex Zucca, Fabio Altomare, Andrew J. Berkley, Kelly Boothby, Sara Ejtemaee, Colin Enderud, Emile Hoskinson, Shuiyuan Huang, Eric Ladizinsky, Allison J.R. MacDonald, Gaelen Marsden, Reza Molavi, Travis Oh, Gabriel Poulin-Lamarre, Mauricio Reis, Chris Rich, Yuki Sato, Nicholas Tsai, Mark Volkmann, Jed D. Whittaker, Jason Yao, Anders W. Sandvik and Mohammad H. Amin(参考訳) 歪んだ合金の実験により、スピングラスは従来の熱アニールよりも早く量子ゆらぎを加熱することで低エネルギー状態にすることができることが示唆された。 計算機実験場としてのスピングラスの重要性から、プログラム可能なシステムにおいてこの現象を再現することは量子最適化における中心的な課題である。 ここでは、超伝導量子アニールを用いて数千の量子ビット上の量子臨界スピングラスダイナミクスを実現することで、この目標を達成する。 まず,小スピングラスにおけるシュル=オディンガー方程式の量子アニーリングと時間発展の定量的一致を示す。 次に、何千もの量子ビット上での3次元スピングラスのダイナミクスを測定し、多体量子力学のシミュレーションを行う。 類似のモンテカルロアルゴリズムの遅い確率力学から量子アニーリングを明確に区別する臨界指数を抽出する。 臨界領域の力学に対する一般化されたkibble-zurek形式は、観測されたスピードアップの理論的基礎を提供する。

Experiments on disordered alloys suggest that spin glasses can be brought into low-energy states faster by annealing quantum fluctuations than by conventional thermal annealing. Due to the importance of spin glasses as a paradigmatic computational testbed, reproducing this phenomenon in a programmable system has remained a central challenge in quantum optimization. Here we achieve this goal by realizing quantum critical spin-glass dynamics on thousands of qubits with a superconducting quantum annealer. We first demonstrate quantitative agreement between quantum annealing and time-evolution of the Schr\"odinger equation in small spin glasses. We then measure dynamics in 3D spin glasses on thousands of qubits, where simulation of many-body quantum dynamics is intractable. We extract critical exponents that clearly distinguish quantum annealing from the slower stochastic dynamics of analogous Monte Carlo algorithms. A generalized Kibble-Zurek formalism for dynamics in the critical region provides a theoretical basis for the observed speedup.
翻訳日:2023-02-03 07:30:19 公開日:2022-07-27
# 量子浴に結合したスピン鎖の1次遷移

First-order transitions in spin chains coupled to quantum baths ( http://arxiv.org/abs/2207.13782v1 )

ライセンス: Link先を確認
C. A. Perroni, A. De Candia, V. Cataudella, R. Fazio, and G. De Filippis(参考訳) 散逸環境を調整すれば連続的な量子相転移の特徴が変化し、強磁性スピン鎖の1次遷移を誘導できることを示した。 特に、横磁場中の半スピンのパラダイム的イジング鎖に数値的に厳密な量子モンテカルロ法を用いることで、オーミック状態における局所量子ボソン浴へのスピンカップリングが、2階から1階への移行を低散逸強度でも促進できることが分かる。 さらに, スピンスピンおよびスピンボソン相互作用に対する変動平均場法を用いて, 相不連続性は, 浴槽の量子ゆらぎと本質的に関係し, 古典的な浴場で消滅する消散誘起有効磁場に寄与することを示した。 有効磁場はスピン-スピン相互作用の方向に沿って磁化の符号を切り替えることができる。 この結果は最近の量子シミュレータでテストが可能であり、スピン系は非古典的浴槽の特性だけでなく弱い磁場の影響も検出できるため、量子センシングに関係している。

We show that tailoring the dissipative environment allows to change the features of continuous quantum phase transitions and, even, induce first order transitions in ferromagnetic spin chains. In particular, using a numerically exact quantum Monte Carlo method for the paradigmatic Ising chain of one-half spins in a transverse magnetic field, we find that spin couplings to local quantum boson baths in the Ohmic regime can drive the transition from the second to the first order even for a low dissipation strength. Moreover, using a variational mean-field approach for the treatment of spin-spin and spin-boson interactions, we point out that phase discontinuities are ascribable to a dissipation induced effective magnetic field which is intrinsically related to the bath quantum fluctuations and vanishes for classical baths. The effective field is able to switch the sign of the magnetization along the direction of spin-spin interactions. The results can be potentially tested in recent quantum simulators and are relevant for quantum sensing since the spin system could not only detect the properties of non-classical baths, but also the effects of weak magnetic fields.
翻訳日:2023-02-03 07:30:04 公開日:2022-07-27
# ランダム化計測による多粒子絡み合いの定量化

Quantifying multiparticle entanglement with randomized measurements ( http://arxiv.org/abs/2207.13777v1 )

ライセンス: Link先を確認
Sophia Ohnemus, Heinz-Peter Breuer, Andreas Ketterer(参考訳) ランダム化測定は、ランダムに選択された基底によって定義される局所量子測定のサンプルの結果統計にエンコードされた情報を利用する単純な測定プリミティブを構成する。 本研究では、多粒子量子系に含まれる絡み合いの量を多粒子共起によって定量化するために、ランダム化測定のポテンシャルを利用する。 さらに, 乱数行列の理論から得られた分析ツールを用いて, 導入した定量化器の信頼性評価に必要な測定資源の詳細な統計解析を行う。 このフレームワークは、典型的な多粒子の絡み合った状態とランダムな量子回路によって生成される出力状態の一致を分析する一連の数値実験によって実証される。 最後に, 単量子ゲートと2量子ゲートからなるノイズ量子回路が生成する混合状態の多粒子絡み合いについて, 非有極脱分極誤差について検討した。

Randomized measurements constitute a simple measurement primitive that exploits the information encoded in the outcome statistics of samples of local quantum measurements defined through randomly selected bases. In this work we exploit the potential of randomized measurements in order to probe the amount of entanglement contained in multiparticle quantum systems as quantified by the multiparticle concurrence. We further present a detailed statistical analysis of the underlying measurement resources required for a confident estimation of the introduced quantifiers using analytical tools from the theory of random matrices. The introduced framework is demonstrated by a series of numerical experiments analyzing the concurrence of typical multiparticle entangled states as well as of ensembles of output states produced by random quantum circuits. Finally, we examine the multiparticle entanglement of mixed states produced by noisy quantum circuits consisting of single- and two-qubit gates with non-vanishing depolarization errors, thus showing that our framework is directly applicable in the noisy intermediate-scale regime.
翻訳日:2023-02-03 07:29:43 公開日:2022-07-27
# 量子コンピュータを用いた量子モンテカルロアルゴリズムの非バイアス化における特殊課題」への対応

Response to "Exponential challenges in unbiasing quantum Monte Carlo algorithms with quantum computers" ( http://arxiv.org/abs/2207.13776v1 )

ライセンス: Link先を確認
Joonho Lee and David R. Reichman and Ryan Babbush and Nicholas C. Rubin and Fionn D. Malone and Bryan O'Gorman and William J. Huggins(参考訳) mazzola と carleo による最近のプレプリントは、我々の研究で導入された qc-qmc アルゴリズムに生じる指数関数的問題である「量子コンピュータによるフェルミオン量子モンテカルロの偏り」を数値的に研究している。 元の論文で述べたように、私たちはこの一般的な懸念に同意する。 しかし、ここではQC-QMCにおける実用的な量子優位性の可能性について、さらなる詳細と数値を述べる。 QC-QMCにおける指数的課題は,(1)QMC法の選択,(2)基礎システム,(3)トライアルと歩行の波動関数の形式に依存する。 特定の方法、特定のシステム、特定の歩行/心的形態の難しい例を見つけることができるが、このアプローチは他の短期量子アルゴリズムよりもスケーラブルである可能性がある。 今後の研究は、QC-QMCが実用的な量子優位性を実現する例を特定することを目的としている。

A recent preprint by Mazzola and Carleo numerically investigates exponential challenges that can arise for the QC-QMC algorithm introduced in our work, "Unbiasing fermionic quantum Monte Carlo with a quantum computer." As discussed in our original paper, we agree with this general concern. However, here we provide further details and numerics to emphasize that the prospects for practical quantum advantage in QC-QMC remain open. The exponential challenges in QC-QMC are dependent on (1) the choice of QMC methods, (2) the underlying system, and (3) the form of trial and walker wavefunctions. While one can find difficult examples with a specific method, a specific system, and a specific walker/trial form, for some combinations of these choices, the approach is potentially more scalable than other near-term quantum algorithms. Future research should aim to identify examples for which QC-QMC enables practical quantum advantage.
翻訳日:2023-02-03 07:29:28 公開日:2022-07-27
# フェルミオン量子シミュレーションのためのマッチゲートシャドウ

Matchgate Shadows for Fermionic Quantum Simulation ( http://arxiv.org/abs/2207.13723v1 )

ライセンス: Link先を確認
Kianna Wan, William J. Huggins, Joonho Lee, Ryan Babbush(参考訳) 古典的影」は未知の量子状態の推定子であり、その状態のコピー(nature physics 16 1050-1057)上で適切に分布したランダムな測定から構築される。 本稿では,フェルミオンガウスユニタリに対応するランダムマッチゲート回路を用いて得られた古典影の解析を行う。 我々は、マッチゲート回路の連続群上のハール分布の最初の3つのモーメントが、同様にクリフォードユニタリであるマッチゲート回路のみ上の離散均一分布のモーメントと等しいことを証明し、後者は「マッチゲート3設計」を形成する。 これは、2つのアンサンブルから生じる古典的な影が機能的に等価であることを意味する。 これらの整合影を用いて任意の量子状態とフェルミオンガウス状態の間の内部積を効率的に推定し、局所フェルミオン作用素や他の様々な量の期待値を計算し、事前の作業能力を上回ることを示す。 具体的な応用として,量子古典的補助場量子モンテカルロアルゴリズム(QC-AFQMC) [Nature 603, 416-420] におけるフェルミオン符号問題を制御する波動関数制約を適用することができる。

"Classical shadows" are estimators of an unknown quantum state, constructed from suitably distributed random measurements on copies of that state [Nature Physics 16, 1050-1057]. Here, we analyze classical shadows obtained using random matchgate circuits, which correspond to fermionic Gaussian unitaries. We prove that the first three moments of the Haar distribution over the continuous group of matchgate circuits are equal to those of the discrete uniform distribution over only the matchgate circuits that are also Clifford unitaries; thus, the latter forms a "matchgate 3-design." This implies that the classical shadows resulting from the two ensembles are functionally equivalent. We show how one can use these matchgate shadows to efficiently estimate inner products between an arbitrary quantum state and fermionic Gaussian states, as well as the expectation values of local fermionic operators and various other quantities, thus surpassing the capabilities of prior work. As a concrete application, this enables us to apply wavefunction constraints that control the fermion sign problem in the quantum-classical auxiliary-field quantum Monte Carlo algorithm (QC-AFQMC) [Nature 603, 416-420], without the exponential post-processing cost incurred by the original approach.
翻訳日:2023-02-03 07:28:27 公開日:2022-07-27
# 深部部分更新:オンデバイス推論における通信効率向上に向けて

Deep Partial Updating: Towards Communication Efficient Updating for On-device Inference ( http://arxiv.org/abs/2007.03071v3 )

ライセンス: Link先を確認
Zhongnan Qu, Cong Liu, Lothar Thiele(参考訳) 新たなエッジインテリジェンスアプリケーションは、新たに収集したデータサンプルを活用するために、リモートエッジノードにデプロイされたディープニューラルネットワークの再トレーニングと更新をサーバに要求する。 残念ながら、高度に制約された通信リソースのために、完全に更新された重みをこれらのエッジノードに継続的に送信することは不可能かもしれない。 本稿では,各サーバ間通信ラウンドで更新する際の重みの小さなサブセットをスマートに選択し,フル更新と同等の性能を実現した,重みの深い部分更新パラダイムを提案する。 本手法は,部分更新と全更新の損失差を解析的に上界に設定し,上界への寄与度が最も大きい重みのみを更新することで確立した。 広範な実験結果から,比較的少数の重みを更新しながら高い推定精度を実現する部分更新手法の有効性が示された。

Emerging edge intelligence applications require the server to retrain and update deep neural networks deployed on remote edge nodes to leverage newly collected data samples. Unfortunately, it may be impossible in practice to continuously send fully updated weights to these edge nodes due to the highly constrained communication resource. In this paper, we propose the weight-wise deep partial updating paradigm, which smartly selects a small subset of weights to update in each server-to-edge communication round, while achieving a similar performance compared to full updating. Our method is established through analytically upper-bounding the loss difference between partial updating and full updating, and only updates the weights which make the largest contributions to the upper bound. Extensive experimental results demonstrate the efficacy of our partial updating methodology which achieves a high inference accuracy while updating a rather small number of weights.
翻訳日:2022-11-13 01:52:48 公開日:2022-07-27
# ディープラーニングの計算限界

The Computational Limits of Deep Learning ( http://arxiv.org/abs/2007.05558v2 )

ライセンス: Link先を確認
Neil C. Thompson, Kristjan Greenewald, Keeheon Lee, Gabriel F. Manso(参考訳) ディープラーニングの最近の歴史は、goゲームにおける人間の勝利から、画像分類、音声認識、翻訳、その他のタスクにおける世界最先端のパフォーマンスまで、成果の1つでした。 しかし、この進歩はコンピューティングパワーに対する大胆な欲求をもたらした。 この記事では、この依存性の範囲をカタログ化し、幅広いアプリケーションにわたる進歩が、コンピューティングパワーの増加に強く依存していることを示している。 この依存度を推定すると、現在の路線の進歩は急速に経済的、技術的、環境的に持続不可能になりつつあることがわかる。 したがって、これらのアプリケーションの継続的な進歩には、deep learningの変更か、他の機械学習メソッドへの移行によってもたらされる、劇的に計算効率のよい方法が必要となる。

Deep learning's recent history has been one of achievement: from triumphing over humans in the game of Go to world-leading performance in image classification, voice recognition, translation, and other tasks. But this progress has come with a voracious appetite for computing power. This article catalogs the extent of this dependency, showing that progress across a wide variety of applications is strongly reliant on increases in computing power. Extrapolating forward this reliance reveals that progress along current lines is rapidly becoming economically, technically, and environmentally unsustainable. Thus, continued progress in these applications will require dramatically more computationally-efficient methods, which will either have to come from changes to deep learning or from moving to other machine learning methods.
翻訳日:2022-11-11 21:14:50 公開日:2022-07-27
# バッファプールによる深層強化学習によるクエリスケジューリング

Buffer Pool Aware Query Scheduling via Deep Reinforcement Learning ( http://arxiv.org/abs/2007.10568v3 )

ライセンス: Link先を確認
Chi Zhang, Ryan Marcus, Anat Kleiman, Olga Papaemmanouil(参考訳) この拡張要約では,ディスク読み込みを低減し,暗黙的にクエリ性能を向上させることを目標として,クエリスケジューリングの新しい手法を提案する。 入力クエリ間の重複データ読み込みを活用した学習スケジューラsmartqueueを導入し,キャッシュヒットを改善するスケジューリング戦略を学習する。 smartqueueは深層強化学習を頼りに、以前見つからなかったデータアクセスパターンに適応しながら、長期的なパフォーマンスの利点に焦点を当てたワークロード固有のスケジューリング戦略を作成する。 提案手法は,手作りのスケジューリングヒューリスティックよりも,学習したスケジューラが大幅な性能向上を提供できることを示す。 最終的には、これは機械学習とデータベースの交差点における有望な研究方向である、と我々は主張する。

In this extended abstract, we propose a new technique for query scheduling with the explicit goal of reducing disk reads and thus implicitly increasing query performance. We introduce SmartQueue, a learned scheduler that leverages overlapping data reads among incoming queries and learns a scheduling strategy that improves cache hits. SmartQueue relies on deep reinforcement learning to produce workload-specific scheduling strategies that focus on long-term performance benefits while being adaptive to previously-unseen data access patterns. We present results from a proof-of-concept prototype, demonstrating that learned schedulers can offer significant performance improvements over hand-crafted scheduling heuristics. Ultimately, we make the case that this is a promising research direction at the intersection of machine learning and databases.
翻訳日:2022-11-08 05:42:40 公開日:2022-07-27
# バイオフローク養殖におけるIoTによるスマート水質予測

IoT based Smart Water Quality Prediction for Biofloc Aquaculture ( http://arxiv.org/abs/2208.08866v1 )

ライセンス: Link先を確認
Md. Mamunur Rashid, Al-Akhir Nayan, Md. Obaidur Rahman, Sabrina Afrin Simi, Joyeta Saha, Muhammad Golam Kibria(参考訳) 伝統的な漁業は、水質汚染、温度不均衡、飼料、空間、コストなど、いくつかの課題に直面している。 養殖におけるバイオフローク技術は、マニュアルを微生物タンパク質に変換することで未使用の飼料を再利用できる高度なシステムに変換する。 この研究の目的は、効率と生産性を高める水産栽培のためのIoTベースのソリューションを提案することである。 この記事では、センサを使用してデータを収集し、機械学習モデルを使用して分析し、人工知能(AI)の助けを借りて決定を生成し、ユーザに通知を送信するシステムを紹介した。 提案システムの実装と試験により,良好な結果が得られた。

Traditional fish farming faces several challenges, including water pollution, temperature imbalance, feed, space, cost, etc. Biofloc technology in aquaculture transforms the manual into an advanced system that allows the reuse of unused feed by converting them into microbial protein. The objective of the research is to propose an IoT-based solution to aquaculture that increases efficiency and productivity. The article presented a system that collects data using sensors, analyzes them using a machine learning model, generates decisions with the help of Artificial Intelligence (AI), and sends notifications to the user. The proposed system has been implemented and tested to validate and achieve a satisfactory result.
翻訳日:2022-08-28 22:35:03 公開日:2022-07-27
# 音声ユーザエージェント会話におけるユーザ要求と苦情の予測

Prediction of User Request and Complaint in Spoken Customer-Agent Conversations ( http://arxiv.org/abs/2208.10249v1 )

ライセンス: Link先を確認
Nikola Lackovic, Claude Montaci\'e, Gauthier Lalande and Marie-Jos\'e Caraty(参考訳) 我々はhealthcallというコーパスを提示する。 これはマラコフ・ヒューマニスのコールセンターで実生活で記録された。 それは2つの別々のオーディオチャンネルを含み、1つは顧客、2つ目はエージェントである。 各会話は、General Data Protection Regulationに関して匿名化された。 このコーパスは、会話の書き起こしを含み、トレインセットとデヴェルセットの2つのセットに分割された。 HealthCall corpusでは2つの重要な顧客関係管理タスクが評価された。 そこで本研究では,言語機能セット6つ,音声機能セット6つ,音声インタラクション機能セット2つという,14種類の特徴セットについて検討した。 言語特徴にはトランスフォーマーモデルからの双方向エンコーダ表現,音声特徴にはopensmileとwav2vec 2.0を用いた。 音声対話機能セットはターンテイクから設計・開発された。 その結果、言語的特徴は常に最良の結果をもたらす(要求タスクは91.2%、苦情タスクは70.3%)。 Wav2Vec 2.0の機能は、ComPaRe16の機能よりもこの2つのタスクに適しているように見える。 音声対話機能は、ComPaRe16よりもパフォーマンスが良く、ComPaRe16は6つの機能で57%の割合で達成されている。

We present the corpus called HealthCall. This was recorded in real-life conditions in the call center of Malakoff Humanis. It includes two separate audio channels, the first one for the customer and the second one for the agent. Each conversation was anonymized respecting the General Data Protection Regulation. This corpus includes a transcription of the spoken conversations and was divided into two sets: Train and Devel sets. Two important customer relationship management tasks were assessed on the HealthCall corpus: Automatic prediction of type of user requests and complaints detection. For this purpose, we have investigated 14 feature sets: 6 linguistic feature sets, 6 audio feature sets and 2 vocal interaction feature sets. We have used Bidirectional Encoder Representation from Transformers models for the linguistic features, openSMILE and Wav2Vec 2.0 for the audio features. The vocal interaction feature sets were designed and developed from Turn Takings. The results show that the linguistic features always give the best results (91.2% for the Request task and 70.3% for the Complaint task). The Wav2Vec 2.0 features seem more suitable for these two tasks than the ComPaRe16 features. Vocal interaction features outperformed ComPaRe16 features on Complaint task with a 57% rate achieved with only six features.
翻訳日:2022-08-28 22:26:55 公開日:2022-07-27
# 論理チュータにおける後方戦略学習の効果の検討--問題解決に向けた下位学習を支援する

Investigating the Impact of Backward Strategy Learning in a Logic Tutor: Aiding Subgoal Learning towards Improved Problem Solving ( http://arxiv.org/abs/2208.04696v1 )

ライセンス: Link先を確認
Preya Shabrina, Behrooz Mostafavi, Mark Abdelshiheed, Min Chi, Tiffany Barnes(参考訳) サブゴールの学習は、専門家と学生のギャップを減らし、将来の問題解決に備える。 研究者は、初心者がサブゴールを学ぶのを助けるために、従来の問題解決や指導システムの中での説明とともに、サブゴールラベル付き教材を調査した。 しかし, 下位学習との関連において, 問題解決戦略についての研究は少ない。 また、これらの戦略は、コンピュータベースのチューターと学習環境内では未探索である。 後方問題解決戦略は、問題の解決が目的を新たなサブゴールへと反復的に洗練し、難易度を下げるプロセスと密接に関連している。 本稿では,論理証明構築を教える知的論理チュータ内での後方戦略学習のための学習戦略について検討する。 トレーニングセッションでは、下位作業例(BWE)と課題解決(BPS)が加わり、学生が下位作業と問題解決スキルを改善するための後方戦略を学ぶのに役立った。 学習戦略を評価するために 学生の学習戦略を分析し 1)後ろ向き戦略の学習における経験と関与 2)パフォーマンス、および 3)各レベルのトレーニングとポストテストの後に、教師の助けなしに独自に解決した新しい問題に対する証明構築アプローチ。 以上の結果から,bwe と bps の双方で学習した学生は,授業中,bwe を受講していない生徒や,bwe のみを受講した生徒を上回っていた。 さらに、bweとbpsの両方で訓練を受けた学生は、他の2つのグループよりも有意に高い効率の証明構築中に、サブゴールを導出した。

Learning to derive subgoals reduces the gap between experts and students and makes students prepared for future problem solving. Researchers have explored subgoal labeled instructional materials with explanations in traditional problem solving and within tutoring systems to help novices learn to subgoal. However, only a little research is found on problem-solving strategies in relationship with subgoal learning. Also, these strategies are under-explored within computer-based tutors and learning environments. Backward problem-solving strategy is closely related to the process of subgoaling, where problem solving iteratively refines the goal into a new subgoal to reduce difficulty. In this paper, we explore a training strategy for backward strategy learning within an intelligent logic tutor that teaches logic proof construction. The training session involved backward worked examples (BWE) and problem-solving (BPS) to help students learn backward strategy towards improving their subgoaling and problem-solving skills. To evaluate the training strategy, we analyzed students' 1) experience with and engagement in learning backward strategy, 2) performance, and 3) proof construction approaches in new problems that they solved independently without tutor help after each level of training and in post-test. Our results showed that, when new problems were given to solve without any tutor help, students who were trained with both BWE and BPS outperformed students who received none of the treatment or only BWE during training. Additionally, students trained with both BWE and BPS derived subgoals during proof construction with significantly higher efficiency than the other two groups.
翻訳日:2022-08-14 18:19:59 公開日:2022-07-27
# POSET-RL:強化学習を用いたサイズと実行時間の最適化のための位相順序付け

POSET-RL: Phase ordering for Optimizing Size and Execution Time using Reinforcement Learning ( http://arxiv.org/abs/2208.04238v1 )

ライセンス: Link先を確認
Shalini Jain, Yashas Andaluri, S. VenkataKeerthy, Ramakrishna Upadrasta(参考訳) いくつかのアプリケーションにおけるメモリ要件の増大は、組み込みデバイスでは満たせない要求の増加につながった。 このような場合、メモリの使用を制限することが最重要となる。 このようなコードサイズの改善がランタイムに悪影響を及ぼさないことが重要です。 コードサイズを最適化しながら実行時間を改善することは、簡単ではないが重要なタスクである。 現代のコンパイラにおける標準最適化シーケンスの順序は固定されており、その専門知識に基づいてコンパイラドメインの専門家によってヒューリスティックに作成される。 しかし、この順序は準最適であり、すべてのケースでうまく一般化しない。 本稿では,順序付けが実行時間とコードサイズの両方を改善する段階順序付け問題に対する強化学習に基づく解を提案する。 本稿では,Oz Dependence Graph (ODG) と呼ばれるグラフに基づいて,手動順序付けによるシーケンスのモデル化手法を提案する。 私たちのアプローチでは、トレーニングセットとして最小限のデータを使用し、LLVMと統合されています。 我々はSPEC-CPU 2006 と MiBench のベンチマークで x86 および AArch64 アーキテクチャの結果を示す。 ODGに基づく提案モデルは,SPEC 2017ベンチマークにおいて,サイズと実行時間の両面で,現在のOzシーケンスを平均6.19%,1.99%で上回っている。

The ever increasing memory requirements of several applications has led to increased demands which might not be met by embedded devices. Constraining the usage of memory in such cases is of paramount importance. It is important that such code size improvements should not have a negative impact on the runtime. Improving the execution time while optimizing for code size is a non-trivial but a significant task. The ordering of standard optimization sequences in modern compilers is fixed, and are heuristically created by the compiler domain experts based on their expertise. However, this ordering is sub-optimal, and does not generalize well across all the cases. We present a reinforcement learning based solution to the phase ordering problem, where the ordering improves both the execution time and code size. We propose two different approaches to model the sequences: one by manual ordering, and other based on a graph called Oz Dependence Graph (ODG). Our approach uses minimal data as training set, and is integrated with LLVM. We show results on x86 and AArch64 architectures on the benchmarks from SPEC-CPU 2006, SPEC-CPU 2017 and MiBench. We observe that the proposed model based on ODG outperforms the current Oz sequence both in terms of size and execution time by 6.19% and 11.99% in SPEC 2017 benchmarks, on an average.
翻訳日:2022-08-14 18:19:32 公開日:2022-07-27
# 自動注入機能付きブロックチェーン関連機械学習とIoTベースの低血糖検出システム

Blockchain associated machine learning and IoT based hypoglycemia detection system with auto-injection feature ( http://arxiv.org/abs/2208.02222v1 )

ライセンス: Link先を確認
Rahnuma Mahzabin, Fahim Hossain Sifat, Sadia Anjum, Al-Akhir Nayan, Muhammad Golam Kibria(参考訳) 低血糖は低血糖による不快な現象である。 この病気は、死に至るか、高いレベルの身体損傷を引き起こす可能性がある。 大きな損傷を避けるために、患者は砂糖を必要とします。 本研究の目的は、低血糖を検知し、生命を救うために自動糖注入を行う自動システムを実装することである。 モノのインターネット(IoT)の恩恵を受け、センサーデータはハイパーテキスト転送プロトコル(HTTP)プロトコルを使用して転送された。 健康関連データの安全性を確保するため、ブロックチェーン技術が利用された。 グルコースセンサーとスマートウォッチのデータは霧で処理され、クラウドに送られた。 ランダムフォレストアルゴリズムを提案し,低血糖事象の判定に用いた。 低血糖事象が検出されると、システムはモバイルアプリケーションと自動注入装置に通知を送り、凝縮した糖を被害者の体に押し込んだ。 xgboost、k-nearest neighbors (knn)、 support vector machine (svm)、および decision tree は、提案されたモデルのパフォーマンスを比較するために実装された。 ランダムフォレストは0.942回の試験を行い、他のモデルよりも低血糖事象の検出に優れていた。 システム性能はいくつかの条件で測定され、良好な結果が得られた。 このシステムは低血糖患者にこの病気を治す効果がある。

Hypoglycemia is an unpleasant phenomenon caused by low blood glucose. The disease can lead a person to death or a high level of body damage. To avoid significant damage, patients need sugar. The research aims at implementing an automatic system to detect hypoglycemia and perform automatic sugar injections to save a life. Receiving the benefits of the internet of things (IoT), the sensor data was transferred using the hypertext transfer protocol (HTTP) protocol. To ensure the safety of health-related data, blockchain technology was utilized. The glucose sensor and smartwatch data were processed via Fog and sent to the cloud. A Random Forest algorithm was proposed and utilized to decide hypoglycemic events. When the hypoglycemic event was detected, the system sent a notification to the mobile application and auto-injection device to push the condensed sugar into the victims body. XGBoost, k-nearest neighbors (KNN), support vector machine (SVM), and decision tree were implemented to compare the proposed models performance. The random forest performed 0.942 testing accuracy, better than other models in detecting hypoglycemic events. The systems performance was measured in several conditions, and satisfactory results were achieved. The system can benefit hypoglycemia patients to survive this disease.
翻訳日:2022-08-07 14:23:12 公開日:2022-07-27
# 農村医療のためのIoT(Internet of Things)ベースのECGシステム

Internet of Things (IoT) based ECG System for Rural Health Care ( http://arxiv.org/abs/2208.02226v1 )

ライセンス: Link先を確認
Md. Obaidur Rahman, Mohammod Abul Kashem, Al-Akhir Nayan, Most. Fahmida Akter, Fazly Rabbi, Marzia Ahmed, Mohammad Asaduzzaman(参考訳) バングラデシュの農村部の人口の約30%が貧困水準を下回っている。 また、医療関連技術の近代化が不可能なため、農村部では看護・診断施設が限られている。 そのため、農村の人々は適切な医療を奪われる。 この観点から、現代の技術は彼らの健康問題を緩和するために促進することができる。 ECGセンシングツールは人間の胸にインターフェースされ、必要な心臓血管データはIoTデバイスを介して収集される。 これらのデータは、MQTTとHTTPサーバを組み込んだクラウドに格納される。 本研究は,心血管系および心臓系患者の心電図モニタリングシステムのための革新的なIoTベースの手法を提案する。 心電図信号パラメータp,q,q,r,s,tを収集し、前処理し、さらに健康管理のために心血管状態を監視することが予測される。 機械学習アルゴリズムは、ECG信号パラメータとエラー率の重要度を決定するために使用される。 ロジスティック回帰モデルは、列車と試験データの間のより良い一致を適合させた。 この予測は、ECGモニタリングシステムにおけるPQRST品質の変動とその適合性を決定するために行われた。 品質パラメータの値を考えると、満足な結果が得られる。 提案したIoTベースのECGシステムにより、将来、心血管疾患の医療コストと複雑さを低減できる。

Nearly 30% of the people in the rural areas of Bangladesh are below the poverty level. Moreover, due to the unavailability of modernized healthcare-related technology, nursing and diagnosis facilities are limited for rural people. Therefore, rural people are deprived of proper healthcare. In this perspective, modern technology can be facilitated to mitigate their health problems. ECG sensing tools are interfaced with the human chest, and requisite cardiovascular data is collected through an IoT device. These data are stored in the cloud incorporates with the MQTT and HTTP servers. An innovative IoT-based method for ECG monitoring systems on cardiovascular or heart patients has been suggested in this study. The ECG signal parameters P, Q, R, S, T are collected, pre-processed, and predicted to monitor the cardiovascular conditions for further health management. The machine learning algorithm is used to determine the significance of ECG signal parameters and error rate. The logistic regression model fitted the better agreements between the train and test data. The prediction has been performed to determine the variation of PQRST quality and its suitability in the ECG Monitoring System. Considering the values of quality parameters, satisfactory results are obtained. The proposed IoT-based ECG system reduces the health care cost and complexity of cardiovascular diseases in the future.
翻訳日:2022-08-07 14:22:55 公開日:2022-07-27
# 多射影核融合に基づく深部360$^\circ$光フロー推定

Deep 360$^\circ$ Optical Flow Estimation Based on Multi-Projection Fusion ( http://arxiv.org/abs/2208.00776v1 )

ライセンス: Link先を確認
Yiheng Li, Connelly Barnes, Kun Huang, Fang-Lue Zhang(参考訳) ビデオ処理パイプラインの初期段階では,光フロー計算が不可欠である。 本稿では,広範に普及しているVRアプリケーションをサポートするために,深層ニューラルネットワークを用いた360$^\circ$光フロー推定法を提案する。 畳み込みニューラルネットワークを適用する際のパノラマ表現の歪みに対処するために、異なる投影法を用いて訓練されたモデルによって予測される光の流れを融合する新しいマルチプロジェクション融合フレームワークを提案する。 異なる投影の下で光学流の結果に相補的な情報を組み合わせることを学ぶ。 また、ニューラルネットワークのトレーニングとパノラマ光フロー推定手法の評価を支援するために、最初の大規模パノラマ光フローデータセットを構築した。 提案手法は,360{\deg}コンテンツを処理するために開発された既存手法および他のディープネットワークよりも優れていることを示す。

Optical flow computation is essential in the early stages of the video processing pipeline. This paper focuses on a less explored problem in this area, the 360$^\circ$ optical flow estimation using deep neural networks to support increasingly popular VR applications. To address the distortions of panoramic representations when applying convolutional neural networks, we propose a novel multi-projection fusion framework that fuses the optical flow predicted by the models trained using different projection methods. It learns to combine the complementary information in the optical flow results under different projections. We also build the first large-scale panoramic optical flow dataset to support the training of neural networks and the evaluation of panoramic optical flow estimation methods. The experimental results on our dataset demonstrate that our method outperforms the existing methods and other alternative deep networks that were developed for processing 360{\deg} content.
翻訳日:2022-08-07 14:22:38 公開日:2022-07-27
# 学習前畳み込みニューラルネットワークによる脳腫瘍の診断と分類

Brain Tumor Diagnosis and Classification via Pre-Trained Convolutional Neural Networks ( http://arxiv.org/abs/2208.00768v1 )

ライセンス: Link先を確認
Dmytro Filatov, Ghulam Nabi Ahmad Hassan Yar(参考訳) 脳腫瘍は最も攻撃的な腫瘍であり、後期に診断された場合、平均寿命は低い。 脳腫瘍の手動診断は退屈で、エラーを起こしやすい。 誤診は誤診を招き、患者の生存率を低下させる可能性がある。 医用共鳴画像(MR)は、脳腫瘍とそのタイプを診断するための従来の方法である。 本稿では,手動のプロセスを診断プロセスから排除し,代わりに機械学習を使用する。 脳腫瘍の診断と分類にcnn(pretrained convolutional neural networks)を用いた。 3種類の腫瘍を1種類の非腫瘍MRI画像に分類した。 使われているネットワークは、ResNet50、EfficientNetB1、EfficientNetB7、EfficientNetV2B1である。 EfficientNetはそのスケーラブルな性質のために有望な結果を示している。 efficientnetb1は87.67%と89.55%のトレーニングと検証精度で最高の結果を示した。

The brain tumor is the most aggressive kind of tumor and can cause low life expectancy if diagnosed at the later stages. Manual identification of brain tumors is tedious and prone to errors. Misdiagnosis can lead to false treatment and thus reduce the chances of survival for the patient. Medical resonance imaging (MRI) is the conventional method used to diagnose brain tumors and their types. This paper attempts to eliminate the manual process from the diagnosis process and use machine learning instead. We proposed the use of pretrained convolutional neural networks (CNN) for the diagnosis and classification of brain tumors. Three types of tumors were classified with one class of non-tumor MRI images. Networks that has been used are ResNet50, EfficientNetB1, EfficientNetB7, EfficientNetV2B1. EfficientNet has shown promising results due to its scalable nature. EfficientNetB1 showed the best results with training and validation accuracy of 87.67% and 89.55%, respectively.
翻訳日:2022-08-07 14:22:08 公開日:2022-07-27
# 欠落データを用いた完全直観的ファジィデータ包絡分析モデルの開発--インド警察部門への適用

Development of fully intuitionistic fuzzy data envelopment analysis model with missing data: an application to Indian police sector ( http://arxiv.org/abs/2208.02675v1 )

ライセンス: Link先を確認
Anjali Sonkariya, Awadh Pratap Singh, Shiv Prasad Yadav(参考訳) データ包括分析(Data Envelopment Analysis, DEA)は、意思決定単位(DMU)の効率を測定する技術である。 DMUの効率を測定するために、必須要件は入出力データである。 通常、データは人間、機械、またはその両方によって収集される。 人/機械のエラーにより、収集されたデータに曖昧さ/不確かさ/癒しなど、いくつかの欠落値や不正確性が生じる可能性がある。 この状況では、DMUの効率を正確に測定することは困難である。 これらの欠点を克服するために、データの欠落した値と不正確さに対処できる方法が提示される。 DMUの性能効率を測定するために,完全直観的ファジィ(IF)環境における入力最小化BCC(IMBCC)モデルを提案する。 提案する完全直感的ファジィ入力最小化bcc(fifimbcc)モデルの有効性とデータの欠落値に対処する手法を検証するため,インドの警察署のパフォーマンス効率を測定するための実生活応用を提案する。

Data Envelopment Analysis (DEA) is a technique used to measure the efficiency of decision-making units (DMUs). In order to measure the efficiency of DMUs, the essential requirement is input-output data. Data is usually collected by humans, machines, or both. Due to human/machine errors, there are chances of having some missing values or inaccuracy, such as vagueness/uncertainty/hesitation in the collected data. In this situation, it will be difficult to measure the efficiencies of DMUs accurately. To overcome these shortcomings, a method is presented that can deal with missing values and inaccuracy in the data. To measure the performance efficiencies of DMUs, an input minimization BCC (IMBCC) model in a fully intuitionistic fuzzy (IF) environment is proposed. To validate the efficacy of the proposed fully intuitionistic fuzzy input minimization BCC (FIFIMBCC) model and the technique to deal with missing values in the data, a real-life application to measure the performance efficiencies of Indian police stations is presented.
翻訳日:2022-08-07 14:21:03 公開日:2022-07-27
# 多視点オブジェクト分類のための自己教師付き表現の堅牢性について

On the robustness of self-supervised representations for multi-view object classification ( http://arxiv.org/abs/2208.00787v1 )

ライセンス: Link先を確認
David Torpey and Richard Klein(参考訳) 自己教師付きプレトレーニングの表現は、完全に教師付きプレトレーニングの表現よりも、様々な下流タスクにおいて、同等で、多くの場合、より優れていることが知られている。 これは、ジェネリックオブジェクトの分類と検出、セマンティックセグメンテーション、画像検索といった様々な設定で示されている。 しかし、最近、非ImageNetのようなデータのパフォーマンスや複雑なシーンなど、自己教師付き表現の失敗モードのいくつかを実証する問題が発生している。 本稿では,オブジェクトの視点や視点の変化に対してより堅牢なオブジェクトの表現に,インスタンス識別の目的に基づく自己教師型表現が導かれることを示す。 複数の教師付きベースラインに対する近代的な自己監督手法の実験を行い、ホモグラフによるオブジェクト視点の変動の近似や、複数のマルチビューデータセットに基づく実世界のテストなど、これを実証する。 自己監督型表現は、オブジェクトの視点に対してより堅牢であり、新しい視点からオブジェクトの認識を促進するオブジェクトに関するより関連する情報をエンコードしているように見える。

It is known that representations from self-supervised pre-training can perform on par, and often better, on various downstream tasks than representations from fully-supervised pre-training. This has been shown in a host of settings such as generic object classification and detection, semantic segmentation, and image retrieval. However, some issues have recently come to the fore that demonstrate some of the failure modes of self-supervised representations, such as performance on non-ImageNet-like data, or complex scenes. In this paper, we show that self-supervised representations based on the instance discrimination objective lead to better representations of objects that are more robust to changes in the viewpoint and perspective of the object. We perform experiments of modern self-supervised methods against multiple supervised baselines to demonstrate this, including approximating object viewpoint variation through homographies, and real-world tests based on several multi-view datasets. We find that self-supervised representations are more robust to object viewpoint and appear to encode more pertinent information about objects that facilitate the recognition of objects from novel views.
翻訳日:2022-08-07 14:15:35 公開日:2022-07-27
# 多層型非線形光ニューラルネットワークによる画像センシング

Image sensing with multilayer, nonlinear optical neural networks ( http://arxiv.org/abs/2207.14293v1 )

ライセンス: Link先を確認
Tianyu Wang, Mandar M. Sohoni, Logan G. Wright, Martin M. Stein, Shi-Yuan Ma, Tatsuhiro Onodera, Maxwell G. Anderson, and Peter L. McMahon(参考訳) 光イメージングは、産業と学界の科学と技術の両方で一般的に使われている。 画像センシングでは、デジタル化画像の計算解析により、物体の位置などの測定を行う。 新たなイメージセンシングパラダイムは、イメージングではなくエンコーディングを行う光学コンポーネントを設計することによって、データ収集と分析の間のこの境界線を破る。 効率の良い後分析に適した圧縮された低次元の潜伏空間に画像を光学的に符号化することにより、これらの画像センサは少ないピクセルと少ない光子で動作し、高いスループットで低いレイテンシの操作を可能にする。 光ニューラルネットワーク(ONN)は、アナログの光学領域でデータを処理するためのプラットフォームを提供する。 しかし、ONNベースのセンサーは線形処理に限られているが、非線形性は深さの前提条件であり、多層NNは多くのタスクにおいて浅いNNよりも著しく優れている。 そこで我々は,商用画像強調器を並列光電子・光-光非線形活性化関数として用いて,画像センシングのための多層ONNプリプロセッサを実現する。 我々は, マシンビジョンベンチマーク, フローサイトメトリー画像分類, 実シーンにおける物体の識別など, コンピュータビジョンタスクにおいて高い精度を保ちながら, 最大800:1の圧縮比を達成できることを実証した。 いずれの場合も、ONNの非線形性と深さは純粋に線形なONNエンコーダよりも優れていた。 我々の実験は、非コヒーレント光画像のためのONNセンサーに特化しているが、代替のONNプラットフォームは、様々なONNセンサーを促進するだろう。 これらのonnセンサーは、空間的、時間的、および/またはスペクトルの次元で光学情報を前処理することで、従来のセンサーを超える可能性がある。

Optical imaging is commonly used for both scientific and technological applications across industry and academia. In image sensing, a measurement, such as of an object's position, is performed by computational analysis of a digitized image. An emerging image-sensing paradigm breaks this delineation between data collection and analysis by designing optical components to perform not imaging, but encoding. By optically encoding images into a compressed, low-dimensional latent space suitable for efficient post-analysis, these image sensors can operate with fewer pixels and fewer photons, allowing higher-throughput, lower-latency operation. Optical neural networks (ONNs) offer a platform for processing data in the analog, optical domain. ONN-based sensors have however been limited to linear processing, but nonlinearity is a prerequisite for depth, and multilayer NNs significantly outperform shallow NNs on many tasks. Here, we realize a multilayer ONN pre-processor for image sensing, using a commercial image intensifier as a parallel optoelectronic, optical-to-optical nonlinear activation function. We demonstrate that the nonlinear ONN pre-processor can achieve compression ratios of up to 800:1 while still enabling high accuracy across several representative computer-vision tasks, including machine-vision benchmarks, flow-cytometry image classification, and identification of objects in real scenes. In all cases we find that the ONN's nonlinearity and depth allowed it to outperform a purely linear ONN encoder. Although our experiments are specialized to ONN sensors for incoherent-light images, alternative ONN platforms should facilitate a range of ONN sensors. These ONN sensors may surpass conventional sensors by pre-processing optical information in spatial, temporal, and/or spectral dimensions, potentially with coherent and quantum qualities, all natively in the optical domain.
翻訳日:2022-08-01 13:24:01 公開日:2022-07-27
# ベトナムのeコマースサイトにおけるスパムレビューの検出

Detecting Spam Reviews on Vietnamese E-commerce Websites ( http://arxiv.org/abs/2207.14636v1 )

ライセンス: Link先を確認
Co Van Dinh, Son T. Luu and Anh Gia-Tuan Nguyen(参考訳) 顧客のレビューはオンラインショッピングにおいて重要な役割を果たす。 新製品を買うかどうかを決めるために、以前の顧客のレビューやコメントを参照することが多い。 この行動に従えば、偽の商品の品質について顧客を脅かすために、真偽や不正なレビューを作る人もいる。 これらのレビューはスパムレビューと呼ばれ、消費者をオンラインショッピングプラットフォームに混乱させ、オンラインショッピング行動に悪影響を及ぼす。 我々は,eコマースプラットフォーム上でスパムレビューを検出するための厳格なアノテーション手順を持つvispamreviewsというデータセットを提案する。 本データセットは,レビューがスパムか否かを検出するバイナリ分類タスクと,スパムの種類を特定するマルチクラス分類タスクの2つのタスクから構成される。 PhoBERTは、マクロ平均F1スコアでそれぞれ88.93%と72.17%の2つのタスクで最高結果を得た。

The reviews of customers play an essential role in online shopping. People often refer to reviews or comments of previous customers to decide whether to buy a new product. Catching up with this behavior, some people create untruths and illegitimate reviews to hoax customers about the fake quality of products. These reviews are called spam reviews, which confuse consumers on online shopping platforms and negatively affect online shopping behaviors. We propose the dataset called ViSpamReviews, which has a strict annotation procedure for detecting spam reviews on e-commerce platforms. Our dataset consists of two tasks: the binary classification task for detecting whether a review is a spam or not and the multi-class classification task for identifying the type of spam. The PhoBERT obtained the highest results on both tasks, 88.93% and 72.17%, respectively, by macro average F1 score.
翻訳日:2022-08-01 12:13:27 公開日:2022-07-27
# 選択入力勾配正則化ヤコビアンノルムによる移動敵例に対する改良および解釈可能な防御

Improved and Interpretable Defense to Transferred Adversarial Examples by Jacobian Norm with Selective Input Gradient Regularization ( http://arxiv.org/abs/2207.13036v2 )

ライセンス: Link先を確認
Deyin Liu, Lin Wu, Farid Boussaid, Mohammed Bennamoun(参考訳) 深層ニューラルネットワーク(Deep Neural Network, DNN)は、知覚不能な摂動を持つ敵の例に対して脆弱であることが知られており、入力画像の小さな変化は誤分類を誘発し、ディープラーニングベースのデプロイメントシステムの信頼性を脅かす。 逆行訓練(AT)は、劣化したデータとクリーンなデータの混合を訓練することで、DNNの堅牢性を向上させるためにしばしば採用される。 しかし、atベースのメソッドのほとんどは、幅広い防御モデルを騙すために生成される \textit{transfered adversarial examples} を扱うのに効果がなく、実世界のシナリオで生じる一般化要件を満たすことができない。 さらに,DNNの動作を理解するためには,異なるドメインの専門家が高度に解釈可能なロバストモデルを必要とする一方で,一般的に防衛モデルを逆行的に訓練しても,摂動による入力に対する解釈可能な予測は得られない。 本研究では,ジャコビアンノルムと選択的入力勾配正則化(j-sigr)に基づくアプローチを提案し,ジャコビアン正規化による線形化されたロバスト性が示唆されるとともに,モデルの解釈可能な予測を模倣する摂動に基づくサラマンシー写像も定式化する。 そこで我々は,DNNの防御性と高い解釈性を両立させた。 最後に,異なるアーキテクチャをまたいだ手法を,強力な敵攻撃に対して評価する。 実験により, 提案したJ-SIGRは, 対向攻撃に対する堅牢性を向上し, ニューラルネットワークからの予測が容易に解釈できることが示されている。

Deep neural networks (DNNs) are known to be vulnerable to adversarial examples that are crafted with imperceptible perturbations, i.e., a small change in an input image can induce a mis-classification, and thus threatens the reliability of deep learning based deployment systems. Adversarial training (AT) is often adopted to improve the robustness of DNNs through training a mixture of corrupted and clean data. However, most of AT based methods are ineffective in dealing with \textit{transferred adversarial examples} which are generated to fool a wide spectrum of defense models, and thus cannot satisfy the generalization requirement raised in real-world scenarios. Moreover, adversarially training a defense model in general cannot produce interpretable predictions towards the inputs with perturbations, whilst a highly interpretable robust model is required by different domain experts to understand the behaviour of a DNN. In this work, we propose an approach based on Jacobian norm and Selective Input Gradient Regularization (J-SIGR), which suggests the linearized robustness through Jacobian normalization and also regularizes the perturbation-based saliency maps to imitate the model's interpretable predictions. As such, we achieve both the improved defense and high interpretability of DNNs. Finally, we evaluate our method across different architectures against powerful adversarial attacks. Experiments demonstrate that the proposed J-SIGR confers improved robustness against transferred adversarial attacks, and we also show that the predictions from the neural network are easy to interpret.
翻訳日:2022-07-31 14:38:16 公開日:2022-07-27
# 肺結節悪性腫瘍診断のための3d-morphomics, ctスキャンの形態学的特徴

3D-Morphomics, Morphological Features on CT scans for lung nodule malignancy diagnosis ( http://arxiv.org/abs/2207.13830v1 )

ライセンス: Link先を確認
Elias Munoz, Pierre Baudot, Van-Khoa Le, Charles Voyton, Benjamin Renoust, Danny Francis, Vladimir Groza, Jean-Christophe Brisset, Ezequiel Geremia, Antoine Iannessi, Yan Liu, Benoit Huet(参考訳) 病理組織は形態学的変化を系統的に誘発し、診断のための主要な、しかし不十分に定量化された可観測物の源を提供する。 本研究はCTボリュームにおける形態学的特徴(3次元形態学)に基づく病理状態の予測モデルを構築した。 臓器表面のメッシュ抽出と単純化のための完全なワークフローを開発し、平均曲率とメッシュエネルギーの分布によって与えられる形態的特徴の自動抽出と組み合わせた。 その後、XGBoost教師付き分類器が3次元形態学で訓練され、病理状態を予測する。 この枠組みは肺結節の悪性度の予測に応用される。 悪性腫瘍と診断されたnlstデータベースのサブセットでは,3d-morphomicsのみを用いて肺結節の悪性と良性への分類モデルは0.964。 その他の古典的特徴の3つのセットが訓練され、(1)臨床に関連のある特徴は、AUCが0.58、(2)111、放射線医が0.976、(3)、結節の大きさ、減衰、および画像的定性アノテーションを含むAUCが0.979である。 また、brockモデルをテストし、0.826のaucを得る。 3d-morphomics と radiomics features を組み合わせることで、0.978の auc と最先端の結果が得られる。 公共の独立コホート上での検証として、モデルはLIDCデータセットに適用され、3D形態素は0.906のAUCを、3D形態素+ラジオミクスは0.958のAUCを達成する。 肺結節悪性度を予測するための効率的な特徴として曲率分布を確立し、任意のコンピュータ支援診断タスクに直接適用可能な新しい方法を提案する。

Pathologies systematically induce morphological changes, thus providing a major but yet insufficiently quantified source of observables for diagnosis. The study develops a predictive model of the pathological states based on morphological features (3D-morphomics) on Computed Tomography (CT) volumes. A complete workflow for mesh extraction and simplification of an organ's surface is developed, and coupled with an automatic extraction of morphological features given by the distribution of mean curvature and mesh energy. An XGBoost supervised classifier is then trained and tested on the 3D-morphomics to predict the pathological states. This framework is applied to the prediction of the malignancy of lung's nodules. On a subset of NLST database with malignancy confirmed biopsy, using 3D-morphomics only, the classification model of lung nodules into malignant vs. benign achieves 0.964 of AUC. Three other sets of classical features are trained and tested, (1) clinical relevant features gives an AUC of 0.58, (2) 111 radiomics gives an AUC of 0.976, (3) radiologist ground truth (GT) containing the nodule size, attenuation and spiculation qualitative annotations gives an AUC of 0.979. We also test the Brock model and obtain an AUC of 0.826. Combining 3D-morphomics and radiomics features achieves state-of-the-art results with an AUC of 0.978 where the 3D-morphomics have some of the highest predictive powers. As a validation on a public independent cohort, models are applied to the LIDC dataset, the 3D-morphomics achieves an AUC of 0.906 and the 3D-morphomics+radiomics achieves an AUC of 0.958, which ranks second in the challenge among deep models. It establishes the curvature distributions as efficient features for predicting lung nodule malignancy and a new method that can be applied directly to arbitrary computer aided diagnosis task.
翻訳日:2022-07-29 13:04:30 公開日:2022-07-27
# SoundChoice:セマンティックな曖昧さを伴うGrapheme-to-Phonemeモデル

SoundChoice: Grapheme-to-Phoneme Models with Semantic Disambiguation ( http://arxiv.org/abs/2207.13703v1 )

ライセンス: Link先を確認
Artem Ploujnikov, Mirco Ravanelli(参考訳) エンドツーエンドの音声合成モデルは、入力文字を直接音声表現に変換する(例えば、分光図)。 印象的な性能にもかかわらず、同じ綴りの単語の発音を曖昧にすることは困難である。 この問題を緩和するために、音声を合成する前に文字を音素に変換するために別のGrapheme-to-Phoneme(G2P)モデルを用いることができる。 本稿では,単語レベルでではなく文全体を処理できる新しいg2pアーキテクチャであるsoundchoiceを提案する。 提案アーキテクチャは、重み付けされたホモグラフ損失(曖昧さを改善する)を活用し、カリキュラム学習(単語レベルから文レベルG2Pに徐々に切り替える)を活用し、BERTからの単語埋め込みを統合する(さらなる性能向上)。 さらに,接続型時空間分類(ctc)によるマルチタスク学習や,組み込み言語モデルを用いたビーム探索など,音声認識のベストプラクティスを継承する。 その結果、SoundChoiceはLibriSpeechとWikipediaのデータを用いて全文の書き起こしにおいて2.65%のPhoneme Error Rate(PER)を達成した。 Index Terms grapheme-to-phoneme, speech synthesis, text-tospeech, phonetics, pronunciation, disambiguation。

End-to-end speech synthesis models directly convert the input characters into an audio representation (e.g., spectrograms). Despite their impressive performance, such models have difficulty disambiguating the pronunciations of identically spelled words. To mitigate this issue, a separate Grapheme-to-Phoneme (G2P) model can be employed to convert the characters into phonemes before synthesizing the audio. This paper proposes SoundChoice, a novel G2P architecture that processes entire sentences rather than operating at the word level. The proposed architecture takes advantage of a weighted homograph loss (that improves disambiguation), exploits curriculum learning (that gradually switches from word-level to sentence-level G2P), and integrates word embeddings from BERT (for further performance improvement). Moreover, the model inherits the best practices in speech recognition, including multi-task learning with Connectionist Temporal Classification (CTC) and beam search with an embedded language model. As a result, SoundChoice achieves a Phoneme Error Rate (PER) of 2.65% on whole-sentence transcription using data from LibriSpeech and Wikipedia. Index Terms grapheme-to-phoneme, speech synthesis, text-tospeech, phonetics, pronunciation, disambiguation.
翻訳日:2022-07-29 13:02:56 公開日:2022-07-27
# 不確実性を考慮した連続制御のための分布的アクター-クリティックアンサンブル

Distributional Actor-Critic Ensemble for Uncertainty-Aware Continuous Control ( http://arxiv.org/abs/2207.13730v1 )

ライセンス: Link先を確認
Takuya Kanazawa, Haiyan Wang, Chetan Gupta(参考訳) 不確かさの定量化は、現実世界のアプリケーションにおける機械学習の中心的な課題の1つだ。 強化学習では、エージェントは認識的不確実性とアレエータ的不確実性と呼ばれる2種類の不確実性に直面する。 これらの不確実性の解消と評価は、エージェントの最終性能の向上、トレーニングの促進、デプロイメント後の品質保証の促進の機会でもある。 本研究では,ddpg(deep deterministic policy gradient algorithm)を拡張した連続制御タスクのための不確実性対応強化学習アルゴリズムを提案する。 認識的不確実性を利用して探索を加速し、原因的不確実性を利用してリスクに敏感な政策を学ぶ。 我々は,ロボット制御と電力グリッド最適化のベンチマークタスクにおいて,我々のDDPGの変形が不確実性評価を伴わずにバニラDDPGより優れていることを示す数値実験を行った。

Uncertainty quantification is one of the central challenges for machine learning in real-world applications. In reinforcement learning, an agent confronts two kinds of uncertainty, called epistemic uncertainty and aleatoric uncertainty. Disentangling and evaluating these uncertainties simultaneously stands a chance of improving the agent's final performance, accelerating training, and facilitating quality assurance after deployment. In this work, we propose an uncertainty-aware reinforcement learning algorithm for continuous control tasks that extends the Deep Deterministic Policy Gradient algorithm (DDPG). It exploits epistemic uncertainty to accelerate exploration and aleatoric uncertainty to learn a risk-sensitive policy. We conduct numerical experiments showing that our variant of DDPG outperforms vanilla DDPG without uncertainty estimation in benchmark tasks on robotic control and power-grid optimization.
翻訳日:2022-07-29 13:02:35 公開日:2022-07-27
# ノードレベルグラフニューラルネットワークに対するラベル専用メンバーシップ推論攻撃

Label-Only Membership Inference Attack against Node-Level Graph Neural Networks ( http://arxiv.org/abs/2207.13766v1 )

ライセンス: Link先を確認
Mauro Conti, Jiaxin Li, Stjepan Picek, and Jing Xu(参考訳) 畳み込みニューラルネットワーク(CNN)にインスパイアされたグラフニューラルネットワーク(GNN)は、ノードの隣人のメッセージと構造情報を集約し、ノード分類、グラフ分類、リンク予測のためのノードの表現表現を取得する。 これまでの研究では、GNNは、GNNのトレーニングデータに含まれるノードかどうかを推測し、患者の病歴のようなノードの個人情報を漏洩するメンバーシップ推論攻撃(MIA)に弱いことが示されている。 以前のmiasの実装はモデルの確率出力を利用しており、gnnが入力の予測ラベル(ラベルのみ)しか提供しない場合、実現不可能である。 本稿では,gnnsのフレキシブルな予測機構,例えば,隣接ノードの情報が利用できない場合にも1ノードの予測ラベルを取得することで,ノード分類におけるgnnsに対するラベルのみのmiaを提案する。 攻撃手法は,ほとんどのデータセットやGNNモデルに対して,約60 %の精度,精度,AUC(Area Under the Curve)を実現している。 さらに, サンプリング手法, モデル選択手法, オーバーフィッティングレベルが, ラベルのみのMIAの攻撃性能に与える影響を解析した。 これらの要因はいずれも攻撃性能に影響を及ぼす。 次に、敵の追加データセット(シャドウデータセット)に関する仮定と、ターゲットモデルに関する追加情報が緩和されるシナリオを検討する。 これらのシナリオでさえ、ラベルのみのMIAは、ほとんどのケースでより良い攻撃性能を達成する。 最後に,ドロップアウト,正規化,正規化,跳躍知識などの防衛効果について検討する。 この4つの防御は 攻撃を完全に防げない

Graph Neural Networks (GNNs), inspired by Convolutional Neural Networks (CNNs), aggregate the message of nodes' neighbors and structure information to acquire expressive representations of nodes for node classification, graph classification, and link prediction. Previous studies have indicated that GNNs are vulnerable to Membership Inference Attacks (MIAs), which infer whether a node is in the training data of GNNs and leak the node's private information, like the patient's disease history. The implementation of previous MIAs takes advantage of the models' probability output, which is infeasible if GNNs only provide the prediction label (label-only) for the input. In this paper, we propose a label-only MIA against GNNs for node classification with the help of GNNs' flexible prediction mechanism, e.g., obtaining the prediction label of one node even when neighbors' information is unavailable. Our attacking method achieves around 60\% accuracy, precision, and Area Under the Curve (AUC) for most datasets and GNN models, some of which are competitive or even better than state-of-the-art probability-based MIAs implemented under our environment and settings. Additionally, we analyze the influence of the sampling method, model selection approach, and overfitting level on the attack performance of our label-only MIA. Both of those factors have an impact on the attack performance. Then, we consider scenarios where assumptions about the adversary's additional dataset (shadow dataset) and extra information about the target model are relaxed. Even in those scenarios, our label-only MIA achieves a better attack performance in most cases. Finally, we explore the effectiveness of possible defenses, including Dropout, Regularization, Normalization, and Jumping knowledge. None of those four defenses prevent our attack completely.
翻訳日:2022-07-29 12:58:17 公開日:2022-07-27
# Calibrate:確率的モデル出力のインタラクティブ分析

Calibrate: Interactive Analysis of Probabilistic Model Output ( http://arxiv.org/abs/2207.13770v1 )

ライセンス: Link先を確認
Peter Xenopoulos, Joao Rulff, Luis Gustavo Nonato, Brian Barr, Claudio Silva(参考訳) 分類モデルのパフォーマンス分析は、機械学習の実践者にとって重要なタスクである。 専門家は、精度などの混乱行列から導かれるカウントベースのメトリクスを使用することが多いが、天気予報、スポーツの賭け、患者リスク予測といった多くの応用は、予測されたラベルよりも分類者の予測確率に依存する。 これらの例では、実践者は校正されたモデル、すなわち真の分布を反映した確率を出力することに関心がある。 モデルキャリブレーションはしばしば、静的な信頼性図を通して視覚的に分析されるが、従来のキャリブレーションの可視化は、それが必要とする強い集約のために様々な欠点を被る可能性がある。 さらに、カウントベースアプローチでは、モデルのキャリブレーションを十分に分析できない。 上記の問題に対処するインタラクティブな信頼性図であるcalibrateを提案する。 calibrateは従来のアプローチの欠点に耐性のある信頼性図を構築し、対話型サブグループ分析とインスタンスレベルの検査を可能にする。 実世界のデータと合成データの両方のユースケースを通じて、Calibrateの実用性を実証する。 さらに,モデルキャリブレーションを日常的に分析するデータサイエンティストに対して,シンクアルード実験の結果を提示することにより,キャリブレートの検証を行う。

Analyzing classification model performance is a crucial task for machine learning practitioners. While practitioners often use count-based metrics derived from confusion matrices, like accuracy, many applications, such as weather prediction, sports betting, or patient risk prediction, rely on a classifier's predicted probabilities rather than predicted labels. In these instances, practitioners are concerned with producing a calibrated model, that is, one which outputs probabilities that reflect those of the true distribution. Model calibration is often analyzed visually, through static reliability diagrams, however, the traditional calibration visualization may suffer from a variety of drawbacks due to the strong aggregations it necessitates. Furthermore, count-based approaches are unable to sufficiently analyze model calibration. We present Calibrate, an interactive reliability diagram that addresses the aforementioned issues. Calibrate constructs a reliability diagram that is resistant to drawbacks in traditional approaches, and allows for interactive subgroup analysis and instance-level inspection. We demonstrate the utility of Calibrate through use cases on both real-world and synthetic data. We further validate Calibrate by presenting the results of a think-aloud experiment with data scientists who routinely analyze model calibration.
翻訳日:2022-07-29 12:57:48 公開日:2022-07-27
# 深層強化学習を用いたネットワークスライスの多目的プロビジョニング

Multi-Objective Provisioning of Network Slices using Deep Reinforcement Learning ( http://arxiv.org/abs/2207.13821v1 )

ライセンス: Link先を確認
Chien-Cheng Wu, Vasilis Friderikos1, Cedomir Stefanovic(参考訳) ネットワークスライシング(NS)は,次世代ネットワークにおける分散ネットワークアプリケーションを効率的に実現するために重要である。 それでも、複雑なqos(quality of service)要件とネットワークサービスの多様性は、ネットワークスライスプロビジョニング(network slice provisioning, nsp)最適化のための高い計算時間を必要とする。 レガシー最適化手法は、ネットワークアプリケーションの低レイテンシと高信頼性を満たすことが困難である。 この目的のために、リアルタイムNSPをオンラインネットワークスライスプロビジョニング(ONSP)問題としてモデル化する。 具体的には、ONSP問題をMOIPO(Multi-Objective Integer Programming Optimization)問題として定式化する。 次に,交通需要予測に近位政策最適化(ppo)手法を適用することで,moipo問題の解を近似する。 提案手法の有効性をsla違反率とネットワーク運用コストの低下を伴う最先端moipoソルバと比較し,提案手法の有効性を示した。

Network Slicing (NS) is crucial for efficiently enabling divergent network applications in next generation networks. Nonetheless, the complex Quality of Service (QoS) requirements and diverse heterogeneity in network services entails high computational time for Network Slice Provisioning (NSP) optimization. The legacy optimization methods are challenging to meet the low latency and high reliability of network applications. To this end, we model the real-time NSP as an Online Network Slice Provisioning (ONSP) problem. Specifically, we formulate the ONSP problem as an online Multi-Objective Integer Programming Optimization (MOIPO) problem. Then, we approximate the solution of the MOIPO problem by applying the Proximal Policy Optimization (PPO) method to the traffic demand prediction. Our simulation results show the effectiveness of the proposed method compared to the state-of-the-art MOIPO solvers with a lower SLA violation rate and network operation cost.
翻訳日:2022-07-29 12:57:28 公開日:2022-07-27
# AIはサイバーソードやシールドを作る: 技術的進歩の数学的モデル

Will AI Make Cyber Swords or Shields: A few mathematical models of technological progress ( http://arxiv.org/abs/2207.13825v1 )

ライセンス: Link先を確認
Andrew J Lohn and Krystal Alex Jackson(参考訳) 我々は,フィッシング,脆弱性発見,パッチとエクスプロイトのダイナミクスを考慮し,サイバーセキュリティの技術的進歩に関する政策討論の数学的モデルの価値を実証することを目的とする。 次に、それらの数学的モデルに入力を調整し、基礎となる技術のいくつかの進歩に対応する。 aiのフィッシングへの影響は過大評価されるかもしれないが、より多くの攻撃が検出されない可能性がある。 脆弱性発見の進歩は、攻撃者をディフェンダー以上に支援する可能性を秘めている。 エクスプロイトを書く自動化は、パッチを書く自動化よりも攻撃者にとって役に立つが、パッチを素早くデプロイするための進歩は、どちらよりも影響が大きい可能性がある。

We aim to demonstrate the value of mathematical models for policy debates about technological progress in cybersecurity by considering phishing, vulnerability discovery, and the dynamics between patching and exploitation. We then adjust the inputs to those mathematical models to match some possible advances in their underlying technology. We find that AI's impact on phishing may be overestimated but could lead to more attacks going undetected. Advances in vulnerability discovery have the potential to help attackers more than defenders. And automation that writes exploits is more useful to attackers than automation that writes patches, although advances that help deploy patches faster have the potential to be more impactful than either.
翻訳日:2022-07-29 12:49:52 公開日:2022-07-27
# 分子特性予測のためのグラフニューラルネットワークの物理プール機能

Physical Pooling Functions in Graph Neural Networks for Molecular Property Prediction ( http://arxiv.org/abs/2207.13779v1 )

ライセンス: Link先を確認
Artur M. Schweidtmann, Jan G. Rittig, Jana M. Weber, Martin Grohe, Manuel Dahmen, Kai Leonhard, Alexander Mitsos(参考訳) グラフニューラルネットワーク(GNN)は、分子グラフに基づく物理化学的特性のエンドツーエンド学習のための化学工学において出現している。 GNNの鍵となる要素は、原子の特徴ベクトルを分子指紋に結合するプール機能である。 以前の作品の多くは、様々な特性を予測するために標準的なプーリング関数を使っている。 しかし、不適なプーリング関数は、非物理学的なGNNの一般化に繋がる可能性がある。 学習特性に関する物理的知識に基づいて,意味のあるGNNプーリング手法を比較し,選択する。 物理プーリング関数の影響は、量子力学的計算から計算された分子特性で示される。 また、その結果を最近のset2setプール手法と比較する。 分子サイズに依存する特性の予測に和プーリングを用いることを推奨し、分子サイズに依存しない特性に対してプール関数を比較する。 総じて,物理プーリング関数の使用は一般化を著しく促進することを示した。

Graph neural networks (GNNs) are emerging in chemical engineering for the end-to-end learning of physicochemical properties based on molecular graphs. A key element of GNNs is the pooling function which combines atom feature vectors into molecular fingerprints. Most previous works use a standard pooling function to predict a variety of properties. However, unsuitable pooling functions can lead to unphysical GNNs that poorly generalize. We compare and select meaningful GNN pooling methods based on physical knowledge about the learned properties. The impact of physical pooling functions is demonstrated with molecular properties calculated from quantum mechanical computations. We also compare our results to the recent set2set pooling approach. We recommend using sum pooling for the prediction of properties that depend on molecular size and compare pooling functions for properties that are molecular size-independent. Overall, we show that the use of physical pooling functions significantly enhances generalization.
翻訳日:2022-07-29 12:40:06 公開日:2022-07-27
# 自己教師付きメタラーニングによる睡眠スコアの一般化に向けて

Towards Sleep Scoring Generalization Through Self-Supervised Meta-Learning ( http://arxiv.org/abs/2207.13801v1 )

ライセンス: Link先を確認
Abdelhak Lemkhenter and Paolo Favaro(参考訳) 本研究では,自己指導型学習に基づく睡眠スコアリングのためのメタラーニング手法を提案する。 本手法は,様々な患者や記録施設にまたがる睡眠スコアのモデルを構築することを目的としているが,対象データへのさらなる適応ステップは必要としない。 この目標に向けて,自己教師付き学習(SSL)段階を取り入れて,モデルに依存しないメタラーニング(MAML)フレームワーク上にメソッドを構築し,それをS2MAMLと呼ぶ。 我々は,S2MAMLがMAMLを著しく上回ることを示す。 パフォーマンスの向上はsslステージから来ており、トレーニングデータセットに存在する主題固有のパターンへのオーバーフィットを制限する汎用擬似タスクをベースとしています。 SC, ST, ISRUC, UCD, CAPデータセット上で, S2MAMLが標準教師あり学習およびMAMLより優れていることを示す。

In this work we introduce a novel meta-learning method for sleep scoring based on self-supervised learning. Our approach aims at building models for sleep scoring that can generalize across different patients and recording facilities, but do not require a further adaptation step to the target data. Towards this goal, we build our method on top of the Model Agnostic Meta-Learning (MAML) framework by incorporating a self-supervised learning (SSL) stage, and call it S2MAML. We show that S2MAML can significantly outperform MAML. The gain in performance comes from the SSL stage, which we base on a general purpose pseudo-task that limits the overfitting to the subject-specific patterns present in the training dataset. We show that S2MAML outperforms standard supervised learning and MAML on the SC, ST, ISRUC, UCD and CAP datasets.
翻訳日:2022-07-29 12:39:54 公開日:2022-07-27
# 強化学習における構造的類似性の改善

Structural Similarity for Improved Transfer in Reinforcement Learning ( http://arxiv.org/abs/2207.13813v1 )

ライセンス: Link先を確認
C. Chace Ashcraft, Benjamin Stoler, Chigozie Ewulum, Susama Agarwala(参考訳) トランスファーラーニングは、パフォーマンスRLエージェントの開発において、ますます一般的なアプローチである。 しかし、ソースとターゲットタスクの関係を定義する方法や、この関係が転送の成功にどのように貢献するかはよく理解されていない。 2つのMDPSのための構造的類似性(SS2)と呼ばれるアルゴリズムを提案し、従来開発された2つの有限MDPの状態の類似度を計算し、距離メートル法の特性を満たすことを示す。 次に,GridWorldナビゲーションタスクを用いた実験結果から,従来の実装よりもQラーニングエージェントの転送性能を向上させるために,距離測定が有効であることを示す。

Transfer learning is an increasingly common approach for developing performant RL agents. However, it is not well understood how to define the relationship between the source and target tasks, and how this relationship contributes to successful transfer. We present an algorithm called Structural Similarity for Two MDPS, or SS2, that calculates a state similarity measure for states in two finite MDPs based on previously developed bisimulation metrics, and show that the measure satisfies properties of a distance metric. Then, through empirical results with GridWorld navigation tasks, we provide evidence that the distance measure can be used to improve transfer performance for Q-Learning agents over previous implementations.
翻訳日:2022-07-29 12:39:41 公開日:2022-07-27
# 隣接フレームを見てみよう: オフライントレーニングなしでのビデオ異常検出

Look at Adjacent Frames: Video Anomaly Detection without Offline Training ( http://arxiv.org/abs/2207.13798v1 )

ライセンス: Link先を確認
Yuqi Ouyang, Guodong Shen, Victor Sanchez(参考訳) オフラインでモデルのトレーニングを行うことなく,ビデオ中の異常なイベントを検出するソリューションを提案する。 具体的には、ランダムに初期化された多層パーセプトロンをベースとし、その周波数情報から映像フレームの画素単位の再構成に最適化した。 隣接フレーム間の情報シフトに基づいて、各フレームを観察した後、多層パーセプトロンのパラメータを更新するためにインクリメンタル学習器を使用し、ビデオストリームに沿って異常なイベントを検出する。 オフラインのトレーニングを必要としない従来のソリューションは、わずかなフレームでしか動作しないビデオに限られる。 私たちのソリューションはこの制限を破り、ベンチマークデータセットで強力なパフォーマンスを実現します。

We propose a solution to detect anomalous events in videos without the need to train a model offline. Specifically, our solution is based on a randomly-initialized multilayer perceptron that is optimized online to reconstruct video frames, pixel-by-pixel, from their frequency information. Based on the information shifts between adjacent frames, an incremental learner is used to update parameters of the multilayer perceptron after observing each frame, thus allowing to detect anomalous events along the video stream. Traditional solutions that require no offline training are limited to operating on videos with only a few abnormal frames. Our solution breaks this limit and achieves strong performance on benchmark datasets.
翻訳日:2022-07-29 12:30:40 公開日:2022-07-27
# Pose-NDF:ニューラル距離場を用いた人間のPose Manifoldのモデル化

Pose-NDF: Modeling Human Pose Manifolds with Neural Distance Fields ( http://arxiv.org/abs/2207.13807v1 )

ライセンス: Link先を確認
Garvita Tiwari, Dimitrije Antic, Jan Eric Lenssen, Nikolaos Sarafianos, Tony Tung, Gerard Pons-Moll(参考訳) 本稿では,ニューラル距離場(NDF)に基づく可塑性人間のポーズの連続モデルであるPose-NDFを提案する。 ポーズや動きの先行は、現実的な新しいポーズを生成し、ノイズや部分的な観察から正確なポーズを再構築するために重要である。 Pose-NDF は、ニューラルネットワークの暗黙関数のゼロレベル集合として可塑性ポーズの多様体を学習し、3次元の暗黙曲面を高次元領域 SO(3)^K にモデル化するというアイデアを拡張し、人間のポーズはK四元数で表される単一のデータポイントで定義される。 結果として得られる高次元暗黙関数は入力ポーズに関して微分することができ、従って三次元超球上の勾配降下を用いて多様体上の任意のポーズを投影することができる。 ポーズ空間をガウス分布に変換する従来のVAEベースの人間のポーズ先行よりも、実際のポーズ多様体をモデル化し、ポーズ間の距離を保存する。 本研究では,実世界の人間のモカプデータのノイズ化,オクルードデータからのポーズ回復,画像からの3次元ポーズ再構成など,さまざまな下流タスクにおいて,posadndfが従来の最先端手法に先行することを示す。 さらに,VAE法よりもランダムサンプリングやプロジェクションにより,より多様なポーズを生成することができることを示す。

We present Pose-NDF, a continuous model for plausible human poses based on neural distance fields (NDFs). Pose or motion priors are important for generating realistic new poses and for reconstructing accurate poses from noisy or partial observations. Pose-NDF learns a manifold of plausible poses as the zero level set of a neural implicit function, extending the idea of modeling implicit surfaces in 3D to the high-dimensional domain SO(3)^K, where a human pose is defined by a single data point, represented by K quaternions. The resulting high-dimensional implicit function can be differentiated with respect to the input poses and thus can be used to project arbitrary poses onto the manifold by using gradient descent on the set of 3-dimensional hyperspheres. In contrast to previous VAE-based human pose priors, which transform the pose space into a Gaussian distribution, we model the actual pose manifold, preserving the distances between poses. We demonstrate that PoseNDF outperforms existing state-of-the-art methods as a prior in various downstream tasks, ranging from denoising real-world human mocap data, pose recovery from occluded data to 3D pose reconstruction from images. Furthermore, we show that it can be used to generate more diverse poses by random sampling and projection than VAE-based methods.
翻訳日:2022-07-29 12:30:27 公開日:2022-07-27
# Leaf Clinical Trials Corpus: 臨床治験適格基準に基づくクエリ生成のための新しいリソース

The Leaf Clinical Trials Corpus: a new resource for query generation from clinical trial eligibility criteria ( http://arxiv.org/abs/2207.13757v1 )

ライセンス: Link先を確認
Nicholas J Dobbins, Tony Mullen, Ozlem Uzuner, Meliha Yetisgen(参考訳) 医療条件, 処置, 薬物使用などの適格基準に基づいて患者のコホートを同定することは, 臨床治験における採用に不可欠である。 このような基準はしばしば、臨床医や研究者に慣れ親しんだ言語を用いて、自由テキストで記述される。 潜在的な参加者を大規模に特定するためには、これらの基準をまず臨床データベース上のクエリに翻訳する必要がある。 自然言語処理(NLP)手法はデータベースクエリに変換する潜在的な手段を提供する。 しかし、まず臨床治験基準を十分に詳細に捉えたコーパスを用いて、訓練と評価をしなければならない。 本稿では,多種多様な生体医学現象を捉えた高粒度構造ラベルを用いて,1000以上の治験適性基準記述の人間注釈コーパスであるleaf clinical trial (lct) corpusを提案する。 スキーマ、アノテーションプロセス、コーパスの品質、統計の詳細を提供します。 さらに,このコーパスのベースライン情報抽出結果を将来の研究のベンチマークとして提示する。

Identifying cohorts of patients based on eligibility criteria such as medical conditions, procedures, and medication use is critical to recruitment for clinical trials. Such criteria are often most naturally described in free-text, using language familiar to clinicians and researchers. In order to identify potential participants at scale, these criteria must first be translated into queries on clinical databases, which can be labor-intensive and error-prone. Natural language processing (NLP) methods offer a potential means of such conversion into database queries automatically. However they must first be trained and evaluated using corpora which capture clinical trials criteria in sufficient detail. In this paper, we introduce the Leaf Clinical Trials (LCT) corpus, a human-annotated corpus of over 1,000 clinical trial eligibility criteria descriptions using highly granular structured labels capturing a range of biomedical phenomena. We provide details of our schema, annotation process, corpus quality, and statistics. Additionally, we present baseline information extraction results on this corpus as benchmarks for future work.
翻訳日:2022-07-29 12:23:58 公開日:2022-07-27
# CompText: テキストコーパスの可視化、比較、理解

CompText: Visualizing, Comparing & Understanding Text Corpus ( http://arxiv.org/abs/2207.13771v1 )

ライセンス: Link先を確認
Suvi Varshney and Divjeet Singh Jas(参考訳) 自然言語処理(nlp)における一般的な実践は、文献全体を読み通さずにテキストコーパスを視覚化し、中心となる考えや要点を把握させることである。 長い間、研究者はテキストからトピックを抽出し、コーパスにおける相対的な重要性に基づいて視覚化することに重点を置いてきた。 しかし最近、研究者たちは、コーパスのトピックを公開するだけでなく、そのトピックと密接に関連する言葉をユーザに全体像を与える、より複雑なシステムを考案し始めた。 これらの詳細な可視化は、その可視化に基づいてテキストコーパスを比較する研究を生み出した。 トピックはしばしばコーパスの違いを理想化するために比較される。 しかし、異なるコーパスからより大きな意味を捉えるために、研究者はテキストに関連する話題の感情に基づいてテキストを比較し始めた。 最も重みを持つ単語を比較することで、コーパスの重要なトピックについてアイデアを得ることができます。 感情よりもトピックを比較できる既存のテキスト比較方法が複数存在するが、感情を伝達する単語に注目する方が、この2つのコーパスを比較する方がよいと感じている。 感情だけがテキストの実際の感覚を説明することができるので、感情のない話題は名詞にすぎない。 2つのコーパスに現れるすべての単語を比較するのではなく、感情に焦点を当ててコーパスを区別することを目指している。 この背景にある理屈は、両コーパスが左右比較で同じ単語を多く持たないため、感情語の比較によって、コーパスが読者の感情にどのように訴えているかがわかるということである。 トピックのエントロピーや予期しない点や相違点も重要であり、相対的な感情とともにコーパスにおける重要なピボットポイントと特定のトピックの重要性を特定するのに役立ちます。

A common practice in Natural Language Processing (NLP) is to visualize the text corpus without reading through the entire literature, still grasping the central idea and key points described. For a long time, researchers focused on extracting topics from the text and visualizing them based on their relative significance in the corpus. However, recently, researchers started coming up with more complex systems that not only expose the topics of the corpus but also word closely related to the topic to give users a holistic view. These detailed visualizations spawned research on comparing text corpora based on their visualization. Topics are often compared to idealize the difference between corpora. However, to capture greater semantics from different corpora, researchers have started to compare texts based on the sentiment of the topics related to the text. Comparing the words carrying the most weightage, we can get an idea about the important topics for corpus. There are multiple existing texts comparing methods present that compare topics rather than sentiments but we feel that focusing on sentiment-carrying words would better compare the two corpora. Since only sentiments can explain the real feeling of the text and not just the topic, topics without sentiments are just nouns. We aim to differentiate the corpus with a focus on sentiment, as opposed to comparing all the words appearing in the two corpora. The rationale behind this is, that the two corpora do not many have identical words for side-by-side comparison, so comparing the sentiment words gives us an idea of how the corpora are appealing to the emotions of the reader. We can argue that the entropy or the unexpectedness and divergence of topics should also be of importance and help us to identify key pivot points and the importance of certain topics in the corpus alongside relative sentiment.
翻訳日:2022-07-29 12:23:38 公開日:2022-07-27
# 没入型3dシーン生成のためのニューラルアーキテクトgaudi

GAUDI: A Neural Architect for Immersive 3D Scene Generation ( http://arxiv.org/abs/2207.13751v1 )

ライセンス: Link先を確認
Miguel Angel Bautista, Pengsheng Guo, Samira Abnar, Walter Talbott, Alexander Toshev, Zhuoyuan Chen, Laurent Dinh, Shuangfei Zhai, Hanlin Goh, Daniel Ulbricht, Afshin Dehghan, Josh Susskind(参考訳) 移動カメラから没入的にレンダリングできる複雑でリアルな3dシーンの分布を捉えることができる生成モデルであるgaudiを紹介する。 スケーラブルで強力なアプローチでこの問題に対処し、まず、ラディアンスフィールドとカメラのポーズをアンタングルする潜在表現を最適化します。 この潜在表現は、3dシーンの無条件および条件生成を可能にする生成モデルを学ぶために使われる。 本モデルでは,カメラのポーズ分布をサンプル間で共有できるという仮定を取り除き,単一オブジェクトにフォーカスする以前の作業を一般化する。 複数のデータセットにまたがる無条件生成環境において,ガウディは最先端のパフォーマンスを得ることができ,スパース画像観察やシーンを記述したテキストなどの条件付き変数が与えられた3dシーンを条件付き生成できる。

We introduce GAUDI, a generative model capable of capturing the distribution of complex and realistic 3D scenes that can be rendered immersively from a moving camera. We tackle this challenging problem with a scalable yet powerful approach, where we first optimize a latent representation that disentangles radiance fields and camera poses. This latent representation is then used to learn a generative model that enables both unconditional and conditional generation of 3D scenes. Our model generalizes previous works that focus on single objects by removing the assumption that the camera pose distribution can be shared across samples. We show that GAUDI obtains state-of-the-art performance in the unconditional generative setting across multiple datasets and allows for conditional generation of 3D scenes given conditioning variables like sparse image observations or text that describes the scene.
翻訳日:2022-07-29 12:17:13 公開日:2022-07-27
# 超音波による甲状腺結節分類のための深層学習:独立データセットによる検証

Deep Learning for Classification of Thyroid Nodules on Ultrasound: Validation on an Independent Dataset ( http://arxiv.org/abs/2207.13765v1 )

ライセンス: Link先を確認
Jingxi Weng, Benjamin Wildman-Tobriner, Mateusz Buda, Jichen Yang, Lisa M. Ho, Brian C. Allen, Wendy L. Ehieli, Chad M. Miller, Jikai Zhang and Maciej A. Mazurowski(参考訳) 目的:新しい甲状腺結節超音波画像データセットに以前に検証されたディープラーニングアルゴリズムを適用し、その性能を放射線科医と比較すること。 方法: 先行研究は, 甲状腺結節を検出し, 2つの超音波画像を用いて悪性度分類を行うアルゴリズムを提示した。 マルチタスク深部畳み込みニューラルネットワークは1278ノジュールから訓練され、元々99個のノジュールで試験された。 結果は放射線科医と同等であった。 このアルゴリズムは、異なるメーカーや製品タイプから超音波装置で撮影された378個の結節でさらにテストされた。 4名の放射線科医に, 深層学習と比較して結節の評価を依頼した。 結果: 深層学習アルゴリズムの曲線下領域 (auc) と4人の放射線科医をパラメトリック・バイノーマル推定により算出した。 ディープラーニングアルゴリズムでは、AUCは0.70(95% CI: 0.640.75)であった。 AUC は 0.66 (95% CI: 0.61 - 0.71), 0.67 (95% CI: 0.0.62 - 0.73), 0.68 (95% CI: 0.63 - 0.73), 0.66 (95% CI: 0.61 - 0.71) である。 結論: 新たなテストデータセットでは、ディープラーニングアルゴリズムが4人の放射線科医すべてで同様のパフォーマンスを達成した。

Objectives: The purpose is to apply a previously validated deep learning algorithm to a new thyroid nodule ultrasound image dataset and compare its performances with radiologists. Methods: Prior study presented an algorithm which is able to detect thyroid nodules and then make malignancy classifications with two ultrasound images. A multi-task deep convolutional neural network was trained from 1278 nodules and originally tested with 99 separate nodules. The results were comparable with that of radiologists. The algorithm was further tested with 378 nodules imaged with ultrasound machines from different manufacturers and product types than the training cases. Four experienced radiologists were requested to evaluate the nodules for comparison with deep learning. Results: The Area Under Curve (AUC) of the deep learning algorithm and four radiologists were calculated with parametric, binormal estimation. For the deep learning algorithm, the AUC was 0.70 (95% CI: 0.64 - 0.75). The AUC of radiologists were 0.66 (95% CI: 0.61 - 0.71), 0.67 (95% CI:0.62 - 0.73), 0.68 (95% CI: 0.63 - 0.73), and 0.66 (95%CI: 0.61 - 0.71). Conclusion: In the new testing dataset, the deep learning algorithm achieved similar performances with all four radiologists.
翻訳日:2022-07-29 12:16:56 公開日:2022-07-27
# 危険環境における共同避難計画のための映画からの危険度評価の学習

Learning to Assess Danger from Movies for Cooperative Escape Planning in Hazardous Environments ( http://arxiv.org/abs/2207.13791v1 )

ライセンス: Link先を確認
Vikram Shree, Sarah Allen, Beatriz Asfora, Jacopo Banfi, Mark Campbell(参考訳) ロボットの認識とナビゲーションを改善するための作業は数多く行われているが、火災や地震などの危険な環境での利用はまだ初期段階にある。 まず、トレーニングとテストのために必要となる、現実世界でそのようなシナリオを再現することは困難です。 第二に、現在のシステムは、このような危険な環境で利用可能な豊富なマルチモーダルデータを十分に活用できない。 最初の課題に対処するために,映画やテレビ番組の形で利用可能な膨大な量の視覚コンテンツを活用し,現実世界で遭遇する危険環境を表現できるデータセットを開発することを提案する。 リアルな災害画像のハイレベルな危険評価を付したアノテートを行い、シーンの内容を要約する対応するキーワードを提供する。 第2の課題に応えて,協調ロボットの脱出シナリオに対するマルチモーダル危険度推定パイプラインを提案する。 ベイジアンフレームワークは,ロボットのカメラセンサからの情報と人間からの言語入力を融合することにより,危険推定を改善する。 さらに,危険な環境からの安全な経路の特定を支援するリスク対応プランナにより,推定モジュールを補強する。 広範なシミュレーションを通じて,人間とロボットの協調ミッションにおいて,高い成功率などの具体的な利益に変換されるマルチモーダル知覚フレームワークの利点を示す。

There has been a plethora of work towards improving robot perception and navigation, yet their application in hazardous environments, like during a fire or an earthquake, is still at a nascent stage. We hypothesize two key challenges here: first, it is difficult to replicate such scenarios in the real world, which is necessary for training and testing purposes. Second, current systems are not fully able to take advantage of the rich multi-modal data available in such hazardous environments. To address the first challenge, we propose to harness the enormous amount of visual content available in the form of movies and TV shows, and develop a dataset that can represent hazardous environments encountered in the real world. The data is annotated with high-level danger ratings for realistic disaster images, and corresponding keywords are provided that summarize the content of the scene. In response to the second challenge, we propose a multi-modal danger estimation pipeline for collaborative human-robot escape scenarios. Our Bayesian framework improves danger estimation by fusing information from robot's camera sensor and language inputs from the human. Furthermore, we augment the estimation module with a risk-aware planner that helps in identifying safer paths out of the dangerous environment. Through extensive simulations, we exhibit the advantages of our multi-modal perception framework that gets translated into tangible benefits such as higher success rate in a collaborative human-robot mission.
翻訳日:2022-07-29 12:16:35 公開日:2022-07-27
# テキストによる塗料の照明(イン)一貫性

Lighting (In)consistency of Paint by Text ( http://arxiv.org/abs/2207.13744v1 )

ライセンス: Link先を確認
Hany Farid(参考訳) 生成的な敵ネットワークは、顔、猫、風景、またはほぼすべての単一のカテゴリの非常に現実的なイメージを合成することができるが、ペイント・バイ・テキスト合成エンジンは、単一のテキストプロンプトから、任意の構成と組み合わせで、無限のカテゴリの現実的なイメージを合成することができる。 この強力な技術は、photo-forensicコミュニティに新たな課題をもたらす。 テキストによるペンキは明示的な幾何学的・物理的モデルに基づいていないことや、人間の視覚システムの照明の不整合に対する一般的な無感に動機づけられ、dall-e-2合成画像の照明一貫性を初期調査し、この新しい種類の合成メディアの検出に物理学に基づく分析が実りあるかどうかを判断する。

Whereas generative adversarial networks are capable of synthesizing highly realistic images of faces, cats, landscapes, or almost any other single category, paint-by-text synthesis engines can -- from a single text prompt -- synthesize realistic images of seemingly endless categories with arbitrary configurations and combinations. This powerful technology poses new challenges to the photo-forensic community. Motivated by the fact that paint by text is not based on explicit geometric or physical models, and the human visual system's general insensitivity to lighting inconsistencies, we provide an initial exploration of the lighting consistency of DALL-E-2 synthesized images to determine if physics-based forensic analyses will prove fruitful in detecting this new breed of synthetic media.
翻訳日:2022-07-29 12:12:14 公開日:2022-07-27
# AvatarPoser:スパースモーションセンシングによるフルボディポーズ追跡

AvatarPoser: Articulated Full-Body Pose Tracking from Sparse Motion Sensing ( http://arxiv.org/abs/2207.13784v1 )

ライセンス: Link先を確認
Jiaxi Jiang, Paul Streli, Huajian Qiu, Andreas Fender, Larissa Laich, Patrick Snape, Christian Holz(参考訳) 今日のMixed Realityヘッドマウントディスプレイは、Augmented RealityとVirtual Realityの両方のシナリオで対話するためのユーザの手だけでなく、世界のユーザの頭ポーズを追跡する。 これはユーザー入力をサポートするのに適しているが、残念ながらユーザーの仮想表現を上半身だけに制限する。 そのため、現在のシステムは、特に協調的な環境での制限が顕著である浮体アバターに頼っている。 スパース入力源から全身のポーズを推定するために、以前の研究では骨盤または下肢にトラッカーとセンサーが組み込まれており、セットアップの複雑さが増大し、モバイル環境における実用的な応用が制限された。 本稿では,ユーザの頭と手から入力された動作のみを用いて,世界座標における全身ポーズを予測する最初の学習ベース手法であるavatarposerを提案する。 提案手法はトランスフォーマーエンコーダを用いて入力信号から深い特徴を抽出し,学習した局所的な関節方向からグローバルな動きを分離し,ポーズ推定をガイドする。 モーションキャプチャーアニメーションに類似した正確な全体動作を得るために,逆運動学を用いた最適化ルーチンを用いて腕関節の位置を改良し,元のトラッキング入力と一致させる。 本評価では,大規模モーションキャプチャデータセット (amass) の評価において,新たな最先端結果を得た。 同時に,提案手法の推論速度はリアルタイム操作をサポートし,メタバースアプリケーションの全体的アバター制御と表現をサポートする実用的なインタフェースを提供する。

Today's Mixed Reality head-mounted displays track the user's head pose in world space as well as the user's hands for interaction in both Augmented Reality and Virtual Reality scenarios. While this is adequate to support user input, it unfortunately limits users' virtual representations to just their upper bodies. Current systems thus resort to floating avatars, whose limitation is particularly evident in collaborative settings. To estimate full-body poses from the sparse input sources, prior work has incorporated additional trackers and sensors at the pelvis or lower body, which increases setup complexity and limits practical application in mobile settings. In this paper, we present AvatarPoser, the first learning-based method that predicts full-body poses in world coordinates using only motion input from the user's head and hands. Our method builds on a Transformer encoder to extract deep features from the input signals and decouples global motion from the learned local joint orientations to guide pose estimation. To obtain accurate full-body motions that resemble motion capture animations, we refine the arm joints' positions using an optimization routine with inverse kinematics to match the original tracking input. In our evaluation, AvatarPoser achieved new state-of-the-art results in evaluations on large motion capture datasets (AMASS). At the same time, our method's inference speed supports real-time operation, providing a practical interface to support holistic avatar control and representation for Metaverse applications.
翻訳日:2022-07-29 12:11:57 公開日:2022-07-27
# Memristor-based Spiking Neural Networksにおけるテキスト分類

Text Classification in Memristor-based Spiking Neural Networks ( http://arxiv.org/abs/2207.13729v1 )

ライセンス: Link先を確認
Jinqi Huang, Alex Serb, Spyros Stathopoulos, Themis Prodromakis(参考訳) 非揮発性メモリデバイスであるMemristorは、特にスパイキングニューラルネットワーク(SNN)ハードウェア実装において、ニューロモルフィックハードウェア設計において有望な可能性を示している。 memristorベースのsnsは、画像分類やパターン認識など、幅広い応用にうまく適用されている。 しかし、テキスト分類におけるmemristorベースのSNNの実装はまだ検討中である。 テキスト分類のための memristor ベースの snn のトレーニングは、効率的な学習ルールや memristor の非理想性が欠如しているため、コストがかかる。 これらの問題に対処し,テキスト分類アプリケーションにおけるmemristorベースのスパイクニューラルネットワークの研究を加速するために,経験的memristorモデルを用いた仮想memristorアレイを用いたシミュレーションフレームワークを開発した。 本フレームワークを用いて,IMDB映画レビューデータセットの感情分析タスクを実演する。 memristorモデルを用いた訓練されたスパイクニューラルネットワークを得るための2つのアプローチを取り入れた。 1) トレーニング済みの人工ニューラルネットワーク(ANN)をmemristorベースのSNNに変換する、あるいは 2)mmristorベースのSNNを直接トレーニングする。 これら2つのアプローチは、オフライン分類とオンライントレーニングの2つのシナリオに適用できる。 トレーニング済みのANNをmmristorベースのSNNに変換し,84.86%をmemristorベースのSNNを直接トレーニングすることで,85.88%の分類精度を実現した。 annからsnsへのシミュレーション、および非memristive synapsesからデータ駆動型memristive synapsesへのシミュレーションにおいて、同様の分類精度を達成することができると結論づけた。 また, スパイクトレイン長, リードノイズ, および重み更新停止条件などの大域的パラメータが, どちらのアプローチにおいてもニューラルネットワークに与える影響についても検討した。

Memristors, emerging non-volatile memory devices, have shown promising potential in neuromorphic hardware designs, especially in spiking neural network (SNN) hardware implementation. Memristor-based SNNs have been successfully applied in a wide range of various applications, including image classification and pattern recognition. However, implementing memristor-based SNNs in text classification is still under exploration. One of the main reasons is that training memristor-based SNNs for text classification is costly due to the lack of efficient learning rules and memristor non-idealities. To address these issues and accelerate the research of exploring memristor-based spiking neural networks in text classification applications, we develop a simulation framework with a virtual memristor array using an empirical memristor model. We use this framework to demonstrate a sentiment analysis task in the IMDB movie reviews dataset. We take two approaches to obtain trained spiking neural networks with memristor models: 1) by converting a pre-trained artificial neural network (ANN) to a memristor-based SNN, or 2) by training a memristor-based SNN directly. These two approaches can be applied in two scenarios: offline classification and online training. We achieve the classification accuracy of 85.88% by converting a pre-trained ANN to a memristor-based SNN and 84.86% by training the memristor-based SNN directly, given that the baseline training accuracy of the equivalent ANN is 86.02%. We conclude that it is possible to achieve similar classification accuracy in simulation from ANNs to SNNs and from non-memristive synapses to data-driven memristive synapses. We also investigate how global parameters such as spike train length, the read noise, and the weight updating stop conditions affect the neural networks in both approaches.
翻訳日:2022-07-29 12:11:33 公開日:2022-07-27
# ホークス過程の微分的プライベート学習

Differentially Private Learning of Hawkes Processes ( http://arxiv.org/abs/2207.13741v1 )

ライセンス: Link先を確認
Mohsen Ghassemi, Eleonora Krea\v{c}i\'c, Niccol\`o Dalmasso, Vamsi K. Potluru, Tucker Balch, Manuela Veloso(参考訳) hawkesプロセスは最近、イベントシーケンスデータのモデリングにおける汎用性について、機械学習コミュニティから注目を集めている。 数十年前に遡る豊富な歴史があるが、パラメータを学習し、異なるプライベートバージョンをリリースするためのサンプルの複雑さなど、その特性の一部は、まだ完全には分析されていない。 本研究では,背景強度$\mu$と励起関数$\alpha e^{-\beta t}$を有する標準ホークス過程について検討する。 プライバシのコストを定量化するために、非プライベートと差分プライベートの両方に$\mu$と$\alpha$を与え、両方の設定でサンプル複雑さの結果を得る。 本解析は,弱依存確率変数に対するホークス過程の強い混合特性と古典的中心極限定理結果を利用する。 我々は合成データと実データの両方について理論的知見を検証する。

Hawkes processes have recently gained increasing attention from the machine learning community for their versatility in modeling event sequence data. While they have a rich history going back decades, some of their properties, such as sample complexity for learning the parameters and releasing differentially private versions, are yet to be thoroughly analyzed. In this work, we study standard Hawkes processes with background intensity $\mu$ and excitation function $\alpha e^{-\beta t}$. We provide both non-private and differentially private estimators of $\mu$ and $\alpha$, and obtain sample complexity results in both settings to quantify the cost of privacy. Our analysis exploits the strong mixing property of Hawkes processes and classical central limit theorem results for weakly dependent random variables. We validate our theoretical findings on both synthetic and real datasets.
翻訳日:2022-07-29 12:05:01 公開日:2022-07-27
# 変圧器を用いた3次元メッシュ復元のためのアンタングルモードの交差注意

Cross-Attention of Disentangled Modalities for 3D Human Mesh Recovery with Transformers ( http://arxiv.org/abs/2207.13820v1 )

ライセンス: Link先を確認
Junhyeong Cho, Kim Youwang, Tae-Hyun Oh(参考訳) トランスフォーマーエンコーダアーキテクチャは、最近、モノラルな3Dメッシュ再構成における最先端の結果を得たが、かなりの数のパラメータと高価な計算が必要である。 メモリのオーバーヘッドが大きく、推論速度が遅いため、そのようなモデルを実用的に展開することは困難である。 本稿では,FastMETROと呼ばれる単一画像からの3次元メッシュ再構成のためのトランスフォーマー・デコーダアーキテクチャを提案する。 入力トークン間の高複雑性な相互作用を導入するトークン設計によって生じるエンコーダベースのトランスフォーマーの性能ボトルネックを同定する。 私たちは、エンコーダ-デコーダアーキテクチャを介してインタラクションを分離し、モデルがはるかに少ないパラメータと短い推論時間を要求できるようにします。 さらに,アテンションマスキングとメッシュアップサンプリング操作により,人体の形態的関係の事前知識を課し,より高精度な収束を実現する。 我々のFastMETROは精度と効率のPareto-frontを改善し、Human3.6Mと3DPWで画像ベースの手法より明らかに優れている。 さらに,FreiHANDにおける一般化可能性を検証する。

Transformer encoder architectures have recently achieved state-of-the-art results on monocular 3D human mesh reconstruction, but they require a substantial number of parameters and expensive computations. Due to the large memory overhead and slow inference speed, it is difficult to deploy such models for practical use. In this paper, we propose a novel transformer encoder-decoder architecture for 3D human mesh reconstruction from a single image, called FastMETRO. We identify the performance bottleneck in the encoder-based transformers is caused by the token design which introduces high complexity interactions among input tokens. We disentangle the interactions via an encoder-decoder architecture, which allows our model to demand much fewer parameters and shorter inference time. In addition, we impose the prior knowledge of human body's morphological relationship via attention masking and mesh upsampling operations, which leads to faster convergence with higher accuracy. Our FastMETRO improves the Pareto-front of accuracy and efficiency, and clearly outperforms image-based methods on Human3.6M and 3DPW. Furthermore, we validate its generalizability on FreiHAND.
翻訳日:2022-07-29 12:00:05 公開日:2022-07-27
# Break and Make: LEGO Bricksを使ったインタラクティブな構造理解

Break and Make: Interactive Structural Understanding Using LEGO Bricks ( http://arxiv.org/abs/2207.13738v1 )

ライセンス: Link先を確認
Aaron Walsman, Muru Zhang, Klemen Kotar, Karthik Desingh, Ali Farhadi, Dieter Fox(参考訳) 複雑な空間関係を持つ幾何学構造の視覚的理解は、人間の知性の基本的構成要素である。 子ども時代は、観察だけでなく、周りの世界と対話することで、構造を理屈する方法を学んでいる。 構造と構成性について推論する能力は、ものを構築するだけでなく、複雑なシステムを理解しリバースエンジニアリングすることもできます。 部分的幾何学的理解のための対話的推論の研究を進めるために,私たちがBreak and Makeと呼ぶレゴブロックを用いた新しい組立問題を提案する。 この問題において、エージェントはLEGOモデルを与え、対話的な検査と分解によってその構造を理解しようとする。 この検査期間の後、エージェントは低レベルのアクションプリミティブを使用してモデルをスクラッチから再構築し、その理解を証明する必要がある。 この問題を解決するために私たちは,LEGOモデルの組み立て,分解,操作が可能な,完全にインタラクティブな3DシミュレータLTRONを開発した。 このシミュレーターと、ファンが作ったレゴ作品の新しいデータセットを組み合わせることで、1000以上のユニークなレンガの形をした複雑なシーンをインターネットにアップロードします。 課題の解決に向けて第一歩を踏み出し,課題の解決方法に関するガイダンスを提供するシーケンシャル・ツー・シーケンス・モデルを用いた。 シミュレータとデータはgithub.com/aaronwalsman/ltronで利用可能です。 追加のトレーニングコードとpytorchサンプルはgithub.com/aaronwalsman/ltron-torch-eccv22で入手できる。

Visual understanding of geometric structures with complex spatial relationships is a fundamental component of human intelligence. As children, we learn how to reason about structure not only from observation, but also by interacting with the world around us -- by taking things apart and putting them back together again. The ability to reason about structure and compositionality allows us to not only build things, but also understand and reverse-engineer complex systems. In order to advance research in interactive reasoning for part-based geometric understanding, we propose a challenging new assembly problem using LEGO bricks that we call Break and Make. In this problem an agent is given a LEGO model and attempts to understand its structure by interactively inspecting and disassembling it. After this inspection period, the agent must then prove its understanding by rebuilding the model from scratch using low-level action primitives. In order to facilitate research on this problem we have built LTRON, a fully interactive 3D simulator that allows learning agents to assemble, disassemble and manipulate LEGO models. We pair this simulator with a new dataset of fan-made LEGO creations that have been uploaded to the internet in order to provide complex scenes containing over a thousand unique brick shapes. We take a first step towards solving this problem using sequence-to-sequence models that provide guidance for how to make progress on this challenging problem. Our simulator and data are available at github.com/aaronwalsman/ltron. Additional training code and PyTorch examples are available at github.com/aaronwalsman/ltron-torch-eccv22.
翻訳日:2022-07-29 11:57:37 公開日:2022-07-27
# 弱い監督のための学習ラベルアグリゲーション

Learned Label Aggregation for Weak Supervision ( http://arxiv.org/abs/2207.13545v1 )

ライセンス: Link先を確認
Renzhi Wu, Shen-En Chen, Xu Chu(参考訳) ラベル付きトレーニングデータの欠如は、多くのアプリケーションにおける機械学習のボトルネックである。 ボトルネックを解決するためには、異なる弱い監督信号のソースを集約してラベル付きデータを容易に生成するデータプログラミングアプローチが有望な方向だ。 データプログラミングは、ノイズラベルを予測するユーザが提供するプログラムであるラベル付け関数(LF)で、各弱い監督ソースを符号化する。 生成されたラベルの品質は、すべてのlfからノイズの多いラベルを集約し、接地ラベルを推測するラベル集約モデルに依存する。 既存のラベルアグリゲーションメソッドは一般的に様々な仮定に依存しており、データセット間では堅牢ではない。 我々はまず,最小の仮定を仮定し,平均予測誤差の特定の形式を最小化する解析ラベル集約手法を初めて提案する。 分析フォームの複雑さは指数関数的であるため、分析方法として学習するモデルを訓練する。 トレーニングが完了すると、モデルは見えないデータセットに使用され、モデルは1回のフォワードパスで、各データセットの基底ラベルを線形時間で予測する。 合成されたデータを用いてモデルをトレーニングし、モデルに効果的なアーキテクチャを設計できることを示す。 実世界の14のデータセットにおいて、我々のモデルは、精度(平均3.5ポイント)と効率(平均6倍)の両方において、最も優れた既存手法を著しく上回っている。

The lack of labeled training data is the bottleneck of machine learning in many applications. To resolve the bottleneck, one promising direction is the data programming approach that aggregates different sources of weak supervision signals to generate labeled data easily. Data programming encodes each weak supervision source with a labeling function (LF), a user-provided program that predicts noisy labels. The quality of the generated labels depends on a label aggregation model that aggregates all noisy labels from all LFs to infer the ground-truth labels. Existing label aggregation methods typically rely on various assumptions and are not robust across datasets, as we will show empirically. We for the first time provide an analytical label aggregation method that makes minimum assumption and is optimal in minimizing a certain form of the averaged prediction error. Since the complexity of the analytical form is exponential, we train a model that learns to be the analytical method. Once trained, the model can be used for any unseen datasets and the model predicts the ground-truth labels for each dataset in a single forward pass in linear time. We show the model can be trained using synthetically generated data and design an effective architecture for the model. On 14 real-world datasets, our model significantly outperforms the best existing methods in both accuracy (by 3.5 points on average) and efficiency (by six times on average).
翻訳日:2022-07-28 14:11:06 公開日:2022-07-27
# 機械学習における公正性とランダム性:統計的独立性と相対性

Fairness and Randomness in Machine Learning: Statistical Independence and Relativization ( http://arxiv.org/abs/2207.13596v1 )

ライセンス: Link先を確認
Rabanus Derr and Robert C. Williamson(参考訳) 公正な機械学習は、社会に埋め込まれた機械学習アプリケーションという文脈で生じる不公平さを防ぐための努力である。 公正性の様々な定義と「公正アルゴリズム」の提案にもかかわらず、公正性に関する未解決概念問題が存在する。 本稿では,機械学習において,ランダム性と公平性は等価な概念と考えることができると論じる。 統計的独立性として表現される確率性の相対論的概念は、フォン・ミセスの1世紀前の基礎に確率をアピールすることで得られる。 統計的独立性として表現される機械学習における公平性の概念は、データに関するアンテランダム性仮定と、公正な予測のための事前の要件をリンクする。 ランダム性と公正性は本質的に相対的であり、ランダム性は機械学習におけるモデリングの前提としてその性質を反映すべきである、と我々は論じる。

Fair Machine Learning endeavors to prevent unfairness arising in the context of machine learning applications embedded in society. Despite the variety of definitions of fairness and proposed "fair algorithms", there remain unresolved conceptual problems regarding fairness. In this paper, we argue that randomness and fairness can be considered equivalent concepts in machine learning. We obtain a relativized notion of randomness expressed as statistical independence by appealing to Von Mises' century-old foundations for probability. Via fairness notions in machine learning, which are expressed as statistical independence as well, we then link the ante randomness assumptions about the data to the ex post requirements for fair predictions. This connection proves fruitful: we use it to argue that randomness and fairness are essentially relative and that randomness should reflect its nature as a modeling assumption in machine learning.
翻訳日:2022-07-28 14:10:43 公開日:2022-07-27
# 量子回路は一般化されるか?

Do Quantum Circuit Born Machines Generalize? ( http://arxiv.org/abs/2207.13645v1 )

ライセンス: Link先を確認
Kaitlin Gili, Mohamed Hibat-Allah, Marta Mauri, Chris Ballance, Alejandro Perdomo-Ortiz(参考訳) 近年、生成タスクのための量子回路モデルの提案において、それらの性能に関する議論は、既知のターゲット分布を再現する能力に限られている。 例えば、QCBM(Quantum Circuit Born Machines)のような表現型モデルファミリは、与えられたターゲット分布を高精度に学習する能力について、ほぼ完全に評価されている。 この側面はいくつかのタスクには理想的かもしれないが、ジェネレーティブモデルの評価の範囲を一般化するよりもデータを記憶する能力に制限する。 その結果、モデルの一般化性能とそのような能力とリソース要件との関係、例えば回路深さとトレーニングデータの量についてはほとんど理解されていない。 本研究では,最近提案された一般化評価フレームワークを活用し,この知識ギャップに対処する。 まず,QCBMの濃度制約分布の学習過程を調査し,回路深度を増大させながら一般化性能が向上することを示した。 ここで示した12量子ビットの例では、有効パターンの30%をトレーニングセットとして、qcbmは、目に見えない有効パターンを生成するための最良の一般化性能を示す。 最後に,QCBMが有意な特徴だけでなく,適切なバイアス分布に応じて分布する高品質なビットストリングにも応用できることを示す。 QCBMは、このバイアスを効果的に学習し、トレーニングセットよりも高品質の未確認サンプルを生成することができる。 我々の知る限り、これはQCBMの一般化性能を量子生成モデルの積分評価指標として示し、QCBMが高品質で望まれる新しいサンプルに一般化する能力を示す文献の中では初めてのものである。

In recent proposals of quantum circuit models for generative tasks, the discussion about their performance has been limited to their ability to reproduce a known target distribution. For example, expressive model families such as Quantum Circuit Born Machines (QCBMs) have been almost entirely evaluated on their capability to learn a given target distribution with high accuracy. While this aspect may be ideal for some tasks, it limits the scope of a generative model's assessment to its ability to memorize data rather than generalize. As a result, there has been little understanding of a model's generalization performance and the relation between such capability and the resource requirements, e.g., the circuit depth and the amount of training data. In this work, we leverage upon a recently proposed generalization evaluation framework to begin addressing this knowledge gap. We first investigate the QCBM's learning process of a cardinality-constrained distribution and see an increase in generalization performance while increasing the circuit depth. In the 12-qubit example presented here, we observe that with as few as 30% of the valid patterns as the training set, the QCBM exhibits the best generalization performance toward generating unseen and valid patterns. Lastly, we assess the QCBM's ability to generalize not only to valid features, but to high-quality bitstrings distributed according to an adequately biased distribution. We see that the QCBM is able to effectively learn the bias and generate unseen samples with higher quality than those in the training set. To the best of our knowledge, this is the first work in the literature that presents the QCBM's generalization performance as an integral evaluation metric for quantum generative models, and demonstrates the QCBM's ability to generalize to high-quality, desired novel samples.
翻訳日:2022-07-28 14:10:28 公開日:2022-07-27
# 能動話者検出のためのエンド・ツー・エンド音声特徴融合

End-To-End Audiovisual Feature Fusion for Active Speaker Detection ( http://arxiv.org/abs/2207.13434v1 )

ライセンス: Link先を確認
Fiseha B. Tesema, Zheyuan Lin, Shiqiang Zhu, Wei Song, Jason Gu, Hong Wu(参考訳) アクティブスピーカー検出は人間と機械の相互作用において重要な役割を果たす。 最近、いくつかのエンドツーエンドのオーディオヴィジュアルフレームワークが登場した。 しかし、これらのモデルの推論時間は探索されず、その複雑さと大きな入力サイズのためにリアルタイムアプリケーションには適用できない。 さらに、オーディオおよび視覚入力にConvNetを使用する類似の機能抽出戦略についても検討した。 本研究は,VGG-Mによる画像から抽出した特徴と,音声波形から抽出したMel周波数Cepstrum係数を併用した新たな2ストリームエンドツーエンドフレームワークを提案する。 ネットワークは、各ストリームに2つのBiGRUレイヤをアタッチして、融合前に各ストリームの時間的ダイナミクスを処理する。 融合後、1つのBiGRU層が結合時間力学をモデル化するために取り付けられる。 AVA-ActiveSpeakerデータセットによる実験結果から,新しい特徴抽出戦略は,両モードでConvNetを使用したモデルよりもノイズ信号に対する堅牢性が高く,推論時間も優れていることが示された。 提案したモデルは44.41ミリ秒以内で予測され、リアルタイムアプリケーションには十分高速である。 我々の最高の性能モデルは88.929%の精度を達成した。

Active speaker detection plays a vital role in human-machine interaction. Recently, a few end-to-end audiovisual frameworks emerged. However, these models' inference time was not explored and are not applicable for real-time applications due to their complexity and large input size. In addition, they explored a similar feature extraction strategy that employs the ConvNet on audio and visual inputs. This work presents a novel two-stream end-to-end framework fusing features extracted from images via VGG-M with raw Mel Frequency Cepstrum Coefficients features extracted from the audio waveform. The network has two BiGRU layers attached to each stream to handle each stream's temporal dynamic before fusion. After fusion, one BiGRU layer is attached to model the joint temporal dynamics. The experiment result on the AVA-ActiveSpeaker dataset indicates that our new feature extraction strategy shows more robustness to noisy signals and better inference time than models that employed ConvNet on both modalities. The proposed model predicts within 44.41 ms, which is fast enough for real-time applications. Our best-performing model attained 88.929% accuracy, nearly the same detection result as state-of-the-art -work.
翻訳日:2022-07-28 14:10:01 公開日:2022-07-27
# 新型コロナウイルスとデングの相関

Correlations Between COVID-19 and Dengue ( http://arxiv.org/abs/2207.13561v1 )

ライセンス: Link先を確認
Paula Bergero, Laura P. Schaposnik, Grace Wang(参考訳) デングのアウトブレイクの数が劇的に増加したことが最近報告されており、気候変動によってこの病気の地理的広がりが拡大する可能性が高い。 この文脈では、ニューラルネットワークアプローチがデングと新型コロナウイルスのデータと外部要因(社会行動や気候変数など)を組み込んで、私たちの知識を改善し、健康政策立案者に有用なツールを提供する予測モデルを開発する方法について述べる。 本稿では,ソーシャルパラメータと自然パラメータの異なるニューラルネットワークを用いて,covid-19とdengueの症例数に非常に類似した傾向を示す相関モデルを定義する。 次に,両疾患を組み込んだ長期短期記憶モデル(lstm)にモデルを拡張し,デングデータ不足国におけるデングウイルスデータによるデング感染を推定することで,モデルとの関連性を説明する。

A dramatic increase in the number of outbreaks of Dengue has recently been reported, and climate change is likely to extend the geographical spread of the disease. In this context, this paper shows how a neural network approach can incorporate Dengue and COVID-19 data as well as external factors (such as social behaviour or climate variables), to develop predictive models that could improve our knowledge and provide useful tools for health policy makers. Through the use of neural networks with different social and natural parameters, in this paper we define a Correlation Model through which we show that the number of cases of COVID-19 and Dengue have very similar trends. We then illustrate the relevance of our model by extending it to a Long short-term memory model (LSTM) that incorporates both diseases, and using this to estimate Dengue infections via COVID-19 data in countries that lack sufficient Dengue data.
翻訳日:2022-07-28 14:09:19 公開日:2022-07-27
# 円板上の高調波への高速膨張:高速ラジアル畳み込みを伴う制御可能な基底

Fast expansion into harmonics on the disk: a steerable basis with fast radial convolutions ( http://arxiv.org/abs/2207.13674v1 )

ライセンス: Link先を確認
Nicholas F. Marshall, Oscar Mickelin, Amit Singer(参考訳) 円板上の高調波(ディリクレラプラシアン固有関数)における$[-1,1]^2$サポートされた関数を表す数値化された$l \times l$イメージを,高速かつ数値的に拡張する手法を提案する。 我々のメソッドは$\mathcal{O}(L^2 \log L)$演算で実行される。 この基底はフーリエ・ベッセル基底としても知られており、直交的であり、周波数で順序付けられ、基底で拡張された画像は係数に対角変換を適用することで回転することができるという意味での計算上の利点がある。 さらに, 対角変換を係数に適用することにより, 放射関数との畳み込みも効率的に計算できることを示した。

We present a fast and numerically accurate method for expanding digitized $L \times L$ images representing functions on $[-1,1]^2$ supported on the disk $\{x \in \mathbb{R}^2 : |x|<1\}$ in the harmonics (Dirichlet Laplacian eigenfunctions) on the disk. Our method runs in $\mathcal{O}(L^2 \log L)$ operations. This basis is also known as the Fourier-Bessel basis and it has several computational advantages: it is orthogonal, ordered by frequency, and steerable in the sense that images expanded in the basis can be rotated by applying a diagonal transform to the coefficients. Moreover, we show that convolution with radial functions can also be efficiently computed by applying a diagonal transform to the coefficients.
翻訳日:2022-07-28 14:09:01 公開日:2022-07-27
# 相関確率パワーシステムのダイナミクスの進化を学習する

Learning the Evolution of Correlated Stochastic Power System Dynamics ( http://arxiv.org/abs/2207.13310v1 )

ライセンス: Link先を確認
Tyler E. Maltba (1 & 2), Vishwas Rao (1), Daniel Adrian Maldonado (1) ((1) Argonne National Laboratory, (2) UC Berkeley)(参考訳) 時空間的に相関した確率的強制を伴う電力系統力学の不確かさを定量化する機械学習手法を提案する。 実数値の利子の確率密度関数に対する一次元線形偏微分方程式を学習する。 この方法は高次元システムに適しており、次元性の呪いを軽減するのに役立つ。

A machine learning technique is proposed for quantifying uncertainty in power system dynamics with spatiotemporally correlated stochastic forcing. We learn one-dimensional linear partial differential equations for the probability density functions of real-valued quantities of interest. The method is suitable for high-dimensional systems and helps to alleviate the curse of dimensionality.
翻訳日:2022-07-28 14:08:48 公開日:2022-07-27
# 偏見・格差・公平性の因果的基礎

Causal foundations of bias, disparity and fairness ( http://arxiv.org/abs/2207.13665v1 )

ライセンス: Link先を確認
V.A. Traag, L. Waltman(参考訳) 性別や人種的偏見などの偏見の研究は、社会科学や行動科学において重要なトピックである。 しかし、バイアスの概念は必ずしも文献で明確に定義されていない。 バイアスの定義はしばしば曖昧であり、定義は全く提供されない。 偏見を正確に研究するには、偏見の明確な概念を持つことが重要である。 バイアスを不正な直接的な因果効果として定義することを提案する。 偏差という概念をバイアスを含む直接的あるいは間接的な因果効果として定義することを提案する。 提案する定義は,より厳密で体系的な方法でバイアスや格差を研究するために利用できる。 バイアスと格差の定義を、人工知能文献に導入された公平性の定義と比較する。 また,我々の定義を2つのケーススタディで説明し,科学におけるジェンダーバイアスと警察銃撃における人種バイアスに着目した。 提案する定義は,バイアスや格差の研究の因果的複雑さをより良く理解することを目的としている。 これはまた、こうした研究の政策への影響に関する理解を深めることにつながると期待されている。

The study of biases, such as gender or racial biases, is an important topic in the social and behavioural sciences. However, the concept of bias is not always clearly defined in the literature. Definitions of bias are often ambiguous, or definitions are not provided at all. To study biases in a precise way, it is important to have a well-defined concept of bias. We propose to define bias as a direct causal effect that is unjustified. We propose to define the closely related concept of disparity as a direct or indirect causal effect that includes a bias. Our proposed definitions can be used to study biases and disparities in a more rigorous and systematic way. We compare our definitions of bias and disparity with various definitions of fairness introduced in the artificial intelligence literature. We also illustrate our definitions in two case studies, focusing on gender bias in science and racial bias in police shootings. Our proposed definitions aim to contribute to a better appreciation of the causal intricacies of studies of biases and disparities. This will hopefully also lead to an improved understanding of the policy implications of such studies.
翻訳日:2022-07-28 14:06:34 公開日:2022-07-27
# 2次元関数時系列のための等角予測バンド

Conformal Prediction Bands for Two-Dimensional Functional Time Series ( http://arxiv.org/abs/2207.13656v1 )

ライセンス: Link先を確認
Niccol\`o Ajroldi, Jacopo Diquigiovanni, Matteo Fontana, Simone Vantini(参考訳) Conformal Prediction (CP) は、予測問題における不確実性を定量化するために用いられる多用途ノンパラメトリックフレームワークである。 本研究では,二変量領域上で定義された関数の時系列に対して,時間発展曲面に適用可能な分布自由手法を初めて提案することにより,そのような手法の拡張を行う。 有意義で効率的な予測領域を得るためには、cp と正確な予測アルゴリズムを組み合わせる必要がある。そのため、双変量領域を持つ関数を可能にするために、ヒルベルト空間における自己回帰過程の理論を拡張する。 対象の新規性を考慮して,機能的自己回帰モデル(FAR)の評価手法を提案する。 異なる点予測器が結果の予測帯域に与える影響を調べるため,シミュレーション研究を行った。 最後に、提案手法の実際のデータセットに対する利点と限界について検討し、過去20年間に黒海の海面異常を毎日観測した。

Conformal Prediction (CP) is a versatile nonparametric framework used to quantify uncertainty in prediction problems. In this work, we provide an extension of such method to the case of time series of functions defined on a bivariate domain, by proposing for the first time a distribution-free technique which can be applied to time-evolving surfaces. In order to obtain meaningful and efficient prediction regions, CP must be coupled with an accurate forecasting algorithm, for this reason, we extend the theory of autoregressive processes in Hilbert space in order to allow for functions with a bivariate domain. Given the novelty of the subject, we present estimation techniques for the Functional Autoregressive model (FAR). A simulation study is implemented, in order to investigate how different point predictors affect the resulting prediction bands. Finally, we explore benefits and limits of the proposed approach on a real dataset, collecting daily observations of Sea Level Anomalies of the Black Sea in the last twenty years.
翻訳日:2022-07-28 14:06:19 公開日:2022-07-27
# 一分間のモバイルアプリ利用」からユーザ情報を抽出できる

Information We Can Extract About a User From 'One Minute Mobile Application Usage' ( http://arxiv.org/abs/2207.13222v1 )

ライセンス: Link先を確認
Sarwan Ali(参考訳) 人間の行動を理解することは重要なタスクであり、ターゲット広告、健康分析、セキュリティ、エンタテイメントなど多くの分野に応用されている。 この目的のために,活動認識システム(AR)の設計が重要である。 しかし、人間はみな異なる行動をとることができるため、共通パターンの理解と分析は難しい課題となる。 スマートフォンは現代社会のすべての人間に容易に利用でき、それらを使って人間の活動を追跡することができる。 本稿では,android スマートフォンの加速度センサ,磁力計,ジャイロスコープセンサを用いて,android モバイルアプリケーションの構築により,さまざまな動作を抽出した。 facebook、instagram、whatsapp、twitterといった異なるソーシャルメディアアプリケーションを使用して、29ドルのサブジェクトの属性と年齢、性別、左/右/両手のアプリケーション利用といった属性(クラスラベル)とともに、生のセンサー値を取り出しました。 生信号から特徴を抽出し、異なる機械学習(ML)アルゴリズムを用いて分類を行う。 統計的分析を用いて,クラスラベルの予測における異なる特徴の重要性を示す。 最終的に、トレーニングされたMLモデルを使用して、UCIリポジトリからよく知られたアクティビティ認識データから未知の特徴を抽出し、MLモデルを使用したプライバシー侵害の可能性を強調します。 このセキュリティ分析は、将来の研究者が人間のプライバシーを守るための適切な手順を取るのに役立つかもしれない。

Understanding human behavior is an important task and has applications in many domains such as targeted advertisement, health analytics, security, and entertainment, etc. For this purpose, designing a system for activity recognition (AR) is important. However, since every human can have different behaviors, understanding and analyzing common patterns become a challenging task. Since smartphones are easily available to every human being in the modern world, using them to track the human activities becomes possible. In this paper, we extracted different human activities using accelerometer, magnetometer, and gyroscope sensors of android smartphones by building an android mobile applications. Using different social media applications, such as Facebook, Instagram, Whatsapp, and Twitter, we extracted the raw sensor values along with the attributes of $29$ subjects along with their attributes (class labels) such as age, gender, and left/right/both hands application usage. We extract features from the raw signals and use them to perform classification using different machine learning (ML) algorithms. Using statistical analysis, we show the importance of different features towards the prediction of class labels. In the end, we use the trained ML model on our data to extract unknown features from a well known activity recognition data from UCI repository, which highlights the potential of privacy breach using ML models. This security analysis could help researchers in future to take appropriate steps to preserve the privacy of human subjects.
翻訳日:2022-07-28 14:05:14 公開日:2022-07-27
# xadlime:臨床誘導プロトタイプ学習によるアルツハイマー病度マップ推定

XADLiME: eXplainable Alzheimer's Disease Likelihood Map Estimation via Clinically-guided Prototype Learning ( http://arxiv.org/abs/2207.13223v1 )

ライセンス: Link先を確認
Ahmad Wisnu Mulyadi, Wonsik Jung, Kwanseok Oh, Jee Seok Yoon, Heung-Il Suk(参考訳) アルツハイマー病 (ad) の診断には、微妙で段階的な進行を伴う不可逆性の生来的特徴による意図的な診断プロセスが伴う。 これらの特徴により、ADバイオマーカーは構造的脳画像(例えば、構造的MRI)からの同定は非常に困難である。 さらに、正常な老化と絡み合う可能性も高い。 本稿では,eXplainable AD Likelihood Map Estimation (XADLiME) による3次元sMRI上のAD進行予測のための新しい深層学習手法を提案する。 具体的には、ADスペクトル多様体を探索し、潜在臨床特徴のクラスタ上に位相認識型プロトタイプのセットを確立する。 次に潜在臨床像と確立されたプロトタイプの類似度を測定し, "pseudo" 度マップを推定した。 この擬似マップを豊富な参照として考慮し,3次元sMRIスキャン上でのAD確率マップの推定に推定ネットワークを用いる。 さらに, 臨床と形態学の2つの視点から理解可能な概観を明らかにすることで, このような可能性マップの説明可能性を促進する。 推定された推定推定マップは、下流タスクを効果的に実行し、詳細な説明可能な状態を提供しながら、未知のsMRIスキャンの代わりに機能する。

Diagnosing Alzheimer's disease (AD) involves a deliberate diagnostic process owing to its innate traits of irreversibility with subtle and gradual progression. These characteristics make AD biomarker identification from structural brain imaging (e.g., structural MRI) scans quite challenging. Furthermore, there is a high possibility of getting entangled with normal aging. We propose a novel deep-learning approach through eXplainable AD Likelihood Map Estimation (XADLiME) for AD progression modeling over 3D sMRIs using clinically-guided prototype learning. Specifically, we establish a set of topologically-aware prototypes onto the clusters of latent clinical features, uncovering an AD spectrum manifold. We then measure the similarities between latent clinical features and well-established prototypes, estimating a "pseudo" likelihood map. By considering this pseudo map as an enriched reference, we employ an estimating network to estimate the AD likelihood map over a 3D sMRI scan. Additionally, we promote the explainability of such a likelihood map by revealing a comprehensible overview from two perspectives: clinical and morphological. During the inference, this estimated likelihood map served as a substitute over unseen sMRI scans for effectively conducting the downstream task while providing thorough explainable states.
翻訳日:2022-07-28 14:04:50 公開日:2022-07-27
# 構造指紋再構成による原子構造生成

Atomic structure generation from reconstructing structural fingerprints ( http://arxiv.org/abs/2207.13227v1 )

ライセンス: Link先を確認
Victor Fung, Shuyi Jia, Jiaxin Zhang, Sirui Bi, Junqi Yin, P. Ganesh(参考訳) データ駆動機械学習手法は、従来の人間誘導型アプローチよりも、材料設計の速度を劇的に加速する可能性がある。 これらの手法は、生成モデルの場合、特定の機能特性のセットを持つ新しい結晶構造を創り出し、それを合成したり、実験室で単離したりするのに役立つ。 結晶構造生成において、重要なボトルネックは、分子生成に使用されるグラフベースまたはSMILES表現に類似した、機械学習モデルに適した原子構造指紋または表現を開発することである。 しかし、変換、回転、置換に不変なデータ効率の表現を見つける一方で、カルテシアン原子座標に逆らうことは、現在も進行中の課題である。 本稿では,既存の非可逆表現を所望の不変量で取り上げ,自動微分を用いた勾配最適化により原子座標を再構成するアルゴリズムを開発することで,この問題に対する代替手法を提案する。 これは、データ非効率なデカルト空間ではなく、表現空間内で新しい材料を生成する生成的機械学習モデルと結合することができる。 本研究では,atom中心の対称性関数を表現として,条件付き変分オートエンコーダを生成モデルとして,このエンドツーエンド構造生成手法を実装した。 我々は、概念実証として、サブナノメーターPtナノ粒子の新規で有効な原子構造を生成することに成功した。 さらに、この手法は任意の適切な構造表現に容易に拡張することができ、構造ベース生成に向けた強力な一般化可能なフレームワークを提供する。

Data-driven machine learning methods have the potential to dramatically accelerate the rate of materials design over conventional human-guided approaches. These methods would help identify or, in the case of generative models, even create novel crystal structures of materials with a set of specified functional properties to then be synthesized or isolated in the laboratory. For crystal structure generation, a key bottleneck lies in developing suitable atomic structure fingerprints or representations for the machine learning model, analogous to the graph-based or SMILES representations used in molecular generation. However, finding data-efficient representations that are invariant to translations, rotations, and permutations, while remaining invertible to the Cartesian atomic coordinates remains an ongoing challenge. Here, we propose an alternative approach to this problem by taking existing non-invertible representations with the desired invariances and developing an algorithm to reconstruct the atomic coordinates through gradient-based optimization using automatic differentiation. This can then be coupled to a generative machine learning model which generates new materials within the representation space, rather than in the data-inefficient Cartesian space. In this work, we implement this end-to-end structure generation approach using atom-centered symmetry functions as the representation and conditional variational autoencoders as the generative model. We are able to successfully generate novel and valid atomic structures of sub-nanometer Pt nanoparticles as a proof of concept. Furthermore, this method can be readily extended to any suitable structural representation, thereby providing a powerful, generalizable framework towards structure-based generation.
翻訳日:2022-07-28 14:04:28 公開日:2022-07-27
# ブラックボックス環境における強化学習のための動的シールド

Dynamic Shielding for Reinforcement Learning in Black-Box Environments ( http://arxiv.org/abs/2207.13446v1 )

ライセンス: Link先を確認
Masaki Waga, Ezequiel Castellano, Sasinee Pruekprasert, Stefan Klikovits, Toru Takisaka, and Ichiro Hasuo(参考訳) サイバーフィジカルシステムにおける強化学習(rl)の使用は,学習中の安全性保証の欠如から困難である。 学習中に望ましくない行動を減らすための様々な提案があるが、これらの手法の多くは事前のシステム知識を必要としており、適用性は限られている。 本稿では,事前のシステム知識を必要とせず,学習時の望ましくない行動を減らすことを目的とする。 本稿では,automatta learning を用いたモデルベースsafe rl 手法の拡張である dynamic shielding を提案する。 動的遮蔽法はRPNIアルゴリズムの変種を用いてRLと並列に近似システムモデルを構築し,学習モデルから構築したシールドによる望ましくない探索を抑制する。 この組み合わせにより、エージェントがそれらを経験する前に潜在的に安全でないアクションを予測できる。 実験により、我々のダイナミックシールドはトレーニング中の望ましくない事象の数を著しく減少させることが示された。

It is challenging to use reinforcement learning (RL) in cyber-physical systems due to the lack of safety guarantees during learning. Although there have been various proposals to reduce undesired behaviors during learning, most of these techniques require prior system knowledge, and their applicability is limited. This paper aims to reduce undesired behaviors during learning without requiring any prior system knowledge. We propose dynamic shielding: an extension of a model-based safe RL technique called shielding using automata learning. The dynamic shielding technique constructs an approximate system model in parallel with RL using a variant of the RPNI algorithm and suppresses undesired explorations due to the shield constructed from the learned model. Through this combination, potentially unsafe actions can be foreseen before the agent experiences them. Experiments show that our dynamic shield significantly decreases the number of undesired events during training.
翻訳日:2022-07-28 14:04:07 公開日:2022-07-27
# 逆空中光分断法

Inverse Airborne Optical Sectioning ( http://arxiv.org/abs/2207.13344v1 )

ライセンス: Link先を確認
Rakesh John Amala Arokia Nathan, Indrajit Kurmi and Oliver Bimber(参考訳) Inverse Airborne Optical Sectioning (IAOS) は、ISAR (Inverse Synthetic Aperture Radar) の光学的類似性を示す。 植生に密集した歩行者のような移動標的は、静止した光学センサー(例えば森の上のホバリングカメラドローン)で視認および追跡することができる。 本稿では、IAOS(逆合成開口イメージング)の原理を導入し、画像積分のラドン変換をフィルタリングすることにより、オククローダの信号をさらに抑制し、ターゲットの運動パラメータを手動で自動推定する方法を説明する。 最後に,従来の空中画像における隠蔽対象の追跡は不可能であるが,IAOSによる統合画像では効率よく実現可能であることを示す。

We present Inverse Airborne Optical Sectioning (IAOS) an optical analogy to Inverse Synthetic Aperture Radar (ISAR). Moving targets, such as walking people, that are heavily occluded by vegetation can be made visible and tracked with a stationary optical sensor (e.g., a hovering camera drone above forest). We introduce the principles of IAOS (i.e., inverse synthetic aperture imaging), explain how the signal of occluders can be further suppressed by filtering the Radon transform of the image integral, and present how targets motion parameters can be estimated manually and automatically. Finally, we show that while tracking occluded targets in conventional aerial images is infeasible, it becomes efficiently possible in integral images that result from IAOS.
翻訳日:2022-07-28 14:01:06 公開日:2022-07-27
# イベントカメラとDCNNによる交通信号検出

Traffic Sign Detection With Event Cameras and DCNN ( http://arxiv.org/abs/2207.13345v1 )

ライセンス: Link先を確認
Piotr Wzorek and Tomasz Kryjak(参考訳) 近年では、イベントカメラ(DVS - Dynamic Vision Sensors)が、従来のカメラの代替または補助手段として視覚システムに使われている。 それらは高ダイナミックレンジ、高時間分解能、低レイテンシ、限られた照明条件における信頼性の高い性能で特徴付けられ、特に先進運転支援システム(ADAS)や自動運転車の文脈において重要なパラメータである。 本研究では,これらのセンサが交通標識検出の一般的な課題に適用できるかどうかを検証する。 この目的のために,イベントフレーム,イベント周波数,指数的に減衰する時間面といったイベントデータの異なる表現を分析し,firenetと呼ばれるディープニューラルネットワークを用いたビデオフレーム再構成を適用する。 深層畳み込みニューラルネットワーク YOLOv4 を検出器として使用する。 具体的には、86.9-88.9% map@0.5の範囲で検出精度を得る。 検討された表現の融合を用いることで、89.9% mAP@0.5の精度で検出器を得ることができる。 対照的に、ファイアネットで再構築されたフレームの検出器は72.67% mAP@0.5の精度で特徴付けられる。 その結果,自動車用センサや一般的なフレームベースのカメラとの密接な連携など,自動車用イベントカメラの可能性が示された。

In recent years, event cameras (DVS - Dynamic Vision Sensors) have been used in vision systems as an alternative or supplement to traditional cameras. They are characterised by high dynamic range, high temporal resolution, low latency, and reliable performance in limited lighting conditions -- parameters that are particularly important in the context of advanced driver assistance systems (ADAS) and self-driving cars. In this work, we test whether these rather novel sensors can be applied to the popular task of traffic sign detection. To this end, we analyse different representations of the event data: event frame, event frequency, and the exponentially decaying time surface, and apply video frame reconstruction using a deep neural network called FireNet. We use the deep convolutional neural network YOLOv4 as a detector. For particular representations, we obtain a detection accuracy in the range of 86.9-88.9% mAP@0.5. The use of a fusion of the considered representations allows us to obtain a detector with higher accuracy of 89.9% mAP@0.5. In comparison, the detector for the frames reconstructed with FireNet is characterised by an accuracy of 72.67% mAP@0.5. The results obtained illustrate the potential of event cameras in automotive applications, either as standalone sensors or in close cooperation with typical frame-based cameras.
翻訳日:2022-07-28 14:00:53 公開日:2022-07-27
# ビデオ異常検出のための学習動作正規度

Learning Appearance-motion Normality for Video Anomaly Detection ( http://arxiv.org/abs/2207.13361v1 )

ライセンス: Link先を確認
Yang Liu, Jing Liu, Mengyang Zhao, Dingkang Yang, Xiaoguang Zhu, Liang Song(参考訳) ビデオ異常検出はコンピュータビジョンコミュニティにとって難しい課題である。 単一のタスクベース手法のほとんどは、一意な空間的パターンと時間的パターンの独立性を考慮していないが、2つのストリーム構造は相関の探索を欠いている。 本稿では,出現正規性と運動正規性を独立に学習し,逆学習を通じて相関関係を探索する,空間時間記憶拡張型2ストリームオートエンコーダフレームワークを提案する。 具体的には、まず2ストリーム構造を訓練し、外見と運動の特徴を独立に抽出する2つのプロキシタスクを設計する。 そして、対応する空間記憶プール及び時間記憶プールに原型特徴を記録する。 最後に、符号化復号ネットワークは、識別器との対角学習を行い、空間パターンと時間パターンの相関を探索する。 実験の結果,UCSD Ped2 と CUHK Avenue のデータセット上で AUC の98.1% と89.8% を達成し,最先端の手法よりも優れた性能を示した。

Video anomaly detection is a challenging task in the computer vision community. Most single task-based methods do not consider the independence of unique spatial and temporal patterns, while two-stream structures lack the exploration of the correlations. In this paper, we propose spatial-temporal memories augmented two-stream auto-encoder framework, which learns the appearance normality and motion normality independently and explores the correlations via adversarial learning. Specifically, we first design two proxy tasks to train the two-stream structure to extract appearance and motion features in isolation. Then, the prototypical features are recorded in the corresponding spatial and temporal memory pools. Finally, the encoding-decoding network performs adversarial learning with the discriminator to explore the correlations between spatial and temporal patterns. Experimental results show that our framework outperforms the state-of-the-art methods, achieving AUCs of 98.1% and 89.8% on UCSD Ped2 and CUHK Avenue datasets.
翻訳日:2022-07-28 14:00:35 公開日:2022-07-27
# TransNorm:Deep Segmentation Modelのための強力な空間正規化機構を提供するTransformer

TransNorm: Transformer Provides a Strong Spatial Normalization Mechanism for a Deep Segmentation Model ( http://arxiv.org/abs/2207.13415v1 )

ライセンス: Link先を確認
Reza Azad, Mohammad T. AL-Antary, Moein Heidari, Dorit Merhof(参考訳) 過去数年間、畳み込みニューラルネットワーク(CNN)、特にU-Netは、医用画像処理時代において主流の手法であった。 具体的には、セミナルなU-Netとその代替品は、様々な医療画像のセグメンテーションタスクにうまく対応しました。 しかし、これらのアーキテクチャは、長い範囲の相互作用や空間的依存を示すことができず、様々な形状や構造を持つ医用画像のセグメンテーションに重大なパフォーマンス低下をもたらすため、本質的に不完全である。 シーケンシャル・ツー・シーケンス予測(sequence-to-sequence prediction)の予備案であるトランスフォーマは、自己着脱機構によるグローバル情報を正確にモデル化するサーロゲートアーキテクチャとして出現した。 イメージセグメンテーションのために純粋なトランスフォーマーを使用すると、低レベルの特徴が不十分から生じる限られたローカライゼーション能力が得られる。 したがって、一連の研究はトランスフォーマーベースのu-netのロバストな変種の設計に取り組んでいる。 本稿では、トランスフォーマーモジュールを標準u-netのエンコーダとスキップ接続の両方に結合した新しいディープセグメンテーションフレームワークであるtrans-normを提案する。 我々は,拡張経路と縮小経路の機能融合を支援するため,スキップ接続の迅速設計が正確なセグメント化に不可欠であると主張する。 この観点から,スイッチ接続経路を適応的に再調整する空間正規化機構をTransformerモジュールから導出する。 医用画像分割のための3つの典型的なタスクにわたる広範囲な実験は、TransNormの有効性を示す。 コードとトレーニングされたモデルはhttps://github.com/rezazad68/transnorm.comで公開されている。

In the past few years, convolutional neural networks (CNNs), particularly U-Net, have been the prevailing technique in the medical image processing era. Specifically, the seminal U-Net, as well as its alternatives, have successfully managed to address a wide variety of medical image segmentation tasks. However, these architectures are intrinsically imperfect as they fail to exhibit long-range interactions and spatial dependencies leading to a severe performance drop in the segmentation of medical images with variable shapes and structures. Transformers, preliminary proposed for sequence-to-sequence prediction, have arisen as surrogate architectures to precisely model global information assisted by the self-attention mechanism. Despite being feasibly designed, utilizing a pure Transformer for image segmentation purposes can result in limited localization capacity stemming from inadequate low-level features. Thus, a line of research strives to design robust variants of Transformer-based U-Net. In this paper, we propose Trans-Norm, a novel deep segmentation framework which concomitantly consolidates a Transformer module into both encoder and skip-connections of the standard U-Net. We argue that the expedient design of skip-connections can be crucial for accurate segmentation as it can assist in feature fusion between the expanding and contracting paths. In this respect, we derive a Spatial Normalization mechanism from the Transformer module to adaptively recalibrate the skip connection path. Extensive experiments across three typical tasks for medical image segmentation demonstrate the effectiveness of TransNorm. The codes and trained models are publicly available at https://github.com/rezazad68/transnorm.
翻訳日:2022-07-28 14:00:16 公開日:2022-07-27
# VICTOR:トランスフォーマーによる視覚不整合検出とファッション特化コントラスト事前学習

VICTOR: Visual Incompatibility Detection with Transformers and Fashion-specific contrastive pre-training ( http://arxiv.org/abs/2207.13458v1 )

ライセンス: Link先を確認
Stefanos-Iordanis Papadopoulos, Christos Koutlis, Symeon Papadopoulos, Ioannis Kompatsiaris(参考訳) ファッションの衣装を美観的に心地よいものと考えるためには、それらを構成する衣料品は、スタイル、カテゴリー、色といった視覚面の面で互換性を持たなければならない。 コンピュータビジョン深層学習モデルの出現と全能化に伴い、高品質なファッションファッションレコメンデーションシステムの開発を目的とした視覚的互換性検出の課題への関心が高まっている。 以前の作品では、視覚的互換性は、服のアイテムが完全に互換性があるか、完全に互換性がないと見なされる二項分類タスクとして定義されていた。 しかし、これは、ユーザーが独自の衣装を作成し、どの特定のアイテムが他の服と互換性がないかを知る必要があるOutfit Makerアプリケーションには当てはまらない。 これを解決するために,2つのタスクに最適化されたVisual InCompatibility TransfORmer (VICTOR)を提案する。 1)レグレッションと全体的な互換性 2)ミスマッチ品の検出。 ImageNet-pretrainedモデルからの特徴抽出やエンドツーエンドの微調整に頼っていた従来の研究とは異なり、ファッション特有のコントラスト言語画像事前学習を用いて、ファッションイメージに基づくコンピュータビジョンニューラルネットワークの微調整を行う。 さらに、Polyvore装束ベンチマークを構築し、部分的にミスマッチした衣装を生成し、VICTORのトレーニングに使用されるPolyvore-MISFITと呼ばれる新しいデータセットを作成する。 一連のアブレーションと比較分析により、提案されたアーキテクチャは、現在のPolyvoreデータセットの最先端を越えながら、インスタンス単位の浮動小数点演算を88%削減し、ハイパフォーマンスと効率のバランスを崩すことが示されている。

In order to consider fashion outfits as aesthetically pleasing, the garments that constitute them need to be compatible in terms of visual aspects, such as style, category and color. With the advent and omnipresence of computer vision deep learning models, increased interest has also emerged for the task of visual compatibility detection with the aim to develop quality fashion outfit recommendation systems. Previous works have defined visual compatibility as a binary classification task with items in a garment being considered as fully compatible or fully incompatible. However, this is not applicable to Outfit Maker applications where users create their own outfits and need to know which specific items may be incompatible with the rest of the outfit. To address this, we propose the Visual InCompatibility TransfORmer (VICTOR) that is optimized for two tasks: 1) overall compatibility as regression and 2) the detection of mismatching items. Unlike previous works that either rely on feature extraction from ImageNet-pretrained models or by end-to-end fine tuning, we utilize fashion-specific contrastive language-image pre-training for fine tuning computer vision neural networks on fashion imagery. Moreover, we build upon the Polyvore outfit benchmark to generate partially mismatching outfits, creating a new dataset termed Polyvore-MISFITs, that is used to train VICTOR. A series of ablation and comparative analyses show that the proposed architecture can compete and even surpass the current state-of-the-art on Polyvore datasets while reducing the instance-wise floating operations by 88%, striking a balance between high performance and efficiency.
翻訳日:2022-07-28 13:59:49 公開日:2022-07-27
# 3次元再構築のための標準パイプラインへの学習事前の確率的融合に向けて

Towards the Probabilistic Fusion of Learned Priors into Standard Pipelines for 3D Reconstruction ( http://arxiv.org/abs/2207.13464v1 )

ライセンス: Link先を確認
Tristan Laidlow, Jan Czarnowski, Andrea Nicastro, Ronald Clark, Stefan Leutenegger(参考訳) ディープラーニングの結果と標準的な3dリコンストラクションパイプラインを組み合わせる最良の方法は、まだ未解決の問題である。 従来のマルチビューステレオアプローチの出力を正規化や洗練のためにネットワークに渡すシステムは、現在、最良の結果が得られるように見えるが、深層ニューラルネットワークを、確率的に幾何学ベースのシステムに融合できる独立したコンポーネントとして扱うことが好ましい。 残念ながら、この種の融合に必要なエラーモデルはよく理解されておらず、多くの異なるアプローチが進められている。 近年,ネットワークが単一値ではなく確率分布を予測することで,良好な結果が得られたシステムもいくつかある。 本稿では,学習した単一視点深度を標準的な3次元再構成システムに融合させる手法を提案する。 本システムでは,キーフレームの集合に対する深度マップを漸進的に作成することができる。 ディープニューラルネットワークを訓練し,1つの画像から各画素の深さに対する離散的,非パラメトリックな確率分布を予測する。 次に、後続フレームとキーフレーム画像との測光一貫性に基づいて、この「確率ボリューム」を別の確率ボリュームと融合する。 これら2つの情報源から得られる確率体積を組み合わせると、より条件が良くなる。 ボリュームから深度マップを抽出するために,ネットワーク予測表面正規化と閉塞境界に基づく正規化項を含むコスト関数を最小化する。 一連の実験を通じて,各コンポーネントがシステム全体のパフォーマンスを向上させることを実証した。

The best way to combine the results of deep learning with standard 3D reconstruction pipelines remains an open problem. While systems that pass the output of traditional multi-view stereo approaches to a network for regularisation or refinement currently seem to get the best results, it may be preferable to treat deep neural networks as separate components whose results can be probabilistically fused into geometry-based systems. Unfortunately, the error models required to do this type of fusion are not well understood, with many different approaches being put forward. Recently, a few systems have achieved good results by having their networks predict probability distributions rather than single values. We propose using this approach to fuse a learned single-view depth prior into a standard 3D reconstruction system. Our system is capable of incrementally producing dense depth maps for a set of keyframes. We train a deep neural network to predict discrete, nonparametric probability distributions for the depth of each pixel from a single image. We then fuse this "probability volume" with another probability volume based on the photometric consistency between subsequent frames and the keyframe image. We argue that combining the probability volumes from these two sources will result in a volume that is better conditioned. To extract depth maps from the volume, we minimise a cost function that includes a regularisation term based on network predicted surface normals and occlusion boundaries. Through a series of experiments, we demonstrate that each of these components improves the overall performance of the system.
翻訳日:2022-07-28 13:59:19 公開日:2022-07-27
# AutoTransition:ビデオ遷移効果を推奨する学習

AutoTransition: Learning to Recommend Video Transition Effects ( http://arxiv.org/abs/2207.13479v1 )

ライセンス: Link先を確認
Yaojie Shen, Libo Zhang, Kai Xu, Xiaojie Jin(参考訳) ビデオの遷移効果は、コヒーシブで視覚的に魅力的なビデオを作成するためにショットを繋ぐために、ビデオ編集で広く使われている。 しかし、映画知識やデザインスキルの欠如により、非専門家が最高のトランジションを選択することは困難である。 本稿では,生の映像とコンパニオンオーディオのシーケンスが与えられた場合,隣り合う映像ごとにビデオ遷移を推奨する,vtr(automatic video transitions recommendation)を行うための最重要課題について述べる。 この課題を解決するために,公開ビデオテンプレートを用いた大規模ビデオトランジションデータセットを編集ソフトウェア上で収集する。 次に,vtrを視覚/聴覚から映像遷移へのマルチモーダル検索問題として定式化し,二つの部分からなる新しいマルチモーダルマッチングフレームワークを提案する。 まず,ビデオ遷移分類タスクを通じて映像遷移の埋め込みを学習する。 そこで,視覚・聴覚入力から映像遷移への対応を学習するモデルを提案する。 具体的には,マルチモーダルトランスフォーマを使用して視覚情報と音声情報を融合し,逐次遷移出力におけるコンテキストキューをキャプチャする。 定量的および定性的な実験により,本手法の有効性を明らかにした。 特に包括的ユーザ調査において,本手法はプロの編集者と比較して同等のスコアを得られると同時に,ビデオ編集効率を \textbf{300\scalebox{1.25}{$\times$}} で向上させる。 私たちの研究が、他の研究者にこの新しい課題に取り組むよう促すことを願っています。 データセットとコードは \url{https://github.com/acherstyx/AutoTransition} で公開されている。

Video transition effects are widely used in video editing to connect shots for creating cohesive and visually appealing videos. However, it is challenging for non-professionals to choose best transitions due to the lack of cinematographic knowledge and design skills. In this paper, we present the premier work on performing automatic video transitions recommendation (VTR): given a sequence of raw video shots and companion audio, recommend video transitions for each pair of neighboring shots. To solve this task, we collect a large-scale video transition dataset using publicly available video templates on editing softwares. Then we formulate VTR as a multi-modal retrieval problem from vision/audio to video transitions and propose a novel multi-modal matching framework which consists of two parts. First we learn the embedding of video transitions through a video transition classification task. Then we propose a model to learn the matching correspondence from vision/audio inputs to video transitions. Specifically, the proposed model employs a multi-modal transformer to fuse vision and audio information, as well as capture the context cues in sequential transition outputs. Through both quantitative and qualitative experiments, we clearly demonstrate the effectiveness of our method. Notably, in the comprehensive user study, our method receives comparable scores compared with professional editors while improving the video editing efficiency by \textbf{300\scalebox{1.25}{$\times$}}. We hope our work serves to inspire other researchers to work on this new task. The dataset and codes are public at \url{https://github.com/acherstyx/AutoTransition}.
翻訳日:2022-07-28 13:58:55 公開日:2022-07-27
# マルチスケールコントラスト正規化とマルチジョイント解剖学的前駆体によるスパース小児画像データセットの一般化可能なマルチタスク・マルチドメインディープセグメンテーション

Generalizable multi-task, multi-domain deep segmentation of sparse pediatric imaging datasets via multi-scale contrastive regularization and multi-joint anatomical priors ( http://arxiv.org/abs/2207.13502v1 )

ライセンス: Link先を確認
Arnaud Boutillon, Pierre-Henri Conze, Christelle Pons, Val\'erie Burdin, Bhushan Borotikar(参考訳) 小児筋骨格系の臨床診断は、医用画像検査の分析に依存する。 医用画像処理パイプラインでは、ディープラーニングアルゴリズムを用いた意味セグメンテーションにより、形態学的評価に不可欠な患者固有の3次元解剖モデルの自動生成を可能にする。 しかし、小児画像資源の不足は、個々の深部セグメンテーションモデルの精度と一般化性能を低下させる可能性がある。 本研究では,単一のセグメンテーションネットワークを,解剖学の異なる部分から発生する複数のデータセットの結合に対して最適化する,新しいマルチタスクマルチドメイン学習フレームワークの設計を提案する。 従来のアプローチと異なり,複数の強度領域とセグメンテーションタスクを同時に考慮し,画像データセット間の共有特徴を活用しながら,小児データの本質的不足を克服する。 一般化能力をさらに向上するために,自然画像分類からの転送学習方式と,共有表現におけるドメイン固有クラスタの促進を目的としたマルチスケールのコントラスト正規化と,マルチジョイント解剖学前駆的手法を採用し,解剖学的に一貫した予測を強制する。 足関節, 膝関節, 肩関節の3つの画像データセットを用いて, 骨切り術の貢献度を評価した。 提案手法は,統計的に十分なマージンを持つサイス計量において,個別,転送,共有セグメンテーションスキームよりも優れることを示す。 提案モデルは、画像資源のインテリジェントな利用と小児筋骨格障害のより良い管理に新たな視点をもたらす。

Clinical diagnosis of the pediatric musculoskeletal system relies on the analysis of medical imaging examinations. In the medical image processing pipeline, semantic segmentation using deep learning algorithms enables an automatic generation of patient-specific three-dimensional anatomical models which are crucial for morphological evaluation. However, the scarcity of pediatric imaging resources may result in reduced accuracy and generalization performance of individual deep segmentation models. In this study, we propose to design a novel multi-task, multi-domain learning framework in which a single segmentation network is optimized over the union of multiple datasets arising from distinct parts of the anatomy. Unlike previous approaches, we simultaneously consider multiple intensity domains and segmentation tasks to overcome the inherent scarcity of pediatric data while leveraging shared features between imaging datasets. To further improve generalization capabilities, we employ a transfer learning scheme from natural image classification, along with a multi-scale contrastive regularization aimed at promoting domain-specific clusters in the shared representations, and multi-joint anatomical priors to enforce anatomically consistent predictions. We evaluate our contributions for performing bone segmentation using three scarce and pediatric imaging datasets of the ankle, knee, and shoulder joints. Our results demonstrate that the proposed approach outperforms individual, transfer, and shared segmentation schemes in Dice metric with statistically sufficient margins. The proposed model brings new perspectives towards intelligent use of imaging resources and better management of pediatric musculoskeletal disorders.
翻訳日:2022-07-28 13:58:29 公開日:2022-07-27
# 非線形偏微分方程式に対するスパースディープニューラルネットワーク

Sparse Deep Neural Network for Nonlinear Partial Differential Equations ( http://arxiv.org/abs/2207.13266v1 )

ライセンス: Link先を確認
Yuesheng Xu, Taishan Zeng(参考訳) アプリケーションで利用可能なデータ量が増えているため、データ処理にはより高度な学習モデルが要求される。 私たちが遭遇するデータは、特定のスパーシティ構造を持つことが多い。 すなわち、それらが適切な基底で表現された場合、それらのエネルギーは少数の基底関数に集中することができる。 本稿では,複数のパラメータを持つ疎正規化を持つディープニューラルネットワーク(dnns)を用いて,解が特異性を持つ非線形偏微分方程式の解の適応近似に関する数値的研究を行う。 DNNは、複数のパラメータを持つペナルティを用いて、関数の適応表現に好適な固有のマルチスケール構造を持ち、特定の特異点を持つ関数を効果的に表現するためのマルチスケールスパース正規化(SDNN)を用いてDNNを開発する。 次に、提案したSDNNをバーガーズ方程式とシュリンガー方程式の数値解に適用する。 数値的な例では、提案したSDNNが生成する解はスパースで正確である。

More competent learning models are demanded for data processing due to increasingly greater amounts of data available in applications. Data that we encounter often have certain embedded sparsity structures. That is, if they are represented in an appropriate basis, their energies can concentrate on a small number of basis functions. This paper is devoted to a numerical study of adaptive approximation of solutions of nonlinear partial differential equations whose solutions may have singularities, by deep neural networks (DNNs) with a sparse regularization with multiple parameters. Noting that DNNs have an intrinsic multi-scale structure which is favorable for adaptive representation of functions, by employing a penalty with multiple parameters, we develop DNNs with a multi-scale sparse regularization (SDNN) for effectively representing functions having certain singularities. We then apply the proposed SDNN to numerical solutions of the Burgers equation and the Schr\"odinger equation. Numerical examples confirm that solutions generated by the proposed SDNN are sparse and accurate.
翻訳日:2022-07-28 13:58:01 公開日:2022-07-27
# BoNesisを用いた最もパーミッシブなブールネットワークとアンサンブルのマーカとソースマーカ

Marker and source-marker reprogramming of Most Permissive Boolean networks and ensembles with BoNesis ( http://arxiv.org/abs/2207.13307v1 )

ライセンス: Link先を確認
Lo\"ic Paulev\'e(参考訳) ブールネットワーク(BN)は離散力学系であり、細胞の挙動のモデリングへの応用がある。 本稿では,BoNesisソフトウェアを用いて,その固定点とアトラクタの特性を強制する摂動の組合せを徹底的に同定する方法を実証する。 いくつかのコンポーネントが特定の値に固定されていることを指定するマーカー特性について検討する。 マーカー再プログラミング問題の4つの変種について検討する: 固定点の再プログラミング、最小のトラップ空間、および与えられた初期設定から最も許容される更新モードで到達可能な最小のトラップ空間。 摂動は、一連のコンポーネントを固定された値に固定することで成る。 破壊して新たな魅力を生み出すことができる。 いずれの場合においても、その理論計算の複雑さを上限にし、bonesis pythonフレームワークを用いた解決法の実装を与える。 最後に、BoNesisが支持しているように、BNのアンサンブルにリプログラミング問題を取り上げ、可能で普遍的なリプログラミング戦略に関する洞察をもたらす。 この論文はインタラクティブに実行および修正することができる。

Boolean networks (BNs) are discrete dynamical systems with applications to the modeling of cellular behaviors. In this paper, we demonstrate how the software BoNesis can be employed to exhaustively identify combinations of perturbations which enforce properties on their fixed points and attractors. We consider marker properties, which specify that some components are fixed to a specific value. We study 4 variants of the marker reprogramming problem: the reprogramming of fixed points, of minimal trap spaces, and of fixed points and minimal trap spaces reachable from a given initial configuration with the most permissive update mode. The perturbations consist of fixing a set of components to a fixed value. They can destroy and create new attractors. In each case, we give an upper bound on their theoretical computational complexity, and give an implementation of the resolution using the BoNesis Python framework. Finally, we lift the reprogramming problems to ensembles of BNs, as supported by BoNesis, bringing insight on possible and universal reprogramming strategies. This paper can be executed and modified interactively.
翻訳日:2022-07-28 13:57:45 公開日:2022-07-27
# 共変量情報を用いたデータ駆動サンプル平均近似

Data-Driven Sample Average Approximation with Covariate Information ( http://arxiv.org/abs/2207.13554v1 )

ライセンス: Link先を確認
Rohit Kannan and G\"uzin Bayraksan and James R. Luedtke(参考訳) 我々は,コバリアイトの同時観測とともに,最適化モデル内の不確実なパラメータの観測を行う際に,データ駆動意思決定のための最適化について検討する。 新しい共変量観測を考えると、目標は、この観測に基づく期待コストを最小化する決定を選択することである。 本研究では,確率的プログラミングサンプル平均近似(saa)に機械学習予測モデルを統合する3つのデータ駆動フレームワークについて検討した。 SAAフレームワークの2つは新しいもので、シナリオ生成のための残余予測モデルのサンプル外残量を使用する。 私たちが調査するフレームワークは柔軟で、パラメトリック、ノンパラメトリック、セミパラメトリック回帰技術に対応しています。 我々は、これらのデータ駆動型SAAの解が一貫性があり、漸近的に最適であるデータ生成過程、予測モデル、確率プログラムに関する条件を導出するとともに、収束率と有限サンプル保証を導出する。 計算実験は、我々の理論結果を検証し、既存のアプローチに対するデータ駆動型定式化の潜在的な利点を実証し(予測モデルが不特定であっても)、データ駆動型定式化の利点を限定データ方式で示す。

We study optimization for data-driven decision-making when we have observations of the uncertain parameters within the optimization model together with concurrent observations of covariates. Given a new covariate observation, the goal is to choose a decision that minimizes the expected cost conditioned on this observation. We investigate three data-driven frameworks that integrate a machine learning prediction model within a stochastic programming sample average approximation (SAA) for approximating the solution to this problem. Two of the SAA frameworks are new and use out-of-sample residuals of leave-one-out prediction models for scenario generation. The frameworks we investigate are flexible and accommodate parametric, nonparametric, and semiparametric regression techniques. We derive conditions on the data generation process, the prediction model, and the stochastic program under which solutions of these data-driven SAAs are consistent and asymptotically optimal, and also derive convergence rates and finite sample guarantees. Computational experiments validate our theoretical results, demonstrate the potential advantages of our data-driven formulations over existing approaches (even when the prediction model is misspecified), and illustrate the benefits of our new data-driven formulations in the limited data regime.
翻訳日:2022-07-28 13:54:46 公開日:2022-07-27
# モンテカルロ法によるロバスト予測誤差推定

Robust Prediction Error Estimation with Monte-Carlo Methodology ( http://arxiv.org/abs/2207.13612v1 )

ライセンス: Link先を確認
Kimia Vahdat and Sara Shashaani(参考訳) 本稿では,データの真の分布に基づいて,機械学習モデルの予測誤差を推定することを目的とする。 予測モデルをデータ駆動型ブラックボックス関数とみなし、非パラメトリック手法を用いてその統計特性を定量化する。 本稿では,データに埋め込まれた確率分布情報を利用した新しいサンプリング手法を提案する。 提案手法は、予測の不正確なエラーを推定するための2つの既存のフレームワークを組み合わせたものである。 m$ out of $n$ bootstrappingは一貫性を維持するためであり、反復ブートストラップはしばしば予測誤差の推定のバイアス補正に使用される。 モンテカルロの不確実性定量化手法を用いて推定器全体のばらつきを解消し,予防可能な誤差を克服するための対策に関するインフォームドな判断を行う。 さらに,同じモンテカルロフレームワークを用いて,経験分布を用いてバイアスを推定する方法を提案する。 このバイアスは、オンハンド入力データに対する推定器の感度を捉え、推定器のロバスト性を理解するのに役立つ。 提案する不確実性定量化の応用は,シミュレーションおよび実データを用いたモデル選択事例で検証した。 我々は,提案する推定器の性能を2つのフレームワークで評価する。第一に,最適なモデルを見つけるための最適化モデルとして直接適用すること,第二に最適化エンジンを修正し,提案する推定器をオプティマイザを備えた適合関数として用いること。 さらに,提案した推定器の有限データセットにおける漸近統計特性と数値計算結果を,既存の最先端手法と比較した。

In this paper, we aim to estimate the prediction error of machine learning models under the true distribution of the data on hand. We consider the prediction model as a data-driven black-box function and quantify its statistical properties using non-parametric methods. We propose a novel sampling technique that takes advantage of the underlying probability distribution information embedded in the data. The proposed method combines two existing frameworks for estimating the prediction inaccuracy error; $m$ out of $n$ bootstrapping and iterative bootstrapping. $m$ out of $n$ bootstrapping is to maintain the consistency, and iterative bootstrapping is often used for bias correction of the prediction error estimation. Using Monte-Carlo uncertainty quantification techniques, we disintegrate the total variance of the estimator so the user can make informed decisions regarding measures to overcome the preventable errors. In addition, via the same Monte-Carlo framework, we provide a way to estimate the bias due to using the empirical distribution. This bias captures the sensitivity of the estimator to the on hand input data and help with understanding the robustness of the estimator. The application of the proposed uncertainty quantification is tested in a model selection case study using simulated and real datasets. We evaluate the performance of the proposed estimator in two frameworks; first, directly applying is as an optimization model to find the best model; second, fixing an optimization engine and use the proposed estimator as a fitness function withing the optimizer. Furthermore, we compare the asymptotic statistical properties and numerical results in a finite dataset of the proposed estimator with the existing state-of-the-art methods.
翻訳日:2022-07-28 13:54:25 公開日:2022-07-27
# フェイクニュース検出のためのソーシャルコンテキストモデリング - グラフニューラルネットワークによるアプローチ

Modelling Social Context for Fake News Detection: A Graph Neural Network Based Approach ( http://arxiv.org/abs/2207.13500v1 )

ライセンス: Link先を確認
Pallabi Saikia, Kshitij Gundale, Ankit Jain, Dev Jadeja, Harvi Patel and Mohendra Roy(参考訳) フェイクニュースの検出は、情報の信頼性を確保し、ニュースエコシステムの信頼性を維持するために不可欠である。 近年,ソーシャルメディアの普及やディープフェイクなどのフェイクコンテンツ生成技術により,フェイクニュースコンテンツが増加している。 フェイクニュース検出の既存のモダリティの大部分は、コンテンツベースのアプローチに重点を置いている。 しかし、これらの技術のほとんどは、生成モデルによって生成された超現実的な合成メディアには対処できない。 近年の研究では,モーダル性に関わらず,真偽ニュースの伝搬特性が識別可能であることが判明した。 そこで本稿では,偽ニュースを検出する社会的文脈に基づく補助情報について検討した。 本稿では,偽ニュース検出の社会的文脈をハイブリッドグラフニューラルネットワークを用いて分析した。 このハイブリッドモデルは、ニュースコンテンツ上のトランスフォーマーモデルからニュースと双方向エンコーダ表現の伝搬にグラフニューラルネットワークを統合することにより、テキストの特徴を学習する。 したがって,提案手法では,コンテンツと文脈の特徴を学習し,f1スコアをポリティファクト0.91,ゴシップコップデータセット0.93でベースラインモデルを上回ることができる。

Detection of fake news is crucial to ensure the authenticity of information and maintain the news ecosystems reliability. Recently, there has been an increase in fake news content due to the recent proliferation of social media and fake content generation techniques such as Deep Fake. The majority of the existing modalities of fake news detection focus on content based approaches. However, most of these techniques fail to deal with ultra realistic synthesized media produced by generative models. Our recent studies find that the propagation characteristics of authentic and fake news are distinguishable, irrespective of their modalities. In this regard, we have investigated the auxiliary information based on social context to detect fake news. This paper has analyzed the social context of fake news detection with a hybrid graph neural network based approach. This hybrid model is based on integrating a graph neural network on the propagation of news and bi directional encoder representations from the transformers model on news content to learn the text features. Thus this proposed approach learns the content as well as the context features and hence able to outperform the baseline models with an f1 score of 0.91 on PolitiFact and 0.93 on the Gossipcop dataset, respectively
翻訳日:2022-07-28 13:54:00 公開日:2022-07-27
# AADG:網膜画像分割による領域一般化のための自動拡張

AADG: Automatic Augmentation for Domain Generalization on Retinal Image Segmentation ( http://arxiv.org/abs/2207.13249v1 )

ライセンス: Link先を確認
Junyan Lyu, Yiqi Zhang, Yijin Huang, Li Lin, Pujin Cheng, Xiaoying Tang(参考訳) 畳み込みニューラルネットワークは医用画像セグメンテーションに広く応用され、かなりの性能を発揮している。 しかし、パフォーマンスはトレーニングデータ(ソースドメイン)とテストデータ(ターゲットドメイン)の間のドメインギャップに大きく影響する可能性がある。 そこで本研究では,データ操作に基づくドメイン一般化手法であるautomated augmentedation for domain generalization (aadg)を提案する。 我々のAADGフレームワークは、新しいドメインを生成し、適切な検索空間からトレーニングセットを多様化するデータ拡張ポリシーを効果的にサンプリングすることができる。 具体的には、単位球空間におけるシンクホーン距離によって測定される複数の拡張された新規ドメイン間の多様性を最大化する新しいプロキシタスクを導入し、自動拡張を扱いやすくする。 目標を効率的に探索するために, 敵対的訓練と深層強化学習が用いられる。 11個の公用眼底画像データセット(網膜血管セグメンテーションに4つ、光ディスクとカップ(OD/OC)セグメンテーションに4つ、網膜病変セグメンテーションに3つ)の定量および定性実験を包括的に実施した。 網膜血管セグメンテーションのための2つのOCTAデータセットは、クロスモダリティの一般化を検証するためにさらに関与している。 提案したAADGは,最先端の一般化性能を示し,網膜血管,OD/OCおよび病変分節タスクにおいて,既存のアプローチよりも優れている。 学習されたポリシーは、モデルに依存しないことを実証的に検証し、他のモデルにうまく転送できる。 ソースコードはhttps://github.com/CRazorback/AADGで入手できる。

Convolutional neural networks have been widely applied to medical image segmentation and have achieved considerable performance. However, the performance may be significantly affected by the domain gap between training data (source domain) and testing data (target domain). To address this issue, we propose a data manipulation based domain generalization method, called Automated Augmentation for Domain Generalization (AADG). Our AADG framework can effectively sample data augmentation policies that generate novel domains and diversify the training set from an appropriate search space. Specifically, we introduce a novel proxy task maximizing the diversity among multiple augmented novel domains as measured by the Sinkhorn distance in a unit sphere space, making automated augmentation tractable. Adversarial training and deep reinforcement learning are employed to efficiently search the objectives. Quantitative and qualitative experiments on 11 publicly-accessible fundus image datasets (four for retinal vessel segmentation, four for optic disc and cup (OD/OC) segmentation and three for retinal lesion segmentation) are comprehensively performed. Two OCTA datasets for retinal vasculature segmentation are further involved to validate cross-modality generalization. Our proposed AADG exhibits state-of-the-art generalization performance and outperforms existing approaches by considerable margins on retinal vessel, OD/OC and lesion segmentation tasks. The learned policies are empirically validated to be model-agnostic and can transfer well to other models. The source code is available at https://github.com/CRazorback/AADG.
翻訳日:2022-07-28 13:52:39 公開日:2022-07-27
# 最小アノテーションによるインスタンス固有の6自由度オブジェクトポーズ推定

Instance-specific 6-DoF Object Pose Estimation from Minimal Annotations ( http://arxiv.org/abs/2207.13264v1 )

ライセンス: Link先を確認
Rohan Pratap Singh, Iori Kumagai, Antonio Gabas, Mehdi Benallegue, Yusuke Yoshiyasu, Fumio Kanehiro(参考訳) 多くのロボット応用において、6-DoFが既知の剛体物体を推定し、その後の把握を行う環境設定は、ほとんど変化せず、事前にロボットに知られていることもある。 本稿では,この問題を事例特異的なポーズ推定として言及する: ロボットは,慣れ親しんだシナリオの限られたセットにおいて,高い精度でポーズを推定することが期待される。 照明条件の変化や背景の外観など、シーンの小さな変化は許容されるが、劇的な変化は期待できない。 そこで本研究では,RGB画像からオブジェクトの連続的な6-DoFポーズを推定するためのパイプラインを高速に訓練し,デプロイする手法を提案する。 重要なアイデアは、既知のカメラポーズと剛体形状を利用して、大きなラベル付きデータセットの生成を部分的に自動化することだ。 データセットは十分なドメインランダム化とともに、セマンティックキーポイントを予測するためのディープニューラルネットワークのトレーニングを監督するために使用される。 提案手法の有用性と有効性について実験的に検証し,ごく少数の手動アノテーションを必要とするオブジェクトポーズを正確に推定する。

In many robotic applications, the environment setting in which the 6-DoF pose estimation of a known, rigid object and its subsequent grasping is to be performed, remains nearly unchanging and might even be known to the robot in advance. In this paper, we refer to this problem as instance-specific pose estimation: the robot is expected to estimate the pose with a high degree of accuracy in only a limited set of familiar scenarios. Minor changes in the scene, including variations in lighting conditions and background appearance, are acceptable but drastic alterations are not anticipated. To this end, we present a method to rapidly train and deploy a pipeline for estimating the continuous 6-DoF pose of an object from a single RGB image. The key idea is to leverage known camera poses and rigid body geometry to partially automate the generation of a large labeled dataset. The dataset, along with sufficient domain randomization, is then used to supervise the training of deep neural networks for predicting semantic keypoints. Experimentally, we demonstrate the convenience and effectiveness of our proposed method to accurately estimate object pose requiring only a very small amount of manual annotation for training.
翻訳日:2022-07-28 13:52:11 公開日:2022-07-27
# 肺炎診断支援のための2次元肺x線画像のコンピュータビジョンへの応用

Applied Computer Vision on 2-Dimensional Lung X-Ray Images for Assisted Medical Diagnosis of Pneumonia ( http://arxiv.org/abs/2207.13295v1 )

ライセンス: Link先を確認
Ralph Joseph S.D. Ligueran (1), Manuel Luis C. Delos Santos (2), Dr. Ronaldo S. Tinio (3), Emmanuel H. Valencia (4) ((1)(2)(4) Asian Institute of Computer Studies, (3) Pamantasan ng Lungsod ng Valenzuela)(参考訳) 本研究は, コンピュータビジョンと呼ばれる人工知能の特定のサブフィールドを, 2次元肺X線画像解析に応用し, 通常の肺炎の診断に応用することに焦点を当てた。 畳み込みニューラルネットワークアルゴリズムは、pythonでコード化されたflaskベースのwebアプリケーションに実装され、通常の肺炎の検出のためにx線画像を解析できる。 畳み込みニューラルネットワークアルゴリズムはパターンの識別と検出に機械学習に依存するため、データセット内のパターンの識別と検出においてニューラルネットワークをトレーニングするために、転送学習と呼ばれるテクニックが導入された。 オープンソース肺X線画像は、Webアプリケーションの中核となる知識ベースを作成するためのトレーニングデータとして使用され、実験設計では、Webアプリケーションの検証に5-Trial Confirmatory Testを使用していた。 5回の確認試験の結果は、試行毎の診断精度率、一般診断精度率、一般診断誤差率の算出を示し、混乱マトリックスは、各テスト画像上のwebアプリケーションのラベルと対応する診断結果との関係をさらに示している。 開発されたWebアプリケーションは、一般の肺炎の診断を支援する医療従事者や、コンピュータ科学とバイオインフォマティクスの分野の研究者が利用できる。

This study focuses on the application of a specific subfield of artificial intelligence referred to as computer vision in the analysis of 2-dimensional lung x-ray images for the assisted medical diagnosis of ordinary pneumonia. A convolutional neural network algorithm was implemented in a Python-coded, Flask-based web application that can analyze x-ray images for the detection of ordinary pneumonia. Since convolutional neural network algorithms rely on machine learning for the identification and detection of patterns, a technique referred to as transfer learning was implemented to train the neural network in the identification and detection of patterns within the dataset. Open-source lung x-ray images were used as training data to create a knowledge base that served as the core element of the web application and the experimental design employed a 5-Trial Confirmatory Test for the validation of the web application. The results of the 5-Trial Confirmatory Test show the calculation of Diagnostic Precision Percentage per Trial, General Diagnostic Precision Percentage, and General Diagnostic Error Percentage while the Confusion Matrix further shows the relationship between the label and the corresponding diagnosis result of the web application on each test images. The developed web application can be used by medical practitioners in A.I.-assisted diagnosis of ordinary pneumonia, and by researchers in the fields of computer science and bioinformatics.
翻訳日:2022-07-28 13:51:51 公開日:2022-07-27
# グラフスペクトル領域におけるポイントクラウド攻撃:3次元幾何学とグラフ信号処理

Point Cloud Attacks in Graph Spectral Domain: When 3D Geometry Meets Graph Signal Processing ( http://arxiv.org/abs/2207.13326v1 )

ライセンス: Link先を確認
Daizong Liu, Wei Hu, Xin Li(参考訳) 様々な3D安全クリティカルなアプリケーションに注目が集まる中、ポイントクラウド学習モデルは敵の攻撃に対して脆弱であることが示されている。 既存の3D攻撃手法は高い成功率を達成するが、点の摂動でデータ空間を探索し、幾何学的特性を無視する可能性がある。 代わりに、ある幾何学的構造に対応するスペクトル領域のグラフ変換係数を摂動させることを目的として、グラフスペクトル領域攻撃という新しい視点からポイントクラウド攻撃を提案する。 具体的には、グラフ信号処理を利用して、まず、コンパクトな表現のためにグラフフーリエ変換(GFT)を用いて、点の座標をスペクトル領域に適応的に変換する。 そこで, 学習可能なグラフスペクトルフィルタを用いてGFT係数を摂動させることにより, 異なるスペクトル帯域が幾何構造に与える影響を解析する。 また,低周波成分は主に3次元物体の粗い形状に寄与すると考えられるため,受動高周波成分内の摂動を制限するために低周波制約を導入する。 そして、逆GFTを介して、摂動スペクトル表現をデータ領域に戻すことにより、対向点雲を生成する。 実験の結果, 提案手法の有効性が, 受動性および攻撃成功率の両面で示された。

With the increasing attention in various 3D safety-critical applications, point cloud learning models have been shown to be vulnerable to adversarial attacks. Although existing 3D attack methods achieve high success rates, they delve into the data space with point-wise perturbation, which may neglect the geometric characteristics. Instead, we propose point cloud attacks from a new perspective -- the graph spectral domain attack, aiming to perturb graph transform coefficients in the spectral domain that corresponds to varying certain geometric structure. Specifically, leveraging on graph signal processing, we first adaptively transform the coordinates of points onto the spectral domain via graph Fourier transform (GFT) for compact representation. Then, we analyze the influence of different spectral bands on the geometric structure, based on which we propose to perturb the GFT coefficients via a learnable graph spectral filter. Considering the low-frequency components mainly contribute to the rough shape of the 3D object, we further introduce a low-frequency constraint to limit perturbations within imperceptible high-frequency components. Finally, the adversarial point cloud is generated by transforming the perturbed spectral representation back to the data domain via the inverse GFT. Experimental results demonstrate the effectiveness of the proposed attack in terms of both the imperceptibility and attack success rates.
翻訳日:2022-07-28 13:51:29 公開日:2022-07-27
# シフト耐性感性類似度指標

Shift-tolerant Perceptual Similarity Metric ( http://arxiv.org/abs/2207.13686v1 )

ライセンス: Link先を確認
Abhijay Ghildyal, Feng Liu(参考訳) 既存の知覚的類似度指標は、画像とその参照がよく一致していると仮定する。 その結果、これらの指標は人間の目では認識できない小さなアライメントエラーに敏感であることが多い。 本稿では,入力画像と参照画像の小さなずれが既存の指標に与える影響について検討し,シフト耐性の類似度指標を開発した。 本論文は,広く用いられている知覚類似度指標であるlpipsを基盤とし,知覚不能な誤認に対して頑健なアーキテクチャ設計を考察する。 具体的には、アンチエイリアスフィルタリング、プーリング、ストライド、パディング、スキップ接続など、ニューラルネットワーク要素の幅広いスペクトルを調査し、ロバストなメトリックを作る上での役割について論じる。 本研究では,新しい深層ニューラルネットワークに基づく知覚類似度指標を開発した。 我々の実験は、人間の類似性判定と一致しながらも、我々の測定値が知覚不可能な変化に寛容であることを示している。

Existing perceptual similarity metrics assume an image and its reference are well aligned. As a result, these metrics are often sensitive to a small alignment error that is imperceptible to the human eyes. This paper studies the effect of small misalignment, specifically a small shift between the input and reference image, on existing metrics, and accordingly develops a shift-tolerant similarity metric. This paper builds upon LPIPS, a widely used learned perceptual similarity metric, and explores architectural design considerations to make it robust against imperceptible misalignment. Specifically, we study a wide spectrum of neural network elements, such as anti-aliasing filtering, pooling, striding, padding, and skip connection, and discuss their roles in making a robust metric. Based on our studies, we develop a new deep neural network-based perceptual similarity metric. Our experiments show that our metric is tolerant to imperceptible shifts while being consistent with the human similarity judgment.
翻訳日:2022-07-28 13:47:37 公開日:2022-07-27
# unimib at trec 2021 臨床試験トラック

UNIMIB at TREC 2021 Clinical Trials Track ( http://arxiv.org/abs/2207.13514v1 )

ライセンス: Link先を確認
Georgios Peikos, Oscar Espitia, Gabriella Pasi(参考訳) この貢献は、UNIMIBチームのTREC 2021臨床試験トラックへの参加を要約している。 本研究では,クエリ表現と複数の検索モデルの組み合わせが検索性能に与える影響について検討した。 まず, 高密度テキスト表現の有効性を検討するために, ニューラルリランキング手法を実装した。 さらに, 関連度推定のための新しい決定論的モデルの有効性について検討した。 最後に、上記の関連モデルと標準的な検索手法を比較した。 特に,キーワード抽出手法と,BM25モデルに基づく標準検索手法と,この特定の検索タスクの特性を利用した決定論的関連性モデルを組み合わせる。 その結果,提案手法はTRECの中央値NDCG@10値に対して,従来的あるいは決定論的妥当性モデルと組み合わせた場合のクエリの84%を改善することがわかった。 さらに,RPEC@10では,TRECの中央値に対するクエリの85%が改善されている。

This contribution summarizes the participation of the UNIMIB team to the TREC 2021 Clinical Trials Track. We have investigated the effect of different query representations combined with several retrieval models on the retrieval performance. First, we have implemented a neural re-ranking approach to study the effectiveness of dense text representations. Additionally, we have investigated the effectiveness of a novel decision-theoretic model for relevance estimation. Finally, both of the above relevance models have been compared with standard retrieval approaches. In particular, we combined a keyword extraction method with a standard retrieval process based on the BM25 model and a decision-theoretic relevance model that exploits the characteristics of this particular search task. The obtained results show that the proposed keyword extraction method improves 84% of the queries over the TREC's median NDCG@10 measure when combined with either traditional or decision-theoretic relevance models. Moreover, regarding RPEC@10, the employed decision-theoretic model improves 85% of the queries over the reported TREC's median value.
翻訳日:2022-07-28 13:47:22 公開日:2022-07-27
# 拡張クラスによるポジティブデータとラベルなしデータからの学習

Learning from Positive and Unlabeled Data with Augmented Classes ( http://arxiv.org/abs/2207.13274v1 )

ライセンス: Link先を確認
Zhongnian Li, Liutao Yang, Zhongchen Ma, Tongfeng Sun, Xinzheng Xu and Daoqiang Zhang(参考訳) Positive Unlabeled (PU) 学習は、多くの実世界のシナリオで使用される正および未ラベルのデータのみからバイナリ分類器を学習することを目的としている。 しかし、既存のPU学習アルゴリズムは、未観測の拡張クラスからの例がテストフェーズに現れるような、オープンで変化するシナリオにおいて、現実世界の課題に対処できない。 本稿では,多数の実世界のシナリオで容易に収集可能な拡張クラス分布からのラベル付きデータを活用することにより,PUACを用いたPU学習の非バイアスリスク推定手法を提案する。 さらに,提案した推定器に対する推定誤差を導出し,最適解への収束を理論的に保証する。 複数の現実的なデータセットの実験は、提案手法の有効性を示す。

Positive Unlabeled (PU) learning aims to learn a binary classifier from only positive and unlabeled data, which is utilized in many real-world scenarios. However, existing PU learning algorithms cannot deal with the real-world challenge in an open and changing scenario, where examples from unobserved augmented classes may emerge in the testing phase. In this paper, we propose an unbiased risk estimator for PU learning with Augmented Classes (PUAC) by utilizing unlabeled data from the augmented classes distribution, which can be easily collected in many real-world scenarios. Besides, we derive the estimation error bound for the proposed estimator, which provides a theoretical guarantee for its convergence to the optimal solution. Experiments on multiple realistic datasets demonstrate the effectiveness of proposed approach.
翻訳日:2022-07-28 13:47:09 公開日:2022-07-27
# スパーシティの存在下でのコンセプトドリフトの検出 -自動変化リスク評価システムのケーススタディ-

Detecting Concept Drift in the Presence of Sparsity -- A Case Study of Automated Change Risk Assessment System ( http://arxiv.org/abs/2207.13287v1 )

ライセンス: Link先を確認
Vishwas Choudhary, Binay Gupta, Anirban Chatterjee, Subhadip Paul, Kunal Banerjee, Vijay Agneeswaran(参考訳) 文学では「textit{sparsity}」と呼ばれ、多くの実世界のデータセットの共通した特徴である。 データ不完全性や疎性の問題に対処する多くの計算法が提案されている。 しかし、ある特徴に対するデータ計算手法の精度やデータセット内の特徴の集合は、特徴値の分布と他の特徴との相関に大きく依存している。 機械学習(ML)ソリューションの業界展開を悩ませているもうひとつの問題はコンセプトドリフト検出である。 データ計算とコンセプトドリフト検出は広く研究されているが、この2つの現象、すなわち概念ドリフト検出を疎性の存在下で組み合わせた研究はほとんど行われていない。 本研究では,以下の体系的な研究を行う。 (i)欠落した値の異なるパターン (ii)様々な種類のスパース性に対する統計およびmlに基づくデータインプテーション方法 (iii)いくつかの概念ドリフト検出方法 (4)様々なドリフト検出指標の実際的分析 (v) 異なる指標に基づいて、欠落した値のデータセットを与えられた最良の概念ドリフト検出器を選択する。 まず、合成データと公開データセットに基づいて分析し、最終的に、自動変更リスク評価システムのデプロイソリューションにその結果を拡張します。 実験的な研究から得られた大きな発見の1つは、関連するすべての指標にまたがる1つの概念ドリフト検出方法の優位性の欠如である。 そこで我々は,突発的および漸進的なコンセプトドリフトに対して,多数決に基づく概念ドリフト検出器のアンサンブルを採用する。 本実験では,全測定値にまたがるアンサンブル法において,最適あるいはほぼ最適性能が得られることを示す。

Missing values, widely called as \textit{sparsity} in literature, is a common characteristic of many real-world datasets. Many imputation methods have been proposed to address this problem of data incompleteness or sparsity. However, the accuracy of a data imputation method for a given feature or a set of features in a dataset is highly dependent on the distribution of the feature values and its correlation with other features. Another problem that plagues industry deployments of machine learning (ML) solutions is concept drift detection, which becomes more challenging in the presence of missing values. Although data imputation and concept drift detection have been studied extensively, little work has attempted a combined study of the two phenomena, i.e., concept drift detection in the presence of sparsity. In this work, we carry out a systematic study of the following: (i) different patterns of missing values, (ii) various statistical and ML based data imputation methods for different kinds of sparsity, (iii) several concept drift detection methods, (iv) practical analysis of the various drift detection metrics, (v) selecting the best concept drift detector given a dataset with missing values based on the different metrics. We first analyze it on synthetic data and publicly available datasets, and finally extend the findings to our deployed solution of automated change risk assessment system. One of the major findings from our empirical study is the absence of supremacy of any one concept drift detection method across all the relevant metrics. Therefore, we adopt a majority voting based ensemble of concept drift detectors for abrupt and gradual concept drifts. Our experiments show optimal or near optimal performance can be achieved for this ensemble method across all the metrics.
翻訳日:2022-07-28 13:46:56 公開日:2022-07-27
# Gaia: EコマースにおけるGross Merchandise価値予測に対する時間シフト認識型グラフニューラルネットワーク

Gaia: Graph Neural Network with Temporal Shift aware Attention for Gross Merchandise Value Forecast in E-commerce ( http://arxiv.org/abs/2207.13329v1 )

ライセンス: Link先を確認
Borui Ye, Shuo Yang, Binbin Hu, Zhiqiang Zhang, Youqiang He, Kai Huang, Jun Zhou, Yanming Fang(参考訳) 電子商取引は、インターネットを通じて商人に力を与えるのに長い道のりを歩んでいる。 商品を効率よく保存し、マーケティング資源を適切に配置するためには、正確な粗雑商品価値(GMV)を予測することが重要である。 しかし、デジタル化されたデータの不足で正確な予測を行うのは非自明である。 本稿では,Alipay アプリ内の GMV 予測を改善するためのソリューションを提案する。 異なるエンティティを相関して情報を豊かにするための優れた能力を持つグラフニューラルネットワーク(GNN)のおかげで,時間シフトを意識したグラフニューラルネットワーク(GNN)モデルであるGaiaを提案する。 Gaiaは関連するe販売者の販売情報を活用し、時間的依存に基づいて近隣の相関関係を学習する。 Alipayの実際のデータセットをテストし、他のベースラインと比較することで、Gaiaは最高のパフォーマンスを示している。 そしてGaiaは、シミュレーションされたオンライン環境にデプロイされ、ベースラインよりも大幅に改善されています。

E-commerce has gone a long way in empowering merchants through the internet. In order to store the goods efficiently and arrange the marketing resource properly, it is important for them to make the accurate gross merchandise value (GMV) prediction. However, it's nontrivial to make accurate prediction with the deficiency of digitized data. In this article, we present a solution to better forecast GMV inside Alipay app. Thanks to graph neural networks (GNN) which has great ability to correlate different entities to enrich information, we propose Gaia, a graph neural network (GNN) model with temporal shift aware attention. Gaia leverages the relevant e-seller' sales information and learn neighbor correlation based on temporal dependencies. By testing on Alipay's real dataset and comparing with other baselines, Gaia has shown the best performance. And Gaia is deployed in the simulated online environment, which also achieves great improvement compared with baselines.
翻訳日:2022-07-28 13:46:33 公開日:2022-07-27
# 不確実性推定への明確な期待に向けて

Towards Clear Expectations for Uncertainty Estimation ( http://arxiv.org/abs/2207.13341v1 )

ライセンス: Link先を確認
Victor Bouvier, Simona Maggio, Alexandre Abraham, L\'eo Dreyfus-Schmidt(参考訳) 不確実性定量化(UQ)が、信頼できる機械学習(ML)を実現するために重要である場合、ほとんどのUQメソッドは、異なる、一貫性のない評価プロトコルに悩まされる。 この矛盾は、コミュニティがUQに期待する不明確な要求によるものだと我々は主張する。 本意見書は,不確実性スコアが実質的な予測力を持つことを期待する5つの下流タスクを通じて,これらの要件を規定することによって,新たな視点を提供する。 我々はこれらの下流タスクを慎重に設計し、MLモデルの実際の使用状況を反映する。 7つの分類データセットの例では, 単純なベースラインに対して, 最先端の固有UQ手法の統計的優位性を観測しなかった。 我々は、不確実性が定量化される理由の理論的根拠に疑問を呈し、ml実践者にとって有益であることが証明されたメトリクスに基づくuq評価の標準化プロトコルを求める。

If Uncertainty Quantification (UQ) is crucial to achieve trustworthy Machine Learning (ML), most UQ methods suffer from disparate and inconsistent evaluation protocols. We claim this inconsistency results from the unclear requirements the community expects from UQ. This opinion paper offers a new perspective by specifying those requirements through five downstream tasks where we expect uncertainty scores to have substantial predictive power. We design these downstream tasks carefully to reflect real-life usage of ML models. On an example benchmark of 7 classification datasets, we did not observe statistical superiority of state-of-the-art intrinsic UQ methods against simple baselines. We believe that our findings question the very rationale of why we quantify uncertainty and call for a standardized protocol for UQ evaluation based on metrics proven to be relevant for the ML practitioner.
翻訳日:2022-07-28 13:46:18 公開日:2022-07-27
# ニューラルTSPソルバーの教師なしトレーニング

Unsupervised Training for Neural TSP Solver ( http://arxiv.org/abs/2207.13667v1 )

ライセンス: Link先を確認
El\=iza Gaile, Andis Draguns, Em\=ils Ozoli\c{n}\v{s}, and K\=arlis Freivalds(参考訳) トラベルセールスマン問題をほぼ解決するための機械学習手法が増えている。 しかし、これらの手法は、多くのチューニングを必要とする複雑な強化学習アプローチをトレーニングや使用するために解決されたインスタンスを必要とすることが多い。 これらの問題を回避するために,新しい教師なし学習手法を提案する。 我々は、tsp の整数線形プログラムの緩和を用いて、正しいインスタンスラベルを必要としない損失関数を構築する。 変数の離散化では、最小限は最適解または準最適解と一致する。 さらに、この損失関数は微分可能であり、ニューラルネットワークを直接トレーニングするために使用できる。 グラフニューラルネットワークを用いた損失関数を用いて,ユークリッドおよび非対称tspにおける制御実験をデザインする。 我々のアプローチは、大きなラベル付きデータセットを必要としない教師あり学習よりも有利である。 さらに,本手法は非対称TSPの強化学習を超越し,ユークリッドインスタンスの強化学習に匹敵する性能を示した。 私たちのアプローチは強化学習よりも安定的で、トレーニングが容易です。

There has been a growing number of machine learning methods for approximately solving the travelling salesman problem. However, these methods often require solved instances for training or use complex reinforcement learning approaches that need a large amount of tuning. To avoid these problems, we introduce a novel unsupervised learning approach. We use a relaxation of an integer linear program for TSP to construct a loss function that does not require correct instance labels. With variable discretization, its minimum coincides with the optimal or near-optimal solution. Furthermore, this loss function is differentiable and thus can be used to train neural networks directly. We use our loss function with a Graph Neural Network and design controlled experiments on both Euclidean and asymmetric TSP. Our approach has the advantage over supervised learning of not requiring large labelled datasets. In addition, the performance of our approach surpasses reinforcement learning for asymmetric TSP and is comparable to reinforcement learning for Euclidean instances. Our approach is also more stable and easier to train than reinforcement learning.
翻訳日:2022-07-28 13:46:05 公開日:2022-07-27
# ソーシャルnpcskyrim modとbeyondにおける創発的ソーシャルnpc相互作用

Emergent social NPC interactions in the Social NPCs Skyrim mod and beyond ( http://arxiv.org/abs/2207.13398v1 )

ライセンス: Link先を確認
Manuel Guimar\~aes, Pedro A. Santos, Arnav Jhala(参考訳) 本稿では,エージェントベースモデリングに関する学術研究に着想を得たオープンワールドゲームにおいて,非プレイヤーキャラクタ(npc)をオーサリングするためのソーシャルアーキテクチャモデルの実装を提案する。 信頼できるNPCオーサリングは、リッチな対話と応答性という観点で見れば重荷です。 本稿では、この課題にソーシャルエージェントアーキテクチャを使うことの特徴と利点を簡潔に述べ、The Elder Scrolls V: SkyrimのソーシャルNPCとしてリリースされたソーシャルエージェントアーキテクチャCiF-CKの実装について述べる。

This work presents an implementation of a social architecture model for authoring Non-Player Character (NPC) in open world games inspired in academic research on agentbased modeling. Believable NPC authoring is burdensome in terms of rich dialogue and responsive behaviors. We briefly present the characteristics and advantages of using a social agent architecture for this task and describe an implementation of a social agent architecture CiF-CK released as a mod Social NPCs for The Elder Scrolls V: Skyrim
翻訳日:2022-07-28 13:45:53 公開日:2022-07-27
# コンタクトリッチロボットマニピュレーションのためのコンタクトセーフ強化学習フレームワーク

A Contact-Safe Reinforcement Learning Framework for Contact-Rich Robot Manipulation ( http://arxiv.org/abs/2207.13438v1 )

ライセンス: Link先を確認
Xiang Zhu, Shucheng Kang and Jianyu Chen(参考訳) 強化学習は、複雑な接触に富むロボット操作タスクを解決する大きな可能性を示している。 しかし、トレーニング中や目に見えないシナリオでRLポリシーが不完全であった場合、予期せぬ危険な衝突が起こる可能性があるため、現実世界でのRLの使用の安全性は重大な問題である。 本稿では,タスク空間と関節空間の両方の安全性を維持する,コンタクトリッチロボット操作のためのコンタクトセーフ強化学習フレームワークを提案する。 rlポリシーがロボットアームと環境との予期せぬ衝突を引き起こすと、枠組みは即座に衝突を検出し、接触力の小さいことを保証することができる。 さらに、エンドエフェクタは、外部の障害に頑健なまま、コンタクトリッチなタスクを順に実行するように強制される。 我々はシミュレーションでRLポリシーを訓練し、それを実際のロボットに転送する。 ロボットワイピングタスクの現実的な実験は,本手法が主タスクの乱れを拒絶しながら,予期せぬ衝突のシナリオ下であっても,タスク空間と関節空間の両方で接触力を小さく抑えることができることを示している。

Reinforcement learning shows great potential to solve complex contact-rich robot manipulation tasks. However, the safety of using RL in the real world is a crucial problem, since unexpected dangerous collisions might happen when the RL policy is imperfect during training or in unseen scenarios. In this paper, we propose a contact-safe reinforcement learning framework for contact-rich robot manipulation, which maintains safety in both the task space and joint space. When the RL policy causes unexpected collisions between the robot arm and the environment, our framework is able to immediately detect the collision and ensure the contact force to be small. Furthermore, the end-effector is enforced to perform contact-rich tasks compliantly, while keeping robust to external disturbances. We train the RL policy in simulation and transfer it to the real robot. Real world experiments on robot wiping tasks show that our method is able to keep the contact force small both in task space and joint space even when the policy is under unseen scenario with unexpected collision, while rejecting the disturbances on the main task.
翻訳日:2022-07-28 13:45:44 公開日:2022-07-27
# セルワイズ最小共分散式推定器

The Cellwise Minimum Covariance Determinant Estimator ( http://arxiv.org/abs/2207.13493v1 )

ライセンス: Link先を確認
Jakob Raymaekers and Peter J. Rousseeuw(参考訳) 共分散行列の通常の最小共分散決定式 (MCD) 推定器は、ケースワイドの外れ値に対して頑健である。 これらのケース(つまりデータマトリクスの行)は、ほとんどのケースと異なる振る舞いをしており、異なる集団に属するのではないかという疑念を呼んでいる。 一方、セルワイド・アウトレイアはデータマトリックス内の個々のセルである。 行が1つ以上の外側の細胞を含むとき、同じ列にある他の細胞は、保存したい有用な情報を含む。 そこで本研究では,MCD方式のセルワイドロバストバージョンであるCellMCDを提案する。 主要なビルディングブロックは観測可能性があり、フラグ付きセルワイズ異常数のスパルシティペナルティが課せられる。 優れた破壊特性を有する。 我々は,常に目標を下げる濃度ステップ(Cステップ)に基づくセルMCDの高速アルゴリズムを構築した。 本手法はセルワイド・アウトリーのシミュレーションにおいて良好に動作し,クリーンデータに対する有限サンプル効率が高い。 実データ上には結果の可視化が図示されている。

The usual Minimum Covariance Determinant (MCD) estimator of a covariance matrix is robust against casewise outliers. These are cases (that is, rows of the data matrix) that behave differently from the majority of cases, raising suspicion that they might belong to a different population. On the other hand, cellwise outliers are individual cells in the data matrix. When a row contains one or more outlying cells, the other cells in the same row still contain useful information that we wish to preserve. We propose a cellwise robust version of the MCD method, called cellMCD. Its main building blocks are observed likelihood and a sparsity penalty on the number of flagged cellwise outliers. It possesses good breakdown properties. We construct a fast algorithm for cellMCD based on concentration steps (C-steps) that always lower the objective. The method performs well in simulations with cellwise outliers, and has high finite-sample efficiency on clean data. It is illustrated on real data with visualizations of the results.
翻訳日:2022-07-28 13:45:24 公開日:2022-07-27
# 時間文接地における視覚と言語バイアスの低減

Reducing the Vision and Language Bias for Temporal Sentence Grounding ( http://arxiv.org/abs/2207.13457v1 )

ライセンス: Link先を確認
Daizong Liu, Xiaoye Qu, Wei Hu(参考訳) 時間文グラウンドティング(TSG)はマルチメディア情報検索において重要な課題である。 従来のtsg手法は良好な性能を発揮してきたが、ロバストなマルチモーダル推論能力、特に稀に現れるペアではなく、データセット内で頻繁に出現するビデオクエリペアの選択バイアスをキャプチャする傾向がある。 本稿では, 選択バイアスの問題を考察し, モデル一般化能力を高めるために, 視覚・言語両モードの負のバイアスをフィルタリング・除去するデバイアスング・TSGモデルを提案する。 具体的には,この問題を2つの視点から解決することを提案する。 1)特徴蒸留 まずビジョンと言語のバイアスを捉え、次にバイアス識別モジュールを適用して、真負のバイアスを明示的に認識し、良質なマルチモーダル表現からそれらを取り除く。 2)対照的なサンプル生成。 我々は2種類の否定的サンプルを構築し、モデルが調整されたマルチモーダルセマンティクスを正確に学習し、完全なセマンティクス推論を行うよう強制する。 提案手法をTSGのケースに応用し、3つのベンチマークデータセット(ActivityNet Caption, TACoS, Charades-STA)上で最先端の性能を達成し、その効果を実証する。

Temporal sentence grounding (TSG) is an important yet challenging task in multimedia information retrieval. Although previous TSG methods have achieved decent performance, they tend to capture the selection biases of frequently appeared video-query pairs in the dataset rather than present robust multimodal reasoning abilities, especially for the rarely appeared pairs. In this paper, we study the above issue of selection biases and accordingly propose a Debiasing-TSG (D-TSG) model to filter and remove the negative biases in both vision and language modalities for enhancing the model generalization ability. Specifically, we propose to alleviate the issue from two perspectives: 1) Feature distillation. We built a multi-modal debiasing branch to firstly capture the vision and language biases, and then apply a bias identification module to explicitly recognize the true negative biases and remove them from the benign multi-modal representations. 2) Contrastive sample generation. We construct two types of negative samples to enforce the model to accurately learn the aligned multi-modal semantics and make complete semantic reasoning. We apply the proposed model to both commonly and rarely appeared TSG cases, and demonstrate its effectiveness by achieving the state-of-the-art performance on three benchmark datasets (ActivityNet Caption, TACoS, and Charades-STA).
翻訳日:2022-07-28 13:43:24 公開日:2022-07-27
# 走査型画素カメラの適応サンプリング

Adaptive sampling for scanning pixel cameras ( http://arxiv.org/abs/2207.13460v1 )

ライセンス: Link先を確認
Yusuf Duman, Jean-Yves Guillemaut, Simon Hadfield(参考訳) 走査型ピクセルカメラは、回折に制限されない新しい低コストで低消費電力のセンサーである。 スキャン中にシーンのさまざまな部分から抽出されたサンプルのシーケンスとしてデータを生成する。 サンプルレートと遅い画像取得時間を犠牲にして、非常に詳細な画像を提供することができる。 本稿では,センサがサンプルレートをこのシーケンスに適応させることのできる新しいアルゴリズムを提案する。 これにより、画像品質を維持しながら、シーンの撮影と送信に必要な帯域幅と時間を最小にすることで、これらの制限を克服することができる。 画像分類と意味セグメンテーションの応用について検討し, 80%のサンプルを用いて, 完全なサンプル入力と比較し, 同様の結果を得ることができた。

A scanning pixel camera is a novel low-cost, low-power sensor that is not diffraction limited. It produces data as a sequence of samples extracted from various parts of the scene during the course of a scan. It can provide very detailed images at the expense of samplerates and slow image acquisition time. This paper proposes a new algorithm which allows the sensor to adapt the samplerate over the course of this sequence. This makes it possible to overcome some of these limitations by minimising the bandwidth and time required to image and transmit a scene, while maintaining image quality. We examine applications to image classification and semantic segmentation and are able to achieve similar results compared to a fully sampled input, while using 80% fewer samples
翻訳日:2022-07-28 13:42:58 公開日:2022-07-27
# PASTA-GAN++ - 高分解能な仮想試行のためのVersatileフレームワーク

PASTA-GAN++: A Versatile Framework for High-Resolution Unpaired Virtual Try-on ( http://arxiv.org/abs/2207.13475v1 )

ライセンス: Link先を確認
Zhenyu Xie, Zaiyu Huang, Fuwei Zhao, Haoye Dong, Michael Kampffmeyer, Xin Dong, Feida Zhu, Xiaodan Liang(参考訳) 画像ベースの仮想試行は、人間の中心的な画像生成の最も有望な応用の1つだ。 本研究では,多目的仮想試行ソリューションについて,教師なしトレーニング,任意の衣料品カテゴリ,制御可能な衣料品編集という,3つの主要な特性を持つべきであると論じる。 そこで我々は,PASTA-GAN++ (PAtch-routed SpaTially-Adaptive GAN++) という特徴保存型エンドツーエンドネットワークを提案し,高分解能な仮想試行を実現する。 特に,我々のPASTA-GAN++は,無傷の衣服を正規化パッチに分離するための,革新的なパッチ引き離しモジュールで構成されており,衣服空間情報を排除しながら衣服スタイル情報を保持でき,教師なしトレーニングにおける過度な問題を軽減することができる。 さらに、PASTA-GAN++はパッチベースの衣服表現とパッチ誘導構文合成ブロックを導入し、任意の衣服カテゴリを処理し、局所的な衣服編集をサポートする。 最後に、現実的なテクスチャの詳細を持つ試行結果を得るために、PASTA-GAN++は、空間適応的な新しい残留モジュールを組み込んで、粗い歪んだ衣服機能をジェネレータに注入する。 新たに収集したUnPaired Virtual Try-on (UPT)データセットの大規模な実験は、既存のSOTAよりもPASTA-GAN++の方が優れていること、および、制御可能な衣服編集能力を示している。

Image-based virtual try-on is one of the most promising applications of human-centric image generation due to its tremendous real-world potential. In this work, we take a step forwards to explore versatile virtual try-on solutions, which we argue should possess three main properties, namely, they should support unsupervised training, arbitrary garment categories, and controllable garment editing. To this end, we propose a characteristic-preserving end-to-end network, the PAtch-routed SpaTially-Adaptive GAN++ (PASTA-GAN++), to achieve a versatile system for high-resolution unpaired virtual try-on. Specifically, our PASTA-GAN++ consists of an innovative patch-routed disentanglement module to decouple the intact garment into normalized patches, which is capable of retaining garment style information while eliminating the garment spatial information, thus alleviating the overfitting issue during unsupervised training. Furthermore, PASTA-GAN++ introduces a patch-based garment representation and a patch-guided parsing synthesis block, allowing it to handle arbitrary garment categories and support local garment editing. Finally, to obtain try-on results with realistic texture details, PASTA-GAN++ incorporates a novel spatially-adaptive residual module to inject the coarse warped garment feature into the generator. Extensive experiments on our newly collected UnPaired virtual Try-on (UPT) dataset demonstrate the superiority of PASTA-GAN++ over existing SOTAs and its ability for controllable garment editing.
翻訳日:2022-07-28 13:42:46 公開日:2022-07-27
# マルチフォアリー検出チャレンジ2022:非拘束・異種偽造検出のフロンティアを推し進める

Multi-Forgery Detection Challenge 2022: Push the Frontier of Unconstrained and Diverse Forgery Detection ( http://arxiv.org/abs/2207.13505v1 )

ライセンス: Link先を確認
Jianshu Li, Man Luo, Jian Liu, Tao Chen, Chengjie Wang, Ziwei Liu, Shuo Liu, Kewei Yang, Xuning Shao, Kang Chen, Boyuan Liu, Mingyu Guo, Ying Guo, Yingying Ao, Pengfei Gao(参考訳) 本稿では,CVPR 2022 の IEEE Computer Society Workshop on Biometrics と同時開催の Multi-Forgery Detection Challenge を紹介する。 我々のMulti-Forgery Detection Challengeは、画像編集、画像合成、画像生成、画像フォトショップなど、画像の自動操作を検出することを目的としています。 我々の挑戦は、世界中から674のチームを集め、2000の有効な結果が得られた。 トップ10チームにチャレンジのソリューションを提示してもらい、3つのチームがグランドファイナルで賞を受賞しました。 本稿では,画像偽造検出の分野での研究作業を促進するため,上位3チームによるソリューションを提案する。

In this paper, we present the Multi-Forgery Detection Challenge held concurrently with the IEEE Computer Society Workshop on Biometrics at CVPR 2022. Our Multi-Forgery Detection Challenge aims to detect automatic image manipulations including but not limited to image editing, image synthesis, image generation, image photoshop, etc. Our challenge has attracted 674 teams from all over the world, with about 2000 valid result submission counts. We invited the Top 10 teams to present their solutions to the challenge, from which three teams are awarded prizes in the grand finale. In this paper, we present the solutions from the Top 3 teams, in order to boost the research work in the field of image forgery detection.
翻訳日:2022-07-28 13:42:15 公開日:2022-07-27
# 衛星画像を用いた自律走行車両のクロスビュー位置推定

Satellite Image Based Cross-view Localization for Autonomous Vehicle ( http://arxiv.org/abs/2207.13506v1 )

ライセンス: Link先を確認
Shan Wang, Yanhao Zhang, Hongdong Li(参考訳) 既存の自動運転車の空間的ローカライゼーション技術は、主に3D-HDマップを使用しており、しばしば調査グレードの3Dマッピング車両を使って構築されている。 本稿では,市販の高精細衛星画像を利用可能マップとして利用することにより,より安価で実用的なローカライズ手法を提供するとともに,車両の視認精度を最大化できることを示す。 衛星画像を用いたクロスビューローカライゼーションの考え方は新しいものではないが、従来の方法では、車載地上画像と衛星画像とをマッチングして、タスクを画像検索として扱うことがほとんどであった。 本稿では,画像検索の共通知識から外れた,新しいクロスビュー定位手法を提案する。 具体的には,(1)地上の視界と頭上の視界の間の幾何学的ギャップを埋めるために計測された3次元点を利用した幾何学的特徴抽出器 (GaFE) ,(2) 姿勢認識特徴抽出を促進するために三重項損失を適用したPose Aware Branch (PAB) ,(3) レバンス・マルカルト (LM) アルゴリズムを用いたRecursive Pose Refine Branch (RPRB) を開発し,実際の車両に対する最初のポーズを反復的に調整する。 本手法はKITTIとFord Multi-AVの季節データセットを地上ビューとして,Google Mapsを衛星ビューとして検証した。 その結果, 空間的および角的誤差を1m以内, 2^\circ$あたりに有意な相関が認められた。 コードは公開される予定だ。

Existing spatial localization techniques for autonomous vehicles mostly use a pre-built 3D-HD map, often constructed using a survey-grade 3D mapping vehicle, which is not only expensive but also laborious. This paper shows that by using an off-the-shelf high-definition satellite image as a ready-to-use map, we are able to achieve cross-view vehicle localization up to a satisfactory accuracy, providing a cheaper and more practical way for localization. Although the idea of using satellite images for cross-view localization is not new, previous methods almost exclusively treat the task as image retrieval, namely matching a vehicle-captured ground-view image with the satellite image. This paper presents a novel cross-view localization method, which departs from the common wisdom of image retrieval. Specifically, our method develops (1) a Geometric-align Feature Extractor (GaFE) that leverages measured 3D points to bridge the geometric gap between ground view and overhead view, (2) a Pose Aware Branch (PAB) adopting a triplet loss to encourage pose-aware feature extracting, and (3) a Recursive Pose Refine Branch (RPRB) using the Levenberg-Marquardt (LM) algorithm to align the initial pose towards the true vehicle pose iteratively. Our method is validated on KITTI and Ford Multi-AV Seasonal datasets as ground view and Google Maps as the satellite view. The results demonstrate the superiority of our method in cross-view localization with spatial and angular errors within 1 meter and $2^\circ$, respectively. The code will be made publicly available.
翻訳日:2022-07-28 13:42:03 公開日:2022-07-27
# コントラスト型マスクオートエンコーダは、より強力な視覚学習者である

Contrastive Masked Autoencoders are Stronger Vision Learners ( http://arxiv.org/abs/2207.13532v1 )

ライセンス: Link先を確認
Zhicheng Huang, Xiaojie Jin, Chengze Lu, Qibin Hou, Ming-Ming Cheng, Dongmei Fu, Xiaohui Shen, Jiashi Feng(参考訳) masked image modeling (mim) は様々なビジョンタスクで有望な結果を得た。 しかし、学習表現の限定的な識別性は、より強力なビジョン学習者を作るにはまだまだ多くの道のりがあることを示している。 この目標に向けて,より包括的で有能な視覚表現を学習するための自己指導型事前学習手法であるContrastive Masked Autoencoders (CMAE)を提案する。 CMAEは、新しいデザインを通じて、比較学習(CL)とマスク画像モデル(MIM)を協調的に統一することにより、それぞれの利点を活用し、強いインスタンス識別性と局所認識性の両方で表現を学習する。 具体的には、オンラインブランチが非対称エンコーダデコーダであり、ターゲットブランチがモーメント更新エンコーダである2つのブランチで構成される。 トレーニング中、オンラインエンコーダはマスク付き画像の潜在表現からオリジナル画像を再構成し、全体像を学習する。 ターゲットエンコーダはフルイメージで入力され、オンラインと対照的な学習を通じて特徴識別性を高める。 clをmimと互換性を持たせるために、cmaeは2つの新しいコンポーネント、すなわち、可算なポジティブビューを生成するピクセルシフトと、コントラストペアの特徴を補完する機能デコーダを導入した。 これらの新しい設計のおかげで、CMAEはMIMよりも表現品質と転送性能を効果的に改善する。 cmaeは、画像分類、セマンティックセグメンテーション、オブジェクト検出といった高度な競合ベンチマークで最先端のパフォーマンスを達成している。 注目すべきは、cmae-baseはimagenetで85.3\%$ top-1精度、ade20kで52.5\%$ miouを達成し、それぞれ0.7\%$と1.8\%$である。 コードは公開される予定だ。

Masked image modeling (MIM) has achieved promising results on various vision tasks. However, the limited discriminability of learned representation manifests there is still plenty to go for making a stronger vision learner. Towards this goal, we propose Contrastive Masked Autoencoders (CMAE), a new self-supervised pre-training method for learning more comprehensive and capable vision representations. By elaboratively unifying contrastive learning (CL) and masked image model (MIM) through novel designs, CMAE leverages their respective advantages and learns representations with both strong instance discriminability and local perceptibility. Specifically, CMAE consists of two branches where the online branch is an asymmetric encoder-decoder and the target branch is a momentum updated encoder. During training, the online encoder reconstructs original images from latent representations of masked images to learn holistic features. The target encoder, fed with the full images, enhances the feature discriminability via contrastive learning with its online counterpart. To make CL compatible with MIM, CMAE introduces two new components, i.e. pixel shift for generating plausible positive views and feature decoder for complementing features of contrastive pairs. Thanks to these novel designs, CMAE effectively improves the representation quality and transfer performance over its MIM counterpart. CMAE achieves the state-of-the-art performance on highly competitive benchmarks of image classification, semantic segmentation and object detection. Notably, CMAE-Base achieves $85.3\%$ top-1 accuracy on ImageNet and $52.5\%$ mIoU on ADE20k, surpassing previous best results by $0.7\%$ and $1.8\%$ respectively. Codes will be made publicly available.
翻訳日:2022-07-28 13:41:31 公開日:2022-07-27
# セマンティックセグメンテーションのための軽量かつ漸進的なネットワーク

Lightweight and Progressively-Scalable Networks for Semantic Segmentation ( http://arxiv.org/abs/2207.13600v1 )

ライセンス: Link先を確認
Yiheng Zhang and Ting Yao and Zhaofan Qiu and Tao Mei(参考訳) マルチスケール学習フレームワークは,セマンティックセグメンテーションを向上する有効なモデルのクラスと見なされてきた。 それでも問題は、推論レイテンシの高効率をしばしば要求する現実世界のデプロイメントにおいて、特に自明なものではない。 本稿では,畳み込みブロックの設計(畳み込みのタイプと畳み込みのチャネル数)と,複数のスケールにわたるインタラクションの方法について,それぞれが意味セグメンテーションのための軽量な観点から徹底的に分析する。 このような詳細な比較によって,我々は3つの原則を結論付け,軽量かつ漸進的なスケーラブルネットワーク(lps-net)を考案し,ネットワークの複雑さを新たな方法で拡張する。 技術的には、lps-netはまず小さなネットワークを構築するための原則に乗じる。 次にlps-netは、単一の次元(畳み込みブロック数、チャネル数、入力解像度)を最大速度/精度のトレードオフを満たすように一度に拡大することで、小さなネットワークを大きなネットワークに段階的にスケールさせる。 3つのデータセットで行った広範囲な実験は、lps-netが複数の効率的なセマンティックセグメンテーション法よりも優れていることを一貫して証明している。 さらに驚くべきことに、私たちのLPS-NetはCityscapesテストセットで73.4% mIoUを達成し、NVIDIA GTX 1080Tiで413.5FPSの速度でパフォーマンスが1.5%向上し、最先端STDCに対して65%のスピードアップを実現しました。 コードは \url{https://github.com/yihengzhang-cv/lps-net} で入手できる。

Multi-scale learning frameworks have been regarded as a capable class of models to boost semantic segmentation. The problem nevertheless is not trivial especially for the real-world deployments, which often demand high efficiency in inference latency. In this paper, we thoroughly analyze the design of convolutional blocks (the type of convolutions and the number of channels in convolutions), and the ways of interactions across multiple scales, all from lightweight standpoint for semantic segmentation. With such in-depth comparisons, we conclude three principles, and accordingly devise Lightweight and Progressively-Scalable Networks (LPS-Net) that novelly expands the network complexity in a greedy manner. Technically, LPS-Net first capitalizes on the principles to build a tiny network. Then, LPS-Net progressively scales the tiny network to larger ones by expanding a single dimension (the number of convolutional blocks, the number of channels, or the input resolution) at one time to meet the best speed/accuracy tradeoff. Extensive experiments conducted on three datasets consistently demonstrate the superiority of LPS-Net over several efficient semantic segmentation methods. More remarkably, our LPS-Net achieves 73.4% mIoU on Cityscapes test set, with the speed of 413.5FPS on an NVIDIA GTX 1080Ti, leading to a performance improvement by 1.5% and a 65% speed-up against the state-of-the-art STDC. Code is available at \url{https://github.com/YihengZhang-CV/LPS-Net}.
翻訳日:2022-07-28 13:40:59 公開日:2022-07-27
# グローバルイルミネーションを用いた再生可能ノベルビュー合成のためのニューラルラジアンス伝達場

Neural Radiance Transfer Fields for Relightable Novel-view Synthesis with Global Illumination ( http://arxiv.org/abs/2207.13607v1 )

ライセンス: Link先を確認
Linjie Lyu, Ayush Tewari, Thomas Leimkuehler, Marc Habermann, and Christian Theobalt(参考訳) シーンのイメージセットが与えられた場合、新しいビューと照明条件からこのシーンを再レンダリングすることは、コンピュータビジョンとグラフィックにおいて重要かつ困難な問題である。 一方、コンピュータビジョンの既存の作品の多くは、直接照明や予め定義された材料など、画像形成過程に関する多くの仮定を課し、シーンパラメーターの推定を抽出できるようにする。 一方、成熟したコンピュータグラフィックスツールは、シーンパラメータをすべて考慮し、複雑なフォトリアリスティック光輸送のモデリングを可能にする。 これらの手法を組み合わせることで,新しい環境マップを用いて暗黙的にグローバルな照明効果を扱えるニューラル計算された放射光伝達関数を学習し,新しい視点下でのシーンリライティング手法を提案する。 本手法は,1つの未知の照明条件下で,シーンの実像に対してのみ監視することができる。 学習中のタスクの曖昧さを解消するため,訓練プロセスにおいて微分可能な経路トレーサを密に統合し,合成したolatと実際の画像損失の組み合わせを提案する。 その結果, 復元されたシーンパラメータのゆがみは現状よりも大幅に改善され, 再レンダリングの結果はより現実的で正確であることがわかった。

Given a set of images of a scene, the re-rendering of this scene from novel views and lighting conditions is an important and challenging problem in Computer Vision and Graphics. On the one hand, most existing works in Computer Vision usually impose many assumptions regarding the image formation process, e.g. direct illumination and predefined materials, to make scene parameter estimation tractable. On the other hand, mature Computer Graphics tools allow modeling of complex photo-realistic light transport given all the scene parameters. Combining these approaches, we propose a method for scene relighting under novel views by learning a neural precomputed radiance transfer function, which implicitly handles global illumination effects using novel environment maps. Our method can be solely supervised on a set of real images of the scene under a single unknown lighting condition. To disambiguate the task during training, we tightly integrate a differentiable path tracer in the training process and propose a combination of a synthesized OLAT and a real image loss. Results show that the recovered disentanglement of scene parameters improves significantly over the current state of the art and, thus, also our re-rendering results are more realistic and accurate.
翻訳日:2022-07-28 13:40:30 公開日:2022-07-27
# 線虫c. elegansの4次元アトラス完成に向けた半自動細胞追跡プロセス

A Semi-automatic Cell Tracking Process Towards Completing the 4D Atlas of C. elegans Development ( http://arxiv.org/abs/2207.13611v1 )

ライセンス: Link先を確認
Andrew Lauziere, Ryan Christensen, Hari Shroff(参考訳) 線虫Caenorhabditis elegans(C. elegans)は、発生生物学や神経生物学をよりよく理解するためのモデル生物として用いられる。 c. elegans は不変な細胞系統を特徴とし、蛍光顕微鏡画像を用いて分類・観察されている。 しかし、後期発達における細胞追跡の確立された方法は、散発的な筋ジスチングが始まると一般化に失敗する。 我々は,皮膚細胞をフィデューシャルマーカーとして利用して,ランダムなツイッチにもかかわらず細胞追跡を行う手法を構築した。 特に,3次元レンダリングGUIに統合された細胞核分割と追跡の手順を提示し,後期開発における細胞追跡の効率化を図った。 3つのテスト胚にまたがる筋細胞核の画像から得られた結果は、核分裂マーカーと古典的な追跡パラダイムが散発的なエキサイティングを克服していることを示唆している。

The nematode Caenorhabditis elegans (C. elegans) is used as a model organism to better understand developmental biology and neurobiology. C. elegans features an invariant cell lineage, which has been catalogued and observed using fluorescence microscopy images. However, established methods to track cells in late-stage development fail to generalize once sporadic muscular twitching has begun. We build upon methodology which uses skin cells as fiducial markers to carry out cell tracking despite random twitching. In particular, we present a cell nucleus segmentation and tracking procedure which was integrated into a 3D rendering GUI to improve efficiency in tracking cells across late-stage development. Results on images depicting aforementioned muscle cell nuclei across three test embryos suggest the fiducial markers in conjunction with a classic tracking paradigm overcome sporadic twitching.
翻訳日:2022-07-28 13:40:11 公開日:2022-07-27
# メタ補間:デュアルメタラーニングによる時間任意フレーム補間

Meta-Interpolation: Time-Arbitrary Frame Interpolation via Dual Meta-Learning ( http://arxiv.org/abs/2207.13670v1 )

ライセンス: Link先を確認
Shixing Yu, Yiyang Ma, Wenhan Yang, Wei Xiang, Jiaying Liu(参考訳) 既存のビデオフレーム補間法は、フレームを所定の中間段階(例えば1/2)でのみ補間することができる。 本稿では,任意の時間ステップでより一般化した映像フレーム補間について検討する。 この目的のために、メタ学習の助けを借りて、適応的に生成された畳み込みカーネルで異なる時間ステップを統一的に処理することを検討する。 具体的には,コンテクスト情報とオプティカルフローの指導により中間フレームを合成し,時間ステップをサイド情報として用いる2つのメタ学習フレーム補間フレームワークを開発した。 まず、入力フレームのダウンサンプリングバージョンに基づいて、光フロー推定の精度を向上させるために、コンテンツ対応のメタ学習フローリファインメントモジュールを構築する。 第2に、洗練された光学フロー及び時間ステップを入力として、モーションアウェアメタリールフレーム補間モジュールが、入力フレームの粗いワープバージョンの特徴マップ上の畳み込み操作で使用される画素毎の畳み込みカーネルを生成し、予測フレームを生成する。 広範囲な質的・定量的評価とアブレーション研究により,提案手法の枠組みにメタラーニングを導入することにより,最先端のフレーム補間手法よりも優れた性能が得られるだけでなく,任意の時間ステップで補間をサポートする拡張容量も有することを示した。

Existing video frame interpolation methods can only interpolate the frame at a given intermediate time-step, e.g. 1/2. In this paper, we aim to explore a more generalized kind of video frame interpolation, that at an arbitrary time-step. To this end, we consider processing different time-steps with adaptively generated convolutional kernels in a unified way with the help of meta-learning. Specifically, we develop a dual meta-learned frame interpolation framework to synthesize intermediate frames with the guidance of context information and optical flow as well as taking the time-step as side information. First, a content-aware meta-learned flow refinement module is built to improve the accuracy of the optical flow estimation based on the down-sampled version of the input frames. Second, with the refined optical flow and the time-step as the input, a motion-aware meta-learned frame interpolation module generates the convolutional kernels for every pixel used in the convolution operations on the feature map of the coarse warped version of the input frames to generate the predicted frame. Extensive qualitative and quantitative evaluations, as well as ablation studies, demonstrate that, via introducing meta-learning in our framework in such a well-designed way, our method not only achieves superior performance to state-of-the-art frame interpolation approaches but also owns an extended capacity to support the interpolation at an arbitrary time-step.
翻訳日:2022-07-28 13:39:53 公開日:2022-07-27
# one-trimapビデオマットリング

One-Trimap Video Matting ( http://arxiv.org/abs/2207.13353v1 )

ライセンス: Link先を確認
Hongje Seong and Seoung Wug Oh and Brian Price and Euntai Kim and Joon-Young Lee(参考訳) 近年の研究では、トリマップベースの画像マッチングの成功をビデオ領域に広げることで、ビデオマッチングに大きな進歩をもたらした。 本稿では,この課題をより実践的な設定に向け,一つのユーザアノテートトリマップのみを用いてビデオマッチングを堅牢に行う1-Trimap Video Matting Network (OTVM)を提案する。 OTVMの鍵は、トリマップの伝搬とアルファ予測の合同モデリングである。 私たちのotvmは、ベースラインのトリマップ伝搬とアルファ予測ネットワークから始まり、2つのネットワークをアルファトリマップリファインメントモジュールと組み合わせ、情報フローを容易にします。 ジョイントモデルを完全に活用するためのエンドツーエンドのトレーニング戦略も提示する。 この共同モデリングは, 従来の分離法と比較して, トリマップ伝搬の時間安定性を大幅に向上させる。 我々は,最新の2つのビデオマットングベンチマーク(deep video mattingとvideomatting108)を用いて,そのモデルを評価した(mseは56.4%,mseは56.7%)。 ソースコードとモデルは、https://github.com/hongje/otvm.com/で入手できる。

Recent studies made great progress in video matting by extending the success of trimap-based image matting to the video domain. In this paper, we push this task toward a more practical setting and propose One-Trimap Video Matting network (OTVM) that performs video matting robustly using only one user-annotated trimap. A key of OTVM is the joint modeling of trimap propagation and alpha prediction. Starting from baseline trimap propagation and alpha prediction networks, our OTVM combines the two networks with an alpha-trimap refinement module to facilitate information flow. We also present an end-to-end training strategy to take full advantage of the joint model. Our joint modeling greatly improves the temporal stability of trimap propagation compared to the previous decoupled methods. We evaluate our model on two latest video matting benchmarks, Deep Video Matting and VideoMatting108, and outperform state-of-the-art by significant margins (MSE improvements of 56.4% and 56.7%, respectively). The source code and model are available online: https://github.com/Hongje/OTVM.
翻訳日:2022-07-28 13:37:12 公開日:2022-07-27
# コンテクストアウェアクロスレベル融合による迷彩物体検出

Camouflaged Object Detection via Context-aware Cross-level Fusion ( http://arxiv.org/abs/2207.13362v1 )

ライセンス: Link先を確認
Geng Chen, Si-Jie Liu, Yu-Jia Sun, Ge-Peng Ji, Ya-Feng Wu, Tao Zhou(参考訳) camouflaged object detection (cod) は自然界に隠れている物体を識別することを目的としている。 正確なCODは、境界のコントラストの低さや、オブジェクトのサイズや形状など、オブジェクトの外観の大きなばらつきに関連する多くの課題に悩まされている。 これらの課題に対処するために,コンテキスト認識型クロスレベルフュージョンネットワーク(C2F-Net)を提案する。 具体的には,注意係数の指導の下で機能をさらに統合する注意誘導クロスレベル融合モジュール (acfm) を用いて,多レベル特徴からの情報的注意係数を算出する。 次に,豊かなグローバルコンテキスト情報を活用し,情報的特徴表現のための融合特徴を洗練するためのdual-branch global context module (dgcm)を提案する。 複数のACFMとDGCMは、高レベルの特徴から粗い予測を生成するカスケード方式で統合される。 粗い予測は、カモフラージュ推論モジュール(CIM)に渡す前に、低レベルの特徴を洗練するための注意マップとして機能し、最終的な予測を生成する。 我々は、広く使われている3つのベンチマークデータセットについて広範な実験を行い、C2F-Netと最先端(SOTA)モデルを比較した。 その結果,C2F-NetはCODモデルとして有効であり,SOTAモデルよりも優れていた。 さらに,ポリプセグメンテーションデータセットの評価により,COD下流アプリケーションにおけるC2F-Netの可能性を示す。 私たちのコードは、https://github.com/Ben57882/C2FNet-TSCVT.comで公開されています。

Camouflaged object detection (COD) aims to identify the objects that conceal themselves in natural scenes. Accurate COD suffers from a number of challenges associated with low boundary contrast and the large variation of object appearances, e.g., object size and shape. To address these challenges, we propose a novel Context-aware Cross-level Fusion Network (C2F-Net), which fuses context-aware cross-level features for accurately identifying camouflaged objects. Specifically, we compute informative attention coefficients from multi-level features with our Attention-induced Cross-level Fusion Module (ACFM), which further integrates the features under the guidance of attention coefficients. We then propose a Dual-branch Global Context Module (DGCM) to refine the fused features for informative feature representations by exploiting rich global context information. Multiple ACFMs and DGCMs are integrated in a cascaded manner for generating a coarse prediction from high-level features. The coarse prediction acts as an attention map to refine the low-level features before passing them to our Camouflage Inference Module (CIM) to generate the final prediction. We perform extensive experiments on three widely used benchmark datasets and compare C2F-Net with state-of-the-art (SOTA) models. The results show that C2F-Net is an effective COD model and outperforms SOTA models remarkably. Further, an evaluation on polyp segmentation datasets demonstrates the promising potentials of our C2F-Net in COD downstream applications. Our code is publicly available at: https://github.com/Ben57882/C2FNet-TSCVT.
翻訳日:2022-07-28 13:36:53 公開日:2022-07-27
# 運動量に導かれた高効率ビデオデブラリング

Efficient Video Deblurring Guided by Motion Magnitude ( http://arxiv.org/abs/2207.13374v1 )

ライセンス: Link先を確認
Yusheng Wang and Yunfan Lu and Ye Gao and Lin Wang and Zhihang Zhong and Yinqiang Zheng and Atsushi Yamashita(参考訳) ビデオのぼかしは、空間的にも時間的にもぼやけやすい問題である。 ビデオデブラリングの直感的なアプローチには、2つのステップがある。 a) 現在のフレームのぼやけた領域を検出すること b) 隣接するフレームのクリア領域からの情報を現在のフレームデブラリングに利用すること。 このプロセスを実現するために、各フレームの画素単位のぼかしレベルを検出し、それをビデオデブリと組み合わせる。 そこで本研究では,MMP(Motion magnitude prior)を高効率なディープビデオデブロアのガイダンスとして利用する新しいフレームワークを提案する。 具体的には、露光時間中のその軌道に沿った画素移動が動きのぼやきのレベルと正の相関があるので、まず、高周波のシャープフレームからの光学的流れの平均の大きさを用いて、合成されたぼやけフレームと対応する画素毎の動きのマグニチュードマップを生成する。 次に、ぼやけたフレームとMMPペアを含むデータセットを構築します。 MMPは、回帰によってコンパクトCNNによって学習される。 MMPは、空間的および時間的ボケレベル情報の両方で構成されており、ビデオデブロアリングのための効率的なリカレントニューラルネットワーク(RNN)にさらに統合することができる。 提案手法の有効性を検証するために, 集中的な実験を行った。

Video deblurring is a highly under-constrained problem due to the spatially and temporally varying blur. An intuitive approach for video deblurring includes two steps: a) detecting the blurry region in the current frame; b) utilizing the information from clear regions in adjacent frames for current frame deblurring. To realize this process, our idea is to detect the pixel-wise blur level of each frame and combine it with video deblurring. To this end, we propose a novel framework that utilizes the motion magnitude prior (MMP) as guidance for efficient deep video deblurring. Specifically, as the pixel movement along its trajectory during the exposure time is positively correlated to the level of motion blur, we first use the average magnitude of optical flow from the high-frequency sharp frames to generate the synthetic blurry frames and their corresponding pixel-wise motion magnitude maps. We then build a dataset including the blurry frame and MMP pairs. The MMP is then learned by a compact CNN by regression. The MMP consists of both spatial and temporal blur level information, which can be further integrated into an efficient recurrent neural network (RNN) for video deblurring. We conduct intensive experiments to validate the effectiveness of the proposed methods on the public datasets.
翻訳日:2022-07-28 13:36:25 公開日:2022-07-27
# ロングテール標本分布におけるハードノイズの同定

Identifying Hard Noise in Long-Tailed Sample Distribution ( http://arxiv.org/abs/2207.13378v1 )

ライセンス: Link先を確認
Xuanyu Yi, Kaihua Tang, Xian-Sheng Hua, Joo-Hwee Lim, Hanwang Zhang(参考訳) 従来の de-noising 法は、全てのサンプルが独立で同一に分布しているという仮定に依存しているため、結果の分類器はノイズに邪魔されても、そのノイズをトレーニング分布の外れ値として容易に識別することができる。 しかし、この仮定は必然的に長い尾を持つ大規模データでは非現実的である。 このような不均衡なトレーニングデータによって、分類器は、それまで"簡単な"ノイズが"ハード"なクラスに変わり、クリーンなテールサンプルとほぼ同等の外れ値になる尾クラスに対して、識別性が低下する。 この新たな課題を,NLT (Noisy Long-Tailed Classification) と呼ぶ。 当然のことながら、ほとんどのノイズ除去手法はハードノイズの識別に失敗し、ImageNet-NLT、Animal10-NLT、Food101-NLTという3つのNLTベンチマークで性能が大幅に低下した。 そこで我々はH2E(Hard-to-Easy)と呼ばれる反復的な雑音学習フレームワークを設計する。 我々のブートストラッピング哲学は、まず、クラスとコンテキストの分布変化に不変なノイズ識別子として分類器を学習し、「ハード」ノイズを「簡単」ノイズに減らし、その除去により不変性がさらに向上する。 実験結果から,h2eは,従来のバランスのとれた設定で安定した性能を維持しつつ,最先端の脱ノイズ法と,そのアブレーションよりも優れていた。 データセットとコードはhttps://github.com/yxymessi/h2e-frameworkで入手できる。

Conventional de-noising methods rely on the assumption that all samples are independent and identically distributed, so the resultant classifier, though disturbed by noise, can still easily identify the noises as the outliers of training distribution. However, the assumption is unrealistic in large-scale data that is inevitably long-tailed. Such imbalanced training data makes a classifier less discriminative for the tail classes, whose previously "easy" noises are now turned into "hard" ones -- they are almost as outliers as the clean tail samples. We introduce this new challenge as Noisy Long-Tailed Classification (NLT). Not surprisingly, we find that most de-noising methods fail to identify the hard noises, resulting in significant performance drop on the three proposed NLT benchmarks: ImageNet-NLT, Animal10-NLT, and Food101-NLT. To this end, we design an iterative noisy learning framework called Hard-to-Easy (H2E). Our bootstrapping philosophy is to first learn a classifier as noise identifier invariant to the class and context distributional changes, reducing "hard" noises to "easy" ones, whose removal further improves the invariance. Experimental results show that our H2E outperforms state-of-the-art de-noising methods and their ablations on long-tailed settings while maintaining a stable performance on the conventional balanced settings. Datasets and codes are available at https://github.com/yxymessi/H2E-Framework
翻訳日:2022-07-28 13:36:02 公開日:2022-07-27
# 敵に近づこう: 教師と教師の模倣による攻撃を学ぶ

Look Closer to Your Enemy: Learning to Attack via Teacher-student Mimicking ( http://arxiv.org/abs/2207.13381v1 )

ライセンス: Link先を確認
Mingejie Wang, Zhiqing Tang, Sirui Li and Dingwen Xiao(参考訳) 本稿では,敵の心(VM)を読み取ることによって,人物の再識別の現実的な攻撃サンプルであるReIDを生成することを目的とする。 本稿では,新たな不明瞭かつ制御可能なReID攻撃ベースラインであるLCYEを提案する。 具体的には、LCYEが最初にVMの知識を、プロキシタスクで模倣する教師-学生メモリ経由で蒸留する。 次に、この知識は、vmが信じている本質的かつ現実的なものを伝える明示的な暗号として振る舞う。 さらに、LCYEの複数の対立するタスク・フレームワークの恩恵を受け、クロスドメイン適応、クロスモデル・コンセンサス、オンライン学習プロセスを含む敵攻撃の観点からReIDモデルの解釈可能性と一般化について検討する。 4つのreidベンチマークに関する広範囲な実験により、この手法はホワイトボックス、ブラックボックス、ターゲット攻撃において、最先端の攻撃者よりも優れていることが示された。 私たちのコードはhttps://gitfront.io/r/user-3704489/mKXusqDT4ffr/LCYE/で利用可能です。

This paper aims to generate realistic attack samples of person re-identification, ReID, by reading the enemy's mind (VM). In this paper, we propose a novel inconspicuous and controllable ReID attack baseline, LCYE, to generate adversarial query images. Concretely, LCYE first distills VM's knowledge via teacher-student memory mimicking in the proxy task. Then this knowledge prior acts as an explicit cipher conveying what is essential and realistic, believed by VM, for accurate adversarial misleading. Besides, benefiting from the multiple opposing task framework of LCYE, we further investigate the interpretability and generalization of ReID models from the view of the adversarial attack, including cross-domain adaption, cross-model consensus, and online learning process. Extensive experiments on four ReID benchmarks show that our method outperforms other state-of-the-art attackers with a large margin in white-box, black-box, and target attacks. Our code is now available at https://gitfront.io/r/user-3704489/mKXusqDT4ffr/LCYE/.
翻訳日:2022-07-28 13:35:31 公開日:2022-07-27
# ビットフリップによるニューラルネットワークに対するトロイの木馬攻撃

Hardly Perceptible Trojan Attack against Neural Networks with Bit Flips ( http://arxiv.org/abs/2207.13417v1 )

ライセンス: Link先を確認
Jiawang Bai, Kuofeng Gao, Dihong Gong, Shu-Tao Xia, Zhifeng Li, and Wei Liu(参考訳) ディープニューラルネットワーク(DNN)のセキュリティは、さまざまなアプリケーションで広く使用されているため、注目を集めている。 最近、デプロイされたDNNはトロイの木馬攻撃に弱いことが実証された。これはモデルパラメータをビットフリップで操作し、隠れた振る舞いを注入し、特定のトリガーパターンでそれを活性化する。 しかし、既存のトロイの木馬攻撃はすべて、パッチベースのトリガー(四角いパターンなど)を採用しており、人間に知覚しやすく、機械によって容易に検出できる。 本稿では,新しい攻撃,すなわち知覚不可能なトロイア攻撃(HPT)を提案する。 HPTは、原画像の画素値と位置をそれぞれ微調整するために、加算ノイズと画素あたりの流れ場を利用して、知覚しにくいトロイの木像を作成する。 攻撃性能を向上させるために,ビットフリップ,付加雑音,流れ場を共同で最適化する手法を提案する。 DNNの重みビットはバイナリであるため、この問題の解決は非常に困難である。 等価な置換でバイナリ制約を処理し、効率的な最適化アルゴリズムを提供する。 CIFAR-10、SVHN、ImageNetデータセットの大規模な実験により、提案したHPTは、最先端の手法と比較して、同等または優れた攻撃性能を達成しつつ、知覚し難いトロイの木像を生成できることが示されている。 コードは、https://github.com/jiawangbai/HPT.comで入手できる。

The security of deep neural networks (DNNs) has attracted increasing attention due to their widespread use in various applications. Recently, the deployed DNNs have been demonstrated to be vulnerable to Trojan attacks, which manipulate model parameters with bit flips to inject a hidden behavior and activate it by a specific trigger pattern. However, all existing Trojan attacks adopt noticeable patch-based triggers (e.g., a square pattern), making them perceptible to humans and easy to be spotted by machines. In this paper, we present a novel attack, namely hardly perceptible Trojan attack (HPT). HPT crafts hardly perceptible Trojan images by utilizing the additive noise and per pixel flow field to tweak the pixel values and positions of the original images, respectively. To achieve superior attack performance, we propose to jointly optimize bit flips, additive noise, and flow field. Since the weight bits of the DNNs are binary, this problem is very hard to be solved. We handle the binary constraint with equivalent replacement and provide an effective optimization algorithm. Extensive experiments on CIFAR-10, SVHN, and ImageNet datasets show that the proposed HPT can generate hardly perceptible Trojan images, while achieving comparable or better attack performance compared to the state-of-the-art methods. The code is available at: https://github.com/jiawangbai/HPT.
翻訳日:2022-07-28 13:35:10 公開日:2022-07-27
# GANによるFew-Shot部分分割

Leveraging GAN Priors for Few-Shot Part Segmentation ( http://arxiv.org/abs/2207.13428v1 )

ライセンス: Link先を確認
Mengya Han, Heliang Zheng, Chaoyue Wang, Yong Luo, Han Hu, Bo Du(参考訳) 少数ショット部分セグメンテーションは、いくつかの注釈付きサンプルのみを与えられたオブジェクトの異なる部分を分離することを目的としている。 限られたデータの課題のため、既存の作業は主に事前学習された特徴よりも学習分類器に焦点をあて、部分分割のためのタスク固有の特徴の学習に失敗した。 本稿では,タスク固有の特徴を「事前学習」-「微調整」パラダイムで学習することを提案する。 我々は,事前学習タスク(画像生成)と下流タスク(部分分割)とのギャップを低減し,生成のためのganプリミティブをセグメンテーションに活用できるように,迅速な設計を行う。 これは、部分セグメンテーションマップをrgb空間に投影し、rgbセグメンテーションマップとオリジナルイメージ間の補間を行うことによって達成される。 具体的には,画像生成器をセグメンテーション生成器に段階的にチューニングする微調整戦略を考案し,画像からセグメンテーションマップへのインターポーテーションによる生成器の監督を行う。 さらに,タスク特有の特徴を生成するセグメンテーションストリームと,空間制約を提供するイメージストリームという2つのストリームアーキテクチャを提案する。 画像ストリームは自己教師付きオートエンコーダと見なすことができ,大規模サポート画像の恩恵を受けることができる。 全体として、この研究は、素早い設計によって、生成タスクと知覚タスクの内部的関連性を探求する試みである。 広範な実験により,いくつかの部分セグメンテーションデータセットにおいて,最先端のパフォーマンスを実現することができた。

Few-shot part segmentation aims to separate different parts of an object given only a few annotated samples. Due to the challenge of limited data, existing works mainly focus on learning classifiers over pre-trained features, failing to learn task-specific features for part segmentation. In this paper, we propose to learn task-specific features in a "pre-training"-"fine-tuning" paradigm. We conduct prompt designing to reduce the gap between the pre-train task (i.e., image generation) and the downstream task (i.e., part segmentation), so that the GAN priors for generation can be leveraged for segmentation. This is achieved by projecting part segmentation maps into the RGB space and conducting interpolation between RGB segmentation maps and original images. Specifically, we design a fine-tuning strategy to progressively tune an image generator into a segmentation generator, where the supervision of the generator varying from images to segmentation maps by interpolation. Moreover, we propose a two-stream architecture, i.e., a segmentation stream to generate task-specific features, and an image stream to provide spatial constraints. The image stream can be regarded as a self-supervised auto-encoder, and this enables our model to benefit from large-scale support images. Overall, this work is an attempt to explore the internal relevance between generation tasks and perception tasks by prompt designing. Extensive experiments show that our model can achieve state-of-the-art performance on several part segmentation datasets.
翻訳日:2022-07-28 13:34:46 公開日:2022-07-27
# マルチメディア異常検出におけるコンセプトドリフトチャレンジ-顔データを用いた事例

Concept Drift Challenge in Multimedia Anomaly Detection: A Case Study with Facial Datasets ( http://arxiv.org/abs/2207.13430v1 )

ライセンス: Link先を確認
Pratibha Kumari, Priyankar Choudhary, Pradeep K. Atrey, and Mukesh Saini(参考訳) マルチメディアデータセットにおける異常検出は広く研究されている分野である。 しかし、データにおけるドリフトチャレンジの概念は、多くの異常検出フレームワークによって無視され、扱いが悪かった。 最先端のアプローチでは、トレーニングとデプロイメント時のデータ分散は同じだと仮定している。 しかし, 実生活環境要因が多様であるため, データは分布のドリフトに遭遇するか, 将来あるクラスから別のクラスにドリフトする可能性がある。 したがって、一度訓練されたモデルは適切に機能しないかもしれない。 本稿では,様々な検出モデルに対する概念ドリフトの効果を体系的に検討し,マルチメディアデータの異常検出のための改良型適応ガウス混合モデル(agmm)を提案する。 AGMMのベースラインとは対照的に、AGMMの拡張提案では、ドリフトをよりうまく扱うために、過去を長く記憶している。 大規模な実験分析の結果,提案手法はベースライン AGMM と比較してデータのドリフトをうまく処理できることがわかった。 さらに,提案フレームワークとの比較研究を容易にするために,顔を構成する3つのマルチメディアデータセットをサンプルとして提供した。 個人の顔のサンプルは、より長い時間的文脈を取り込むために10年以上の年齢差に対応する。

Anomaly detection in multimedia datasets is a widely studied area. Yet, the concept drift challenge in data has been ignored or poorly handled by the majority of the anomaly detection frameworks. The state-of-the-art approaches assume that the data distribution at training and deployment time will be the same. However, due to various real-life environmental factors, the data may encounter drift in its distribution or can drift from one class to another in the late future. Thus, a one-time trained model might not perform adequately. In this paper, we systematically investigate the effect of concept drift on various detection models and propose a modified Adaptive Gaussian Mixture Model (AGMM) based framework for anomaly detection in multimedia data. In contrast to the baseline AGMM, the proposed extension of AGMM remembers the past for a longer period in order to handle the drift better. Extensive experimental analysis shows that the proposed model better handles the drift in data as compared with the baseline AGMM. Further, to facilitate research and comparison with the proposed framework, we contribute three multimedia datasets constituting faces as samples. The face samples of individuals correspond to the age difference of more than ten years to incorporate a longer temporal context.
翻訳日:2022-07-28 13:34:20 公開日:2022-07-27
# 反復的なシーングラフ生成

Iterative Scene Graph Generation ( http://arxiv.org/abs/2207.13440v1 )

ライセンス: Link先を確認
Siddhesh Khandelwal and Leonid Sigal(参考訳) シーングラフ生成のタスクは、オブジェクトエンティティを識別し、対応するインタラクションが所定の画像(またはビデオ)に述示される。 組合せ的に大きい解空間のため、シーングラフ生成への既存のアプローチでは、結合分布の特定の因子化を仮定して推定が実現可能である(例えば、対象が述語予測から条件的に独立であると仮定する)。 しかし、この固定分解は全てのシナリオにおいて理想的ではない(例えば、相互作用に関連する対象が小さく、それ自身では識別できないような画像)。 本研究では,この制限に対処するシーングラフ生成のための新しいフレームワークを提案するとともに,マルコフ確率場におけるメッセージパッシングを用いた画像上の動的条件付けを提案する。 これは、前回のイテレーションで生成されたグラフに各修正を条件付けする反復的精錬手順として実装される。 このリファインメントステップ間の条件付けは、エンティティとリレーションシップに対する共同推論を可能にする。 このフレームワークは、新規でエンドツーエンドのトレーニング可能なトランスフォーマーベースのアーキテクチャによって実現される。 さらに、提案フレームワークは既存のアプローチ性能を改善することができる。 視覚ゲノムおよび行動ゲノムベンチマークデータセットの広範な実験を通じて,シーングラフ生成の性能向上を示す。

The task of scene graph generation entails identifying object entities and their corresponding interaction predicates in a given image (or video). Due to the combinatorially large solution space, existing approaches to scene graph generation assume certain factorization of the joint distribution to make the estimation feasible (e.g., assuming that objects are conditionally independent of predicate predictions). However, this fixed factorization is not ideal under all scenarios (e.g., for images where an object entailed in interaction is small and not discernible on its own). In this work, we propose a novel framework for scene graph generation that addresses this limitation, as well as introduces dynamic conditioning on the image, using message passing in a Markov Random Field. This is implemented as an iterative refinement procedure wherein each modification is conditioned on the graph generated in the previous iteration. This conditioning across refinement steps allows joint reasoning over entities and relations. This framework is realized via a novel and end-to-end trainable transformer-based architecture. In addition, the proposed framework can improve existing approach performance. Through extensive experiments on Visual Genome and Action Genome benchmark datasets we show improved performance on the scene graph generation.
翻訳日:2022-07-28 13:34:01 公開日:2022-07-27
# skimming, locating, then perusing: 自然言語ビデオローカライズのための人間ライクなフレームワーク

Skimming, Locating, then Perusing: A Human-Like Framework for Natural Language Video Localization ( http://arxiv.org/abs/2207.13450v1 )

ライセンス: Link先を確認
Daizong Liu, Wei Hu(参考訳) 本稿では,自然言語ビデオローカライゼーション(NLVL)の問題に対処する。 既存の作品のほとんどすべてが"only look once"フレームワークに従っており、単一のモデルを利用してビデオクエリペア間の複雑なクロスモーダルおよびセルフモーダル関係を直接キャプチャし、関連するセグメントを取得する。 しかし、これらの手法は理想的ローカライゼーション法の2つの必須特性を見落としていると論じる。 1) フレーム微分可能: 正負の映像フレームの不均衡を考えると, 正のフレームを強調し, ローカライゼーション時に負のフレームを弱めることが効果的である。 2) 境界精度: 正確なセグメント境界を予測するためには, モデルが連続フレーム間のよりきめ細かい相違を捉える必要がある。 そこで我々は,Skimming-Locating-Perusing (SLP)と呼ばれる2段階の人間のようなフレームワークを提案する。 SLPはSkimming-and-Locating (SL) モジュールと Bi-directional Perusing (BP) モジュールで構成される。 SLモジュールは、まずクエリセマンティクスを参照し、無関係なフレームをフィルタリングしながら、ビデオから最適なフレームを選択する。 そして、BPモジュールは、このフレームに基づいて初期セグメントを構築し、フレームが同じアクティビティセマンティクスを共有するまで、隣接するフレームを探索することで動的に更新する。 3つの挑戦的ベンチマークによる実験結果から,我々のSLPは最先端の手法よりも優れ,より正確なセグメント境界のローカライズが可能であった。

This paper addresses the problem of natural language video localization (NLVL). Almost all existing works follow the "only look once" framework that exploits a single model to directly capture the complex cross- and self-modal relations among video-query pairs and retrieve the relevant segment. However, we argue that these methods have overlooked two indispensable characteristics of an ideal localization method: 1) Frame-differentiable: considering the imbalance of positive/negative video frames, it is effective to highlight positive frames and weaken negative ones during the localization. 2) Boundary-precise: to predict the exact segment boundary, the model should capture more fine-grained differences between consecutive frames since their variations are often smooth. To this end, inspired by how humans perceive and localize a segment, we propose a two-step human-like framework called Skimming-Locating-Perusing (SLP). SLP consists of a Skimming-and-Locating (SL) module and a Bi-directional Perusing (BP) module. The SL module first refers to the query semantic and selects the best matched frame from the video while filtering out irrelevant frames. Then, the BP module constructs an initial segment based on this frame, and dynamically updates it by exploring its adjacent frames until no frame shares the same activity semantic. Experimental results on three challenging benchmarks show that our SLP is superior to the state-of-the-art methods and localizes more precise segment boundaries.
翻訳日:2022-07-28 13:33:43 公開日:2022-07-27
# GPS-GLASS:昼夜映像とGPSデータを用いた夜間セマンティックセマンティックセグメンテーション学習

GPS-GLASS: Learning Nighttime Semantic Segmentation Using Daytime Video and GPS data ( http://arxiv.org/abs/2207.13297v1 )

ライセンス: Link先を確認
Hongjae Lee, Changwoo Han, Seung-Won Jung(参考訳) 自動運転のセマンティックセグメンテーションは、様々な現場環境に対して堅牢であるべきである。 特に夜間セマンティックセグメンテーションは、注釈付き夜間画像の欠如と、十分な注釈付き昼間画像とのドメインギャップが大きいため困難である。 本稿では,夜間セマンティックセグメンテーションのための新しいGPSベースのトレーニングフレームワークを提案する。 昼間・夜間のGPS対応画像に対して,画素レベルの擬似監督を得るためにドメイン間対応マッチングを行う。 さらに、日中のビデオフレーム間のフロー推定を行い、GPSによるスケーリングを適用して、別のピクセルレベルの疑似監視を取得する。 これらの疑似監視と信頼マップを用いて、夜間画像からのアノテーションなしで夜間意味セグメンテーションネットワークを訓練する。 実験により,複数の夜間セマンティックセグメンテーションデータセットにおける提案手法の有効性が示された。 ソースコードはhttps://github.com/jimmy9704/GPS-GLASS.comで公開されています。

Semantic segmentation for autonomous driving should be robust against various in-the-wild environments. Nighttime semantic segmentation is especially challenging due to a lack of annotated nighttime images and a large domain gap from daytime images with sufficient annotation. In this paper, we propose a novel GPS-based training framework for nighttime semantic segmentation. Given GPS-aligned pairs of daytime and nighttime images, we perform cross-domain correspondence matching to obtain pixel-level pseudo supervision. Moreover, we conduct flow estimation between daytime video frames and apply GPS-based scaling to acquire another pixel-level pseudo supervision. Using these pseudo supervisions with a confidence map, we train a nighttime semantic segmentation network without any annotation from nighttime images. Experimental results demonstrate the effectiveness of the proposed method on several nighttime semantic segmentation datasets. Our source code is available at https://github.com/jimmy9704/GPS-GLASS.
翻訳日:2022-07-28 13:30:33 公開日:2022-07-27
# NeRFは必要か?

Is Attention All NeRF Needs? ( http://arxiv.org/abs/2207.13298v1 )

ライセンス: Link先を確認
Mukund Varma T, Peihao Wang, Xuxi Chen, Tianlong Chen, Subhashini Venugopalan, Zhangyang Wang(参考訳) 我々は、ソースビューから高速にニューラルラジアンスフィールド(NeRF)を効率的に再構築する、純粋で統一されたトランスフォーマーベースのアーキテクチャであるGeneralizable NeRF Transformer (GNT)を提案する。 ハンドクラフトレンダリング方程式を反転させることでシーンごとの暗黙表現を最適化するNeRFの以前の研究とは異なり、GNTは2つのトランスフォーマーベースのステージをカプセル化することにより、一般化可能なニューラルシーン表現とレンダリングを実現する。 GNTの第1段階はビュートランスフォーマーと呼ばれ、多視点幾何を注意に基づくシーン表現の帰納的バイアスとして利用し、隣接するビューのエピポーラ線からの情報を集約することで座標整列特性を予測する。 GNTの第2段階は、レイマーキングによって新しいビューを描画し、アテンション機構を用いてサンプリングされた点特徴のシーケンスを直接デコードする。 実験により、単一シーンに最適化された場合、GNTは明示的なレンダリング式を使わずにNeRFを再構築し、学習可能なレイレンダラーにより複雑なシーンでPSNRを約1.3dB向上させることができた。 さまざまな場面でトレーニングされた場合、GNTは、前向きLLFFデータセット(LPIPS ~20%、SSIM ~25%$)と合成ミキサーデータセット(LPIPS ~20%、SSIM ~4%)に転送する際に、常に最先端のパフォーマンスを達成する。 さらに、学習した注目マップから深度と閉塞度を推定できることを示し、純粋な注意機構が物理的に座屈したレンダリング過程を学習可能であることを示唆する。 これらの結果は,グラフィックにおいても,トランスフォーマーを"ユニバーサルモデリングツール"として活用するという,魅力的な希望に一歩近づいた。 ビデオの結果については、プロジェクトページを参照してください。

We present Generalizable NeRF Transformer (GNT), a pure, unified transformer-based architecture that efficiently reconstructs Neural Radiance Fields (NeRFs) on the fly from source views. Unlike prior works on NeRF that optimize a per-scene implicit representation by inverting a handcrafted rendering equation, GNT achieves generalizable neural scene representation and rendering, by encapsulating two transformer-based stages. The first stage of GNT, called view transformer, leverages multi-view geometry as an inductive bias for attention-based scene representation, and predicts coordinate-aligned features by aggregating information from epipolar lines on the neighboring views. The second stage of GNT, named ray transformer, renders novel views by ray marching and directly decodes the sequence of sampled point features using the attention mechanism. Our experiments demonstrate that when optimized on a single scene, GNT can successfully reconstruct NeRF without explicit rendering formula, and even improve the PSNR by ~1.3dB on complex scenes due to the learnable ray renderer. When trained across various scenes, GNT consistently achieves the state-of-the-art performance when transferring to forward-facing LLFF dataset (LPIPS ~20%, SSIM ~25%$) and synthetic blender dataset (LPIPS ~20%, SSIM ~4%). In addition, we show that depth and occlusion can be inferred from the learned attention maps, which implies that the pure attention mechanism is capable of learning a physically-grounded rendering process. All these results bring us one step closer to the tantalizing hope of utilizing transformers as the "universal modeling tool" even for graphics. Please refer to our project page for video results: https://vita-group.github.io/GNT/.
翻訳日:2022-07-28 13:30:19 公開日:2022-07-27
# Object-ABN:行動認識のためのシャープ注意マップ生成学習

Object-ABN: Learning to Generate Sharp Attention Maps for Action Recognition ( http://arxiv.org/abs/2207.13306v1 )

ライセンス: Link先を確認
Tomoya Nitta, Tsubasa Hirakawa, Hironobu Fujiyoshi, Toru Tamaki(参考訳) 本稿では,行動認識のためのよりシャープな注意マップを生成するために,インスタンスセグメンテーションを用いた注意分枝ネットワーク(ABN)の拡張を提案する。 Grad-CAMのような視覚的説明法は通常、人間が理解する直感的でないぼやけた地図を生成する。 提案手法であるObject-ABNは,生成した注目マップをインスタンスセグメンテーション結果に近いものにする新しいマスク損失を導入することでこの問題に対処する。 さらに、地図のシャープさを高め、分類性能を向上させるために、PC損失と複数注意マップを導入している。 UCF101 と SSv2 による実験結果から,提案手法による生成した写像は,元の ABN よりも定性的かつ定量的であることがわかった。

In this paper we propose an extension of the Attention Branch Network (ABN) by using instance segmentation for generating sharper attention maps for action recognition. Methods for visual explanation such as Grad-CAM usually generate blurry maps which are not intuitive for humans to understand, particularly in recognizing actions of people in videos. Our proposed method, Object-ABN, tackles this issue by introducing a new mask loss that makes the generated attention maps close to the instance segmentation result. Further the PC loss and multiple attention maps are introduced to enhance the sharpness of the maps and improve the performance of classification. Experimental results with UCF101 and SSv2 shows that the generated maps by the proposed method are much clearer qualitatively and quantitatively than those of the original ABN.
翻訳日:2022-07-28 13:29:43 公開日:2022-07-27
# 知識集約のためのフェデレート選択集約

Federated Selective Aggregation for Knowledge Amalgamation ( http://arxiv.org/abs/2207.13309v1 )

ライセンス: Link先を確認
Donglin Xie, Ruonan Yu, Gongfan Fang, Jie Song, Zunlei Feng, Xinchao Wang, Li Sun, and Mingli Song(参考訳) 本稿では,federated selective aggregation (fedsa) という新しい知識融合問題について検討する。 FedSAの目標は、いくつかの分散化された教師の助けを借りて、新しいタスクのための学生モデルを訓練することである。 このような問題を調査する動機は,最近のモデル共有のジレンマから来ています。 多くの研究者や研究所は、大規模で有能なネットワークのトレーニングに膨大なリソースを費やしてきた。 しかし、プライバシ、セキュリティ、知的財産の問題のため、コミュニティに貢献したいとしても、事前訓練されたモデルを共有することはできない。 提案されたFedSAは、このジレンマに対する解決策を提供し、さらに一歩進める。 この目的のために、我々はFedSAを扱うための専用の戦略を提案した。 具体的には,教師を適応的に選択し,その代表的能力を学生に組み込む,新しいサリエンシベースのアプローチによって,学生の学習プロセスが促進される。 FedSAの有効性を評価するため,シングルタスクとマルチタスクの両方で実験を行った。 実験結果から,FedSAは分散モデルからの知識を効果的に吸収し,中央集権ベースラインに対する競争性能を達成することが示された。

In this paper, we explore a new knowledge-amalgamation problem, termed Federated Selective Aggregation (FedSA). The goal of FedSA is to train a student model for a new task with the help of several decentralized teachers, whose pre-training tasks and data are different and agnostic. Our motivation for investigating such a problem setup stems from a recent dilemma of model sharing. Many researchers or institutes have spent enormous resources on training large and competent networks. Due to the privacy, security, or intellectual property issues, they are, however, not able to share their own pre-trained models, even if they wish to contribute to the community. The proposed FedSA offers a solution to this dilemma and makes it one step further since, again, the learned student may specialize in a new task different from all of the teachers. To this end, we proposed a dedicated strategy for handling FedSA. Specifically, our student-training process is driven by a novel saliency-based approach that adaptively selects teachers as the participants and integrates their representative capabilities into the student. To evaluate the effectiveness of FedSA, we conduct experiments on both single-task and multi-task settings. Experimental results demonstrate that FedSA effectively amalgamates knowledge from decentralized models and achieves competitive performance to centralized baselines.
翻訳日:2022-07-28 13:29:27 公開日:2022-07-27
# ポートレート解釈とベンチマーク

Portrait Interpretation and a Benchmark ( http://arxiv.org/abs/2207.13315v1 )

ライセンス: Link先を確認
Yixuan Fan, Zhaopeng Dou, Yali Li, Shengjin Wang(参考訳) 我々はPortrait Interpretationというタスクを提案し、Portrait250Kというデータセットを構築した。 現在、人物属性認識や人物再同定などの肖像画の研究は、多くの成果を上げているが、一般的には以下のとおりである。 1) 様々なタスク間の相互関係やそれがもたらしうる利益をマイニングすることができない可能性がある。 2) 各タスクに特有な深層モデルの設計は非効率である。 3)実場面における統一モデルと包括的知覚の必要性に対処できない可能性がある。 本稿では,提案するポートレート解釈は,人間の知覚を新たな体系的視点から認識する。 ポートレートの知覚を、外観、姿勢、感情の3つの側面に分け、それぞれの側面に対応するサブタスクをデザインする。 マルチタスク学習の枠組みに基づき、ポートレート解釈は静的属性とポートレートの動的状態の包括的な記述を必要とする。 この新しい課題の研究を活発にするために、身元、性別、年齢、体格、身長、表情、体と腕の姿勢でラベル付けされた25万枚の画像を含む新しいデータセットを構築した。 当社のデータセットは51本の映画から収集され、幅広い多様性をカバーしています。 さらに,ポートレート解釈のための表現学習に着目し,系統的視点を反映したベースラインを提案する。 また,この課題に対する適切な指標を提案する。 本研究は,ポートレート解釈に関連するタスクを組み合わせると,その効果が期待できることを示す。 コードとデータセットは公開されます。

We propose a task we name Portrait Interpretation and construct a dataset named Portrait250K for it. Current researches on portraits such as human attribute recognition and person re-identification have achieved many successes, but generally, they: 1) may lack mining the interrelationship between various tasks and the possible benefits it may bring; 2) design deep models specifically for each task, which is inefficient; 3) may be unable to cope with the needs of a unified model and comprehensive perception in actual scenes. In this paper, the proposed portrait interpretation recognizes the perception of humans from a new systematic perspective. We divide the perception of portraits into three aspects, namely Appearance, Posture, and Emotion, and design corresponding sub-tasks for each aspect. Based on the framework of multi-task learning, portrait interpretation requires a comprehensive description of static attributes and dynamic states of portraits. To invigorate research on this new task, we construct a new dataset that contains 250,000 images labeled with identity, gender, age, physique, height, expression, and posture of the whole body and arms. Our dataset is collected from 51 movies, hence covering extensive diversity. Furthermore, we focus on representation learning for portrait interpretation and propose a baseline that reflects our systematic perspective. We also propose an appropriate metric for this task. Our experimental results demonstrate that combining the tasks related to portrait interpretation can yield benefits. Code and dataset will be made public.
翻訳日:2022-07-28 13:29:07 公開日:2022-07-27
# NICEST:ロバストなシーングラフ生成のためのノイズラベル補正とトレーニング

NICEST: Noisy Label Correction and Training for Robust Scene Graph Generation ( http://arxiv.org/abs/2207.13316v1 )

ライセンス: Link先を確認
Lin Li, Long Chen, Hanrong Shi, Hanwang Zhang, Yi Yang, Wei Liu, and Jun Xiao(参考訳) ほぼ全ての既存のシーングラフ生成(SGG)モデルは、主流のSGGデータセットの地味なアノテーション品質を見落としている。 1) 手動でアノテートした正のサンプルはすべて等しく正しい。 2) 注釈なし陰性サンプルはすべて絶対的背景である。 本稿では,これら2つの仮定を破り,偏りのないSGGモデルのトレーニングを損なうような,ノイズの多い基礎構造予測ラベルが多数存在することを論じる。 そこで我々は,SGG:NICESTのためのNoIsyレーベルCorrEction and Sample Training戦略を提案する。 具体的には,NICEとNISTの2つの部分から構成され,高品質なサンプルを生成することで,ノイズの多いラベル問題を排除している。 NICEはまずノイズのあるサンプルを検出し、さらに高品質な述語ラベルを割り当てる。 NISTは多教師による知識蒸留に基づく訓練戦略であり、モデルが不偏の融合知識を学習できるようにする。 また、NISTのダイナミックなトレードオフ重み付け戦略は、異なる教師のバイアスを罰するように設計されている。 NICEとNISTの両方のモデルに依存しない性質のため、NICESTは任意のSGGアーキテクチャにシームレスに組み込んで、異なる述語カテゴリのパフォーマンスを向上させることができます。 さらに,SGGモデルの一般化をよりよく評価するために,先行するVGデータセットを再編成し,各対象カテゴリペアに対して,トレーニングとテストセットの述語分布を可能な限り異なるものにすることで,新たなベンチマークVG-OODを提案する。 このベンチマークは、対象物カテゴリーに基づく周波数バイアスの影響を解消するのに役立つ。 異なるバックボーンやタスクに対する広範囲な改善と結果は、NICESTの各コンポーネントの有効性と一般化能力に証明されている。

Nearly all existing scene graph generation (SGG) models have overlooked the ground-truth annotation qualities of mainstream SGG datasets, i.e., they assume: 1) all the manually annotated positive samples are equally correct; 2) all the un-annotated negative samples are absolutely background. In this paper, we argue that neither of the assumptions applies to SGG: there are numerous noisy ground-truth predicate labels that break these two assumptions and harm the training of unbiased SGG models. To this end, we propose a novel NoIsy label CorrEction and Sample Training strategy for SGG: NICEST. Specifically, it consists of two parts: NICE and NIST, which rule out these noisy label issues by generating high-quality samples and the effective training strategy, respectively. NICE first detects noisy samples and then reassigns them more high-quality soft predicate labels. NIST is a multi-teacher knowledge distillation based training strategy, which enables the model to learn unbiased fusion knowledge. And a dynamic trade-off weighting strategy in NIST is designed to penalize the bias of different teachers. Due to the model-agnostic nature of both NICE and NIST, our NICEST can be seamlessly incorporated into any SGG architecture to boost its performance on different predicate categories. In addition, to better evaluate the generalization of SGG models, we further propose a new benchmark VG-OOD, by re-organizing the prevalent VG dataset and deliberately making the predicate distributions of the training and test sets as different as possible for each subject-object category pair. This new benchmark helps disentangle the influence of subject-object category based frequency biases. Extensive ablations and results on different backbones and tasks have attested to the effectiveness and generalization ability of each component of NICEST.
翻訳日:2022-07-28 13:28:45 公開日:2022-07-27
# ジェネレータは無条件のGANで何を学ぶべきか

Generator Knows What Discriminator Should Learn in Unconditional GANs ( http://arxiv.org/abs/2207.13320v1 )

ライセンス: Link先を確認
Gayoung Lee, Hyunsu Kim, Junho Kim, Seonghyeon Kim, Jung-Woo Ha, Yunjey Choi(参考訳) セグメンテーションラベルマップなどの高忠実度化による条件画像生成手法の最近の進歩 しかし、無条件画像生成に密接な監督を施すことはまれである。 ここでは、非条件生成における高密度監視の有効性について検討し、コスト対効果のあるセマンティックラベルマップの代替となる生成特徴写像を求める。 経験的証拠から, 生成器特徴が無条件生成においてリッチな意味表現を持つように識別器を監督する新しい生成器誘導判別器正則化(ggdr)を提案する。 具体的には,識別器のU-Netアーキテクチャを用いて,擬似画像を入力として生成する特徴マップの予測を訓練する。 mulitpleデータセットに関する広範な実験は、ggdrが定量的および質的側面において、ベースラインメソッドのパフォーマンスを一貫して改善していることを示している。 コードはhttps://github.com/naver-ai/GGDRで入手できる。

Recent methods for conditional image generation benefit from dense supervision such as segmentation label maps to achieve high-fidelity. However, it is rarely explored to employ dense supervision for unconditional image generation. Here we explore the efficacy of dense supervision in unconditional generation and find generator feature maps can be an alternative of cost-expensive semantic label maps. From our empirical evidences, we propose a new generator-guided discriminator regularization(GGDR) in which the generator feature maps supervise the discriminator to have rich semantic representations in unconditional generation. In specific, we employ an U-Net architecture for discriminator, which is trained to predict the generator feature maps given fake images as inputs. Extensive experiments on mulitple datasets show that our GGDR consistently improves the performance of baseline methods in terms of quantitative and qualitative aspects. Code is available at https://github.com/naver-ai/GGDR
翻訳日:2022-07-28 13:28:17 公開日:2022-07-27
# siri:トランスフォーマーベースの視覚接地のための簡単な選択的なリトレーニングメカニズム

SiRi: A Simple Selective Retraining Mechanism for Transformer-based Visual Grounding ( http://arxiv.org/abs/2207.13325v1 )

ライセンス: Link先を確認
Mengxue Qu, Yu Wu, Wu Liu, Qiqi Gong, Xiaodan Liang, Olga Russakovsky, Yao Zhao, and Yunchao Wei(参考訳) 本稿では,現代の視覚言語トランスフォーマーによる視覚的接地の実現方法について検討し,この課題に対して,シンプルながら強力な選択的リトレーニング(SiRi)機構を提案する。 特に、SiRiは視覚接地の研究において重要な原理、すなわち、より良い初期化視覚言語エンコーダは、モデルがより局所的な最小値に収束し、パフォーマンスを向上するのに役立つ。 具体的には、トレーニングが進むにつれてエンコーダのパラメータを継続的に更新し、残りのパラメータを定期的に初期化し、拡張エンコーダに基づいてモデルをより最適化するようにします。 SiRiは3つの人気のあるベンチマークで従来のアプローチを大幅に上回る。 具体的には、RefCOCO+ testAで83.04%の精度を達成し、最先端のアプローチ(スクラッチからトレーニング)を10.21%以上上回った。 さらに、限られたトレーニングデータであっても、SiRiは驚くほど優れています。 また,その妥当性を検証するために,トランスフォーマーベース視覚接地モデルや他の視覚言語タスクにも拡張する。

In this paper, we investigate how to achieve better visual grounding with modern vision-language transformers, and propose a simple yet powerful Selective Retraining (SiRi) mechanism for this challenging task. Particularly, SiRi conveys a significant principle to the research of visual grounding, i.e., a better initialized vision-language encoder would help the model converge to a better local minimum, advancing the performance accordingly. In specific, we continually update the parameters of the encoder as the training goes on, while periodically re-initialize rest of the parameters to compel the model to be better optimized based on an enhanced encoder. SiRi can significantly outperform previous approaches on three popular benchmarks. Specifically, our method achieves 83.04% Top1 accuracy on RefCOCO+ testA, outperforming the state-of-the-art approaches (training from scratch) by more than 10.21%. Additionally, we reveal that SiRi performs surprisingly superior even with limited training data. We also extend it to transformer-based visual grounding models and other vision-language tasks to verify the validity.
翻訳日:2022-07-28 13:28:02 公開日:2022-07-27
# 医用画像のセマンティックセグメンテーションのための2ストリームUNETネットワーク

Two-Stream UNET Networks for Semantic Segmentation in Medical Images ( http://arxiv.org/abs/2207.13337v1 )

ライセンス: Link先を確認
Xin Chen, Ke Ding(参考訳) セマンティックイメージセグメンテーションの最近の進歩は、より深く大きな畳み込みニューラルネットワーク(CNN)モデルの恩恵を受けている。 野生のイメージセグメンテーションと比較すると、医用画像自体の特性と既存の医療データセットの両方が、過度に適合しているため、より深く大きなモデルの訓練を妨げる。 そこで本研究では,各ストリームに対して,強度値と勾配ベクトルフロー(GVF)をそれぞれ2入力とする,医療画像の自動分割のための新しい2ストリームUNETアーキテクチャを提案する。 より低レベルの特徴を持つ2ストリームCNNは、不完全な医用画像データセットのセマンティックセグメンテーションに大いに有用であることを示す。 提案する2ストリームネットワークは,一般的な医用画像セグメンテーションベンチマークを用いてトレーニング,評価を行い,その結果は最先端技術と競合する。 コードはまもなくリリースされる。

Recent advances of semantic image segmentation greatly benefit from deeper and larger Convolutional Neural Network (CNN) models. Compared to image segmentation in the wild, properties of both medical images themselves and of existing medical datasets hinder training deeper and larger models because of overfitting. To this end, we propose a novel two-stream UNET architecture for automatic end-to-end medical image segmentation, in which intensity value and gradient vector flow (GVF) are two inputs for each stream, respectively. We demonstrate that two-stream CNNs with more low-level features greatly benefit semantic segmentation for imperfect medical image datasets. Our proposed two-stream networks are trained and evaluated on the popular medical image segmentation benchmarks, and the results are competitive with the state of the art. The code will be released soon.
翻訳日:2022-07-28 13:27:42 公開日:2022-07-27
# albench: オブジェクト検出におけるアクティブラーニングの評価フレームワーク

ALBench: A Framework for Evaluating Active Learning in Object Detection ( http://arxiv.org/abs/2207.13339v1 )

ライセンス: Link先を確認
Zhanpeng Feng, Shiliang Zhang, Rinyoichi Takezoe, Wenze Hu, Manmohan Chandraker, Li-Jia Li, Vijay K. Narayanan, Xiaoyu Wang(参考訳) アクティブラーニングは自動機械学習システムにとって重要な技術である。 ニューラルネットワークアーキテクチャ設計の自動化を目的としたニューラルネットワーク探索(NAS)とは対照的に、アクティブラーニングはトレーニングデータ選択の自動化を目標としている。 長尾のタスクのトレーニングでは特に重要であり、正のサンプルがほとんど分布しない。 アクティブラーニングは、効率的なデータ選択によるインクリメンタルなトレーニングモデルを通じて、高価なデータアノテーションの問題を軽減する。 ラベルのないすべてのサンプルに注釈をつける代わりに、最も価値のあるサンプルを反復的に選択し注釈付けする。 アクティブラーニングは画像分類で人気があるが、オブジェクト検出では十分に研究されていない。 オブジェクト検出に対する現在のアプローチのほとんどは、異なる設定で評価されるため、パフォーマンスを適切に比較することは困難である。 この分野の研究を容易にするために,本稿では,オブジェクト検出におけるアクティブラーニングを評価するために,albenchと呼ばれるアクティブラーニングベンチマークフレームワークを提案する。 自動深層モデルトレーニングシステム上で開発されたこのALBenchフレームワークは、使いやすく、さまざまなアクティブな学習アルゴリズムと互換性があり、同じトレーニングおよびテストプロトコルを保証する。 この自動ベンチマークシステムは、研究者が文学のパフォーマンスを容易に再現し、先行技術と客観的に比較できることを願っている。 コードはgithubからリリースされる予定だ。

Active learning is an important technology for automated machine learning systems. In contrast to Neural Architecture Search (NAS) which aims at automating neural network architecture design, active learning aims at automating training data selection. It is especially critical for training a long-tailed task, in which positive samples are sparsely distributed. Active learning alleviates the expensive data annotation issue through incrementally training models powered with efficient data selection. Instead of annotating all unlabeled samples, it iteratively selects and annotates the most valuable samples. Active learning has been popular in image classification, but has not been fully explored in object detection. Most of current approaches on object detection are evaluated with different settings, making it difficult to fairly compare their performance. To facilitate the research in this field, this paper contributes an active learning benchmark framework named as ALBench for evaluating active learning in object detection. Developed on an automatic deep model training system, this ALBench framework is easy-to-use, compatible with different active learning algorithms, and ensures the same training and testing protocols. We hope this automated benchmark system help researchers to easily reproduce literature's performance and have objective comparisons with prior arts. The code will be release through Github.
翻訳日:2022-07-28 13:27:29 公開日:2022-07-27
# 会話における感情認識のための文脈情報と常識に基づくプロンプト

Contextual Information and Commonsense Based Prompt for Emotion Recognition in Conversation ( http://arxiv.org/abs/2207.13254v1 )

ライセンス: Link先を確認
Jingjie Yi, Deqing Yang, Siyu Yuan, Caiyan Cao, Zhiyao Zhang and Yanghua Xiao(参考訳) 会話における感情認識(erc)は、与えられた会話における各発話の感情を検出することを目的としている。 新たに提案されたERCモデルは,事前学習と微調整のパラダイムを取り入れた事前学習言語モデル(PLM)を利用して,優れた性能を実現している。 しかし、これらのモデルはplmの利点を十分に活用することがほとんどなく、明示的な感情表現を欠いた会話では不十分である。 発話中の感情表現に関連する潜伏知識をフル活用するために,新たなプロンプトモデルと言語モデル(LM)チューニングのパラダイムを用いた新しいERCモデルCISPERを提案する。 具体的には、CISPERは、対話者の発話に関連する文脈情報と常識をブレンドして、より効果的にERCを実現する。 我々はCISPERが最先端のERCモデルよりも優れた性能を示し、これらの2種類の重要なプロンプト情報を性能向上に活用することの有効性を実証した。 実験結果を便利に再現するために、CISPERのソースコードとデータセットはhttps://github.com/DeqingYang/CISPERで共有されている。

Emotion recognition in conversation (ERC) aims to detect the emotion for each utterance in a given conversation. The newly proposed ERC models have leveraged pre-trained language models (PLMs) with the paradigm of pre-training and fine-tuning to obtain good performance. However, these models seldom exploit PLMs' advantages thoroughly, and perform poorly for the conversations lacking explicit emotional expressions. In order to fully leverage the latent knowledge related to the emotional expressions in utterances, we propose a novel ERC model CISPER with the new paradigm of prompt and language model (LM) tuning. Specifically, CISPER is equipped with the prompt blending the contextual information and commonsense related to the interlocutor's utterances, to achieve ERC more effectively. Our extensive experiments demonstrate CISPER's superior performance over the state-of-the-art ERC models, and the effectiveness of leveraging these two kinds of significant prompt information for performance gains. To reproduce our experimental results conveniently, CISPER's sourcecode and the datasets have been shared at https://github.com/DeqingYang/CISPER.
翻訳日:2022-07-28 13:23:23 公開日:2022-07-27
# RealTime QA: 現時点での回答は?

RealTime QA: What's the Answer Right Now? ( http://arxiv.org/abs/2207.13332v1 )

ライセンス: Link先を確認
Jungo Kasai, Keisuke Sakaguchi, Yoichi Takahashi, Ronan Le Bras, Akari Asai, Xinyan Yu, Dragomir Radev, Noah A. Smith, Yejin Choi, Kentaro Inui(参考訳) 我々は,リアルタイムqa(dynamic question answering, 動的質問応答)プラットフォームを導入し,定期的にシステムを評価する(このバージョンでは毎週)。 RealTime QAは現在の世界について問い合わせ、QAシステムは新しいイベントや情報に関する質問に答える必要があります。 したがって、オープンドメインのQAデータセットにおける静的で従来の仮定に挑戦し、瞬時にアプリケーションを追求する。 GPT-3 や T5 など,大規模事前学習型言語モデルに基づく強力なベースラインモデルを構築した。 このベンチマークは進行中の作業であり,本予備報告では過去1ヶ月のリアルタイム評価結果を示す。 実験結果から, GPT-3は, 新たに取得した文書に基づいて, 情報検索の重要性を浮き彫りにする。 しかし,検索した文書が回答を見つけるのに十分な情報を提供していない場合,GPT-3は時代遅れの回答を返す傾向にある。 オープンドメインのQAシステムはそのような解決不可能なケースを特定し、ユーザや検索モジュールと通信して検索結果を変更できるだろうか? RealTime QAが質問応答の即時的応用の進展を加速することを期待しています。

We introduce RealTime QA, a dynamic question answering (QA) platform that announces questions and evaluates systems on a regular basis (weekly in this version). RealTime QA inquires about the current world, and QA systems need to answer questions about novel events or information. It therefore challenges static, conventional assumptions in open domain QA datasets and pursues, instantaneous applications. We build strong baseline models upon large pretrained language models, including GPT-3 and T5. Our benchmark is an ongoing effort, and this preliminary report presents real-time evaluation results over the past month. Our experimental results show that GPT-3 can often properly update its generation results, based on newly-retrieved documents, highlighting the importance of up-to-date information retrieval. Nonetheless, we find that GPT-3 tends to return outdated answers when retrieved documents do not provide sufficient information to find an answer. This suggests an important avenue for future research: can an open domain QA system identify such unanswerable cases and communicate with the user or even the retrieval module to modify the retrieval results? We hope that RealTime QA will spur progress in instantaneous applications of question answering and beyond.
翻訳日:2022-07-28 13:23:01 公開日:2022-07-27
# 隣人は十分か? マルチヘッドニューラルn-gramは自己注意の代替となる

Are Neighbors Enough? Multi-Head Neural n-gram can be Alternative to Self-attention ( http://arxiv.org/abs/2207.13354v1 )

ライセンス: Link先を確認
Mengsay Loem, Sho Takase, Masahiro Kaneko and Naoaki Okazaki(参考訳) トランスフォーマの印象的な性能は、シーケンス内の入力全体間の依存性が各位置に考慮される自己着脱に起因する。 本研究では,各位置の周辺表現のみに焦点を当てたニューラル$n$-gramモデルを,vaswaniなどのマルチヘッド機構を用いて再構成する。 (2017). シーケンシャル・ツー・シーケンスタスクの実験により、Transformerの自己アテンションをマルチヘッドニューラルな$n$-gramに置き換えることで、Transformerよりも同等あるいは優れたパフォーマンスが得られることを示す。 提案手法の様々な解析から,多頭部ニューラル$n$-gramは自己注意に相補的であり,それらの組み合わせによりバニラ変圧器の性能が向上することがわかった。

Impressive performance of Transformer has been attributed to self-attention, where dependencies between entire input in a sequence are considered at every position. In this work, we reform the neural $n$-gram model, which focuses on only several surrounding representations of each position, with the multi-head mechanism as in Vaswani et al.(2017). Through experiments on sequence-to-sequence tasks, we show that replacing self-attention in Transformer with multi-head neural $n$-gram can achieve comparable or better performance than Transformer. From various analyses on our proposed method, we find that multi-head neural $n$-gram is complementary to self-attention, and their combinations can further improve performance of vanilla Transformer.
翻訳日:2022-07-28 13:22:42 公開日:2022-07-27
# Point-McBert: ポイントクラウド事前トレーニングのための複数選択の自己管理フレームワーク

Point-McBert: A Multi-choice Self-supervised Framework for Point Cloud Pre-training ( http://arxiv.org/abs/2207.13226v1 )

ライセンス: Link先を確認
Kexue Fu, Mingzhi Yuan, Manning Wang(参考訳) Masked Language Modeling (MLM)は、最も成功した自己教師付き事前訓練タスクの1つである。 その成功に触発されて、point-bertはpoint cloudの先駆的研究として、大規模な無記名データセットで事前トレインポイントトランスフォーマーを行うためのマスクドポイントモデリング(mpm)を提案した。 優れたパフォーマンスにもかかわらず、言語とポイントクラウドの固有の違いは、ポイントクラウドに対して曖昧なトークン化を引き起こす傾向がある。 ポイントクラウドについては、ポイントクラウドトークン化のゴールド標準は存在しません。 Point-Bertは、トークンIDをローカルパッチに割り当てるトークンライザとして、離散変分オートエンコーダ(dVAE)を導入したが、ローカルパッチに対して曖昧なトークンIDを生成する傾向がある。 この不完全なトークン化器は意味的に類似したパッチに対して異なるトークンIDを生成し、意味的に異なるパッチに対して同じトークンIDを生成する可能性がある。 上記の問題に対処するため、我々は、簡易かつ洗練された監視信号を備えた事前学習フレームワークであるPoint-McBertを提案する。 具体的には、パッチに対する以前の単一選択制約を緩和し、各パッチに対するマルチ選択トークンIDを監督として提供します。 さらに,トランスフォーマによって学習された高レベルセマンティクスを活用し,監督信号をさらに洗練する。 例えば、事前学習したトランスフォーマーはModelNet40の94.1%の精度、ScanObjectNNの最も難しい設定での84.28%の精度、および少ショット学習における新しい最先端性能を達成している。 また,本手法は,各下流タスクにおけるポイントバートの性能を向上するだけでなく,余分な計算オーバーヘッドを伴わないことを示した。

Masked language modeling (MLM) has become one of the most successful self-supervised pre-training task. Inspired by its success, Point-Bert, as a pioneer work in point cloud, proposed masked point modeling (MPM) to pre-train point transformer on large scale unanotated dataset. Despite its great performance, we find inherent difference between language and point cloud tends to cause ambiguous tokenization for point cloud. For point cloud, there doesn't exist a gold standard for point cloud tokenization. Although Point-Bert introduce a discrete Variational AutoEncoder (dVAE) as tokenizer to allocate token ids to local patches, it tends to generate ambigious token ids for local patches. We find this imperfect tokenizer might generate different token ids for semantically-similar patches and same token ids for semantically-dissimilar patches. To tackle above problem, we propose our Point-McBert, a pre-training framework with eased and refined supervision signals. Specifically, we ease the previous single-choice constraint on patches, and provide multi-choice token ids for each patch as supervision. Moreover, we utilitze the high-level semantics learned by transformer to further refine our supervision signals. Extensive experiments on point cloud classification, few-shot classification and part segmentation tasks demonstrate the superiority of our method, e.g., the pre-trained transformer achieves 94.1% accuracy on ModelNet40, 84.28% accuracy on the hardest setting of ScanObjectNN and new state-of-the-art performance on few-shot learning. We also demonstrate that our method not only improves the performance of Point-Bert on all downstream tasks, but also incurs almost no extra computational overhead.
翻訳日:2022-07-28 13:22:04 公開日:2022-07-27
# クロスモーダルバイオメディカルイメージセグメンテーションのためのコントラスト画像合成と自己監督的特徴適応

Contrastive Image Synthesis and Self-supervised Feature Adaptation for Cross-Modality Biomedical Image Segmentation ( http://arxiv.org/abs/2207.13240v1 )

ライセンス: Link先を確認
Xinrong Hu, Corey Wang, Yiyu Shi(参考訳) 本研究は, 画像ドメイン翻訳と非教師なし特徴適応に基づく, クロスモーダルバイオメディカル画像セグメンテーションのための新しいフレームワーク CISFA (Contrastive Image synthesis and Self-supervised Feature Adaptation) を提案する。 既存の作品と異なり、片面生成モデルを用いて、入力画像のサンプルパッチと対応する合成画像との重み付きパッチ回りの対比損失を付加し、形状制約となる。 さらに, 生成した画像と入力画像が類似した構造情報を共有するが, モダリティが異なることに気付く。 そこで我々は、生成した画像と入力画像に対してコントラスト的損失を課し、セグメンテーションモデルのエンコーダを訓練し、学習された埋め込み空間におけるペア画像間の差を最小限に抑える。 機能適応のための逆学習に依存する既存の作品と比較すると、エンコーダはより明示的な方法でドメインに依存しない特徴を学習できる。 腹部空洞および全心臓に対するctおよびmri画像を含む分節処理の方法について広範囲に検討した。 実験結果から,提案フレームワークは臓器形状の歪みが少なく合成画像を出力するだけでなく,最先端の領域適応法よりも大きなマージンで優れることがわかった。

This work presents a novel framework CISFA (Contrastive Image synthesis and Self-supervised Feature Adaptation)that builds on image domain translation and unsupervised feature adaptation for cross-modality biomedical image segmentation. Different from existing works, we use a one-sided generative model and add a weighted patch-wise contrastive loss between sampled patches of the input image and the corresponding synthetic image, which serves as shape constraints. Moreover, we notice that the generated images and input images share similar structural information but are in different modalities. As such, we enforce contrastive losses on the generated images and the input images to train the encoder of a segmentation model to minimize the discrepancy between paired images in the learned embedding space. Compared with existing works that rely on adversarial learning for feature adaptation, such a method enables the encoder to learn domain-independent features in a more explicit way. We extensively evaluate our methods on segmentation tasks containing CT and MRI images for abdominal cavities and whole hearts. Experimental results show that the proposed framework not only outputs synthetic images with less distortion of organ shapes, but also outperforms state-of-the-art domain adaptation methods by a large margin.
翻訳日:2022-07-28 13:21:32 公開日:2022-07-27
# パノプティカルリファインメントを用いたエンドツーエンドグラフ制約ベクトル化フロアプラン生成

End-to-end Graph-constrained Vectorized Floorplan Generation with Panoptic Refinement ( http://arxiv.org/abs/2207.13268v1 )

ライセンス: Link先を確認
Jiachen Liu, Yuan Xue, Jose Duarte, Krishnendra Shekhawat, Zihan Zhou, Xiaolei Huang(参考訳) ユーザが入力したフロアプランの自動生成は、アーキテクチャ設計において大きな可能性を持ち、コンピュータビジョンコミュニティで最近研究されている。 しかし、既存の手法の多くはラスタ化画像のフォーマットでフロアプランを合成しており、編集やカスタマイズは困難である。 本稿では,1次元ベクトルのシーケンスとしてフロアプランを合成し,ユーザインタラクションや設計のカスタマイズを容易にすることを目的とする。 高忠実度ベクトル化フロアプランを作成するために,ドラフトステージと多ラウンド精錬ステージを含む新しい2段フレームワークを提案する。 第1段階では、ユーザが入力した部屋接続グラフをグラフ畳み込みネットワーク(gcn)で符号化し、自己回帰トランスフォーマーネットワークを適用して初期フロアプランシーケンスを生成する。 初期設計を洗練し、より視覚的に魅力的なフロアプランを生成するために、GCNとトランスフォーマーネットワークからなる新しい汎視補正ネットワーク(PRN)を提案する。 PRNは初期生成シーケンスを入力として取り込んでフロアプラン設計を洗練するとともに,提案した幾何学的損失を伴って室内の接続性を向上する。 本手法は,実世界のフロアプランデータセットを広範囲に実験した結果,異なる設定条件と評価指標で最先端の性能が得られた。

The automatic generation of floorplans given user inputs has great potential in architectural design and has recently been explored in the computer vision community. However, the majority of existing methods synthesize floorplans in the format of rasterized images, which are difficult to edit or customize. In this paper, we aim to synthesize floorplans as sequences of 1-D vectors, which eases user interaction and design customization. To generate high fidelity vectorized floorplans, we propose a novel two-stage framework, including a draft stage and a multi-round refining stage. In the first stage, we encode the room connectivity graph input by users with a graph convolutional network (GCN), then apply an autoregressive transformer network to generate an initial floorplan sequence. To polish the initial design and generate more visually appealing floorplans, we further propose a novel panoptic refinement network(PRN) composed of a GCN and a transformer network. The PRN takes the initial generated sequence as input and refines the floorplan design while encouraging the correct room connectivity with our proposed geometric loss. We have conducted extensive experiments on a real-world floorplan dataset, and the results show that our method achieves state-of-the-art performance under different settings and evaluation metrics.
翻訳日:2022-07-28 13:21:10 公開日:2022-07-27
# ベクトル量子化画像変換

Vector Quantized Image-to-Image Translation ( http://arxiv.org/abs/2207.13286v1 )

ライセンス: Link先を確認
Yu-Jie Chen, Shin-I Cheng, Wei-Chen Chiu, Hung-Yu Tseng, Hsin-Ying Lee(参考訳) 現在の画像から画像への変換法は条件生成モデルを用いてタスクを定式化し、条件コンテキストによって提供されるリッチな構造情報によって制約されるように、再色や局所的な変化のみを学習する。 本稿では,画像から画像への変換フレームワークにベクトル量子化手法を導入することを提案する。 ベクトル量子化コンテンツ表現は、翻訳だけでなく、異なる領域間で共有される無条件分布も促進することができる。 一方,提案手法では,領域内および領域間の両方において,画像拡張を柔軟に行うことが可能となった。 定性的かつ定量的な実験により、我々のフレームワークは最新の画像から画像への変換や画像拡張手法に匹敵する性能を発揮することを示した。 個々のタスクの手法と比較すると,提案手法は統一フレームワークとして,画像から画像への変換,無条件生成,画像拡張を併用したアプリケーションを解き放つ。 例えば、画像生成と拡張のためのスタイル変数を提供し、画像から画像への変換にさらなる拡張機能を提供する。

Current image-to-image translation methods formulate the task with conditional generation models, leading to learning only the recolorization or regional changes as being constrained by the rich structural information provided by the conditional contexts. In this work, we propose introducing the vector quantization technique into the image-to-image translation framework. The vector quantized content representation can facilitate not only the translation, but also the unconditional distribution shared among different domains. Meanwhile, along with the disentangled style representation, the proposed method further enables the capability of image extension with flexibility in both intra- and inter-domains. Qualitative and quantitative experiments demonstrate that our framework achieves comparable performance to the state-of-the-art image-to-image translation and image extension methods. Compared to methods for individual tasks, the proposed method, as a unified framework, unleashes applications combining image-to-image translation, unconditional generation, and image extension altogether. For example, it provides style variability for image generation and extension, and equips image-to-image translation with further extension capabilities.
翻訳日:2022-07-28 13:20:46 公開日:2022-07-27
# オープンソースのVizier: 信頼性とフレキシブルなブラックボックス最適化のための分散インフラストラクチャとAPI

Open Source Vizier: Distributed Infrastructure and API for Reliable and Flexible Blackbox Optimization ( http://arxiv.org/abs/2207.13676v1 )

ライセンス: Link先を確認
Xingyou Song, Sagi Perel, Chansoo Lee, Greg Kochanski, Daniel Golovin(参考訳) vizierはデファクトのブラックボックスとハイパーパラメータ最適化サービスで、googleの最大の製品や研究成果を最適化している。 何千ものユーザのクリティカルなシステムをチューニングするスケールで運用するために、Google Vizierは、完全なフォールトトレラントを維持しながら、複数の異なる機能を提供する上で重要な設計課題を解決した。 本稿では,Google内部のVizierインフラストラクチャとフレームワークをベースとした,ブラックボックス最適化と研究のためのスタンドアロンのPythonベースのインターフェースであるOpen Source (OSS) Vizierを紹介する。 OSS Vizierは、マルチメトリック、早期停止、移行学習、条件付き検索など、さまざまな最適化問題を定義および解決可能なAPIを提供する。 さらに、信頼性を保証し、ユーザの目的関数の複数の並列評価を可能にする分散システムとして設計されている。 柔軟なRPCベースのインフラストラクチャにより、任意の言語で記述されたバイナリからOSS Vizierにアクセスすることができる。 OSS Vizierはバックエンド("Pythia")APIも提供しており、アルゴリズム作者がOSS Vizierコアシステムで新しいアルゴリズムをインターフェースする方法を提供する。 OSS Vizierはhttps://github.com/google/vizier.comから入手できる。

Vizier is the de-facto blackbox and hyperparameter optimization service across Google, having optimized some of Google's largest products and research efforts. To operate at the scale of tuning thousands of users' critical systems, Google Vizier solved key design challenges in providing multiple different features, while remaining fully fault-tolerant. In this paper, we introduce Open Source (OSS) Vizier, a standalone Python-based interface for blackbox optimization and research, based on the Google-internal Vizier infrastructure and framework. OSS Vizier provides an API capable of defining and solving a wide variety of optimization problems, including multi-metric, early stopping, transfer learning, and conditional search. Furthermore, it is designed to be a distributed system that assures reliability, and allows multiple parallel evaluations of the user's objective function. The flexible RPC-based infrastructure allows users to access OSS Vizier from binaries written in any language. OSS Vizier also provides a back-end ("Pythia") API that gives algorithm authors a way to interface new algorithms with the core OSS Vizier system. OSS Vizier is available at https://github.com/google/vizier.
翻訳日:2022-07-28 13:17:48 公開日:2022-07-27
# DynaMarks:動的透かしを用いたディープラーニングモデル抽出の回避

DynaMarks: Defending Against Deep Learning Model Extraction Using Dynamic Watermarking ( http://arxiv.org/abs/2207.13321v1 )

ライセンス: Link先を確認
Abhishek Chakraborty, Daniel Xing, Yuntao Liu, and Ankur Srivastava(参考訳) 深層学習(DL)モデルの機能は、攻撃者が元のモデルの予測APIからの応答を利用して代理モデルを取得するモデル抽出によって盗むことができる。 そこで本研究では,DynaMarksと呼ばれる新しい透かし手法を提案し,このようなモデル抽出攻撃に対するDLモデルの知的特性(IP)をブラックボックス環境で保護する。 既存のアプローチとは異なり、DynaMarksはオリジナルのモデルのトレーニングプロセスを変更するのではなく、推論実行時の特定の秘密パラメータに基づいて、元のモデル予測APIから出力応答を動的に変更することで、透かしを代理モデルに埋め込む。 Fashion MNIST、CIFAR-10、ImageNetデータセットの実験結果は、エッジデバイスにデプロイされたオリジナルのモデルの精度を維持しながら、モデルをウォーターマークするDynaMarksスキームの有効性を示している。 また,様々な透かし除去戦略に対してダイナマークのロバスト性を評価する実験を行い,dlモデルオーナーが確実にモデルオーナシップを証明できるようにした。

The functionality of a deep learning (DL) model can be stolen via model extraction where an attacker obtains a surrogate model by utilizing the responses from a prediction API of the original model. In this work, we propose a novel watermarking technique called DynaMarks to protect the intellectual property (IP) of DL models against such model extraction attacks in a black-box setting. Unlike existing approaches, DynaMarks does not alter the training process of the original model but rather embeds watermark into a surrogate model by dynamically changing the output responses from the original model prediction API based on certain secret parameters at inference runtime. The experimental outcomes on Fashion MNIST, CIFAR-10, and ImageNet datasets demonstrate the efficacy of DynaMarks scheme to watermark surrogate models while preserving the accuracies of the original models deployed in edge devices. In addition, we also perform experiments to evaluate the robustness of DynaMarks against various watermark removal strategies, thus allowing a DL model owner to reliably prove model ownership.
翻訳日:2022-07-28 13:16:36 公開日:2022-07-27
# 高速アンチスプーフィングのためのポストトレイン適応モバイルネット

Post-Train Adaptive MobileNet for Fast Anti-Spoofing ( http://arxiv.org/abs/2207.13410v1 )

ライセンス: Link先を確認
Kostiantyn Khabarlak(参考訳) 多くのアプリケーションは、ニューラルネットワークの高精度、低レイテンシ、ユーザデータのプライバシー保証を必要とする。 対スプーフィングはそのようなタスクの1つです。 しかし、ひとつのモデルが異なるデバイスパフォーマンスカテゴリに対して最高の結果を与えていない場合もあり、複数のモデルをトレーニングするのは時間がかかる。 この作業では、Post-Train Adaptive (PTA)ブロックを提示します。 このようなブロックは構造が単純で、mobilenetv2反転残差ブロックのドロップイン置換を提供する。 PTAブロックは計算コストの異なる複数の分岐を持つ。 実行するブランチはオンデマンドと実行時に選択できるため、複数のデバイス層に対して異なる推論時間と設定機能を提供する。 重要なことは、モデルは一度トレーニングされ、トレーニング後に、モバイルデバイス上でも簡単に再構成できる。 さらに, celeba-spoof データセットでテストした mobilenetv2 と比較して, 提案手法の全体的な性能は大幅に向上した。 異なるPTAブロック構成は、トレーニング時にサンプリングされ、モデルのトレーニングに必要な全体的なウォールタイム時間を短縮する。 提案手法では,ptaブロックを用いたmobilenetv2は畳み込みニューラルネットワークを用いて解くことができる任意の問題に適用可能であり,その結果は実質的に有意である。

Many applications require high accuracy of neural networks as well as low latency and user data privacy guaranty. Face anti-spoofing is one of such tasks. However, a single model might not give the best results for different device performance categories, while training multiple models is time consuming. In this work we present Post-Train Adaptive (PTA) block. Such a block is simple in structure and offers a drop-in replacement for the MobileNetV2 Inverted Residual block. The PTA block has multiple branches with different computation costs. The branch to execute can be selected on-demand and at runtime; thus, offering different inference times and configuration capability for multiple device tiers. Crucially, the model is trained once and can be easily reconfigured after training, even directly on a mobile device. In addition, the proposed approach shows substantially better overall performance in comparison to the original MobileNetV2 as tested on CelebA-Spoof dataset. Different PTA block configurations are sampled at training time, which also decreases overall wall-clock time needed to train the model. While we present computational results for the anti-spoofing problem, the MobileNetV2 with PTA blocks is applicable to any problem solvable with convolutional neural networks, which makes the results presented practically significant.
翻訳日:2022-07-28 13:16:19 公開日:2022-07-27
# 単ショット検出器ネットワークのパラメータ削減のための適切な直交分解法

A Proper Orthogonal Decomposition approach for parameters reduction of Single Shot Detector networks ( http://arxiv.org/abs/2207.13551v1 )

ライセンス: Link先を確認
Laura Meneghetti and Nicola Demo and Gianluigi Rozza(参考訳) 人工知能とディープラーニングの大きなブレークスルーとして、Convolutional Neural Networksは、コンピュータビジョンや画像処理など、さまざまな分野で多くの問題を解決している。 リアルタイムのパフォーマンス、アルゴリズムの堅牢性、高速トレーニングプロセスは、これらの文脈では未解決のままである。 さらに、産業分野で一般的に使用される資源制約の組込みシステムにおいて、オブジェクト認識と検出は難しい課題である。 これらの問題を克服するため,本論文では,ネットのハイパーパラメータ数を減らすために,古典的なモデルオーダー削減手法である固有直交分解に基づく次元性低減フレームワークを提案する。 このようなフレームワークをssd300アーキテクチャにpascal vocデータセットを用いて適用し,ネットワーク次元の削減と,転送学習コンテキストにおけるネットワークの微調整の大幅な高速化を実証した。

As a major breakthrough in artificial intelligence and deep learning, Convolutional Neural Networks have achieved an impressive success in solving many problems in several fields including computer vision and image processing. Real-time performance, robustness of algorithms and fast training processes remain open problems in these contexts. In addition object recognition and detection are challenging tasks for resource-constrained embedded systems, commonly used in the industrial sector. To overcome these issues, we propose a dimensionality reduction framework based on Proper Orthogonal Decomposition, a classical model order reduction technique, in order to gain a reduction in the number of hyperparameters of the net. We have applied such framework to SSD300 architecture using PASCAL VOC dataset, demonstrating a reduction of the network dimension and a remarkable speedup in the fine-tuning of the network in a transfer learning context.
翻訳日:2022-07-28 13:16:01 公開日:2022-07-27
# D3C2-Net:圧縮センシングのためのデュアルドメイン深部畳み込み符号化ネットワーク

D3C2-Net: Dual-Domain Deep Convolutional Coding Network for Compressive Sensing ( http://arxiv.org/abs/2207.13560v1 )

ライセンス: Link先を確認
Weiqi Li, Bin Chen, Jian Zhang(参考訳) ニューラルネットワークへの最適化アルゴリズムのマッピング、ディープ・アンフォールディング・ネットワーク(duns)は圧縮センシング(cs)で素晴らしい成功を収めている。 最適化の観点からは、DUNは反復的なステップから明確に定義された解釈可能な構造を継承する。 しかし、ニューラルネットワーク設計の観点からは、既存のダンは従来のイメージドメイン展開に基づいて本質的に確立されており、これは隣接するステージ間の入力と出力として1チャンネルのイメージを取り込むため、情報伝達能力が不足し、画像詳細が必然的に失われる。 本稿では,まず,(1)画像領域と(2)畳み込み符号領域の両方の利点を統合して,解空間における実現可能な領域を制約する,一般化されたデュアルドメイン最適化フレームワークを提案する。 提案手法を深層ニューラルネットワークに展開することにより, csイメージングのための新しいデュアルドメイン深層畳み込み符号化ネットワーク(d3c2-net)を設計, その全段階にわたって高スループット特徴量画像表現を伝送する。 自然画像とMR画像の実験により、我々のD3C2-Netは、他の最先端技術よりも高い性能と精度・複雑さのトレードオフを達成することが示された。

Mapping optimization algorithms into neural networks, deep unfolding networks (DUNs) have achieved impressive success in compressive sensing (CS). From the perspective of optimization, DUNs inherit a well-defined and interpretable structure from iterative steps. However, from the viewpoint of neural network design, most existing DUNs are inherently established based on traditional image-domain unfolding, which takes one-channel images as inputs and outputs between adjacent stages, resulting in insufficient information transmission capability and inevitable loss of the image details. In this paper, to break the above bottleneck, we first propose a generalized dual-domain optimization framework, which is general for inverse imaging and integrates the merits of both (1) image-domain and (2) convolutional-coding-domain priors to constrain the feasible region in the solution space. By unfolding the proposed framework into deep neural networks, we further design a novel Dual-Domain Deep Convolutional Coding Network (D3C2-Net) for CS imaging with the capability of transmitting high-throughput feature-level image representation through all the unfolded stages. Experiments on natural and MR images demonstrate that our D3C2-Net achieves higher performance and better accuracy-complexity trade-offs than other state-of-the-arts.
翻訳日:2022-07-28 13:15:47 公開日:2022-07-27
# ShAPO:多目的形状, 外観, 姿勢最適化のための暗黙表現

ShAPO: Implicit Representations for Multi-Object Shape, Appearance, and Pose Optimization ( http://arxiv.org/abs/2207.13691v1 )

ライセンス: Link先を確認
Muhammad Zubair Irshad, Sergey Zakharov, Rares Ambrus, Thomas Kollar, Zsolt Kira, Adrien Gaidon(参考訳) 一つのRGB-D観測からオブジェクト中心の3次元理解の複雑な課題を考察する。 既往の手法では3次元形状と6次元ポーズの両面において, 閉塞を伴う複雑な多対象シナリオにおいて, 低性能に悩まされている。 SAPO, 関節多物体検出法, 3次元テクスチャ再構築法, 6次元オブジェクトポーズ法, サイズ推定法を提案する。 ShAPOのキーはシングルショットパイプラインで、各オブジェクトインスタンスのマスクとともに、形状、外観、潜時符号を後退させ、さらにスパース・トゥ・ディエンスな方法で洗練する。 先駆者の新しい異方形および外観データベースをまず学習し、それぞれの形状及び外観空間にオブジェクトを埋め込む。 また,新しいオクツリーに基づく微分可能最適化手法を提案し,学習された潜在空間下でのオブジェクトの形状,ポーズ,外観を,解析的に解析的に改善する。 目に見える新しいオブジェクトを3次元メッシュにアクセスすることなく正確に識別し、再構築することができる。 室内シーンをシミュレートしたシミュレーションにより,実世界の新しい物体の形状,外観,ポーズを最小限の微調整で正確に再現できることを示す。 提案手法は6次元ポーズ推定のためのマップの絶対値が8%向上し,nocsデータセットのベースラインを著しく上回っている。 プロジェクトページ: https://zubair-irshad.github.io/projects/shapo.html

Our method studies the complex task of object-centric 3D understanding from a single RGB-D observation. As it is an ill-posed problem, existing methods suffer from low performance for both 3D shape and 6D pose and size estimation in complex multi-object scenarios with occlusions. We present ShAPO, a method for joint multi-object detection, 3D textured reconstruction, 6D object pose and size estimation. Key to ShAPO is a single-shot pipeline to regress shape, appearance and pose latent codes along with the masks of each object instance, which is then further refined in a sparse-to-dense fashion. A novel disentangled shape and appearance database of priors is first learned to embed objects in their respective shape and appearance space. We also propose a novel, octree-based differentiable optimization step, allowing us to further improve object shape, pose and appearance simultaneously under the learned latent space, in an analysis-by-synthesis fashion. Our novel joint implicit textured object representation allows us to accurately identify and reconstruct novel unseen objects without having access to their 3D meshes. Through extensive experiments, we show that our method, trained on simulated indoor scenes, accurately regresses the shape, appearance and pose of novel objects in the real-world with minimal fine-tuning. Our method significantly out-performs all baselines on the NOCS dataset with an 8% absolute improvement in mAP for 6D pose estimation. Project page: https://zubair-irshad.github.io/projects/ShAPO.html
翻訳日:2022-07-28 13:15:23 公開日:2022-07-27
# メッシュ畳み込みニューラルネットワークを用いた頭蓋内動脈瘤の成長予測

Future Unruptured Intracranial Aneurysm Growth Prediction using Mesh Convolutional Neural Networks ( http://arxiv.org/abs/2207.13518v1 )

ライセンス: Link先を確認
Kimberley M. Timmins, Maarten J. Kamphuis, Iris N. Vos, Birgitta K. Velthuis, Irene C. van der Schaaf, and Hugo J. Kuijf(参考訳) 破裂性頭蓋内動脈瘤(UIAs)は破裂の予測因子である。 したがって、監視および治療計画のさらなる画像化には、初期ベースラインであるTOF-MRA(Time-of-light MRA)に基づいてUIAが成長する可能性を予測することが重要である。 UIAのサイズと形状は、大動脈瘤の成長および/または破裂の予測因子であることが知られている。 メッシュ畳み込みニューラルネットワークを用いて,ベースラインTOF-MRAからの将来のUIA成長予測を行う。 151種類のtof-mraを用い, 49個のuiaが成長し, 120が安定と分類された169個のuiaについて, 臨床的な成長定義(後続スキャンでは1mm程度)に基づき検討した。 UIAはTOF-MRAから分離され、メッシュが自動的に生成される。 UIAメッシュとUIAおよび周辺親血管を含むROIメッシュの両方の入力について検討する。 成長するか、安定し続けるUIAを予測するための分類モデルを開発しています。 このモデルはメッシュ畳み込みニューラルネットワークで構成され、表面トポロジーを記述する形状指数と曲面の新たな入力エッジ特徴を含んでいる。 入力エッジ中点座標がモデル性能に与える影響を検討した。 成長予測のための最も高いAUC(63.8%)のモデルは、入力エッジ中点座標を持つUIAメッシュを使用していた(平均F1スコアは62.3%、精度は66.9%、感度は57.3%、特異性は70.8%)。 本稿では,メッシュ畳み込みニューラルネットワークに基づく今後のuia成長予測モデルについて述べる。

The growth of unruptured intracranial aneurysms (UIAs) is a predictor of rupture. Therefore, for further imaging surveillance and treatment planning, it is important to be able to predict if an UIA is likely to grow based on an initial baseline Time-of-Flight MRA (TOF-MRA). It is known that the size and shape of UIAs are predictors of aneurysm growth and/or rupture. We perform a feasibility study of using a mesh convolutional neural network for future UIA growth prediction from baseline TOF-MRAs. We include 151 TOF-MRAs, with 169 UIAs where 49 UIAs were classified as growing and 120 as stable, based on the clinical definition of growth (>1 mm increase in size in follow-up scan). UIAs were segmented from TOF-MRAs and meshes were automatically generated. We investigate the input of both UIA mesh only and region-of-interest (ROI) meshes including UIA and surrounding parent vessels. We develop a classification model to predict UIAs that will grow or remain stable. The model consisted of a mesh convolutional neural network including additional novel input edge features of shape index and curvedness which describe the surface topology. It was investigated if input edge mid-point co-ordinates influenced the model performance. The model with highest AUC (63.8%) for growth prediction was using UIA meshes with input edge mid-point co-ordinate features (average F1 score = 62.3%, accuracy = 66.9%, sensitivity = 57.3%, specificity = 70.8%). We present a future UIA growth prediction model based on a mesh convolutional neural network with promising results.
翻訳日:2022-07-28 13:12:05 公開日:2022-07-27
# PI-ARS:予測情報表現による進化学習型視覚移動の高速化

PI-ARS: Accelerating Evolution-Learned Visual-Locomotion with Predictive Information Representations ( http://arxiv.org/abs/2207.13224v1 )

ライセンス: Link先を確認
Kuang-Huei Lee, Ofir Nachum, Tingnan Zhang, Sergio Guadarrama, Jie Tan, Wenhao Yu(参考訳) 進化戦略(ES)アルゴリズムは、巨大な並列処理能力、単純な実装、効果的なパラメータ空間探索、高速なトレーニング時間による複雑なロボット制御ポリシーのトレーニングにおいて有望な結果を示している。 しかし、ESの重要な制限は、現代のニューラルネットワークアーキテクチャを含む大容量モデルへのスケーラビリティである。 本研究では,予測情報拡張ランダム探索(PI-ARS)を開発し,近年の表現学習の進歩を活用して,ESのパラメータ探索スペースを削減することにより,この制限を緩和する。 PI-ARSは、勾配に基づく表現学習技術である予測情報(PI)と、勾配のないESアルゴリズムであるAugmented Random Search(ARS)を組み合わせて、複雑なロボットの感覚入力を処理し、高非線形なロボットのダイナミクスを処理できるポリシーを訓練する。 そこで我々は,四足歩行ロボットが不均一な踏み石,五足歩行台,移動プラットフォームの上を歩行し,屋内ナビゲーションタスクを完了させるための課題として,pi-arを評価する。 全てのタスクにおいて、PI-ARSはARSベースラインに比べて学習効率と性能が大幅に向上している。 さらに,実世界のステッピングストーン環境において100%の成功率を達成し,事前評価を40%の成功を収めるなど,学習した方針が実四足ロボットにうまく移行できることを実証し,アルゴリズムの検証を行った。

Evolution Strategy (ES) algorithms have shown promising results in training complex robotic control policies due to their massive parallelism capability, simple implementation, effective parameter-space exploration, and fast training time. However, a key limitation of ES is its scalability to large capacity models, including modern neural network architectures. In this work, we develop Predictive Information Augmented Random Search (PI-ARS) to mitigate this limitation by leveraging recent advancements in representation learning to reduce the parameter search space for ES. Namely, PI-ARS combines a gradient-based representation learning technique, Predictive Information (PI), with a gradient-free ES algorithm, Augmented Random Search (ARS), to train policies that can process complex robot sensory inputs and handle highly nonlinear robot dynamics. We evaluate PI-ARS on a set of challenging visual-locomotion tasks where a quadruped robot needs to walk on uneven stepping stones, quincuncial piles, and moving platforms, as well as to complete an indoor navigation task. Across all tasks, PI-ARS demonstrates significantly better learning efficiency and performance compared to the ARS baseline. We further validate our algorithm by demonstrating that the learned policies can successfully transfer to a real quadruped robot, for example, achieving a 100% success rate on the real-world stepping stone environment, dramatically improving prior results achieving 40% success.
翻訳日:2022-07-28 13:11:03 公開日:2022-07-27
# JDRec:オンラインコンビニアルレコメンダシステムのための実践的アクター批判フレームワーク

JDRec: Practical Actor-Critic Framework for Online Combinatorial Recommender System ( http://arxiv.org/abs/2207.13311v1 )

ライセンス: Link先を確認
Xin Zhao (1), Zhiwei Fang (1), Yuchen Guo (2), Jie He (1), Wenlong Chen (1), Changping Peng (1) ((1) JD.com, (2) Tsinghua University)(参考訳) 複合レコメンデータ(CR)システムは、ユーザ行動がコンテキスト情報とアイテムの両方に影響される結果ページにおいて、ユーザに対してアイテムのリストを出力する。 CRは、リスト全体のレコメンデーション報酬を最大化する目的で、組合せ最適化問題として定式化される。 その重要性にもかかわらず、オンライン環境における効率性、ダイナミクス、パーソナライズ要件のため、実用的なCRシステムを構築することは依然として課題である。 特に、問題をリスト生成とリスト評価という2つのサブ問題に分割する。 新しい実用的なモデルアーキテクチャは、効率と効率を共同で最適化することを目的とした、これらのサブプロブレムのために設計されている。 オンラインのケースに適応するために,アクター-批判強化フレームワークを構成するブートストラップアルゴリズムを用い,長期的なユーザインタラクションにおいて,より優れたレコメンデーションモードを検討する。 オフラインおよびオンライン実験の結果は、提案したJDRecフレームワークの有効性を示す。 JDRecはオンラインJDレコメンデーションに採用され、クリックスルー率を2.6%改善し、プラットフォームの合成価値を5.03%改善した。 本研究で使用する大規模データセットを公開し,研究コミュニティに貢献する。

A combinatorial recommender (CR) system feeds a list of items to a user at a time in the result page, in which the user behavior is affected by both contextual information and items. The CR is formulated as a combinatorial optimization problem with the objective of maximizing the recommendation reward of the whole list. Despite its importance, it is still a challenge to build a practical CR system, due to the efficiency, dynamics, personalization requirement in online environment. In particular, we tear the problem into two sub-problems, list generation and list evaluation. Novel and practical model architectures are designed for these sub-problems aiming at jointly optimizing effectiveness and efficiency. In order to adapt to online case, a bootstrap algorithm forming an actor-critic reinforcement framework is given to explore better recommendation mode in long-term user interaction. Offline and online experiment results demonstrate the efficacy of proposed JDRec framework. JDRec has been applied in online JD recommendation, improving click through rate by 2.6% and synthetical value for the platform by 5.03%. We will publish the large-scale dataset used in this study to contribute to the research community.
翻訳日:2022-07-28 13:10:36 公開日:2022-07-27
# restless multi-armed banditsにおけるソフトフェアネスを目指して

Towards Soft Fairness in Restless Multi-Armed Bandits ( http://arxiv.org/abs/2207.13343v1 )

ライセンス: Link先を確認
Dexun Li, Pradeep Varakantham(参考訳) Restless Multi-armed bandits (RMAB)は、限られた資源を不確実性の下で割り当てるためのフレームワークである。 これは、受給者のモニタリングや、公衆の健康状態における最大限の利益を確保するためのタイムリーな介入の実行(例えば、患者が結核設定で薬を服用すること、妊娠中の母親が良い妊娠習慣に関する自動呼び出しを聴くこと)に非常に有用なモデルである。 限られた資源のため、通常、特定のコミュニティや地域は、後続効果のある介入に飢えている。 個人/地域/コミュニティ間で実行される介入の飢餓を避けるため、まずソフトフェアネス制約を提供し、次にrmabsのソフトフェアネス制約を強制するアプローチを提供する。 ソフトフェアネス制約は、アルゴリズムが後者のアームを選択するという長期的な累積報酬が高い場合、一方のアームを確率的に好まないことを要求する。 提案手法は、RMAB設定にソフトマックスに基づく値反復法を導入し、提案したフェアネス制約を満たすための選択アルゴリズムを設計する。 我々の手法はSoftFairと呼ばれ、理論的性能保証を提供し、漸近的に最適である。 最後に,シミュレーションベンチマークによるアプローチの有用性を実証し,ソフトフェアネス制約が価値を犠牲にすることなく処理可能であることを示す。

Restless multi-armed bandits (RMAB) is a framework for allocating limited resources under uncertainty. It is an extremely useful model for monitoring beneficiaries and executing timely interventions to ensure maximum benefit in public health settings (e.g., ensuring patients take medicines in tuberculosis settings, ensuring pregnant mothers listen to automated calls about good pregnancy practices). Due to the limited resources, typically certain communities or regions are starved of interventions that can have follow-on effects. To avoid starvation in the executed interventions across individuals/regions/communities, we first provide a soft fairness constraint and then provide an approach to enforce the soft fairness constraint in RMABs. The soft fairness constraint requires that an algorithm never probabilistically favor one arm over another if the long-term cumulative reward of choosing the latter arm is higher. Our approach incorporates softmax based value iteration method in the RMAB setting to design selection algorithms that manage to satisfy the proposed fairness constraint. Our method, referred to as SoftFair, also provides theoretical performance guarantees and is asymptotically optimal. Finally, we demonstrate the utility of our approaches on simulated benchmarks and show that the soft fairness constraint can be handled without a significant sacrifice on value.
翻訳日:2022-07-28 13:10:16 公開日:2022-07-27
# グラフニューラルネットワークにおける概念の符号化

Encoding Concepts in Graph Neural Networks ( http://arxiv.org/abs/2207.13586v1 )

ライセンス: Link先を確認
Lucie Charlotte Magister and Pietro Barbiero and Dmitry Kazhdan and Federico Siciliano and Gabriele Ciravegna and Fabrizio Silvestri and Pietro Lio and Mateja Jamnik(参考訳) グラフニューラルネットワークの不透明な推論は、人間の信頼の欠如を引き起こす。 既存のグラフネットワーク説明者は、ポストホックな説明を提供することでこの問題に対処しようとしたが、モデル自体をより解釈しやすくしなかった。 このギャップを埋めるために、グラフネットワークにおける最初の微分可能な概念発見手法であるConcept Encoder Moduleを導入する。 提案手法は,まずグラフの概念を発見し,それを用いてタスクを解くことにより,グラフネットワークを設計により説明可能にする。 我々の結果は、このアプローチがグラフネットワークを可能にすることを実証している。 (i)モデル精度を同等のバニラバージョンと同等にする。 (二)高い概念完全性と純度スコアを達成する有意義な概念を見つけること。 (iii)その予測のために高品質な概念に基づく論理説明を提供する。 (iv) テスト時の効果的な介入をサポートする: これは人間の信頼を高め、モデルのパフォーマンスを大幅に改善する。

The opaque reasoning of Graph Neural Networks induces a lack of human trust. Existing graph network explainers attempt to address this issue by providing post-hoc explanations, however, they fail to make the model itself more interpretable. To fill this gap, we introduce the Concept Encoder Module, the first differentiable concept-discovery approach for graph networks. The proposed approach makes graph networks explainable by design by first discovering graph concepts and then using these to solve the task. Our results demonstrate that this approach allows graph networks to: (i) attain model accuracy comparable with their equivalent vanilla versions, (ii) discover meaningful concepts that achieve high concept completeness and purity scores, (iii) provide high-quality concept-based logic explanations for their prediction, and (iv) support effective interventions at test time: these can increase human trust as well as significantly improve model performance.
翻訳日:2022-07-28 13:09:53 公開日:2022-07-27
# InterACT: ネットワーク上の分散二段階学習における低サンプル・通信複雑性の実現

INTERACT: Achieving Low Sample and Communication Complexities in Decentralized Bilevel Learning over Networks ( http://arxiv.org/abs/2207.13283v1 )

ライセンス: Link先を確認
Zhuqing Liu, Xin Zhang, Prashant Khanduri, Songtao Lu, and Jia Liu(参考訳) 近年、ピアツーピアネットワーク(例えば、マルチエージェントメタラーニング、マルチエージェント強化学習、パーソナライズドトレーニング、ビザンチン・レジリエント学習)における分散学習問題のモデリングの汎用性により、ネットワークや機械学習コミュニティでは、分散二段階最適化の問題が注目されている。 しかしながら、計算能力と通信能力に制限のあるピアツーピアネットワーク上での分散二レベル最適化では、サンプルと通信の複雑さの低さを実現するには、2つの根本的な課題がある。 本稿では,非凸および強凸構造を持つ分散二段階最適化問題のクラスを,それぞれ外および内部のサブプロブレムに対応するものとして検討する。 本論文の主な貢献は次の2つです。 i) InterACT (inner-gradient-descent-outer-tracked-gradient) と呼ばれる決定論的アルゴリズムをまず提案する。このアルゴリズムでは,各エージェントのサンプル数と所望の定常差をそれぞれ$n$と$0$で解決するために,$\mathcal{O}(n \epsilon^{-1})$と$\mathcal{O}(\epsilon^{-1})$の通信複雑性を必要とする。 i) 各繰り返しにおける完全な勾配評価の必要性を緩和するために,決定論的アルゴリズムと同じ通信複雑性を達成しつつ,サンプルの複雑さを$\mathcal{O}(\sqrt{n} \epsilon^{-1})$に改善したInteract(SVR-INTERACT)の確率的分散還元版を提案する。 私たちの知る限りでは、この研究は、ネットワーク上の分散二レベル最適化問題を解決するために、サンプルと通信の複雑さの低さを実現する最初の方法です。 我々の数値実験も我々の理論的な結果を裏付けている。

In recent years, decentralized bilevel optimization problems have received increasing attention in the networking and machine learning communities thanks to their versatility in modeling decentralized learning problems over peer-to-peer networks (e.g., multi-agent meta-learning, multi-agent reinforcement learning, personalized training, and Byzantine-resilient learning). However, for decentralized bilevel optimization over peer-to-peer networks with limited computation and communication capabilities, how to achieve low sample and communication complexities are two fundamental challenges that remain under-explored so far. In this paper, we make the first attempt to investigate the class of decentralized bilevel optimization problems with nonconvex and strongly-convex structure corresponding to the outer and inner subproblems, respectively. Our main contributions in this paper are two-fold: i) We first propose a deterministic algorithm called INTERACT (inner-gradient-descent-outer-tracked-gradient) that requires the sample complexity of $\mathcal{O}(n \epsilon^{-1})$ and communication complexity of $\mathcal{O}(\epsilon^{-1})$ to solve the bilevel optimization problem, where $n$ and $\epsilon > 0$ are the number of samples at each agent and the desired stationarity gap, respectively. ii) To relax the need for full gradient evaluations in each iteration, we propose a stochastic variance-reduced version of INTERACT (SVR-INTERACT), which improves the sample complexity to $\mathcal{O}(\sqrt{n} \epsilon^{-1})$ while achieving the same communication complexity as the deterministic algorithm. To our knowledge, this work is the first that achieves both low sample and communication complexities for solving decentralized bilevel optimization problems over networks. Our numerical experiments also corroborate our theoretical findings.
翻訳日:2022-07-28 13:09:40 公開日:2022-07-27
# 銀行のストレステストは公平か?

Should Bank Stress Tests Be Fair? ( http://arxiv.org/abs/2207.13319v1 )

ライセンス: Link先を確認
Paul Glasserman and Mike Li(参考訳) 規制ストレステストは、米国最大の銀行で資本要件を設定するための主要なツールとなっている。 連邦準備制度理事会(FRB)は秘密モデルを用いて、銀行固有のポートフォリオを共有ストレスシナリオで評価する。 政策面では、金融機関間でかなりの異質性があるにもかかわらず、全ての銀行で同じモデルが使われているが、個々の銀行は、いくつかのモデルが事業に適さないと主張している。 この議論に動機づけられて、私たちは、個別に調整されたモデルのフェアアグリゲーションを共通のモデルにしたものは何でしょうか? 銀行にまたがるデータのプールは、銀行を平等に扱うが、2つの欠陥がある: 正当なポートフォリオ機能の影響を歪め、銀行のアイデンティティを推測するために正当な情報の暗黙の誤った指示に弱い。 予測精度と等価処理の両面から、回帰公正性の様々な概念を比較し、これらの欠陥に対処する。 線形モデルの設定においては、銀行間の差異を単に無視するよりも、中心となる固定効果を推定・破棄することが望ましいと論じる。 我々は、全体的な影響が物質的であることを示す。 非線形モデルの拡張についても論じる。

Regulatory stress tests have become the primary tool for setting capital requirements at the largest U.S. banks. The Federal Reserve uses confidential models to evaluate bank-specific outcomes for bank-specific portfolios in shared stress scenarios. As a matter of policy, the same models are used for all banks, despite considerable heterogeneity across institutions; individual banks have contended that some models are not suited to their businesses. Motivated by this debate, we ask, what is a fair aggregation of individually tailored models into a common model? We argue that simply pooling data across banks treats banks equally but is subject to two deficiencies: it may distort the impact of legitimate portfolio features, and it is vulnerable to implicit misdirection of legitimate information to infer bank identity. We compare various notions of regression fairness to address these deficiencies, considering both forecast accuracy and equal treatment. In the setting of linear models, we argue for estimating and then discarding centered bank fixed effects as preferable to simply ignoring differences across banks. We present evidence that the overall impact can be material. We also discuss extensions to nonlinear models.
翻訳日:2022-07-28 13:08:58 公開日:2022-07-27
# 組合せ最適化レイヤーによる学習:確率論的アプローチ

Learning with Combinatorial Optimization Layers: a Probabilistic Approach ( http://arxiv.org/abs/2207.13513v1 )

ライセンス: Link先を確認
Guillaume Dalle, L\'eo Baty, Louis Bouvier, Axel Parmentier(参考訳) 機械学習(ML)パイプラインにおける組合せ最適化(CO)レイヤは、データ駆動決定タスクに取り組むための強力なツールだが、大きな課題が2つある。 まず、CO問題の解は、しばしば対象パラメータの断片的定数関数として振る舞う。 MLパイプラインは通常、確率勾配降下を用いて訓練されているため、傾斜情報の欠如は非常に有害である。 第二に、MLの標準的な損失は組合せ設定ではうまく機能しない。 成長する研究機関は、様々な方法でこれらの課題に対処する。 残念ながら、十分に保守された実装がないため、CO層の採用が遅くなる。 本稿では, 従来の研究に基づいてCO層に対する確率論的視点を導入し, 微分と構造的損失の構成に自然に寄与することを示す。 特別事例として文献から多くのアプローチを回収し,新たな事例も導き出した。 この統一的な視点に基づいて、オープンソースのJuliaパッケージであるInferOpt.jlを紹介します。 1) 線形目的の任意のCOオラクルを微分可能な層に変えることができる。 2) このようなレイヤを含むトレインパイプラインに対する適切な損失を定義する。 ライブラリは任意の最適化アルゴリズムで動作し、JuliaのMLエコシステムと完全に互換性がある。 ビデオゲームマップにおけるパスフィンディング問題を用いて,その能力を示す。

Combinatorial optimization (CO) layers in machine learning (ML) pipelines are a powerful tool to tackle data-driven decision tasks, but they come with two main challenges. First, the solution of a CO problem often behaves as a piecewise constant function of its objective parameters. Given that ML pipelines are typically trained using stochastic gradient descent, the absence of slope information is very detrimental. Second, standard ML losses do not work well in combinatorial settings. A growing body of research addresses these challenges through diverse methods. Unfortunately, the lack of well-maintained implementations slows down the adoption of CO layers. In this paper, building upon previous works, we introduce a probabilistic perspective on CO layers, which lends itself naturally to approximate differentiation and the construction of structured losses. We recover many approaches from the literature as special cases, and we also derive new ones. Based on this unifying perspective, we present InferOpt.jl, an open-source Julia package that 1) allows turning any CO oracle with a linear objective into a differentiable layer, and 2) defines adequate losses to train pipelines containing such layers. Our library works with arbitrary optimization algorithms, and it is fully compatible with Julia's ML ecosystem. We demonstrate its abilities using a pathfinding problem on video game maps.
翻訳日:2022-07-28 13:08:38 公開日:2022-07-27
# unsupervised source-free domain adaptationのための並列補助的監督

Concurrent Subsidiary Supervision for Unsupervised Source-Free Domain Adaptation ( http://arxiv.org/abs/2207.13247v1 )

ライセンス: Link先を確認
Jogendra Nath Kundu, Suvaansh Bhambri, Akshay Kulkarni, Hiran Sarkar, Varun Jampani, R. Venkatesh Babu(参考訳) 教師なしドメイン適応(DA)の最大の課題は、ソースとターゲットドメイン間のドメインシフトを軽減することである。 以前のda作業は、プリテキストタスクがドメイン不変表現を学習することで、このドメインシフトを軽減するために使用できることを示した。 しかし、実際には、既存のプリテキストタスクのほとんどは、他の確立された技術に対して効果がない。 そこで我々は,あるDA問題の目標タスクを補助し,目的タスク適合性基準を策定するために,副文タスクをどのように活用できるかを理論的に分析する。 この基準に基づき, 目標タスク無監督DAと並行して, ステッカー介入の新たなプロセスと, キャスティングステッカー分類を, 教師付き補助DA問題として考案した。 提案手法は,目標タスク適応性能の向上だけでなく,プライバシ指向のソースフリーDA,すなわちソースターゲットの同時アクセスを不要とする。 標準のOffice-31、Office-Home、DomainNet、VisDAベンチマークの実験は、単一ソースと複数ソースのソースフリーDAに対して、我々の優位性を実証している。 当社のアプローチは、既存の非ソースフリーな作業も補完し、主要なパフォーマンスを実現します。

The prime challenge in unsupervised domain adaptation (DA) is to mitigate the domain shift between the source and target domains. Prior DA works show that pretext tasks could be used to mitigate this domain shift by learning domain invariant representations. However, in practice, we find that most existing pretext tasks are ineffective against other established techniques. Thus, we theoretically analyze how and when a subsidiary pretext task could be leveraged to assist the goal task of a given DA problem and develop objective subsidiary task suitability criteria. Based on this criteria, we devise a novel process of sticker intervention and cast sticker classification as a supervised subsidiary DA problem concurrent to the goal task unsupervised DA. Our approach not only improves goal task adaptation performance, but also facilitates privacy-oriented source-free DA i.e. without concurrent source-target access. Experiments on the standard Office-31, Office-Home, DomainNet, and VisDA benchmarks demonstrate our superiority for both single-source and multi-source source-free DA. Our approach also complements existing non-source-free works, achieving leading performance.
翻訳日:2022-07-28 13:05:01 公開日:2022-07-27
# vgg16型ディープニューラルネットワークを用いた航空宇宙センサの故障検出と分類

Fault Detection and Classification of Aerospace Sensors using a VGG16-based Deep Neural Network ( http://arxiv.org/abs/2207.13267v1 )

ライセンス: Link先を確認
Zhongzhi Li and Yunmei Zhao and Jinyi Ma and Jianliang Ai and Yiqun Dong(参考訳) 従来のモデルベース障害検出・分類法(FDC)と比較して、深部ニューラルネットワーク(DNN)は、FDC問題に有効であることが証明されている。 しかし、DNNのトレーニングに費やす時間は過大であり、FDCニューラルネットワークの説明可能性分析はいまだに不足している。 イメージフィケーションに基づくインテリジェントFDCという概念が近年研究されている。 この概念は、センサー計測データを画像形式に積み重ねることを提唱し、センサーFDC問題は、積み重ねられた画像上の異常領域検出問題に変換される。 画像フィケーションに基づくインテリジェントFDC研究では有望な結果が主張されているが、積み重ねられた画像のサイズが小さいため、小さな畳み込みカーネルと浅いDNN層が用いられ、FDC性能を阻害している。 本稿では,まず,重ねられた画像をより大きなサイズに膨らませるデータ拡張手法を提案する(マシンビジョン領域で開発されたVGG16ネットに対応する)。 FDCニューラルネットワークは、VGG16を直接微調整することでトレーニングされる。 FDCネットサイズ(走行時間)を縮小・圧縮するために、細調整ネット上でモデルプルーニングを行う。 クラスアクティベーションマッピング(CAM)法は、FDCネットの説明可能性解析にも適用され、内部動作を検証する。 この論文で開発されたFDCネットは、データ拡張、VGG16からの微調整、モデルプルーニングにより、4機の飛行条件(26ms)で98.90%のFDC精度を主張する。 CAMの結果はFDCネットを内部操作で検証する。

Compared with traditional model-based fault detection and classification (FDC) methods, deep neural networks (DNN) prove to be effective for the aerospace sensors FDC problems. However, time being consumed in training the DNN is excessive, and explainability analysis for the FDC neural network is still underwhelming. A concept known as imagefication-based intelligent FDC has been studied in recent years. This concept advocates to stack the sensors measurement data into an image format, the sensors FDC issue is then transformed to abnormal regions detection problem on the stacked image, which may well borrow the recent advances in the machine vision vision realm. Although promising results have been claimed in the imagefication-based intelligent FDC researches, due to the low size of the stacked image, small convolutional kernels and shallow DNN layers were used, which hinders the FDC performance. In this paper, we first propose a data augmentation method which inflates the stacked image to a larger size (correspondent to the VGG16 net developed in the machine vision realm). The FDC neural network is then trained via fine-tuning the VGG16 directly. To truncate and compress the FDC net size (hence its running time), we perform model pruning on the fine-tuned net. Class activation mapping (CAM) method is also adopted for explainability analysis of the FDC net to verify its internal operations. Via data augmentation, fine-tuning from VGG16, and model pruning, the FDC net developed in this paper claims an FDC accuracy 98.90% across 4 aircraft at 5 flight conditions (running time 26 ms). The CAM results also verify the FDC net w.r.t. its internal operations.
翻訳日:2022-07-28 13:04:41 公開日:2022-07-27
# PointFix:ロバストオンラインステレオ適応のためのドメインバイアスの修正を学ぶ

PointFix: Learning to Fix Domain Bias for Robust Online Stereo Adaptation ( http://arxiv.org/abs/2207.13340v1 )

ライセンス: Link先を確認
Kwonyoung Kim, Jungin Park, Jiyoung Lee, Dongbo Min, Kwanghoon Sohn(参考訳) オンラインステレオ適応は、合成(トレーニング)と実(テスト)データセットの異なる環境によって引き起こされるドメインシフト問題に取り組み、自律運転のような動的実世界のアプリケーションにおいて、ステレオモデルを迅速に適応させる。 しかし、従来の手法では、より厳しい環境変化を伴う動的対象に関連する特定の領域に対処できないことが多い。 この問題を軽減するため,我々は,オンラインステレオ適応のためのステレオモデルの堅牢な初期化を提供するために,メタラーニングフレームワークであるpointfixに補助的ポイント選択ネットワークを組み込むことを提案する。 一言で言えば、我々の補助ネットワークは、ベースラインモデルの堅牢な初期化のためのメタ勾配を通じて、ローカル情報を効果的にバックプロパゲーションすることで、局所的な変異を集中的に修正することを学びます。 このネットワークはモデルに依存しないので、どんなアーキテクチャでもプラグイン・アンド・プレイ方式で使用できる。 提案手法の有効性を検証するために, 短期, 中期, 長期の3つの適応条件下で広範な実験を行った。 実験の結果, 補助ネットワークによるベースステレオモデルの適切な初期化により, 推論時の最先端性能を実現することができることがわかった。

Online stereo adaptation tackles the domain shift problem, caused by different environments between synthetic (training) and real (test) datasets, to promptly adapt stereo models in dynamic real-world applications such as autonomous driving. However, previous methods often fail to counteract particular regions related to dynamic objects with more severe environmental changes. To mitigate this issue, we propose to incorporate an auxiliary point-selective network into a meta-learning framework, called PointFix, to provide a robust initialization of stereo models for online stereo adaptation. In a nutshell, our auxiliary network learns to fix local variants intensively by effectively back-propagating local information through the meta-gradient for the robust initialization of the baseline model. This network is model-agnostic, so can be used in any kind of architectures in a plug-and-play manner. We conduct extensive experiments to verify the effectiveness of our method under three adaptation settings such as short-, mid-, and long-term sequences. Experimental results show that the proper initialization of the base stereo model by the auxiliary network enables our learning paradigm to achieve state-of-the-art performance at inference.
翻訳日:2022-07-28 13:04:11 公開日:2022-07-27
# 自己教師付き事前学習による深層クラスタリング

Deep Clustering with Features from Self-Supervised Pretraining ( http://arxiv.org/abs/2207.13364v1 )

ライセンス: Link先を確認
Xingzhi Zhou, Nevin L. Zhang(参考訳) ディープクラスタリングモデルは概念的には、データポイントを潜在空間にマッピングする特徴抽出器と、データポイントを潜在空間内のクラスタにグループ化するクラスタリングヘッドで構成される。 2つのコンポーネントは、かつてはエンドツーエンドで共同でトレーニングされていたが、近年の研究では、2つの段階で個別にトレーニングすることが有益であることが証明されている。 最初の段階では、特徴抽出器は、データポイント間のクラスタ構造の保存を可能にする自己教師付き学習によって訓練される。 クラスタ構造をよりよく保存するために、自己教師付き学習を通じてより大規模なデータセットで事前訓練されたモデルに第1段階を置き換えることを提案する。 この方法は単純であり、ドメインシフトに苦しむ可能性がある。 それでも、優れたクラスタリング性能を達成できることを実証的に示しています。 視覚変換器(ViT)アーキテクチャを用いて特徴抽出を行う場合,CIFAR-10,CIFAR-100,STL-10において,クラスタリング精度94.0%,55.6%,97.9%を達成した。 前回の成果は84.3%、47.7%、80.8%だった。 私たちのコードは論文の公開とともにオンラインで利用できます。

A deep clustering model conceptually consists of a feature extractor that maps data points to a latent space, and a clustering head that groups data points into clusters in the latent space. Although the two components used to be trained jointly in an end-to-end fashion, recent works have proved it beneficial to train them separately in two stages. In the first stage, the feature extractor is trained via self-supervised learning, which enables the preservation of the cluster structures among the data points. To preserve the cluster structures even better, we propose to replace the first stage with another model that is pretrained on a much larger dataset via self-supervised learning. The method is simple and might suffer from domain shift. Nonetheless, we have empirically shown that it can achieve superior clustering performance. When a vision transformer (ViT) architecture is used for feature extraction, our method has achieved clustering accuracy 94.0%, 55.6% and 97.9% on CIFAR-10, CIFAR-100 and STL-10 respectively. The corresponding previous state-of-the-art results are 84.3%, 47.7% and 80.8%. Our code will be available online with the publication of the paper.
翻訳日:2022-07-28 13:03:50 公開日:2022-07-27
# 微分可能フレームワークにおけるコントラスト学習のための変換の最適化

Optimizing transformations for contrastive learning in a differentiable framework ( http://arxiv.org/abs/2207.13367v1 )

ライセンス: Link先を確認
Camille Ruppli, Pietro Gori, Roberto Ardon, Isabelle Bloch(参考訳) 現在のコントラスト学習法は、固定ハイパーパラメータを持つ大きな変換リストからサンプリングされたランダム変換を使用して、注釈のないデータベースから不変性を学ぶ。 少量の監督を導入する先行研究に続いて, 微分可能変換ネットワークを用いたコントラスト学習の最適変換を求める枠組みを提案する。 本手法は,教師の精度と収束速度の両方において,低アノテートデータ方式の性能を向上させる。 以前の作業とは対照的に、変換最適化には生成モデルを必要としない。 変換された画像は、教師付きタスクを解決するための関連情報を保持する。 34000枚の脳磁気共鳴画像と11200枚の胸部X線画像を用いて実験を行った。 両方のデータセットでは、ラベル付きデータの10%で、100%ラベル付き完全教師付きモデルよりも優れたパフォーマンスを実現しています。

Current contrastive learning methods use random transformations sampled from a large list of transformations, with fixed hyperparameters, to learn invariance from an unannotated database. Following previous works that introduce a small amount of supervision, we propose a framework to find optimal transformations for contrastive learning using a differentiable transformation network. Our method increases performances at low annotated data regime both in supervision accuracy and in convergence speed. In contrast to previous work, no generative model is needed for transformation optimization. Transformed images keep relevant information to solve the supervised task, here classification. Experiments were performed on 34000 2D slices of brain Magnetic Resonance Images and 11200 chest X-ray images. On both datasets, with 10% of labeled data, our model achieves better performances than a fully supervised model with 100% labels.
翻訳日:2022-07-28 13:03:30 公開日:2022-07-27
# ボット検出のための統計的キーストローク合成

Statistical Keystroke Synthesis for Improved Bot Detection ( http://arxiv.org/abs/2207.13394v1 )

ライセンス: Link先を確認
Daniel DeAlcala and Aythami Morales and Ruben Tolosana and Alejandro Acien and Julian Fierrez and Santiago Hernandez and Miguel A. Ferrer and Moises Diaz(参考訳) 本研究は,ユニバーサルモデルとユーザ依存モデルに基づくキーストロークバイオメトリックデータの合成のための2つの統計的手法を提案する。 どちらのアプローチもボット検出タスクで検証され、キーストローク合成データを使用してシステムをトレーニングする。 実験には16万8000人の被験者から1億3600万件のキーストロークイベントのデータセットが含まれています。 定性的および定量的な実験により,2つの合成手法の性能を解析した。 異なるボット検出器は、2つの教師付き分類器(サポートベクターマシンと長期短期記憶ネットワーク)と、人間と生成されたサンプルを含む学習フレームワークに基づいて検討される。 提案手法は,人間に似た合成キーストロークサンプルを生成できることを示す。 また, 分類結果から, 大規模ラベルデータの場合, 合成試料を高精度に検出できることが示唆された。 しかし、少数の学習シナリオでは、これは重要な課題である。

This work proposes two statistical approaches for the synthesis of keystroke biometric data based on Universal and User-dependent Models. Both approaches are validated on the bot detection task, using the keystroke synthetic data to better train the systems. Our experiments include a dataset with 136 million keystroke events from 168,000 subjects. We have analyzed the performance of the two synthesis approaches through qualitative and quantitative experiments. Different bot detectors are considered based on two supervised classifiers (Support Vector Machine and Long Short-Term Memory network) and a learning framework including human and generated samples. Our results prove that the proposed statistical approaches are able to generate realistic human-like synthetic keystroke samples. Also, the classification results suggest that in scenarios with large labeled data, these synthetic samples can be detected with high accuracy. However, in few-shot learning scenarios it represents an important challenge.
翻訳日:2022-07-28 13:03:19 公開日:2022-07-27
# コントラスト学習を補強する時間

Time to augment contrastive learning ( http://arxiv.org/abs/2207.13492v1 )

ライセンス: Link先を確認
Arthur Aubret, Markus Ernst, C\'eline Teuli\`ere, Jochen Triesch(参考訳) 生体視覚システムは、監督なしで視覚表現を学習する能力に無関係である。 機械学習において、コントラスト学習(cl)は教師なしの方法でオブジェクト表現を形成するための大きな進歩をもたらした。 これらのシステムは、トリミングやフリップのような画像上の拡張操作に不変な表現を学ぶ。 対照的に、生物学的視覚システムは視覚経験の時間構造を利用する。 これにより、複数の視点から同じオブジェクトを見たり、異なるバックグラウンドに対して、CLで一般的に使われていない拡張へのアクセスが可能になる。 本稿では,学習対象のカテゴリに対する時間に基づく拡張の利点を体系的に調査し,比較する。 以上の結果から,時間に基づく増補は最先端の画像増補よりも大きな性能向上を実現することが示された。 特に我々の分析は 1)3次元物体回転は対象カテゴリーの学習を大幅に改善する。 2)背景情報を捨てる学習には,背景変化から物体を見ることが不可欠である。 全体的に、時間に基づく強化はコントラスト学習を大幅に改善し、人工視覚と生体視覚システムの間のギャップを狭めることができると結論づける。

Biological vision systems are unparalleled in their ability to learn visual representations without supervision. In machine learning, contrastive learning (CL) has led to major advances in forming object representations in an unsupervised fashion. These systems learn representations invariant to augmentation operations over images, like cropping or flipping. In contrast, biological vision systems exploit the temporal structure of the visual experience. This gives access to augmentations not commonly used in CL, like watching the same object from multiple viewpoints or against different backgrounds. Here, we systematically investigate and compare the potential benefits of such time-based augmentations for learning object categories. Our results show that time-based augmentations achieve large performance gains over state-of-the-art image augmentations. Specifically, our analyses reveal that: 1) 3-D object rotations drastically improve the learning of object categories; 2) viewing objects against changing backgrounds is vital for learning to discard background-related information. Overall, we conclude that time-based augmentations can greatly improve contrastive learning, narrowing the gap between artificial and biological vision systems.
翻訳日:2022-07-28 13:03:04 公開日:2022-07-27
# ロバストOOD画像分類のための多層表現学習

Multi-layer Representation Learning for Robust OOD Image Classification ( http://arxiv.org/abs/2207.13678v1 )

ライセンス: Link先を確認
Aristotelis Ballas and Christos Diou(参考訳) 畳み込みニューラルネットワークは画像分類の標準となっている。 それでも、データセット間で高い精度を維持することの難しさは、ここ数年で明らかになっている。 このようなモデルを現実のシナリオやアプリケーションで活用するためには、見えないデータに対して信頼できる予測を提供する必要がある。 本稿では,CNNの中間層から特徴を抽出することで,モデルの最終的な予測を支援することを論じる。 具体的には、hypercolumns法をresnet-18に適用し、nicoデータセット上での評価においてモデルの精度が大幅に向上することを示す。

Convolutional Neural Networks have become the norm in image classification. Nevertheless, their difficulty to maintain high accuracy across datasets has become apparent in the past few years. In order to utilize such models in real-world scenarios and applications, they must be able to provide trustworthy predictions on unseen data. In this paper, we argue that extracting features from a CNN's intermediate layers can assist in the model's final prediction. Specifically, we adapt the Hypercolumns method to a ResNet-18 and find a significant increase in the model's accuracy, when evaluating on the NICO dataset.
翻訳日:2022-07-28 13:02:52 公開日:2022-07-27
# 2次元エコーによる3次元心臓再建のためのPix2Vox++の有用性

Efficient Pix2Vox++ for 3D Cardiac Reconstruction from 2D echo views ( http://arxiv.org/abs/2207.13424v1 )

ライセンス: Link先を確認
David Stojanovski, Uxio Hermida, Marica Muffoletto, Pablo Lamata, Arian Beqiri, Alberto Gomez(参考訳) ヒト心臓の正確な幾何学的定量化は、多くの心臓疾患の診断、および心臓患者の管理において重要なステップである。 超音波画像は心臓イメージングの主要な特徴であるが、取得には高い操作能力が必要であり、その解釈と解析は人工物のために困難である。 3Dで心臓解剖を再構築することは、新しいバイオマーカーの発見を可能にし、画像がオペレーターの専門知識に依存しないようにする。 本稿では,メモリ使用量と計算量を大幅に削減するためのPix2Vox++ネットワークへの簡単な変更と,2次元標準心臓ビューから3次元解剖の再構築を行うパイプラインを提案する。 心臓の2つの標準解剖学的2次元ビューから正確な3次元トータルハート再構成(ユニオンスコア > 0.88)を実現する合成データを用いてパイプラインを評価した。 また,実エコー画像を用いて予備結果を示す。

Accurate geometric quantification of the human heart is a key step in the diagnosis of numerous cardiac diseases, and in the management of cardiac patients. Ultrasound imaging is the primary modality for cardiac imaging, however acquisition requires high operator skill, and its interpretation and analysis is difficult due to artifacts. Reconstructing cardiac anatomy in 3D can enable discovery of new biomarkers and make imaging less dependent on operator expertise, however most ultrasound systems only have 2D imaging capabilities. We propose both a simple alteration to the Pix2Vox++ networks for a sizeable reduction in memory usage and computational complexity, and a pipeline to perform reconstruction of 3D anatomy from 2D standard cardiac views, effectively enabling 3D anatomical reconstruction from limited 2D data. We evaluate our pipeline using synthetically generated data achieving accurate 3D whole-heart reconstructions (peak intersection over union score > 0.88) from just two standard anatomical 2D views of the heart. We also show preliminary results using real echo images.
翻訳日:2022-07-28 13:02:43 公開日:2022-07-27
# 低レベル汎用知能の神経進化に向けて

Towards the Neuroevolution of Low-level Artificial General Intelligence ( http://arxiv.org/abs/2207.13583v1 )

ライセンス: Link先を確認
Sidney Pontes-Filho, Kristoffer Olsen, Anis Yazidi, Michael A. Riegler, P{\aa}l Halvorsen and Stefano Nichele(参考訳) 本研究では,AI(Artificial General Intelligence, AGI)の探索は,人間レベルの知能よりもはるかに低いレベルから始めるべきであると論じる。 自然界における知的行動の状況は、周囲の環境と相互作用する生物が時間とともに変化し、新しい行動や環境モデルを学ぶために生物に圧力をかけることに由来する。 私たちの仮説は、エージェントが環境の中で行動するときに感覚フィードバックを解釈することで学習が行われるというものです。 そのためには、ボディとリアクティブ環境が必要です。 我々は,低レベルAGIの枠組みであるNAGI(Neuroevolution of Artificial General Intelligence)と呼ばれる環境反応から学習する,生物学的にインスパイアされたニューラルネットワークを進化させる手法を評価する。 この方法では、ランダムに初期化されたスパイクニューラルネットワークと適応的なシナプスの進化的複雑化を可能にする。 このような構成により、コントローラの適応性と一般性をベンチマークすることができます。 可変環境において選択されるタスクは、食餌、論理ゲートのエミュレーション、カートポールバランスである。 3つのタスクは、かなり小さなネットワークトポロジーでうまく解決されるため、カリキュラム学習が有益な、より複雑なタスクやシナリオを実験する可能性を開く。

In this work, we argue that the search for Artificial General Intelligence (AGI) should start from a much lower level than human-level intelligence. The circumstances of intelligent behavior in nature resulted from an organism interacting with its surrounding environment, which could change over time and exert pressure on the organism to allow for learning of new behaviors or environment models. Our hypothesis is that learning occurs through interpreting sensory feedback when an agent acts in an environment. For that to happen, a body and a reactive environment are needed. We evaluate a method to evolve a biologically-inspired artificial neural network that learns from environment reactions named Neuroevolution of Artificial General Intelligence (NAGI), a framework for low-level AGI. This method allows the evolutionary complexification of a randomly-initialized spiking neural network with adaptive synapses, which controls agents instantiated in mutable environments. Such a configuration allows us to benchmark the adaptivity and generality of the controllers. The chosen tasks in the mutable environments are food foraging, emulation of logic gates, and cart-pole balancing. The three tasks are successfully solved with rather small network topologies and therefore it opens up the possibility of experimenting with more complex tasks and scenarios where curriculum learning is beneficial.
翻訳日:2022-07-28 12:59:36 公開日:2022-07-27
# 顔表情認識のための中レベル表現強調とグラフ埋め込み不確かさ抑制

Mid-level Representation Enhancement and Graph Embedded Uncertainty Suppressing for Facial Expression Recognition ( http://arxiv.org/abs/2207.13235v1 )

ライセンス: Link先を確認
Jie Lei, Zhao Liu, Zeyu Zou, Tong Li, Xu Juan, Shuaiwei Wang, Guoyu Yang, Zunlei Feng(参考訳) 表情は人間の感情状態や意図を伝える上で不可欠な要素である。 顔表情認識(FER)タスクでは顕著な進歩があったが、表現パターンの多様さや避けられないデータの不確実性による課題は依然として残っている。 本稿では,これらの問題に対処する中レベル表現強化(MRE)とグラフ埋め込み不確実性抑制(GUS)を提案する。 一方、MREは、表現表現学習が限られた数の高度識別パターンに支配されるのを避けるために導入された。 一方、GUSは表現空間における特徴のあいまいさを抑制するために導入された。 提案手法は表現パターンの異なるバリエーションを扱うためのより強固な一般化機能を持つだけでなく,表現表現をキャプチャするロバスト性も備えている。 aff-wild2の有効性を実験的に検証した。

Facial expression is an essential factor in conveying human emotional states and intentions. Although remarkable advancement has been made in facial expression recognition (FER) task, challenges due to large variations of expression patterns and unavoidable data uncertainties still remain. In this paper, we propose mid-level representation enhancement (MRE) and graph embedded uncertainty suppressing (GUS) addressing these issues. On one hand, MRE is introduced to avoid expression representation learning being dominated by a limited number of highly discriminative patterns. On the other hand, GUS is introduced to suppress the feature ambiguity in the representation space. The proposed method not only has stronger generalization capability to handle different variations of expression patterns but also more robustness to capture expression representations. Experimental evaluation on Aff-Wild2 have verified the effectiveness of the proposed method.
翻訳日:2022-07-28 12:59:14 公開日:2022-07-27
# 畳み込みによる階層的視覚トランスフォーマーの強化

Convolutional Embedding Makes Hierarchical Vision Transformer Stronger ( http://arxiv.org/abs/2207.13317v1 )

ライセンス: Link先を確認
Cong Wang, Hongmin Xu, Xiong Zhang, Li Wang, Zhitong Zheng, and Haifeng Liu(参考訳) ビジョントランスフォーマー(ViT)は近年,コンピュータビジョンタスクの領域を支配しているが,トレーニングデータの効率の低下や,適切な帰納バイアスを伴わない局所意味表現能力の低下に悩まされている。 畳み込みニューラルネットワーク(CNN)は、本質的には地域認識のセマンティクスをキャプチャし、研究者にViTのアーキテクチャにCNNを導入して、ViTに望ましい帰納バイアスを与えるよう促す。 しかし、ViTsに埋め込まれたマイクロレベルのCNNによって達成される局所性は十分か? 本稿では,ハイブリッドCNN/ViTのマクロアーキテクチャが階層型ViTの性能をいかに向上させるか,その問題を深く検討する。 特に,トークン埋込み層,エイリアス畳み込み層(CE)の役割について検討し,CEがViTに望ましい誘導バイアスを注入する方法を体系的に明らかにした。 さらに、最近リリースされた4つの最先端ViTに対して最適なCE構成を適用し、対応する性能を効果的に向上させる。 最後に、CETNetと呼ばれる効率的なハイブリッドCNN/ViTのファミリーがリリースされ、一般的なビジョンバックボーンとして機能する。 具体的には、CETNetはImageNet-1Kで84.9%、COCOベンチマークで48.6%、ADE20Kで51.6%のmIoUを達成し、対応する最先端のベースラインのパフォーマンスを大幅に改善した。

Vision Transformers (ViTs) have recently dominated a range of computer vision tasks, yet it suffers from low training data efficiency and inferior local semantic representation capability without appropriate inductive bias. Convolutional neural networks (CNNs) inherently capture regional-aware semantics, inspiring researchers to introduce CNNs back into the architecture of the ViTs to provide desirable inductive bias for ViTs. However, is the locality achieved by the micro-level CNNs embedded in ViTs good enough? In this paper, we investigate the problem by profoundly exploring how the macro architecture of the hybrid CNNs/ViTs enhances the performances of hierarchical ViTs. Particularly, we study the role of token embedding layers, alias convolutional embedding (CE), and systemically reveal how CE injects desirable inductive bias in ViTs. Besides, we apply the optimal CE configuration to 4 recently released state-of-the-art ViTs, effectively boosting the corresponding performances. Finally, a family of efficient hybrid CNNs/ViTs, dubbed CETNets, are released, which may serve as generic vision backbones. Specifically, CETNets achieve 84.9% Top-1 accuracy on ImageNet-1K (training from scratch), 48.6% box mAP on the COCO benchmark, and 51.6% mIoU on the ADE20K, substantially improving the performances of the corresponding state-of-the-art baselines.
翻訳日:2022-07-28 12:58:59 公開日:2022-07-27
# 単純なプリミティブによるスケッチの抽象化

Abstracting Sketches through Simple Primitives ( http://arxiv.org/abs/2207.13543v1 )

ライセンス: Link先を確認
Stephan Alaniz, Massimiliano Mancini, Anjan Dutta, Diego Marcos, Zeynep Akata(参考訳) 人間は、オブジェクト情報を素早く通信する必要があるゲームにおいて、高いレベルの抽象化能力を示す。 メッセージコンテンツを複数の部分に分解し、解釈可能なプロトコルで通信する。 このような機能を備えたマシンの装備に向けて,予算の影響下での描画プリミティブの固定セットを用いてスケッチを表現するプリミティブベースのSketch Abstractionタスクを提案する。 この課題を解決するために,我々のPrimitive-Matching Network (PMN)は,スケッチの解釈可能な抽象化を自己管理的に学習する。 具体的には、PMNはスケッチの各ストロークを与えられたセットにおいて最も類似したプリミティブにマッピングし、選択したプリミティブをターゲットストロークに整列するアフィン変換を予測する。 このストロークからプリミティブへのマッピングは、最初のスケッチが予測されたプリミティブで正確に再構成されたときに最小となる距離変換損失を伴う。 我々のPMN抽象化は,通信予算が与えられたスケッチ認識とスケッチベース画像検索において,高い性能を実証的に達成すると同時に,高い解釈性を実現している。 これは、スケッチをオブジェクトカテゴリを定義する最も関連するプリミティブを抽出することで比較するなど、スケッチ分析の新たな可能性を開く。 コードはhttps://github.com/ExplainableML/sketch-primitivesで入手できる。

Humans show high-level of abstraction capabilities in games that require quickly communicating object information. They decompose the message content into multiple parts and communicate them in an interpretable protocol. Toward equipping machines with such capabilities, we propose the Primitive-based Sketch Abstraction task where the goal is to represent sketches using a fixed set of drawing primitives under the influence of a budget. To solve this task, our Primitive-Matching Network (PMN), learns interpretable abstractions of a sketch in a self supervised manner. Specifically, PMN maps each stroke of a sketch to its most similar primitive in a given set, predicting an affine transformation that aligns the selected primitive to the target stroke. We learn this stroke-to-primitive mapping end-to-end with a distance-transform loss that is minimal when the original sketch is precisely reconstructed with the predicted primitives. Our PMN abstraction empirically achieves the highest performance on sketch recognition and sketch-based image retrieval given a communication budget, while at the same time being highly interpretable. This opens up new possibilities for sketch analysis, such as comparing sketches by extracting the most relevant primitives that define an object category. Code is available at https://github.com/ExplainableML/sketch-primitives.
翻訳日:2022-07-28 12:58:31 公開日:2022-07-27
# 非パラメトリック変動情報ボトルネックを有する変圧器の変分オートエンコーダ

A Variational AutoEncoder for Transformers with Nonparametric Variational Information Bottleneck ( http://arxiv.org/abs/2207.13529v1 )

ライセンス: Link先を確認
James Henderson and Fabio Fehr(参考訳) 本稿ではトランスフォーマー埋め込みのための変分情報ボトルネック正規化器を開発することでトランスフォーマー用VAEを提案する。 本研究では,トランスフォーマーエンコーダの埋め込み空間を混合確率分布として定式化し,ベイズ非パラメトリックを用いて非パラメトリック変動情報ボトルネック(NVIB)を導出する。 非パラメトリック法で支持される混合成分の可変数は注意によって支持されるベクトルの可変数をキャプチャし、非パラメトリック分布の交換性は注意の置換不変性をキャプチャする。 これにより、NVIBは、注意によってアクセス可能なベクトルの数と、個々のベクトルの情報量を調整することができる。 NVIBを用いてトランスフォーマーエンコーダデコーダのクロスアテンションを正規化することにより、非パラメトリック変分オートエンコーダ(NVAE)を提案する。 自然言語テキスト上でNVAEをトレーニングする最初の実験は、誘導埋め込み空間が変換器のためのVAEの望ましい性質を持っていることを示している。

We propose a VAE for Transformers by developing a variational information bottleneck regulariser for Transformer embeddings. We formalise the embedding space of Transformer encoders as mixture probability distributions, and use Bayesian nonparametrics to derive a nonparametric variational information bottleneck (NVIB) for such attention-based embeddings. The variable number of mixture components supported by nonparametric methods captures the variable number of vectors supported by attention, and the exchangeability of our nonparametric distributions captures the permutation invariance of attention. This allows NVIB to regularise the number of vectors accessible with attention, as well as the amount of information in individual vectors. By regularising the cross-attention of a Transformer encoder-decoder with NVIB, we propose a nonparametric variational autoencoder (NVAE). Initial experiments on training a NVAE on natural language text show that the induced embedding space has the desired properties of a VAE for Transformers.
翻訳日:2022-07-28 12:58:09 公開日:2022-07-27
# 時系列予測モデルが過去をコピー:どのように緩和するか

Time Series Forecasting Models Copy the Past: How to Mitigate ( http://arxiv.org/abs/2207.13441v1 )

ライセンス: Link先を確認
Chrysoula Kosma, Giannis Nikolentzos, Nancy Xu, Michalis Vazirgiannis(参考訳) 時系列予測は、機械学習アルゴリズムに重大な課題をもたらす重要なアプリケーションドメインの中核にある。 近年,時系列予測問題にニューラルネットワークアーキテクチャが広く応用されている。 これらのモデルのほとんどは、実際の値から予測のずれを測定する損失関数を最小化することによって訓練される。 典型的な損失関数には平均二乗誤差(MSE)と平均絶対誤差(MAE)がある。 ノイズや不確実性が存在する場合、ニューラルネットワークモデルは時系列の最後に観測された値を再現する傾向があるため、実際のデータへの適用性が制限される。 本稿では,上記の問題を形式的に定義し,問題点が観測される予測の例を示す。 また,既見値の複製をペナライズする正規化項を提案する。 提案する正規化項を合成データと実世界のデータセットの両方で評価する。 以上の結果から,正規化項は上記の問題をある程度緩和し,より堅牢なモデルを生み出すことが示唆された。

Time series forecasting is at the core of important application domains posing significant challenges to machine learning algorithms. Recently neural network architectures have been widely applied to the problem of time series forecasting. Most of these models are trained by minimizing a loss function that measures predictions' deviation from the real values. Typical loss functions include mean squared error (MSE) and mean absolute error (MAE). In the presence of noise and uncertainty, neural network models tend to replicate the last observed value of the time series, thus limiting their applicability to real-world data. In this paper, we provide a formal definition of the above problem and we also give some examples of forecasts where the problem is observed. We also propose a regularization term penalizing the replication of previously seen values. We evaluate the proposed regularization term both on synthetic and real-world datasets. Our results indicate that the regularization term mitigates to some extent the aforementioned problem and gives rise to more robust models.
翻訳日:2022-07-28 12:57:49 公開日:2022-07-27
# 決定論的ポリシー勾配アルゴリズムのための安全とロバストな経験共有

Safe and Robust Experience Sharing for Deterministic Policy Gradient Algorithms ( http://arxiv.org/abs/2207.13453v1 )

ライセンス: Link先を確認
Baturay Saglam, Dogan C. Cicek, Furkan B. Mutlu, Suleyman S. Kozat(参考訳) 高次元の連続タスクでの学習は、主に経験リプレイメモリが非常に限られている場合に難しい。 本稿では,経験リプレイバッファのメモリ割り当てが制限された将来のオフポリシー深層強化学習アプリケーションのための,連続アクションドメインにおける決定論的ポリシのための簡易かつ効果的な経験共有機構を提案する。 他のエージェントの経験から学ぶことによって生じる外挿誤差を克服するために, 行動確率推定を必要とせず, 新たなオフポリシー補正手法により, アルゴリズムの高速化を図る。 我々は,OpenAI Gymの連続制御タスクに挑戦する上で,本手法の有効性を検証し,複数のエージェント間での安全な共有を実現し,リプレイメモリが厳格に制限された場合の堅牢な性能を示すと結論付けた。

Learning in high dimensional continuous tasks is challenging, mainly when the experience replay memory is very limited. We introduce a simple yet effective experience sharing mechanism for deterministic policies in continuous action domains for the future off-policy deep reinforcement learning applications in which the allocated memory for the experience replay buffer is limited. To overcome the extrapolation error induced by learning from other agents' experiences, we facilitate our algorithm with a novel off-policy correction technique without any action probability estimates. We test the effectiveness of our method in challenging OpenAI Gym continuous control tasks and conclude that it can achieve a safe experience sharing across multiple agents and exhibits a robust performance when the replay memory is strictly limited.
翻訳日:2022-07-28 12:57:36 公開日:2022-07-27
# 説明私のサプライズ:不確かさの予測による学習効率のよい長期記憶

Explain My Surprise: Learning Efficient Long-Term Memory by Predicting Uncertain Outcomes ( http://arxiv.org/abs/2207.13649v1 )

ライセンス: Link先を確認
Artyom Sorokin, Nazar Buzun, Leonid Pugachev, Mikhail Burtsev(参考訳) 多くのシーケンシャルなタスクでは、モデルが正確な予測を行うために、遠い過去の関連するイベントを記憶する必要がある。 残念ながら、勾配に基づくトレーニングの簡単な適用には、シーケンスの各要素に中間計算を格納する必要がある。 これは、シーケンスが数千から数百万の要素で構成されている場合、非常に大きな計算メモリを必要とし、その結果、非常に長期的な依存関係の学習が不可能になる。 しかし、ほとんどのシーケンス要素は、時間的に局所的な情報のみを考慮して予測できる。 一方,長期依存による予測は不十分であり,ローカル情報のみを前提とした不確実性が高いことが特徴である。 我々は,シーケンス全体の勾配をバックプロパゲートすることなく,長期的依存関係を学習できる新しいトレーニング手法であるMemUPを提案する。 この方法は任意の勾配に基づくシーケンス学習に適用することができる。 再並行アーキテクチャのMemUP実装では、パフォーマンスはベースラインに匹敵するが、計算メモリは大幅に少ない。

In many sequential tasks, a model needs to remember relevant events from the distant past to make correct predictions. Unfortunately, a straightforward application of gradient based training requires intermediate computations to be stored for every element of a sequence. This requires prohibitively large computing memory if a sequence consists of thousands or even millions elements, and as a result, makes learning of very long-term dependencies infeasible. However, the majority of sequence elements can usually be predicted by taking into account only temporally local information. On the other hand, predictions affected by long-term dependencies are sparse and characterized by high uncertainty given only local information. We propose MemUP, a new training method that allows to learn long-term dependencies without backpropagating gradients through the whole sequence at a time. This method can be potentially applied to any gradient based sequence learning. MemUP implementation for recurrent architectures shows performances better or comparable to baselines while requiring significantly less computing memory.
翻訳日:2022-07-28 12:57:20 公開日:2022-07-27
# 不確実性に基づく視覚質問応答:画像と知識ベース間の意味的不整合の推定

Uncertainty-based Visual Question Answering: Estimating Semantic Inconsistency between Image and Knowledge Base ( http://arxiv.org/abs/2207.13242v1 )

ライセンス: Link先を確認
Jinyeong Chae and Jihie Kim(参考訳) 知識に基づく視覚的質問応答(KVQA)タスクは、画像や質問に対する理解だけでなく、追加の外部知識を必要とする質問に答えることを目的としている。 KVQAの最近の研究は、外部知識をマルチモーダル形式で注入し、より多くの知識が使用されるにつれて、無関係な情報が付加され、質問応答を混乱させる可能性がある。 本研究は,知識を適切に活用するために,以下のことを提案する。 1) キャプションの不確実性と意味的類似性から算出した新しい意味的矛盾尺度を提案する。 2) 意味的不整合尺度に基づく新たな外部知識同化手法を提案し, KVQAの明示的知識と暗黙的知識の統合に応用する。 3) 提案手法はOK-VQAデータセットを用いて評価し,最先端の性能を実現する。

Knowledge-based visual question answering (KVQA) task aims to answer questions that require additional external knowledge as well as an understanding of images and questions. Recent studies on KVQA inject an external knowledge in a multi-modal form, and as more knowledge is used, irrelevant information may be added and can confuse the question answering. In order to properly use the knowledge, this study proposes the following: 1) we introduce a novel semantic inconsistency measure computed from caption uncertainty and semantic similarity; 2) we suggest a new external knowledge assimilation method based on the semantic inconsistency measure and apply it to integrate explicit knowledge and implicit knowledge for KVQA; 3) the proposed method is evaluated with the OK-VQA dataset and achieves the state-of-the-art performance.
翻訳日:2022-07-28 12:53:14 公開日:2022-07-27
# 透明AIに向けて:ディープニューラルネットワークの内部構造を解釈する調査

Toward Transparent AI: A Survey on Interpreting the Inner Structures of Deep Neural Networks ( http://arxiv.org/abs/2207.13243v1 )

ライセンス: Link先を確認
Tilman R\"aukur, Anson Ho, Stephen Casper, Dylan Hadfield-Menell(参考訳) 機械学習の過去10年間は、スケールと能力が大幅に向上し、ディープニューラルネットワーク(dnn)がさまざまなドメインに展開されるようになっている。 しかし、DNNの内部動作は一般的に理解するのが困難であり、それらのシステムの機能に関する厳密な理解を伴わずに、これらのシステムの使用の安全性に関する懸念を提起する。 本稿では,DNNの内部成分を解釈する手法に関する文献をレビューし,これを「インナー」解釈可能性手法と呼ぶ。 具体的には、重み、ニューロン、サブネットワーク、潜在表現を解釈するための手法をレビューし、これらの技術がより安全で信頼性の高いaiシステムを設計する目的とどのように関係するかに焦点を当てる。 また,モジュール性,対向的堅牢性,連続学習,ネットワーク圧縮,人間の視覚システムの研究など,解釈可能性と作業の関連性を強調した。 最後に、診断、ベンチマーク、ロバスト性に焦点を当てたai安全性の解釈可能性に関する今後の取り組みについて論じる。

The last decade of machine learning has seen drastic increases in scale and capabilities, and deep neural networks (DNNs) are increasingly being deployed across a wide range of domains. However, the inner workings of DNNs are generally difficult to understand, raising concerns about the safety of using these systems without a rigorous understanding of how they function. In this survey, we review literature on techniques for interpreting the inner components of DNNs, which we call "inner" interpretability methods. Specifically, we review methods for interpreting weights, neurons, subnetworks, and latent representations with a focus on how these techniques relate to the goal of designing safer, more trustworthy AI systems. We also highlight connections between interpretability and work in modularity, adversarial robustness, continual learning, network compression, and studying the human visual system. Finally, we discuss key challenges and argue for future work in interpretability for AI safety that focuses on diagnostics, benchmarking, and robustness.
翻訳日:2022-07-28 12:52:59 公開日:2022-07-27
# 軽量非局所ニューラルネットワークにおけるsoftmaxの有効性再考

Rethinking Efficacy of Softmax for Lightweight Non-Local Neural Networks ( http://arxiv.org/abs/2207.13423v1 )

ライセンス: Link先を確認
Yooshin Cho, Youngsoo Kim, Hanbyel Cho, Jaesung Ahn, Hyeong Gwon Hong, Junmo Kim(参考訳) 非ローカル(NL)ブロックは、グローバルコンテキストをモデル化する機能を示す人気のあるモジュールである。 しかし、NLブロックは一般に計算量とメモリコストが高いため、高解像度の特徴写像にブロックを適用することは現実的ではない。 本稿では,NLブロックの有効性を検討するために,入力特徴ベクトルの大きさと方向がベクトル間の注意に適切に影響を及ぼすかどうかを実証的に分析する。 その結果,NLブロックのアテンションマップの正規化に一般的に使用されるソフトマックス演算の有効性が示された。 ソフトマックス演算で正規化されたアテンションマップは、キーベクトルの大きさに大きく依存しており、マグニチュード情報が削除されると性能が低下する。 ソフトマックス操作をスケーリング係数に置き換えることで,CIFAR-10,CIFAR-100,Tiny-ImageNetの性能向上を示す。 また, 本手法は, チャネル縮小と重み初期化に対するロバスト性を示す。 特に, 計算コストを増すことなくマルチヘッドアテンションを活用できる。

Non-local (NL) block is a popular module that demonstrates the capability to model global contexts. However, NL block generally has heavy computation and memory costs, so it is impractical to apply the block to high-resolution feature maps. In this paper, to investigate the efficacy of NL block, we empirically analyze if the magnitude and direction of input feature vectors properly affect the attention between vectors. The results show the inefficacy of softmax operation which is generally used to normalize the attention map of the NL block. Attention maps normalized with softmax operation highly rely upon magnitude of key vectors, and performance is degenerated if the magnitude information is removed. By replacing softmax operation with the scaling factor, we demonstrate improved performance on CIFAR-10, CIFAR-100, and Tiny-ImageNet. In Addition, our method shows robustness to embedding channel reduction and embedding weight initialization. Notably, our method makes multi-head attention employable without additional computational cost.
翻訳日:2022-07-28 12:52:28 公開日:2022-07-27
# 逆例によるメンバーシップ推論攻撃

Membership Inference Attacks via Adversarial Examples ( http://arxiv.org/abs/2207.13572v1 )

ライセンス: Link先を確認
Hamid Jalalzai, Elie Kadoche, R\'emi Leluc, Vincent Plassier(参考訳) 機械学習とディープラーニングの台頭は、いくつかの領域で大きな改善をもたらした。 この変更は、計算能力の劇的な向上と大規模なデータセットの収集の両方によって支えられている。 このような膨大なデータセットには、プライバシの脅威を示す可能性のある個人データが含まれていることが多い。 会員推論攻撃は、学習アルゴリズムが使用するトレーニングデータの回復を目的とした研究の新たな方向である。 本稿では,トレーニングサンプル近傍におけるトレーニングモデルの総変動の指標として現れる量を利用して,トレーニングデータの漏洩量を測定する手法を提案する。 私たちは新しい防衛機構を提供することで作業を拡張します。 我々の貢献は、説得力のある数値実験を通じて実証的な証拠によって支えられている。

The raise of machine learning and deep learning led to significant improvement in several domains. This change is supported by both the dramatic rise in computation power and the collection of large datasets. Such massive datasets often include personal data which can represent a threat to privacy. Membership inference attacks are a novel direction of research which aims at recovering training data used by a learning algorithm. In this paper, we develop a mean to measure the leakage of training data leveraging a quantity appearing as a proxy of the total variation of a trained model near its training samples. We extend our work by providing a novel defense mechanism. Our contributions are supported by empirical evidence through convincing numerical experiments.
翻訳日:2022-07-28 12:52:13 公開日:2022-07-27
# 時間的パッチシフトを用いた時空間自己注意モデルによる行動認識

Spatiotemporal Self-attention Modeling with Temporal Patch Shift for Action Recognition ( http://arxiv.org/abs/2207.13259v1 )

ライセンス: Link先を確認
Wangmeng Xiang, Chao Li, Biao Wang, Xihan Wei, Xian-Sheng Hua, Lei Zhang(参考訳) トランスフォーマーに基づく手法は近年,2次元画像に基づく視覚タスクにおいて大きな進歩を遂げている。 しかし、アクション認識のような3Dビデオベースのタスクでは、ビデオデータに直接時空間変換器を適用すると、パッチの数が大きく増加し、自己注意計算の2次複雑さにより、大量の計算とメモリ負荷が発生する。 ビデオデータの3D自己認識を効率的に効果的にモデル化する方法は、トランスフォーマーにとって大きな課題である。 本稿では,ビデオベース動作認識のためのトランスフォーマにおける効率的な3次元自己付着モデリングのための時間的パッチシフト(tps)手法を提案する。 TPSは、特定のモザイクパターンのパッチの一部を時間次元にシフトさせ、バニラ空間の自己注意操作を、追加コストの少ない時空間のパッチに変換する。 その結果,2次元自己着脱とほぼ同じ計算とメモリコストで3次元自己着脱を計算できる。 TPSはプラグアンドプレイモジュールであり、時空間の特徴学習を強化するために既存の2Dトランスフォーマーモデルに挿入することができる。 提案手法は,Some-some-something V1 & V2, Diving-48, Kinetics400 の最先端技術との競合性能を実現し,計算とメモリコストをより効率的にする。 TPSのソースコードはhttps://github.com/MartinXM/TPSにある。

Transformer-based methods have recently achieved great advancement on 2D image-based vision tasks. For 3D video-based tasks such as action recognition, however, directly applying spatiotemporal transformers on video data will bring heavy computation and memory burdens due to the largely increased number of patches and the quadratic complexity of self-attention computation. How to efficiently and effectively model the 3D self-attention of video data has been a great challenge for transformers. In this paper, we propose a Temporal Patch Shift (TPS) method for efficient 3D self-attention modeling in transformers for video-based action recognition. TPS shifts part of patches with a specific mosaic pattern in the temporal dimension, thus converting a vanilla spatial self-attention operation to a spatiotemporal one with little additional cost. As a result, we can compute 3D self-attention using nearly the same computation and memory cost as 2D self-attention. TPS is a plug-and-play module and can be inserted into existing 2D transformer models to enhance spatiotemporal feature learning. The proposed method achieves competitive performance with state-of-the-arts on Something-something V1 & V2, Diving-48, and Kinetics400 while being much more efficient on computation and memory cost. The source code of TPS can be found at https://github.com/MartinXM/TPS.
翻訳日:2022-07-28 12:52:06 公開日:2022-07-27
# ディープラーニングによるディープフェイクの検出

Using Deep Learning to Detecting Deepfakes ( http://arxiv.org/abs/2207.13644v1 )

ライセンス: Link先を確認
Jacob Mallet, Rushit Dave, Naeem Seliya, Mounika Vanamala(参考訳) 近年、ソーシャルメディアは多くのオンラインユーザーにとって主要な情報源となっている。 これはディープフェイクを通じて誤情報の拡散を引き起こした。 ディープフェイク(Deepfakes)とは、ある人物の顔を別のコンピュータが生成した顔に置き換えるビデオまたは画像である。 最近の技術進歩により、技術経験の少ない人がこれらのビデオを生成することができる。 これにより、大統領や有名人といった社会の権力者を模倣し、誤情報の拡散やディープフェイクの悪用を潜在的に危険にさらすことができる。 このオンライン脅威に対抗するために、研究者たちはディープフェイクを検出するモデルを開発した。 本研究では,この脅威に対処するために,ディープラーニングアルゴリズムを用いた様々なディープフェイク検出モデルについて検討する。 本調査は,deepfake検出モデルの現状と,この問題を解決するために多くの研究者が採用するユニークなアプローチの包括的概要を提供することに重点を置いている。 今後の作業に対するメリット,制限,提案については,本論文を通じて詳しく論じる。

In the recent years, social media has grown to become a major source of information for many online users. This has given rise to the spread of misinformation through deepfakes. Deepfakes are videos or images that replace one persons face with another computer-generated face, often a more recognizable person in society. With the recent advances in technology, a person with little technological experience can generate these videos. This enables them to mimic a power figure in society, such as a president or celebrity, creating the potential danger of spreading misinformation and other nefarious uses of deepfakes. To combat this online threat, researchers have developed models that are designed to detect deepfakes. This study looks at various deepfake detection models that use deep learning algorithms to combat this looming threat. This survey focuses on providing a comprehensive overview of the current state of deepfake detection models and the unique approaches many researchers take to solving this problem. The benefits, limitations, and suggestions for future work will be thoroughly discussed throughout this paper.
翻訳日:2022-07-28 12:51:21 公開日:2022-07-27
# 進化的多人数距離最小化

Evolutionary Multiparty Distance Minimization ( http://arxiv.org/abs/2207.13390v1 )

ライセンス: Link先を確認
Zeneng She, Wenjian Luo, Xin Lin, Yatong Chang, Yuhui Shi(参考訳) 進化的多目的最適化の分野では、意思決定者(DM)は相反する目的を懸念する。 現実の応用では、通常複数のDMが存在し、それぞれのDMはこれらの目的の一部に関心を持つ。 マルチパーティ多目的最適化問題(MPMOP)は、複数の意思決定者が関与するMOPを表現するために提案される。 しかし、進化計算の分野では、MPMOPにはあまり注意が払われていない。 本稿では,パレート最適解を可視化可能な距離最小化問題(DMP)に基づく一連のMPMOPを構築する。 MPMOPに対処するため,提案アルゴリズムであるOptMPNDS3では,マルチパーティ初期化法を用いて集団の初期化を行い,JADE2演算子を用いて子孫を生成する。 OptMPNDS3 は OptAll, OptMPNDS, OptMPNDS2 と比較される。 その結果, OptMPNDS3 は他のアルゴリズムと強く比較できることがわかった。

In the field of evolutionary multiobjective optimization, the decision maker (DM) concerns conflicting objectives. In the real-world applications, there usually exist more than one DM and each DM concerns parts of these objectives. Multiparty multiobjective optimization problems (MPMOPs) are proposed to depict the MOP with multiple decision makers involved, where each party concerns about certain some objectives of all. However, in the evolutionary computation field, there is not much attention paid on MPMOPs. This paper constructs a series of MPMOPs based on distance minimization problems (DMPs), whose Pareto optimal solutions can be vividly visualized. To address MPMOPs, the new proposed algorithm OptMPNDS3 uses the multiparty initializing method to initialize the population and takes JADE2 operator to generate the offsprings. OptMPNDS3 is compared with OptAll, OptMPNDS and OptMPNDS2 on the problem suite. The result shows that OptMPNDS3 is strongly comparable to other algorithms
翻訳日:2022-07-28 12:50:52 公開日:2022-07-27
# 顔を超えたビデオ操作: ヒューマンマシン分析によるデータセット

Video Manipulations Beyond Faces: A Dataset with Human-Machine Analysis ( http://arxiv.org/abs/2207.13064v2 )

ライセンス: Link先を確認
Trisha Mittal, Ritwik Sinha, Viswanathan Swaminathan, John Collomosse, Dinesh Manocha(参考訳) コンテンツ編集ツールが成熟し、メディアを合成する人工知能(AI)ベースのアルゴリズムが成長するにつれ、オンラインメディア全体で操作されたコンテンツの存在が高まっている。 この現象は誤報の拡散を引き起こし、「リアル」と「操作された」コンテンツを区別する必要性が高まる。 この目的のために、videoshamという826の動画(413のリアルと413の操作)からなるデータセットを提示する。 既存のディープフェイクデータセットの多くは、2種類の顔操作にのみ焦点をあてている。 一方videoshamは、6つの異なる空間攻撃と時間攻撃を組み合わせて操作される、より多様でコンテキストが豊富で、人間中心で高解像度なビデオを含んでいる。 解析の結果,最先端のマニピュレーション検出アルゴリズムは,特定の攻撃に対してのみ有効であり,videoshamではスケールしないことがわかった。 1200人の参加者とともにAmazon Mechanical Turkのユーザスタディを行い、VideoShamの実際のビデオと操作されたビデオを区別できるかどうかを調べた。 最後に、人間とsoma-algorithmsによるパフォーマンスの強みと弱みを深く掘り下げて、より良いaiアルゴリズムで埋める必要があるギャップを特定します。

As tools for content editing mature, and artificial intelligence (AI) based algorithms for synthesizing media grow, the presence of manipulated content across online media is increasing. This phenomenon causes the spread of misinformation, creating a greater need to distinguish between "real" and "manipulated" content. To this end, we present VideoSham, a dataset consisting of 826 videos (413 real and 413 manipulated). Many of the existing deepfake datasets focus exclusively on two types of facial manipulations -- swapping with a different subject's face or altering the existing face. VideoSham, on the other hand, contains more diverse, context-rich, and human-centric, high-resolution videos manipulated using a combination of 6 different spatial and temporal attacks. Our analysis shows that state-of-the-art manipulation detection algorithms only work for a few specific attacks and do not scale well on VideoSham. We performed a user study on Amazon Mechanical Turk with 1200 participants to understand if they can differentiate between the real and manipulated videos in VideoSham. Finally, we dig deeper into the strengths and weaknesses of performances by humans and SOTA-algorithms to identify gaps that need to be filled with better AI algorithms.
翻訳日:2022-07-28 11:15:19 公開日:2022-07-27
# PTGCF:印象派油彩画スタイルレンダリングのためのテクスチャガイドカラーフュージョン

PTGCF: Printing Texture Guided Color Fusion for Impressionism Oil Painting Style Rendering ( http://arxiv.org/abs/2207.12585v2 )

ライセンス: Link先を確認
Jing Geng, Li'e Ma, Xiaoquan Li, Yijun Yan(参考訳) 非フォトリアリスティックレンダリング(NPR)のメインブランチとして、画像スタイリングは主にコンピュータアルゴリズムを使用して、写真を芸術的な絵画に描画する。 近年の研究では、ストロークテクスチャやターゲット画像の色などのスタイル情報の抽出が画像スタイリングの鍵であることが示されている。 そのストロークテクスチャと色彩特性を考慮し、原油絵の調色特性と代表色を完全に考慮し、原油絵イメージのトーンをスタイリゼーション画像に適合させ、アーティストの創造的効果に近づける新たなストロークレンダリング手法を提案する。 実験により,提案モデルの有効性が検証された。 この方法は、特に自然の場面において、比較的均一な方向感覚を持つポインターリズムの画家の作品に適している。 オリジナルの筆画ストロークがより明確な方向感覚を持つ場合、この方法を用いて筆画テクスチャの特徴をシミュレートすることがより満足できる。

As a major branch of Non-Photorealistic Rendering (NPR), image stylization mainly uses the computer algorithms to render a photo into an artistic painting. Recent work has shown that the extraction of style information such as stroke texture and color of the target style image is the key to image stylization. Given its stroke texture and color characteristics, a new stroke rendering method is proposed, which fully considers the tonal characteristics and the representative color of the original oil painting, in order to fit the tone of the original oil painting image into the stylized image and make it close to the artist's creative effect. The experiments have validated the efficacy of the proposed model. This method would be more suitable for the works of pointillism painters with a relatively uniform sense of direction, especially for natural scenes. When the original painting brush strokes have a clearer sense of direction, using this method to simulate brushwork texture features can be less satisfactory.
翻訳日:2022-07-28 11:14:58 公開日:2022-07-27
# xinsight: 因果レンズによる説明可能なデータ分析

XInsight: eXplainable Data Analysis Through The Lens of Causality ( http://arxiv.org/abs/2207.12718v2 )

ライセンス: Link先を確認
Pingchuan Ma, Rui Ding, Shuai Wang, Shi Han, Dongmei Zhang(参考訳) 探索データ分析(EDA)の人気が高まりつつあることを踏まえ、EDAが取得した知識の根本原因を理解することは重要であるが、未調査のままである。 この研究は、eXplainable Data Analysis (XDA)と呼ばれる、データ分析における透明で説明可能な視点を初めて促進する。 xdaは因果意味論と非因果意味論の質的かつ定量的な説明を伴うデータ分析を提供する。 このようにして、XDAは、データ分析の結果に対する人間の理解と信頼を著しく改善し、実世界の正確なデータ解釈と意思決定を促進する。 そこで本稿では,XDAの汎用フレームワークであるXInsightを紹介する。 XInsightは、因果グラフを抽出し、因果プリミティブをXDAセマンティクスに変換し、各説明の量的寄与をデータ事実に定量化するように設計された3つのモジュールのエンドツーエンドパイプラインである。 XInsightは設計概念と最適化のセットを使用して、XDAへの因果関係の統合に関連する固有の問題に対処する。 合成および実世界のデータセットと人間の評価に関する実験は、xinsightの非常に有望な能力を示している。

In light of the growing popularity of Exploratory Data Analysis (EDA), understanding the underlying causes of the knowledge acquired by EDA is crucial, but remains under-researched. This study promotes for the first time a transparent and explicable perspective on data analysis, called eXplainable Data Analysis (XDA). XDA provides data analysis with qualitative and quantitative explanations of causal and non-causal semantics. This way, XDA will significantly improve human understanding and confidence in the outcomes of data analysis, facilitating accurate data interpretation and decision-making in the real world. For this purpose, we present XInsight, a general framework for XDA. XInsight is a three-module, end-to-end pipeline designed to extract causal graphs, translate causal primitives into XDA semantics, and quantify the quantitative contribution of each explanation to a data fact. XInsight uses a set of design concepts and optimizations to address the inherent difficulties associated with integrating causality into XDA. Experiments on synthetic and real-world datasets as well as human evaluations demonstrate the highly promising capabilities of XInsight.
翻訳日:2022-07-28 11:14:39 公開日:2022-07-27
# すべての領域の裏側にシフトがある:パノラマ意味セグメンテーションのための歪み認識視覚トランスフォーマーの適用

Behind Every Domain There is a Shift: Adapting Distortion-aware Vision Transformers for Panoramic Semantic Segmentation ( http://arxiv.org/abs/2207.11860v2 )

ライセンス: Link先を確認
Jiaming Zhang, Kailun Yang, Hao Shi, Simon Rei{\ss}, Kunyu Peng, Chaoxiang Ma, Haodong Fu, Kaiwei Wang, Rainer Stiefelhagen(参考訳) 本稿では,パノラマ意味セグメンテーション(panoramic semantic segmentation,パノラマ意味セグメンテーション)について述べる。 パノラマセグメンテーションは,(1)パノラマ上の画像歪みと物体変形,(2)パノラマセグメンタの訓練のためのアノテーションの欠如,の2つの重要な課題により未検討である。 そこで本研究では,パノラマセマンティクスセグメンテーション(trans4pass)アーキテクチャのためのトランスフォーマーを提案する。 まず,DPE(Deformable Patch Embedding)モジュールとDMLP(Deformable MLP)モジュールを備えるTrans4PASSは,物体の変形や画像の歪みを,(適応前や後などで)設計上,任意の場所(浅層や深層)で処理することができる。 さらに,dmlpv2と並列トークン混合を特徴とする改良されたtrans4pass+モデルについても紹介する。 第2に,教師なしドメイン適応のための相互原型適応 (mpa) 戦略を提案する。 第3に、Pinhole-to-Panoramic(Pin2Pan)適応とは別に、9,080パノラマ画像を持つ新しいデータセット(SynPASS)を作成し、360{\deg}画像のSyn2Real適応スキームを探索する。 室内および屋外のシナリオをカバーする広範な実験を行い,各シナリオをpin2panおよびsyn2real regimensを用いて検討した。 Trans4PASS+は4つのドメイン適応型パノラマセマンティックセマンティックセマンティックベンチマークで最先端のパフォーマンスを達成する。 コードはhttps://github.com/jamycheung/trans4passで入手できる。

In this paper, we address panoramic semantic segmentation, which provides a full-view and dense-pixel understanding of surroundings in a holistic way. Panoramic segmentation is under-explored due to two critical challenges: (1) image distortions and object deformations on panoramas; (2) lack of annotations for training panoramic segmenters. To tackle these problems, we propose a Transformer for Panoramic Semantic Segmentation (Trans4PASS) architecture. First, to enhance distortion awareness, Trans4PASS, equipped with Deformable Patch Embedding (DPE) and Deformable MLP (DMLP) modules, is capable of handling object deformations and image distortions whenever (before or after adaptation) and wherever (shallow or deep levels) by design. We further introduce the upgraded Trans4PASS+ model, featuring DMLPv2 with parallel token mixing to improve the flexibility and generalizability in modeling discriminative cues. Second, we propose a Mutual Prototypical Adaptation (MPA) strategy for unsupervised domain adaptation. Third, aside from Pinhole-to-Panoramic (Pin2Pan) adaptation, we create a new dataset (SynPASS) with 9,080 panoramic images to explore a Synthetic-to-Real (Syn2Real) adaptation scheme in 360{\deg} imagery. Extensive experiments are conducted, which cover indoor and outdoor scenarios, and each of them is investigated with Pin2Pan and Syn2Real regimens. Trans4PASS+ achieves state-of-the-art performances on four domain adaptive panoramic semantic segmentation benchmarks. Code is available at https://github.com/jamycheung/Trans4PASS.
翻訳日:2022-07-28 11:14:05 公開日:2022-07-27
# BPFISH:ブロックチェーンとプライバシー保護のFLによるスマートヘルスケア

BPFISH: Blockchain and Privacy-preserving FL Inspired Smart Healthcare ( http://arxiv.org/abs/2207.11654v2 )

ライセンス: Link先を確認
Moirangthem Biken Singh, and Ajay Pratap(参考訳) 本稿では,医療センター(MC)が患者から収集したデータを用いて地域モデルを訓練し,生データを共有せずにブロックチェーンベースのロバストなフレームワークでマイナーにモデル重みを送信し,プライバシ保護を議論に残す,FLベースのスマートヘルスケアシステムを提案する。 ブロックチェーンベースのフレームワークを基盤とする分散医療データ上で有効なモデルを学習するために,電力消費とmcsのflプロセス遅延を考慮した損失関数を最小化し最適化問題を定式化する。 まず、マイナとmcsの両方の有用性を最大化し、その後、差分プライバシー(dp)とブロックチェーン技術によるflを用いた確率的勾配降下(sgd)アルゴリズムを用いて損失最小化を解決するための、安定したマッチングベースの関連アルゴリズムを提案する。 さらに,提案するflベースのフレームワークに,テンパード耐性と分散化されたモデル重み付けを提供するために,ブロックチェーン技術が組み込まれている。 提案モデルの有効性は,実世界の医療データを用いたシミュレーションにより示される。

This paper proposes Federated Learning (FL) based smart healthcare system where Medical Centers (MCs) train the local model using the data collected from patients and send the model weights to the miners in a blockchain-based robust framework without sharing raw data, keeping privacy preservation into deliberation. We formulate an optimization problem by maximizing the utility and minimizing the loss function considering energy consumption and FL process delay of MCs for learning effective models on distributed healthcare data underlying a blockchain-based framework. We propose a solution in two stages: first, offer a stable matching-based association algorithm to maximize the utility of both miners and MCs and then solve loss minimization using Stochastic Gradient Descent (SGD) algorithm employing FL under Differential Privacy (DP) and blockchain technology. Moreover, we incorporate blockchain technology to provide tempered resistant and decentralized model weight sharing in the proposed FL-based framework. The effectiveness of the proposed model is shown through simulation on real-world healthcare data comparing other state-of-the-art techniques.
翻訳日:2022-07-28 11:13:28 公開日:2022-07-27