このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220807となっている論文です。

PDF登録状況(公開日: 20220807)

TitleAuthorsAbstract論文公表日・翻訳日
# プログラマブル光変換器による高次元の絡み合い光子処理

Processing entangled photons in high dimensions with a programmable light converter ( http://arxiv.org/abs/2108.02258v2 )

ライセンス: Link先を確認
Ohad Lib, Kfir Sulimany and Yaron Bromberg(参考訳) 高次元絡み合いは、量子情報科学の基本的な応用と応用の両方に様々な利点をもたらす。 このようなアプリケーションのための中心的な構成要素は、エンタングル状態のプログラマブルなプロセッサであり、これは高次元エンタングルメントの認証、操作、分散に不可欠である。 光子処理の先導技術はマルチポート干渉計の統合である。 しかし、そのようなデバイスは構造的な光と互換性がなく、そのスケーリングは困難である。 ここでは, 複数平面光変換(MPLC)をベースとした高次元光子再構成可能なプロセッサを, 古典的通信のために数百の空間モードを多重化する技術として実装した。 プログラム可能なMPLCプラットフォームを用いて、2つの非バイアスベースで3次元の絡み合いを認証し、絡み合った光子に対して400個の任意のランダム変換を行い、絡み合った光子のモード基底を絡み合い分布に変換する。

High-dimensional entanglement offers a variety of advantages for both fundamental and applied applications in quantum information science. A central building block for such applications is a programmable processor of entangled states, which is crucial for the certification, manipulation and distribution of high-dimensional entanglement. The leading technology for processing photons is integrated multiport interferometers. However, such devices are incompatible with structured light, and their scaling is challenging. Here, we unlock these limitations by demonstrating a reconfigurable processor of entangled photons in high-dimensions that is based on multi-plane light conversion (MPLC), a technology that was recently developed for multiplexing hundreds of spatial modes for classical communication. We use our programmable MPLC platform to certify three-dimensional entanglement in two mutually unbiased bases, perform 400 arbitrary random transformations on entangled photons, and convert the mode basis of entangled photons for entanglement distribution.
翻訳日:2023-03-19 22:24:48 公開日:2022-08-07
# 責任ある都市知能:研究課題に向けて

Responsible Urban Intelligence: Towards a Research Agenda ( http://arxiv.org/abs/2208.04727v1 )

ライセンス: Link先を確認
Rui Cao, Qili Gao, Guoping Qiu(参考訳) 都市化の加速は持続可能な開発にとって大きな課題となっている。 ビッグデータと人工知能(AI)技術へのアクセシビリティの増大は多くの分野に革命をもたらし、都市問題に対処する大きな可能性を秘めている。 しかし、これらの技術は責任を考慮せず、新たな社会問題や環境問題をもたらすことになる。 新しい問題を起こすことなく、ビッグデータとAIの可能性を完全に活用するために、Responsible Urban Intelligence(RUI)の概念的なフレームワークを構想し、アクションのアジェンダを提唱する。 We first define RUI as consisting of three major components including urban problems, enabling technologies, and responsibilities; then introduce transparency, fairness, and eco-friendliness as the three dimensions of responsibilities which naturally link with the human, space, and time dimensions of cities; and further develop a four-stage implementation framework for responsibilities as consisting of solution design, data preparation, model building, and practical application; and finally present a research agenda for RUI addressing challenging issues including data and model transparency, tension between performance and fairness, and solving urban problems in an eco-friendly manner.

Acceleration of urbanisation is posing great challenges to sustainable development. Growing accessibility to big data and artificial intelligence (AI) technologies have revolutionised many fields and offered great potential for addressing pressing urban problems. However, using these technologies without explicitly considering responsibilities would bring new societal and environmental issues. To fully harness the potential of big data and AI without creating new problems, we envisage a conceptual framework of Responsible Urban Intelligence (RUI) and advocate an agenda for action. We first define RUI as consisting of three major components including urban problems, enabling technologies, and responsibilities; then introduce transparency, fairness, and eco-friendliness as the three dimensions of responsibilities which naturally link with the human, space, and time dimensions of cities; and further develop a four-stage implementation framework for responsibilities as consisting of solution design, data preparation, model building, and practical application; and finally present a research agenda for RUI addressing challenging issues including data and model transparency, tension between performance and fairness, and solving urban problems in an eco-friendly manner.
翻訳日:2023-02-19 10:28:19 公開日:2022-08-07
# サイバー海賊だ! 船舶業界におけるサイバーセキュリティ問題の分析

Cyber Pirates Ahoy! An Analysis of Cybersecurity Challenges in the Shipping Industry ( http://arxiv.org/abs/2208.03607v1 )

ライセンス: Link先を確認
George Grispos and William R. Mahoney(参考訳) 海運は1兆ドル規模の産業となり、世界中のほぼすべての国の経済に影響を及ぼしている。 そのため、国や企業が様々な技術で船舶や港の近代化に数十億ドルを費やしたことは驚くにあたらない。 しかし、これらの技術の実装もサイバー犯罪者の注目を集めている。 例えば、ある海運会社に対するサイバー攻撃は、およそ3億ドルの損失をもたらした。 そこで本稿では,国際運送事業におけるサイバーセキュリティの脆弱性について述べる。 この論文の貢献は、輸送産業に特有のサイバー脆弱性の特定と解剖と、これらの潜在的な脆弱性が存在する方法と理由である。

Maritime shipping has become a trillion-dollar industry that now impacts the economy of virtually every country around the world. It is therefore no surprise that countries and companies have spent billions of dollars to modernize shipping vessels and ports with various technologies. However, the implementation of these technologies has also caught the attention of cybercriminals. For example, a cyberattack on one shipping company resulted in nearly $300 millions in financial losses. Hence, this paper describes cybersecurity vulnerabilities present in the international shipping business. The contribution of this paper is the identification and dissection of cyber vulnerabilities specific to the shipping industry, along with how and why these potential vulnerabilities exist.
翻訳日:2023-02-19 10:22:13 公開日:2022-08-07
# 高角モータにおけるウィグナー回転行列の効率的かつ効率的なアルゴリズム

An effective and efficient algorithm for the Wigner rotation matrix at high angular momenta ( http://arxiv.org/abs/2208.03691v1 )

ライセンス: Link先を確認
Bin-Lei Wang, Fan Gao, Long-Jun Wang, and Yang Sun(参考訳) 角運動量射影作用素の一部として現れるウィグナー回転行列(d$-function)は、現代の核構造モデルにおいて重要な役割を果たす。 しかし、核高スピン状態の正確な計算を妨げる重大な誤差と不安定さに、その数値評価が長年の課題である。 近年,タシマ(植物相 c 91, 014320 (2015))は,数式操作ソフトウェアに依存した高精度フーリエ法を提案し,この問題の解決に向けて大きな一歩を踏み出した。 本稿では,ヤコビ多項式に基づくWigner $d$関数の効率的かつ効率的なアルゴリズムを提案する。 本手法を従来のwigner法と但馬フーリエ法と比較し,フーリエ法と同様の精度で常に安定な結果が得られることを示す。 さらに,本手法は自己完結型であり,メモリ消費も少ない。 本論文では,関連するテストコードとサブルーチンを補足材料として提供する。

The Wigner rotation matrix ($d$-function), which appears as a part of the angular-momentum-projection operator, plays a crucial role in modern nuclear-structure models. However, it is a long-standing problem that its numerical evaluation suffers from serious errors and instability, which hinders precise calculations for nuclear high-spin states. Recently, Tajima [Phys. Rev. C 91, 014320 (2015)] has made a significant step toward solving the problem by suggesting the high-precision Fourier method, which however relies on formula-manipulation softwares. In this paper we propose an effective and efficient algorithm for the Wigner $d$ function based on the Jacobi polynomials. We compare our method with the conventional Wigner method and the Tajima Fourier method through some testing calculations, and demonstrate that our algorithm can always give stable results with similar high-precision as the Fourier method, and in some cases (for special sets of $j, m, k$ and $\theta$) ours are even more accurate. Moreover, our method is self-contained and less memory consuming. A related testing code and subroutines are provided as Supplemental Material in the present paper.
翻訳日:2023-02-02 00:13:31 公開日:2022-08-07
# 拡張スナイダーモデルの量子力学

Quantum mechanics of the extended Snyder model ( http://arxiv.org/abs/2208.10242v1 )

ライセンス: Link先を確認
S. Meljanac and S. Mignemi(参考訳) 拡張スナイダーモデルに基づく量子機械調和振動子について検討する。 このスナイダーモデルの実現は、共役モーメントとともに、$D$空間座標と$D(D-1)/2$テンソル自由度によって生成される量子位相空間として構成される。 coo は非自明な \cor に従属し、非可換幾何学(英語版)(noncommutative geometry)を生成する。 調和振動子のスペクトルは、生成と消滅演算子の導入を通して研究される。 追加の自由度の導入によるいくつかの物理的影響について論じる。

We investigate a quantum mechanical harmonic oscillator based on the extended Snyder model. This realization of the Snyder model is constructed as a quantum phase space generated by $D$ spatial coordinates and $D(D-1)/2$ tensorial degrees of freedom, together with their conjugate momenta. The \coo obey nontrivial \cor and generate a noncommutative geometry, which admits nicer properties than the usual realization of the model, in particular giving rise to an associative star product. The spectrum of the harmonic oscillator is studied through the introduction of creation and annihilation operators. Some physical consequences of the introduction of the additional degrees of freedom are discussed.
翻訳日:2023-02-02 00:11:24 公開日:2022-08-07
# 球面状態における相対論的スピン-0粒子に対する深い無調和性

Deep anharmonicity to relativistic spin-0 particles in the spherical regime ( http://arxiv.org/abs/2208.04701v1 )

ライセンス: Link先を確認
Sami Ortakaya(参考訳) 電磁界の最小結合を持つ量子状態における相対論的スピン-0電荷の振動子モデルを提案する。 スピンレス状態に対する摂動的アプローチではなく、無調和性のために整数依存レベルの下で直接操作を行った。 このように、静止質量エネルギーの荷電粒子は280MeVとして保持される。 慣れ親しんだペケリスのような近似では、7.5\,{\rm fm}$の3次および4次近平衡のオーダーに対する深い近似も改善した。 さらに、高次近似と幅が 0.43 {\displaystyle 0.43\,{\rm fm^{-1}}$ のポテンシャルについてより密接な合意を確立した。 スカラーとベクトルポテンシャルの等価性は可解な形で出力を与えるが、改良された近似は空間非依存の静止質量を外部磁場のない「純粋な発振器」として提供する。 スカラー分布がない場合、最小結合は平衡距離での振動も引き起こす可能性があるため、80から100MeVの範囲でモース電位をシフトさせる超エネルギーを付加することを検討した。 このシフトの結果、荷電粒子の電位深さは相対論的エネルギーレベルに影響し、粒子は200MeV、反粒子は10MeVに近いことが判明した。 負のエネルギー状態の他に、スピンゼロ電荷分布を示す典型的な確率図は、相対論的エネルギーに対応する波動関数(n=0$$\ell=0$)と$n=1$,$\ell=1$)が続く。 V_{v}(r)\neq 0$ と $V_{s}(r)=0$ と Klein-Gordon anharmonicity を深く近似することにより、近似可解相対論的振動モデルを導入することができる。

We present an oscillator modeling of the relativistic spin-0 charges moving in the quantum states with minimum coupling of electromagnetic fields. Rather than perturbative approach to spinless regime, we put into operation directly under integer dependent levels for anharmonicity. In this way, the charged particle of rest mass energy kept as 280 MeV. Within the familiar Pekeris-like approximation, we have also improved the deep approximation to the orders of third and fourth near equilibrium of $7.5\,{\rm fm}$. Moreover, we have founded a closer agreement of high order approximation and given potential which has width range of $0.43\,{\rm fm^{-1}}$. Although equality between scalar and vector potentials give output in the solvable form, the improved approximation provides the spatial-independent rest mass as a "pure oscillator" without external field. In the absence of scalar distribution, minimal coupling might also leads to an oscillation at equilibrium distances, so we have considered an adding of extra-energy giving shifted Morse potential in the depth range 80 to 100 MeV. As a result of the shift, it has been concluded that the potential depth of the charged particle affects the relativistic energy levels where we have found about 200 MeV being for particles and nearly -10 MeV being for anti-particles. Besides negative energy states, the typical probability picture showing spin-zero charge distribution has been followed by the wavefunctions as ($n=0$ $\ell=0$) and ($n=1$, $\ell=1$) corresponding to relativistic energies. By taking into account a deep approximation to Klein-Gordon anharmonicity with $V_{v}(r)\neq 0$ and $V_{s}(r)=0$, one can introduced approximate-solvable relativistic oscillatory model.
翻訳日:2023-02-02 00:10:58 公開日:2022-08-07
# 開量子ランダムウォークと木上の量子マルコフ連鎖 ii:再帰性

Open Quantum Random Walks and Quantum Markov chains on Trees II: The recurrence ( http://arxiv.org/abs/2208.04320v1 )

ライセンス: Link先を確認
Farrukh Mukhamedov, Abdessatar Souissi, Tarek Hamdi, Amen Allah Andolsi(参考訳) 本稿では,開量子ランダムウォークに付随するQMC(Quantum Markov Chains)を構築し,このチェーンの遷移作用素をOQRWで定義し,可換部分代数に対するQMCの制限をOQRWの分布と一致させる。 さらに,我々はまず,木上のQMCの新たな構成を提案し,これはRefで考慮されたQMCの拡張である。 [9]. このような構成により、OQRWに関連するトレスにQMCを構築することができる。 本研究は,提案手法における相転移現象の検出に繋がるものである。 この種の現象は、この方向に初めて現れる。 また、QMCの平均エントロピーを算出する。

In the present paper, we construct QMC (Quantum Markov Chains) associated with Open Quantum Random Walks such that the transition operator of the chain is defined by OQRW and the restriction of QMC to the commutative subalgebra coincides with the distribution of OQRW. Furthermore, we first propose a new construction of QMC on trees, which is an extension of QMC considered in Ref. [9]. Using such a construction, we are able to construct QMCs on tress associated with OQRW. Our investigation leads to the detection of the phase transition phenomena within the proposed scheme. This kind of phenomena appears first time in this direction. Moreover, mean entropies of QMCs are calculated.
翻訳日:2023-02-02 00:10:25 公開日:2022-08-07
# 開量子ランダムウォークと木上の量子マルコフ連鎖 i:位相遷移

Open Quantum Random Walks and Quantum Markov chains on Trees I: Phase transitions ( http://arxiv.org/abs/2208.03770v1 )

ライセンス: Link先を確認
Farrukh Mukhamedov, Abdessatar Souissi, Tarek Hamdi(参考訳) 本稿では,開量子ランダムウォークに付随するQMC(Quantum Markov Chains)を,チェーンの遷移作用素がOQRWで定義されるように構成し,交換部分代数に対するQMCの制限は,OQRWの分布$P_\rho$と一致する。 しかし、ケイリー木上のマルコフ場として確率分布を考察する。 このような考察により、qmcスキーム内のoqrwに関連する相転移現象を考察できる。 さらに,我々はまず,木上のQMCの新たな構成を提案し,これはRefで考慮されたQMCの拡張である。 [10]. このような構成により、OQRWに関連するトレスにQMCを構築することができる。 本研究は,提案手法における相転移現象の検出に繋がるものである。 この種の現象は、この方向に初めて現れる。 また、QMCの平均エントロピーを算出する。

In the present paper, we construct QMC (Quantum Markov Chains) associated with Open Quantum Random Walks such that the transition operator of the chain is defined by OQRW and the restriction of QMC to the commutative subalgebra coincides with the distribution $P_\rho$ of OQRW. However, we are going to look at the probability distribution as a Markov field over the Cayley tree. Such kind of consideration allows us to investigated phase transition phenomena associated for OQRW within QMC scheme. Furthermore, we first propose a new construction of QMC on trees, which is an extension of QMC considered in Ref. [10]. Using such a construction, we are able to construct QMCs on tress associated with OQRW. Our investigation leads to the detection of the phase transition phenomena within the proposed scheme. This kind of phenomena appears first time in this direction. Moreover, mean entropies of QMCs are calculated.
翻訳日:2023-02-02 00:10:13 公開日:2022-08-07
# 絡み合いリンクと準粒子画像

Entanglement links and the quasiparticle picture ( http://arxiv.org/abs/2208.03766v1 )

ライセンス: Link先を確認
Silvia N. Santalla, Giovanni Ram\'irez, Sudipto Singha Roy, Germ\'an Sierra and Javier Rodr\'iguez-Laguna(参考訳) クエンチから1次元臨界ハミルトニアンへの短距離相関を持つ量子状態の時間進化は、光速で分離された準粒子によって運ばれたかのように局所的な絡み合いが広がるという準粒子像を用いて理解することができる。 最近導入された絡み合いのリンク表現を用いて準粒子像を拡張し、長距離相関を示す初期状態に適用する。 絡み合いリンクは電流相関子であり、従って絡み合いエントロピーの時間発展を与える波動方程式に従う。

The time evolution of a quantum state with short-range correlations after a quench to a 1D critical Hamiltonian can be understood using the quasi-particle picture, which states that local entanglement spreads as if it was carried by quasi-particles which separate at the speed of light. We extend the quasi-particle picture using the recently introduced link representation of entanglement, allowing us to apply it to initial states presenting long-range correlations. The entanglement links are current correlators, and therefore follow a wave equation which provides the time evolution of the entanglement entropies.
翻訳日:2023-02-02 00:09:45 公開日:2022-08-07
# 回路量子化における時間依存フラックス処理の実験的検証

Experimental verification of the treatment of time-dependent flux in circuit quantization ( http://arxiv.org/abs/2208.03738v1 )

ライセンス: Link先を確認
Jacob Bryon, D. K. Weiss, Xinyuan You, Sara Sussman, Xanthe Croot, Ziwen Huang, Jens Koch, and Andrew Houck(参考訳) 最近の理論的研究は、時間依存のフラックス$\Phi(t)$の存在下で超伝導回路の量子化は、帰納的項間でのフラックスの特別な割り当てが選択されない限り、一般的にはd\Phi/dt$に比例するハミルトン項を生成することを強調している。 本稿では,重流体回路に適用した高速フラックスランプの効果を実証する実験を行う。 この実験は、$d\phi/dt$項のna\"強制的欠落が、実験データと矛盾する理論的予測につながることを確認している。 実験データは、デリバティブ項を含む最近の理論と完全に一致しており、あるいは$d\phi/dt$項を適切に排除するために磁束を一意に割り当てる「非回転変数」を使用する。

Recent theoretical work has highlighted that quantizing a superconducting circuit in the presence of time-dependent flux $\Phi(t)$ generally produces Hamiltonian terms proportional to $d\Phi/dt$ unless a special allocation of the flux across inductive terms is chosen. Here, we present an experiment probing the effects of a fast flux ramp applied to a heavy-fluxonium circuit. The experiment confirms that na\"ive omission of the $d\Phi/dt$ term leads to theoretical predictions inconsistent with experimental data. Experimental data are fully consistent with recent theory that includes the derivative term or equivalently uses "irrotational variables" that uniquely allocate the flux to properly eliminate the $d\Phi/dt$ term.
翻訳日:2023-02-02 00:09:28 公開日:2022-08-07
# 冷ライドバーグ原子ガス中の単一光子の量子反射

Quantum reflection of single photons in a cold Rydberg atomic gas ( http://arxiv.org/abs/2208.03693v1 )

ライセンス: Link先を確認
Yao Ou, Qi Zhang and Guoxiang Huang(参考訳) 本研究では, 低温リドベルク原子ガス中の単一光子の量子反射を電磁誘導透過により実現する手法を提案し, 保存ゲート光子を用いて, 深い, 調整可能な魅力的なポテンシャル井戸を作成できることを示した。 このようなスキームは分散型単光子スイッチの設計に有望であり、光子の波動と粒子の性質を同時に観測する量子デバイスとして捉えることができる。

We propose and analyze a scheme for realizing the quantum reflection of single photons in a cold Rydberg atomic gas via electromagnetically induced transparency, by which a deep and tunable attractive potential well can be prepared by using stored gate photons. Such a scheme is promising for designing dispersion-type single-photon switches, and may be taken as a quantum device for observing the wave and particle natures of photons simultaneously.
翻訳日:2023-02-02 00:08:47 公開日:2022-08-07
# 多出力ガウスプロセスによる分子フォトウィッチのデータの探索

Data-Driven Discovery of Molecular Photoswitches with Multioutput Gaussian Processes ( http://arxiv.org/abs/2008.03226v3 )

ライセンス: Link先を確認
Ryan-Rhys Griffiths, Jake L. Greenfield, Aditya R. Thawani, Arian R. Jamasb, Henry B. Moss, Anthony Bourached, Penelope Jones, William McCorkindale, Alexander A. Aldrick, Matthew J. Fuchter Alpha A. Lee(参考訳) 光スイッチ可能な分子は、光を使ってアクセス可能な2つ以上の異性体を示す。 これらの異性体の電子吸収帯を分離することは、特定の異性体に選択的に対処し、高い光定常状態を達成するための鍵であり、吸収帯全体の赤方偏移は紫外線露光による物質損傷を制限し、光薬理学応用における浸透深さを増加させる。 しかし、これらの特性を合成設計によってシステムにエンジニアリングすることは依然として課題である。 本稿では,ガウス過程を用いたデータセットキュレーションとマルチタスク学習を基盤とした,分子フォトウィッチのためのデータ駆動探索パイプラインを提案する。 電子遷移波長の予測において,4光スイッチ遷移波長のラベルを用いて学習した多出力ガウス過程(MOGP)が,単一タスクモデルに対して最強の予測性能を得るとともに,ウォールクロック時間を用いて時間依存密度汎関数理論(TD-DFT)を演算的に上回ることを示す。 提案手法は, 市販フォトスイッチブル分子のライブラリーをスクリーニングすることにより実験的に検証する。 この画面を通して,異性体の電子吸収帯を分離し,赤方偏移吸収を呈し,情報伝達や光薬理学応用に適したいくつかのモチーフを同定した。 キュレートされたデータセット、コード、およびすべてのモデルがhttps://github.com/Ryan-Rhys/The-Photoswitch-Datasetで利用可能です。

Photoswitchable molecules display two or more isomeric forms that may be accessed using light. Separating the electronic absorption bands of these isomers is key to selectively addressing a specific isomer and achieving high photostationary states whilst overall red-shifting the absorption bands serves to limit material damage due to UV-exposure and increases penetration depth in photopharmacological applications. Engineering these properties into a system through synthetic design however, remains a challenge. Here, we present a data-driven discovery pipeline for molecular photoswitches underpinned by dataset curation and multitask learning with Gaussian processes. In the prediction of electronic transition wavelengths, we demonstrate that a multioutput Gaussian process (MOGP) trained using labels from four photoswitch transition wavelengths yields the strongest predictive performance relative to single-task models as well as operationally outperforming time-dependent density functional theory (TD-DFT) in terms of the wall-clock time for prediction. We validate our proposed approach experimentally by screening a library of commercially available photoswitchable molecules. Through this screen, we identified several motifs that displayed separated electronic absorption bands of their isomers, exhibited red-shifted absorptions, and are suited for information transfer and photopharmacological applications. Our curated dataset, code, as well as all models are made available at https://github.com/Ryan-Rhys/The-Photoswitch-Dataset
翻訳日:2022-11-16 02:22:55 公開日:2022-08-07
# ノイズのある古典的な影

Classical Shadows With Noise ( http://arxiv.org/abs/2011.11580v2 )

ライセンス: Link先を確認
Dax Enshan Koh, Sabee Grewal(参考訳) Huang, Kueng, and Preskill [Nat. Phys. 1050 (2020)]によって最近導入された古典的なシャドウプロトコルは、未知の量子状態の性質を推定するための古典的なプロトコルである。 完全な量子状態トモグラフィーとは異なり、プロトコルは短期的な量子ハードウェア上で実装することができ、高い確率で多くの予測を行うために、少数の量子測定を必要とする。 本稿では,従来のシャドウプロトコルにおけるノイズの影響について検討する。 特に、このプロトコルに関わる量子回路が、様々な既知のノイズチャネルの対象となり、局所雑音と大域雑音の両方のシャドウセミノルムの観点から、サンプルの複雑さに関する解析上界を導出するシナリオを考察する。 さらに、ノイズレスプロトコルの古典的な後処理ステップを変更することで、ノイズの存在下でバイアスのない新しい推定器を定義する。 その結果,ノイズの非分極化や振幅減衰の場合には,厳密なサンプル複雑性を上界で証明できることがわかった。

The classical shadows protocol, recently introduced by Huang, Kueng, and Preskill [Nat. Phys. 16, 1050 (2020)], is a quantum-classical protocol to estimate properties of an unknown quantum state. Unlike full quantum state tomography, the protocol can be implemented on near-term quantum hardware and requires few quantum measurements to make many predictions with a high success probability. In this paper, we study the effects of noise on the classical shadows protocol. In particular, we consider the scenario in which the quantum circuits involved in the protocol are subject to various known noise channels and derive an analytical upper bound for the sample complexity in terms of a shadow seminorm for both local and global noise. Additionally, by modifying the classical post-processing step of the noiseless protocol, we define a new estimator that remains unbiased in the presence of noise. As applications, we show that our results can be used to prove rigorous sample complexity upper bounds in the cases of depolarizing noise and amplitude damping.
翻訳日:2022-09-22 03:30:59 公開日:2022-08-07
# 画像処理とマシンビジョンへのニューロモルフィックなアプローチ

A neuromorphic approach to image processing and machine vision ( http://arxiv.org/abs/2209.02595v1 )

ライセンス: Link先を確認
Arvind Subramaniam(参考訳) 神経形工学は基本的に、生物学的神経系に見られる情報表現を用いる電子アナログ回路のような人工システムの開発である。 人間の脳よりも高速で精度が高いにもかかわらず、コンピューターは認識能力が遅れている。 しかし、コンピュータビジョンと画像処理の分野に関連する神経形態学の進歩は、コンピュータが情報を解釈し分析する方法を大幅に改善することを想定している。 本稿では,画像分割,視覚的注意,物体認識などの視覚的タスクの実装について検討する。 さらに, 異方性拡散の概念について検討し, 画像セグメンテーションを行うために, メムリスタを用いた新しいアプローチで検討した。 さらに,人工視覚システムにおけるニューロモルフィック視覚センサの役割と,信号の非同期伝送を実現するためのプロトコルについて検討した。 さらに、物体認識と視覚的注意の過程をエミュレートする2つの広く受け入れられたアルゴリズムについても論じている。 本稿では,memristorsのような不揮発性メモリデバイスを用いて人工視覚システムを実現することに着目した。 最後に,ハードウェアアクセラレーションについて議論し,コンピュータビジョンの進歩は不揮発性メモリ技術の進歩から直接恩恵を受けるかもしれないという主張の要点を述べる。

Neuromorphic engineering is essentially the development of artificial systems, such as electronic analog circuits that employ information representations found in biological nervous systems. Despite being faster and more accurate than the human brain, computers lag behind in recognition capability. However, it is envisioned that the advancement in neuromorphics, pertaining to the fields of computer vision and image processing will provide a considerable improvement in the way computers can interpret and analyze information. In this paper, we explore the implementation of visual tasks such as image segmentation, visual attention and object recognition. Moreover, the concept of anisotropic diffusion has been examined followed by a novel approach employing memristors to execute image segmentation. Additionally, we have discussed the role of neuromorphic vision sensors in artificial visual systems and the protocol involved in order to enable asynchronous transmission of signals. Moreover, two widely accepted algorithms that are used to emulate the process of object recognition and visual attention have also been discussed. Throughout the span of this paper, we have emphasized on the employment of non-volatile memory devices such as memristors to realize artificial visual systems. Finally, we discuss about hardware accelerators and wish to represent a case in point for arguing that progress in computer vision may benefit directly from progress in non-volatile memory technology.
翻訳日:2022-09-11 13:18:19 公開日:2022-08-07
# ハウスラー合金系列の構造と磁気特性予測のための機械学習手法

A machine learning approach to predict the structural and magnetic properties of Heusler alloy families ( http://arxiv.org/abs/2208.12705v1 )

ライセンス: Link先を確認
Srimanta Mitra, Aquil Ahmad, Sajib Biswas and Amal Kumar Das(参考訳) ランダムフォレスト(rf)回帰モデルは、既存のデータベースと土着データベースに基づいて、フルヒュースラー合金、ハーフヒュースラー合金、逆ヒュースラー合金、第四系ヒュースラー合金の格子定数、磁気モーメントおよび形成エネルギーを予測するために用いられる。 事前の分析は、応答変数のデータポイントの分布をチェックするために行われ、ほとんどの場合、データは普通に分散していないことが判明した。 RFモデルの性能は、テストデータ上の応答変数を予測するのに十分正確であり、オーバーフィット、アウトレイア、多重線形性、データポイントの分布に対する堅牢性を示す。 密度汎関数理論(DFT)を用いて計算された値に対する機械学習の予測値間のパリティプロットは、様々なタイプのホスラー合金の予測特性に対して、0.80から0.94の範囲で調整されたR2値を持つ線形挙動を示す。 特徴量分析の結果,原子価電子数は予測結果のほとんどにおいて重要な特徴量であることがわかった。 また,1個のフルヒスラー合金と4次ヒスラー合金を用いたケーススタディでは,機械学習による予測結果と初期の理論計算値と実験結果を比較し,モデル予測結果の高精度性が示唆された。

Random forest (RF) regression model is used to predict the lattice constant, magnetic moment and formation energies of full Heusler alloys, half Heusler alloys, inverse Heusler alloys and quaternary Heusler alloys based on existing as well as indigenously prepared databases. Prior analysis was carried out to check the distribution of the data points of the response variables and found that in most of the cases, the data is not normally distributed. The outcome of the RF model performance is sufficiently accurate to predict the response variables on the test data and also shows its robustness against overfitting, outliers, multicollinearity and distribution of data points. The parity plots between the machine learning predicted values against the computed values using density functional theory (DFT) shows linear behavior with adjusted R2 values lying in the range of 0.80 to 0.94 for all the predicted properties for different types of Heusler alloys. Feature importance analysis shows that the valence electron numbers plays an important feature role in the prediction for most of the predicted outcomes. Case studies with one full Heusler alloy and one quaternary Heusler alloy were also mentioned comparing the machine learning predicted results with our earlier theoretical calculated values and experimentally measured results, suggesting high accuracy of the model predicted results.
翻訳日:2022-09-04 02:12:45 公開日:2022-08-07
# SciAnnotate:シーケンスラベリングのための弱ラベルソースの統合ツール

SciAnnotate: A Tool for Integrating Weak Labeling Sources for Sequence Labeling ( http://arxiv.org/abs/2208.10241v1 )

ライセンス: Link先を確認
Mengyang Liu, Haozheng Luo, Leonard Thong, Yinghao Li, Chao Zhang, Le Song(参考訳) 弱いラベリングは名前付きエンティティ認識(ner)タスクのための一般的な弱い監督戦略であり、手書きアノテーションの必要性を減らすことを目的としている。 NERラベリングには注目すべきアノテーションツールが多数あるが、弱いラベリングソースを統合することの主題はまだ解明されていない。 我々はSciAnnotateという,科学的アノテーションツールのためのWebベースのテキストアノテーションツールを紹介した。 使用頻度の高いテキストアノテーションツールと比較して,アノテーションツールは,手作業によるアノテーションエクスペリエンスの提供に加えて,弱いラベルの開発を可能にする。 我々のツールは、弱いラベルを作成するために複数のユーザフレンドリーなインターフェースを提供する。 sciannotateはさらに、ユーザが独自の言語モデルを組み込んで、評価のためにモデルのアウトプットを視覚化できる。 本研究では,多元弱ラベルを例に,バーティゼーション条件付き隠れマルコフモデルを用いて,ツールが生成する弱ラベルを発音する。 また、230の注釈材料合成手順を含むmysoreのデータセットに対するアノテーションツールの評価を行った。 その結果, アノテーション時間の53.7%削減と, 弱いラベル表示を用いたリコールの1.6\%向上が得られた。 オンラインデモはhttps://sciannotate.azurewebsites.net/(demo accountはreadmeにある)で利用可能だが、モデルサーバーはホストしていない。

Weak labeling is a popular weak supervision strategy for Named Entity Recognition (NER) tasks, with the goal of reducing the necessity for hand-crafted annotations. Although there are numerous remarkable annotation tools for NER labeling, the subject of integrating weak labeling sources is still unexplored. We introduce a web-based tool for text annotation called SciAnnotate, which stands for scientific annotation tool. Compared to frequently used text annotation tools, our annotation tool allows for the development of weak labels in addition to providing a manual annotation experience. Our tool provides users with multiple user-friendly interfaces for creating weak labels. SciAnnotate additionally allows users to incorporate their own language models and visualize the output of their model for evaluation. In this study, we take multi-source weak label denoising as an example, we utilized a Bertifying Conditional Hidden Markov Model to denoise the weak label generated by our tool. We also evaluate our annotation tool against the dataset provided by Mysore which contains 230 annotated materials synthesis procedures. The results shows that a 53.7% reduction in annotation time obtained AND a 1.6\% increase in recall using weak label denoising. Online demo is available at https://sciannotate.azurewebsites.net/(demo account can be found in README), but we don't host a model server with it, please check the README in supplementary material for model server usage.
翻訳日:2022-08-28 22:24:02 公開日:2022-08-07
# グラフ構造のグラディエントはグレーボックス攻撃で信頼性が高いか?

Are Gradients on Graph Structure Reliable in Gray-box Attacks? ( http://arxiv.org/abs/2208.05514v1 )

ライセンス: Link先を確認
Zihan Liu, Yun Luo, Lirong Wu, Siyuan Li, Zicheng Liu, Stan Z. Li(参考訳) グラフエッジの摂動は、グラフ構造を変更することによってグラフニューラルネットワークの予測を損なう。 以前のグレイボックス攻撃者は、グラフ構造を乱すために脆弱なエッジを見つけるためにsurrogateモデルからの勾配を用いる。 しかし、グラフ構造上の勾配には信頼できないものが存在し、これは以前の研究ではほとんど研究されない。 本稿では,構造勾配の信頼性の欠如による誤差について考察し,解析する。 これらの誤差は、グラフ構造の離散性による粗い勾配の使用と、グラフ構造上のメタ階調の信頼性の欠如から生じる。 これらの問題に対処するために,構造勾配の誤差を低減する手法を用いた新たな攻撃モデルを提案する。 本稿では,階層的候補選択に伴うエッジ摂動を選択するために,エッジ離散サンプリングを提案する。 さらに,意味増大グラフの勾配変動と代理モデルの不安定性に対処するために,意味不変性と運動量勾配アンサンブルを提案する。 実験は,非標的グレーボックス中毒シナリオで実施し,本手法の性能改善を実証する。

Graph edge perturbations are dedicated to damaging the prediction of graph neural networks by modifying the graph structure. Previous gray-box attackers employ gradients from the surrogate model to locate the vulnerable edges to perturb the graph structure. However, unreliability exists in gradients on graph structures, which is rarely studied by previous works. In this paper, we discuss and analyze the errors caused by the unreliability of the structural gradients. These errors arise from rough gradient usage due to the discreteness of the graph structure and from the unreliability in the meta-gradient on the graph structure. In order to address these problems, we propose a novel attack model with methods to reduce the errors inside the structural gradients. We propose edge discrete sampling to select the edge perturbations associated with hierarchical candidate selection to ensure computational efficiency. In addition, semantic invariance and momentum gradient ensemble are proposed to address the gradient fluctuation on semantic-augmented graphs and the instability of the surrogate model. Experiments are conducted in untargeted gray-box poisoning scenarios and demonstrate the improvement in the performance of our approach.
翻訳日:2022-08-12 13:42:10 公開日:2022-08-07
# U-Net vs. トランスフォーマー:U-Netは医用画像登録で時代遅れか?

U-Net vs Transformer: Is U-Net Outdated in Medical Image Registration? ( http://arxiv.org/abs/2208.04939v1 )

ライセンス: Link先を確認
Xi Jia, Joseph Bartlett, Tianyang Zhang, Wenqi Lu, Zhaowen Qiu, Jinming Duan(参考訳) その極端な長距離モデリング能力により、視覚トランスフォーマーベースのネットワークは変形可能な画像登録でますます人気を集めている。 しかし、5層畳み込みU-Netの受容場は、長距離依存を必要とせずに正確な変形を捉えるのに十分であると考える。 そこで本研究の目的は,u-netベースの手法が,医療画像登録に応用された現代のトランスフォーマー方式に比べて時代遅れであるかどうかを検討することである。 そこで本研究では, 並列畳み込みブロックをバニラU-Netに埋め込んで, 有効受容場を強化することで, 大規模カーネルU-Net(LKU-Net)を提案する。 一般の3d ixibrain dataset for atlas-based registrationにおいて、vanilla u-netの性能はtransmorphのような最先端のトランスフォーマーネットワークと既に同等であり、提案されているlku-netはtransmorphのパラメータの1.12%とmult-addsの10.8%しか使っていない。 我々は、MICCAI Learn2Reg 2021チャレンジデータセット上で、さらにLKU-Netを評価し、このデータセット上でTransMorphを上回り、本研究の提出時点では、第1位である。 バニラU-Netをわずかに修正するだけで、U-Netはオブジェクト間およびアトラスベースの3次元医用画像登録においてトランスフォーマーベースのアーキテクチャより優れていることを示す。 コードはhttps://github.com/xi-jia/LKU-Netで入手できる。

Due to their extreme long-range modeling capability, vision transformer-based networks have become increasingly popular in deformable image registration. We believe, however, that the receptive field of a 5-layer convolutional U-Net is sufficient to capture accurate deformations without needing long-range dependencies. The purpose of this study is therefore to investigate whether U-Net-based methods are outdated compared to modern transformer-based approaches when applied to medical image registration. For this, we propose a large kernel U-Net (LKU-Net) by embedding a parallel convolutional block to a vanilla U-Net in order to enhance the effective receptive field. On the public 3D IXI brain dataset for atlas-based registration, we show that the performance of the vanilla U-Net is already comparable with that of state-of-the-art transformer-based networks (such as TransMorph), and that the proposed LKU-Net outperforms TransMorph by using only 1.12% of its parameters and 10.8% of its mult-adds operations. We further evaluate LKU-Net on a MICCAI Learn2Reg 2021 challenge dataset for inter-subject registration, our LKU-Net also outperforms TransMorph on this dataset and ranks first on the public leaderboard as of the submission of this work. With only modest modifications to the vanilla U-Net, we show that U-Net can outperform transformer-based architectures on inter-subject and atlas-based 3D medical image registration. Code is available at https://github.com/xi-jia/LKU-Net.
翻訳日:2022-08-11 13:13:39 公開日:2022-08-07
# 物理インフォームド深層学習による導波路の音源位置推定

A physically-informed Deep-Learning approach for locating sources in a waveguide ( http://arxiv.org/abs/2208.04938v1 )

ライセンス: Link先を確認
Adar Kahana, Symeon Papadimitropoulos, Eli Turkel, Dmitry Batenkov(参考訳) 逆ソース問題は、音響学、地球物理学、非破壊試験などにおける多くの応用の中心である。 従来の撮像法は分解能限界に悩まされており、放射波長以下で分離された光源の区別を防ぐ。 本研究では,ネットワークの超解能を向上し,波動伝播の物理に基づく新たな損失項を構築することにより,音源再焦点問題を解決するための物理的インフォームドニューラルネットワークに基づく手法を提案する。 本研究では,2次元矩形導波路におけるa-prioriの未知点数を,垂直断面に沿った波面記録の測定から撮像する手法を示す。 その結果, 互いに近接して配置しても, 音源の位置を高精度に近似できることを示すことができた。

Inverse source problems are central to many applications in acoustics, geophysics, non-destructive testing, and more. Traditional imaging methods suffer from the resolution limit, preventing distinction of sources separated by less than the emitted wavelength. In this work we propose a method based on physically-informed neural-networks for solving the source refocusing problem, constructing a novel loss term which promotes super-resolving capabilities of the network and is based on the physics of wave propagation. We demonstrate the approach in the setup of imaging an a-priori unknown number of point sources in a two-dimensional rectangular waveguide from measurements of wavefield recordings along a vertical cross-section. The results show the ability of the method to approximate the locations of sources with high accuracy, even when placed close to each other.
翻訳日:2022-08-11 13:10:59 公開日:2022-08-07
# 重力スパイデータセットのための教師なし学習アーキテクチャの学習過程

Training Process of Unsupervised Learning Architecture for Gravity Spy Dataset ( http://arxiv.org/abs/2208.03623v1 )

ライセンス: Link先を確認
Yusuke Sakai, Yousuke Itoh, Piljong Jung, Keiko Kokeyama, Chihiro Kozakai, Katsuko T. Nakahira, Shoichi Oshino, Yutaka Shikano, Hirotaka Takahashi, Takashi Uchiyama, Gen Ueshima, Tatsuki Washimi, Takahiro Yamamoto, Takaaki Yokozawa(参考訳) 重力波検出器のデータに現れる過渡ノイズは、検出器の不安定性や重力波信号の重複や模倣といった問題を引き起こす。 過渡ノイズは環境や機器と関連していると考えられるため、その分類はその起源を理解し、検出器の性能を向上させるのに役立つ。 先行研究では,時間周波数2次元画像(スペクトログラム)を用いた過渡ノイズの分類手法を提案し,教師なしディープラーニングと変分オートエンコーダと不変情報クラスタリングを組み合わせた。 提案する教師なし学習アーキテクチャは,高度レーザー干渉計重力波観測装置 (advanced ligo) の過渡ノイズと関連するメタデータを併用し,オンラインおよびオフラインのデータ解析の可能性について検討した。 本研究では,重力スパイデータセットに着目し,先行研究の教師なし学習アーキテクチャの学習過程を検証・報告した。

Transient noise appearing in the data from gravitational-wave detectors frequently causes problems, such as instability of the detectors and overlapping or mimicking gravitational-wave signals. Because transient noise is considered to be associated with the environment and instrument, its classification would help to understand its origin and improve the detector's performance. In a previous study, an architecture for classifying transient noise using a time-frequency 2D image (spectrogram) is proposed, which uses unsupervised deep learning combined with variational autoencoder and invariant information clustering. The proposed unsupervised-learning architecture is applied to the Gravity Spy dataset, which consists of Advanced Laser Interferometer Gravitational-Wave Observatory (Advanced LIGO) transient noises with their associated metadata to discuss the potential for online or offline data analysis. In this study, focused on the Gravity Spy dataset, the training process of unsupervised-learning architecture of the previous study is examined and reported.
翻訳日:2022-08-11 13:04:46 公開日:2022-08-07
# 分散確率最適化におけるプライバシ保護の量子化

Quantization enabled Privacy Protection in Decentralized Stochastic Optimization ( http://arxiv.org/abs/2208.04845v1 )

ライセンス: Link先を確認
Yongqiang Wang, Tamer Basar(参考訳) 複数のエージェントが中央コーディネータを使わずにグローバル最適化問題を協調的に解決できるようにすることで、分散確率最適化は機械学習、制御、センサネットワークなど様々な分野で注目を集めている。 関連するデータは、通常、ユーザ位置や個人識別などの機密情報を含むため、分散確率最適化の実装において、プライバシー保護が重要な要件として浮上している。 本稿では,量子化入力の振幅に比例する積極的な量子化誤差が存在する場合でも,証明可能な収束精度を保証できる分散確率最適化アルゴリズムを提案する。 その結果,convexとnon-convexの両方の目的関数に適用でき,共有情報を難読化するために積極的な量子化スキームを活用できるため,有効な最適化精度を損なうことなくプライバシ保護が可能となる。 実際、任意の値を3つの数値レベルに量子化する {stochastic} 3次量子化スキームを用いて、分散確率最適化において量子化に基づく厳密な微分プライバシーを実現する。 提案した量子化スキームと組み合わせることで,提案アルゴリズムは,証明可能な収束精度を損なうことなく,分散確率最適化における厳密な微分プライバシを保証する。 分散推定問題のシミュレーション結果と、ベンチマーク機械学習データセット上での分散学習の数値実験により、提案手法の有効性が確認された。

By enabling multiple agents to cooperatively solve a global optimization problem in the absence of a central coordinator, decentralized stochastic optimization is gaining increasing attention in areas as diverse as machine learning, control, and sensor networks. Since the associated data usually contain sensitive information, such as user locations and personal identities, privacy protection has emerged as a crucial need in the implementation of decentralized stochastic optimization. In this paper, we propose a decentralized stochastic optimization algorithm that is able to guarantee provable convergence accuracy even in the presence of aggressive quantization errors that are proportional to the amplitude of quantization inputs. The result applies to both convex and non-convex objective functions, and enables us to exploit aggressive quantization schemes to obfuscate shared information, and hence enables privacy protection without losing provable optimization accuracy. In fact, by using a {stochastic} ternary quantization scheme, which quantizes any value to three numerical levels, we achieve quantization-based rigorous differential privacy in decentralized stochastic optimization, which has not been reported before. In combination with the presented quantization scheme, the proposed algorithm ensures, for the first time, rigorous differential privacy in decentralized stochastic optimization without losing provable convergence accuracy. Simulation results for a distributed estimation problem as well as numerical experiments for decentralized learning on a benchmark machine learning dataset confirm the effectiveness of the proposed approach.
翻訳日:2022-08-10 13:18:56 公開日:2022-08-07
# 量子機械学習における変分法の利用例

An example of use of Variational Methods in Quantum Machine Learning ( http://arxiv.org/abs/2208.04316v1 )

ライセンス: Link先を確認
Marco Simonetti and Damiano Perri and Osvaldo Gervasi(参考訳) 本稿では、平面上の特定の幾何学的パターン(二元分類問題)の点の2元分類のための量子ニューラルネットワークに基づく深層学習システムを提案する。 私たちは、ハイブリッドなディープラーニングシステム(古典的+量子的)を使うことは、計算の加速だけでなく、基礎となる現象やメカニズムを理解することで、合理的に利益をもたらすことができると信じています。 選択されたデータセットは、特定のアルゴリズムの有効性をテストするのに役立つ2次元バイナリ分類生成器に基づいている。 2次元の表現空間に2つの分離データセットを表示する:従って、個々の点の座標は$x_1$と$x_2$である。 その目的は、最小のトレーニング可能なパラメータ数で、ポイントを正しく認識し分類できる量子ディープニューラルネットワークを作ることだった。

This paper introduces a deep learning system based on a quantum neural network for the binary classification of points of a specific geometric pattern (Two-Moons Classification problem) on a plane. We believe that the use of hybrid deep learning systems (classical + quantum) can reasonably bring benefits, not only in terms of computational acceleration but in understanding the underlying phenomena and mechanisms; that will lead to the creation of new forms of machine learning, as well as to a strong development in the world of quantum computation. The chosen dataset is based on a 2D binary classification generator, which helps test the effectiveness of specific algorithms; it is a set of 2D points forming two interspersed semicircles. It displays two disjointed data sets in a two-dimensional representation space: the features are, therefore, the individual points' two coordinates, $x_1$ and $x_2$. The intention was to produce a quantum deep neural network with the minimum number of trainable parameters capable of correctly recognising and classifying points.
翻訳日:2022-08-10 13:07:46 公開日:2022-08-07
# memristorクロスバーアレイを用いたブラインド音源分離のための高速icaの実装

Implementation of fast ICA using memristor crossbar arrays for blind image source separations ( http://arxiv.org/abs/2208.04317v1 )

ライセンス: Link先を確認
Pavan Kumar Reddy Boppidi, Victor Jeffry Louis, Arvind Subramaniam, Rajesh K. Tripathy, Souri Banerjee, Souvik Kundu(参考訳) 独立成分分析は、多変量信号やデータ行列から独立成分(IC)を計算するための教師なし学習手法である。 重み行列と多変量データ行列との乗算に基づいてICを評価する。 本研究では, acy ica と fast ica の両方の実装のための新しい memristor クロスバーアレイを提案する。 データ入力は、クロスバーアレイにパルス幅変調電圧の形で適用され、実装されたニューラルネットワークの重みがメモリに格納される。 memristor列からの出力電荷は、memristorのセット/リセット電圧よりも高い電圧で実行される重み更新を計算するために使用される。 その可能性を示すために,提案したmemristor crossbar arrays based fast ICA architectureを画像ソース分離問題に適用した。 実験の結果,提案手法は画像ソースの分離に非常に有効であること,また,従来の acy ica アルゴリズムと高速 ica アルゴリズムのソフトウェアベース実装と比較して,構造的類似度67.27%の比率で画像のコントラストが向上することを示した。

Independent component analysis is an unsupervised learning approach for computing the independent components (ICs) from the multivariate signals or data matrix. The ICs are evaluated based on the multiplication of the weight matrix with the multivariate data matrix. This study proposes a novel memristor crossbar array for the implementation of both ACY ICA and Fast ICA for blind source separation. The data input was applied in the form of pulse width modulated voltages to the crossbar array and the weight of the implemented neural network is stored in the memristor. The output charges from the memristor columns are used to calculate the weight update, which is executed through the voltages kept higher than the memristor Set/Reset voltages. In order to demonstrate its potential application, the proposed memristor crossbar arrays based fast ICA architecture is employed for image source separation problem. The experimental results demonstrate that the proposed approach is very effective to separate image sources, and also the contrast of the images are improved with an improvement factor in terms of percentage of structural similarity as 67.27% when compared with the software-based implementation of conventional ACY ICA and Fast ICA algorithms.
翻訳日:2022-08-10 13:07:32 公開日:2022-08-07
# 社会活動における鉱業反応と拡散ダイナミクス

Mining Reaction and Diffusion Dynamics in Social Activities ( http://arxiv.org/abs/2208.04846v1 )

ライセンス: Link先を確認
Taichi Murayama and Yasuko Matsubara and Sakurai Yasushi(参考訳) 毎週のウェブ検索ボリュームなどのオンラインユーザ活動データの定量化は、複数のクエリやロケーションの相互影響と共同で展開され、重要なソーシャルセンサーとして機能する。 このようなデータ、すなわち、各クエリ間のエコシステムと各領域間の影響の流れを探索することで、将来の活動を予測することが重要な課題である。 しかし、これはデータ量と力学をカバーする複雑なパターンの点で難しい問題である。 そこで本研究では,共進化するオンラインユーザ活動の大規模コレクションを予測し,良好な解釈性を提供する効率的なマイニング手法であるfluxcubeを提案する。 反応拡散システムは、局所的な領域群間の影響の流れをモデル化するためのフレームワークと、各クエリ間の遅延相互作用をモデル化するエコロジーシステムを提供する。 また、物理インフォームドニューラルネットワークの概念を活用することで、FluxCubeはパラメータと高い予測性能から得られる高い解釈性を実現する。 実際のデータセットに対する大規模な実験により、FluxCubeは予測精度で同等のモデルより優れており、FluxCubeの各コンポーネントが性能の向上に貢献していることがわかった。 次に、FluxCubeがクエリとエリアグループ間の有用な潜在相互作用を抽出できるケーススタディを示す。

Large quantifies of online user activity data, such as weekly web search volumes, which co-evolve with the mutual influence of several queries and locations, serve as an important social sensor. It is an important task to accurately forecast the future activity by discovering latent interactions from such data, i.e., the ecosystems between each query and the flow of influences between each area. However, this is a difficult problem in terms of data quantity and complex patterns covering the dynamics. To tackle the problem, we propose FluxCube, which is an effective mining method that forecasts large collections of co-evolving online user activity and provides good interpretability. Our model is the expansion of a combination of two mathematical models: a reaction-diffusion system provides a framework for modeling the flow of influences between local area groups and an ecological system models the latent interactions between each query. Also, by leveraging the concept of physics-informed neural networks, FluxCube achieves high interpretability obtained from the parameters and high forecasting performance, together. Extensive experiments on real datasets showed that FluxCube outperforms comparable models in terms of the forecasting accuracy, and each component in FluxCube contributes to the enhanced performance. We then show some case studies that FluxCube can extract useful latent interactions between queries and area groups.
翻訳日:2022-08-10 12:20:48 公開日:2022-08-07
# パーキンソン病重症度予測のための患者特異的ゲームベース転送法

Patient-Specific Game-Based Transfer Method for Parkinson's Disease Severity Prediction ( http://arxiv.org/abs/2208.04315v1 )

ライセンス: Link先を確認
Zaifa Xue, Huibin Lu, Tao Zhang, Max A. Little(参考訳) ジスフォニアはパーキンソン病(PD)の初期の症状の一つである。 既存の手法のほとんどは、予測性能を改善するために全てのpd患者に対する音声特徴の最適なサブセットを見つけるために特徴選択法を用いる。 患者間の不均一性を考えることは少なく、異なる患者に特定の予測モデルを提供する必要があることを意味する。 しかし, この予測モデルの構築は, サンプルサイズが小さく, 一般化能力に欠ける課題に直面している。 インスタンス転送は、この欠損を補う効果的な方法である。 そこで本研究では,PD重症度予測のためのPSGT法を提案する。 まず、対象患者に類似した疾患傾向を有するpd患者をソースドメインから選択する選択機構を用いて、インスタンス転送のスコープを大幅に削減し、負の転送のリスクを低減させる。 そして, 対象者の病因推定に対する移行対象者とその事例の寄与をShapley値によって評価し, 方法の解釈可能性を向上させる。 次に、転送対象物の寄与に応じて有効なインスタンスの割合を決定し、この割合に基づいて高いコントリビューションのインスタンスを転送し、転送対象のサブセットと対象のサブセットとの差をさらに小さくする。 最後に、選択されたインスタンスのサブセットを対象対象のトレーニングセットに追加し、拡張したデータをランダムフォレストに供給してpd重大度予測法の性能を向上させる。 パーキンソンの遠隔監視データセットは、実現可能性と有効性を評価するために使用される。 実験の結果,PSGT法は比較法よりも予測誤差と安定性の両方において優れた性能を示した。

Dysphonia is one of the early symptoms of Parkinson's disease (PD). Most existing methods use feature selection methods to find the optimal subset of voice features for all PD patients to improve the prediction performance. Few have considered the heterogeneity between patients, which implies the need to provide specific prediction models for different patients. However, building this prediction model for each patient faces the challenge of small sample size, which makes it lack generalization ability. Instance transfer is an effective way to make up for this deficiency. Therefore, this paper proposes a patient-specific game-based transfer (PSGT) method for PD severity prediction. First, a selection mechanism is used to select PD patients with similar disease trends to the target patient from the source domain, which greatly reduces the scope of instance transfer and reduces the risk of negative transfer. Then, the contribution of the transferred subjects and their instances to the disease estimation of the target subject is fairly evaluated by the Shapley value, which improves the interpretability of the method. Next, the proportion of valid instances is determined according to the contribution of transferred subjects, and the instances with higher contribution are transferred based on this proportion to further reduce the difference between the transferred instance subset and the target subject. Finally, the selected subset of instances is added to the training set of the target subject, and the extended data is fed into the random forest to improve the performance of the PD severity prediction method. Parkinson's telemonitoring dataset is used to evaluate the feasibility and effectiveness. Experiment results show that the proposed PSGT method has better performance in both prediction error and stability over compared methods.
翻訳日:2022-08-10 12:09:23 公開日:2022-08-07
# 任意スケール超解像に対する適応的局所インシシット画像関数

Adaptive Local Implicit Image Function for Arbitrary-scale Super-resolution ( http://arxiv.org/abs/2208.04318v1 )

ライセンス: Link先を確認
Hongwei Li, Tao Dai, Yiming Li, Xueyi Zou, Shu-Tao Xia(参考訳) 画像表現は多くのビジュアルタスクにとって重要です。 2次元の画素配列で画像を個別に表現する代わりに、最近の研究、すなわち局所暗黙画像関数(LIIF)は、対応する座標を用いて画素値が拡張される連続関数として画像を表す。 連続的な性質のため、LIIFは任意のスケールの超解像タスクに適用でき、その結果、様々なアップスケーリング要因に対して単一の効率的かつ効率的なモデルが得られる。 しかし、LIIFは、画像の局所的な特性を無視して、すべてのピクセルが同じモデルを共有するため、しばしばエッジを囲む構造上の歪みやアーティファクトに悩まされる。 本稿では,この問題を軽減するための適応型局所画像関数(a-liif)を提案する。 具体的には、A-LIIFはエンコーダと拡張ネットワークの2つの主要コンポーネントから構成される。 前者は大規模画像の特徴を捉え、後者は複数の局所的な暗黙的画像関数の重み付けによる連続的なアップスケーリング関数をモデル化する。 したがって、我々のA-LIIFはより正確に高周波テクスチャや構造を再構築することができる。 複数のベンチマークデータセットの実験により,本手法の有効性が検証された。 我々のコードは \url{https://github.com/LeeHW-THU/A-LIIF} で入手できる。

Image representation is critical for many visual tasks. Instead of representing images discretely with 2D arrays of pixels, a recent study, namely local implicit image function (LIIF), denotes images as a continuous function where pixel values are expansion by using the corresponding coordinates as inputs. Due to its continuous nature, LIIF can be adopted for arbitrary-scale image super-resolution tasks, resulting in a single effective and efficient model for various up-scaling factors. However, LIIF often suffers from structural distortions and ringing artifacts around edges, mostly because all pixels share the same model, thus ignoring the local properties of the image. In this paper, we propose a novel adaptive local image function (A-LIIF) to alleviate this problem. Specifically, our A-LIIF consists of two main components: an encoder and a expansion network. The former captures cross-scale image features, while the latter models the continuous up-scaling function by a weighted combination of multiple local implicit image functions. Accordingly, our A-LIIF can reconstruct the high-frequency textures and structures more accurately. Experiments on multiple benchmark datasets verify the effectiveness of our method. Our codes are available at \url{https://github.com/LeeHW-THU/A-LIIF}.
翻訳日:2022-08-10 12:06:02 公開日:2022-08-07
# PhyGNNet:物理インフォームドグラフニューラルネットワークを用いた時空間PDEの解法

PhyGNNet: Solving spatiotemporal PDEs with Physics-informed Graph Neural Network ( http://arxiv.org/abs/2208.04319v1 )

ライセンス: Link先を確認
Longxiang Jiang, Liyuan Wang, Xinkun Chu, Yonghao Xiao and Hao Zhang(参考訳) 偏微分方程式 (PDE) の解法は物理学、生物学、化学の分野で重要な研究手段である。 数値手法の代替として、PINNは広く注目され、多くの分野で重要な役割を果たしてきた。 しかし、PINNはそのモデルとして完全に接続されたネットワークを使用し、時間と空間の双方において適合性が制限され、外挿能力が制限される。 本稿では,エンコーダ,プロシージャ,デコーダブロックで構成されるグラフニューラルネットワークの基本値に関する偏微分方程式を解くためのPhyGNNetを提案する。 特に、計算領域を正規グリッドに分割し、グリッド上の偏微分演算子を定義し、PhyGNNetモデルを構築する最適化のためにネットワークのpde損失を構築する。 さらに,バーガース方程式と熱方程式の比較実験を行い,本手法がPINNと比較して時間と空間の両方において適合性および外挿能力に優れていることを示した。

Solving partial differential equations (PDEs) is an important research means in the fields of physics, biology, and chemistry. As an approximate alternative to numerical methods, PINN has received extensive attention and played an important role in many fields. However, PINN uses a fully connected network as its model, which has limited fitting ability and limited extrapolation ability in both time and space. In this paper, we propose PhyGNNet for solving partial differential equations on the basics of a graph neural network which consists of encoder, processer, and decoder blocks. In particular, we divide the computing area into regular grids, define partial differential operators on the grids, then construct pde loss for the network to optimize to build PhyGNNet model. What's more, we conduct comparative experiments on Burgers equation and heat equation to validate our approach, the results show that our method has better fit ability and extrapolation ability both in time and spatial areas compared with PINN.
翻訳日:2022-08-10 12:03:59 公開日:2022-08-07
# 音場顕微鏡における画像のデニュージング

Image denoising in acoustic field microscopy ( http://arxiv.org/abs/2208.03688v1 )

ライセンス: Link先を確認
Shubham Kumar Gupta, Azeem Ahmad, Prakhar Kumar, Frank Melandso, and Anowarul Habib(参考訳) 走査型超音波顕微鏡(SAM)は、顕微鏡画像が生体医学や材料研究に広く使われているため、使われている。 非破壊検査(NDT)、バイオメディカルイメージング(英語版)、構造健康モニタリング(英語版)において、音響イメージングは重要かつ確立された手法であり、低振幅の信号でしばしば実施されるため、ノイズが多く、画像情報の詳細が欠如する可能性がある。 本研究では,低振幅信号から取得したSAM画像を分析し,時間領域信号のブロックマッチングフィルタを用いて識別画像を得る。 本研究では,ガウスフィルタ,中央値フィルタ,ワイナーフィルタ,総変動フィルタなどの時間領域信号に適用した従来のフィルタと比較した。 注目すべき結果はこの記事で紹介する。

Scanning acoustic microscopy (SAM) has been employed since microscopic images are widely used for biomedical or materials research. Acoustic imaging is an important and well-established method used in nondestructive testing (NDT), bio-medical imaging, and structural health monitoring.The imaging is frequently carried out with signals of low amplitude, which might result in leading that are noisy and lacking in details of image information. In this work, we attempted to analyze SAM images acquired from low amplitude signals and employed a block matching filter over time domain signals to obtain a denoised image. We have compared the images with conventional filters applied over time domain signals, such as the gaussian filter, median filter, wiener filter, and total variation filter. The noted outcomes are shown in this article.
翻訳日:2022-08-09 14:31:39 公開日:2022-08-07
# レイリー回帰モデルの点推定精度の向上

Improved Point Estimation for the Rayleigh Regression Model ( http://arxiv.org/abs/2208.03611v1 )

ライセンス: Link先を確認
B. G. Palm, F. M. Bayer, R. J. Cintra(参考訳) 近年,合成開口レーダ(SAR)画像画素の振幅値のモデル化のためにレイリー回帰モデルが提案されている。 しかし、そのようなモデルからの推測は、小さな信号長に偏りがある最大極大推定器に基づいている。 SAR画像のレイリー回帰モデルは小さなピクセルウィンドウを考慮に入れており、不正確な結果をもたらす可能性がある。 本稿では,レイリー回帰モデルに適合したバイアス調整型推定器について述べる。 (i)cox及びsnellの方法 (ii)firthのスキーム (iii)パラメトリックブートストラップ法。 合成および実SARデータセットを考慮した数値実験を行った。 バイアス調整された推定値は、ほぼ偏りのない推定値と正確なモデリング結果をもたらす。

The Rayleigh regression model was recently proposed for modeling amplitude values of synthetic aperture radar (SAR) image pixels. However, inferences from such model are based on the maximum likelihood estimators, which can be biased for small signal lengths. The Rayleigh regression model for SAR images often takes into account small pixel windows, which may lead to inaccurate results. In this letter, we introduce bias-adjusted estimators tailored for the Rayleigh regression model based on: (i) the Cox and Snell's method; (ii) the Firth's scheme; and (iii) the parametric bootstrap method. We present numerical experiments considering synthetic and actual SAR data sets. The bias-adjusted estimators yield nearly unbiased estimates and accurate modeling results.
翻訳日:2022-08-09 14:31:25 公開日:2022-08-07
# 直交垂直フェデレーション学習による低レイテンシ協調スペクトルセンシング

Low-Latency Cooperative Spectrum Sensing via Truncated Vertical Federated Learning ( http://arxiv.org/abs/2208.03694v1 )

ライセンス: Link先を確認
Zezhong Zhang, Guangxu Zhu, Shuguang Cui(参考訳) 近年、無線データ伝送需要の指数関数的な増加は、スペクトル効率を改善するための正確なスペクトル検出アプローチの緊急性を高めている。 単一二次ユーザ(SU)からの測定による従来のスペクトルセンシング手法の信頼性の低下は,協調スペクトルセンシング(CSS)の研究の動機となった。 本研究では,データプライバシを損なうことなく,複数のsusにまたがる分散機能を活用できる垂直フェデレーション学習(vfl)フレームワークを提案する。 しかし、VFLにおける繰り返しトレーニングプロセスは、通信遅延の増大に直面している。 トレーニングプロセスの高速化を目的として,標準のVFLアルゴリズムとチャネル認識型ユーザスケジューリングポリシを統合することで,トレーニングの遅延を著しく低減する,truncated vertical Federated Learning (T-VFL)アルゴリズムを提案する。 t-vflの収束性能は数学的解析により提供され、シミュレーション結果によって正当化される。 さらに、t-vflアルゴリズムの収束性能を保証するため、vflフレームワークで使用されるニューラルネットワークの設計規則を3つ定式化し、その効果をシミュレーションにより証明した。

In recent years, the exponential increase in the demand of wireless data transmission rises the urgency for accurate spectrum sensing approaches to improve spectrum efficiency. The unreliability of conventional spectrum sensing methods by using measurements from a single secondary user (SU) has motivated research on cooperative spectrum sensing (CSS). In this work, we propose a vertical federated learning (VFL) framework to exploit the distributed features across multiple SUs without compromising data privacy. However, the repetitive training process in VFL faces the issue of high communication latency. To accelerate the training process, we propose a truncated vertical federated learning (T-VFL) algorithm, where the training latency is highly reduced by integrating the standard VFL algorithm with a channel-aware user scheduling policy. The convergence performance of T-VFL is provided via mathematical analysis and justified by simulation results. Moreover, to guarantee the convergence performance of the T-VFL algorithm, we conclude three design rules on the neural architectures used under the VFL framework, whose effectiveness is proved through simulations.
翻訳日:2022-08-09 14:30:50 公開日:2022-08-07
# 物理インフォームドニューラルネットワークにおける損失関数の確率スケーリング

Stochastic Scaling in Loss Functions for Physics-Informed Neural Networks ( http://arxiv.org/abs/2208.03776v1 )

ライセンス: Link先を確認
Ethan Mills, Alexey Pozdnyakov(参考訳) 微分方程式は様々な分野において使われ、物理的な世界の複雑な振る舞いを記述する。 これらの方程式の解析解はしばしば解決が困難であり、複素微分方程式を解く現在の能力を制限し、近似解に洗練された数値法を必要とする。 訓練されたニューラルネットワークは普遍関数近似器として働き、新しい方法で微分方程式を数値的に解くことができる。 本研究では, 微分方程式を数値解くニューラルネットワークアルゴリズムの手法と応用について検討し, 損失関数と生物学的応用に注目した。 従来の損失関数とトレーニングパラメータのバリエーションは、ニューラルネットワーク支援ソリューションをより効率的にすることで、生物学的原理を管理するより複雑な方程式の研究を可能にする。

Differential equations are used in a wide variety of disciplines, describing the complex behavior of the physical world. Analytic solutions to these equations are often difficult to solve for, limiting our current ability to solve complex differential equations and necessitating sophisticated numerical methods to approximate solutions. Trained neural networks act as universal function approximators, able to numerically solve differential equations in a novel way. In this work, methods and applications of neural network algorithms for numerically solving differential equations are explored, with an emphasis on varying loss functions and biological applications. Variations on traditional loss function and training parameters show promise in making neural network-aided solutions more efficient, allowing for the investigation of more complex equations governing biological principles.
翻訳日:2022-08-09 14:30:32 公開日:2022-08-07
# トランスミッションニューラルネットワーク:ウイルス拡散モデルからニューラルネットワークへ

Transmission Neural Networks: From Virus Spread Models to Neural Networks ( http://arxiv.org/abs/2208.03616v1 )

ライセンス: Link先を確認
Shuang Gao and Peter E. Caines(参考訳) この研究は、ネットワーク上に広がるウイルスのモデルと、同等のニューラルネットワーク表現を結びつける。 この接続に基づいて、アクティベーション関数が主にリンクと関連付けられ、異なるアクティベーションレベルを持つことができるTransfer Neural Networks(TransNN)と呼ばれる新しいニューラルネットワークアーキテクチャを提案する。 さらに、この接続は、チューナブルまたはトレーニング可能なパラメータを持つ3つの新しいアクティベーション関数の発見と導出につながる。 さらに、単一の隠蔽層と固定非ゼロバイアス項を持つTransNNが普遍関数近似器であることを証明した。 最後に,TransNNに基づく連続時間流行ネットワークモデルの基本的導出について述べる。

This work connects models for virus spread on networks with their equivalent neural network representations. Based on this connection, we propose a new neural network architecture, called Transmission Neural Networks (TransNNs) where activation functions are primarily associated with links and are allowed to have different activation levels. Furthermore, this connection leads to the discovery and the derivation of three new activation functions with tunable or trainable parameters. Moreover, we prove that TransNNs with a single hidden layer and a fixed non-zero bias term are universal function approximators. Finally, we present new fundamental derivations of continuous time epidemic network models based on TransNNs.
翻訳日:2022-08-09 14:29:39 公開日:2022-08-07
# ソーシャルメディアにおける未表示ユーザの話題露出の推定

Estimating Topic Exposure for Under-Represented Users on Social Media ( http://arxiv.org/abs/2208.03796v1 )

ライセンス: Link先を確認
Mansooreh Karami, Ahmadreza Mosallanezhad, Paras Sheth, and Huan Liu(参考訳) オンラインソーシャルネットワーク(OSN)は、研究者がユーザーの行動を分析し、ユーザーの行動分析モデルを開発することを可能にする様々なデータへのアクセスを容易にする。 これらのモデルは、通常不平等が原因でバイアスを受ける観測データに大きく依存する。 この不平等は、オンラインユーザーの3つのグループから成り立っている: the lurkers - コンテンツのみを消費するユーザ、engager - コンテンツ作成にほとんど貢献しないユーザ、そしてtributors - オンラインコンテンツの大多数を作る責任を持つユーザ。 すべてのグループの貢献を考慮せず、人口レベルの関心や感情を解釈することは、偏った結果をもたらす可能性がある。 本研究では、貢献者によって引き起こされるバイアスを減らすために、参加者が観察されたデータに対して貢献する傾向が高いため、参加者の貢献を強調することに集中し、貢献者に比べて大きな人口を構成できる。 これらのユーザの行動分析の最初のステップは、公開されているが関与していないトピックを見つけることです。 そこで我々は,これらのユーザを識別し,トピックの露出を推定する新しいフレームワークを提案する。 露出推定機構は、類似のコントリビュータの行動パターンと、ユーザの人口統計情報とプロファイル情報を組み込むことでモデル化される。

Online Social Networks (OSNs) facilitate access to a variety of data allowing researchers to analyze users' behavior and develop user behavioral analysis models. These models rely heavily on the observed data which is usually biased due to the participation inequality. This inequality consists of three groups of online users: the lurkers - users that solely consume the content, the engagers - users that contribute little to the content creation, and the contributors - users that are responsible for creating the majority of the online content. Failing to consider the contribution of all the groups while interpreting population-level interests or sentiments may yield biased results. To reduce the bias induced by the contributors, in this work, we focus on highlighting the engagers' contributions in the observed data as they are more likely to contribute when compared to lurkers, and they comprise a bigger population as compared to the contributors. The first step in behavioral analysis of these users is to find the topics they are exposed to but did not engage with. To do so, we propose a novel framework that aids in identifying these users and estimates their topic exposure. The exposure estimation mechanism is modeled by incorporating behavioral patterns from similar contributors as well as users' demographic and profile information.
翻訳日:2022-08-09 14:27:01 公開日:2022-08-07
# 近距離勾配Oracle複雑度を用いた非滑らかな凸最適化

Decomposable Non-Smooth Convex Optimization with Nearly-Linear Gradient Oracle Complexity ( http://arxiv.org/abs/2208.03811v1 )

ライセンス: Link先を確認
Sally Dong, Haotian Jiang, Yin Tat Lee, Swati Padmanabhan, and Guanghao Ye(参考訳) 機械学習における多くの基本的な問題は、convexプログラム \[ \min_{\theta\in r^d}\ \sum_{i=1}^{n}f_{i}(\theta), \] によって定式化することができる。 この問題に対する一般的なアプローチは、確率勾配降下によって例示され、各イテレーションで1$f_i$項をサンプリングして進行させる。 このアプローチは、条件番号によって正式にキャプチャされた$f_i$s全体の均一性の概念に決定的に依存する。 本研究では,上記の凸定式化を$\epsilon$-accuracy in $\widetilde{O}(\sum_{i=1}^n d_i \log (1 /\epsilon))$グラデーション計算で最小化するアルゴリズムを提案する。 条件数に依存しない以前の最良のアルゴリズムは標準的な切削平面法であり、$O(nd \log (1/\epsilon))$グラデーション計算を必要とする。 Axiotis et al. (ICML 2021) による分解可能な部分モジュラー最小化のための評価オラクルの複雑さを改善した。 我々の主な技術的貢献は、カットプレーン法とインテリアポイント法を組み合わせて、各イテレーションで$f_i$項を選択する適応的な手順である。

Many fundamental problems in machine learning can be formulated by the convex program \[ \min_{\theta\in R^d}\ \sum_{i=1}^{n}f_{i}(\theta), \] where each $f_i$ is a convex, Lipschitz function supported on a subset of $d_i$ coordinates of $\theta$. One common approach to this problem, exemplified by stochastic gradient descent, involves sampling one $f_i$ term at every iteration to make progress. This approach crucially relies on a notion of uniformity across the $f_i$'s, formally captured by their condition number. In this work, we give an algorithm that minimizes the above convex formulation to $\epsilon$-accuracy in $\widetilde{O}(\sum_{i=1}^n d_i \log (1 /\epsilon))$ gradient computations, with no assumptions on the condition number. The previous best algorithm independent of the condition number is the standard cutting plane method, which requires $O(nd \log (1/\epsilon))$ gradient computations. As a corollary, we improve upon the evaluation oracle complexity for decomposable submodular minimization by Axiotis et al. (ICML 2021). Our main technical contribution is an adaptive procedure to select an $f_i$ term at every iteration via a novel combination of cutting-plane and interior-point methods.
翻訳日:2022-08-09 14:26:28 公開日:2022-08-07
# カウンターファクトのフェアネスは基本的にデモグラフィーのパーティ

Counterfactual Fairness Is Basically Demographic Parity ( http://arxiv.org/abs/2208.03843v1 )

ライセンス: Link先を確認
Lucas Rosenblatt and R. Teal Witter(参考訳) 公正な意思決定は、倫理的に機械学習アルゴリズムを社会的に実装する上で重要である。 本論では, 反ファクトフェアネスの著名な定義について考察する [Kusner et al., NeurIPS, 2017]。 まず, 対実的公正性を満たすアルゴリズムが, はるかに単純な公正性制約である人口統計学的公平性を満たすことを示す。 同様に、人口密度を満たす全てのアルゴリズムは、反ファクトフェアネスを満たすために自明に修正可能であることを示す。 その結果, 対人的公平性は, 対人的公平性と基本的に同等であり, 対人的公平性に対する取り組みが増大する上で重要な意味を持つことがわかった。 次に,提案手法を実証的に検証し,既存の3つの正当性評価アルゴリズムを3つの単純なベンチマークに対して解析した。 2つの単純なベンチマークアルゴリズムが,既存の3つのアルゴリズム – 公平性,正確性,効率 – を,複数のデータセットで上回っていることが分かりました。 我々の分析は、保護グループ内の個人の秩序を維持するという、具体的な公正性の目標を定式化することにつながる。 保護されたグループ内の個人の注文に関する透明性は、公正なアルゴリズムをより信頼できるものにします。 設計上は2つの単純なベンチマークアルゴリズムがこの目標を満たすが、既存の正当性に対するアルゴリズムは満たさない。

Making fair decisions is crucial to ethically implementing machine learning algorithms in social settings. In this work, we consider the celebrated definition of counterfactual fairness [Kusner et al., NeurIPS, 2017]. We begin by showing that an algorithm which satisfies counterfactual fairness also satisfies demographic parity, a far simpler fairness constraint. Similarly, we show that all algorithms satisfying demographic parity can be trivially modified to satisfy counterfactual fairness. Together, our results indicate that counterfactual fairness is basically equivalent to demographic parity, which has important implications for the growing body of work on counterfactual fairness. We then validate our theoretical findings empirically, analyzing three existing algorithms for counterfactual fairness against three simple benchmarks. We find that two simple benchmark algorithms outperform all three existing algorithms -- in terms of fairness, accuracy, and efficiency -- on several data sets. Our analysis leads us to formalize a concrete fairness goal: to preserve the order of individuals within protected groups. We believe transparency around the ordering of individuals within protected groups makes fair algorithms more trustworthy. By design, the two simple benchmark algorithms satisfy this goal while the existing algorithms for counterfactual fairness do not.
翻訳日:2022-08-09 14:25:59 公開日:2022-08-07
# 脳活動からの視覚刺激の自己教師付きクロスモーダル検索

See What You See: Self-supervised Cross-modal Retrieval of Visual Stimuli from Brain Activity ( http://arxiv.org/abs/2208.03666v1 )

ライセンス: Link先を確認
Zesheng Ye, Lina Yao, Yu Zhang, Silvia Gustin(参考訳) 最近の研究では、脳波からの視覚刺激に対する人間の知覚を表現した画像を生成するために2段階の教師付きフレームワークの使用が実証されている。 しかし、合成された画像が何であるかを決定するデータではなく、人間の指定した画像の注釈であるため、正確な視覚刺激を再現できない。 さらに、合成画像は、しばしばノイズの多い脳波エンコーディングや、生成モデルの不安定な訓練に悩まされ、認識が困難になる。 そこで我々は,2つのモダリティのデータをアノテーションとは対照的に関連付け,脳波クリップの正確な視覚刺激を復元する,単一段階の脳波視覚検索パラダイムを提案する。 脳波エンコーディングと関連する視覚刺激の相互情報をコントラスト的自己監督目標の最適化により最大化し、さらに2つの利点をもたらす。 ひとつは、学習がクラスアノテーションを指向していないため、トレーニング中に見られるもの以上の視覚クラスをEEGエンコーディングで処理できることだ。 さらに、このモデルはもはや視覚刺激の全詳細を生成する必要はなく、むしろクロスモーダルアライメントに焦点を当て、インスタンスレベルで画像を取得し、区別可能なモデル出力を確実にする。 画像刺激によって誘発される脳活動を測定する最大の単射脳波データセットについて実証的研究を行った。 提案手法は,既存の手法では不可能であるeeg-visual searchタスクを完了させる。 また,脳波および視覚エンコーダ構造の範囲についても検討した。 さらに、クラスアノテーションを使用しないにもかかわらず、主に研究されたセマンティックレベルの脳波視覚分類タスクにおいて、提案手法は最先端の教師付き脳波視覚再構成アプローチ、特にオープンクラス認識能力に優れる。

Recent studies demonstrate the use of a two-stage supervised framework to generate images that depict human perception to visual stimuli from EEG, referring to EEG-visual reconstruction. They are, however, unable to reproduce the exact visual stimulus, since it is the human-specified annotation of images, not their data, that determines what the synthesized images are. Moreover, synthesized images often suffer from noisy EEG encodings and unstable training of generative models, making them hard to recognize. Instead, we present a single-stage EEG-visual retrieval paradigm where data of two modalities are correlated, as opposed to their annotations, allowing us to recover the exact visual stimulus for an EEG clip. We maximize the mutual information between the EEG encoding and associated visual stimulus through optimization of a contrastive self-supervised objective, leading to two additional benefits. One, it enables EEG encodings to handle visual classes beyond seen ones during training, since learning is not directed at class annotations. In addition, the model is no longer required to generate every detail of the visual stimulus, but rather focuses on cross-modal alignment and retrieves images at the instance level, ensuring distinguishable model output. Empirical studies are conducted on the largest single-subject EEG dataset that measures brain activities evoked by image stimuli. We demonstrate the proposed approach completes an instance-level EEG-visual retrieval task which existing methods cannot. We also examine the implications of a range of EEG and visual encoder structures. Furthermore, for a mostly studied semantic-level EEG-visual classification task, despite not using class annotations, the proposed method outperforms state-of-the-art supervised EEG-visual reconstruction approaches, particularly on the capability of open class recognition.
翻訳日:2022-08-09 14:24:01 公開日:2022-08-07
# 二次制約付き二次計画法におけるパラボリック緩和 -その1:定義と基本特性-

Parabolic Relaxation for Quadratically-constrained Quadratic Programming -- Part I: Definitions & Basic Properties ( http://arxiv.org/abs/2208.03622v1 )

ライセンス: Link先を確認
Ramtin Madani, Mersedeh Ashraphijuo, Mohsen Kheirandishfard, Alper Atamturk(参考訳) 一般の二次的制約付き二次計画法(QCQP)に対して、凸2次制約で記述された放物的緩和を提案する。 放物的緩和の興味深い性質は、元の非凸可能集合が放物的緩和の境界に含まれていることである。 特定の仮定の下では、この性質により客観的なペナリゼーションによって最適に近い点を回復することができる。 さらに、最適基底の1回計算を必要とする座標の適切な変更により、解の容易な放物的緩和は半定プログラミング(SDP)緩和のように強められ、凸サロゲート列の解決を必要とするアルゴリズムの高速化に有効である。 この研究の次の部分には理論と計算結果の大部分が与えられます [57]。

For general quadratically-constrained quadratic programming (QCQP), we propose a parabolic relaxation described with convex quadratic constraints. An interesting property of the parabolic relaxation is that the original non-convex feasible set is contained on the boundary of the parabolic relaxation. Under certain assumptions, this property enables one to recover near-optimal feasible points via objective penalization. Moreover, through an appropriate change of coordinates that requires a one-time computation of an optimal basis, the easier-to-solve parabolic relaxation can be made as strong as a semidefinite programming (SDP) relaxation, which can be effective in accelerating algorithms that require solving a sequence of convex surrogates. The majority of theoretical and computational results are given in the next part of this work [57].
翻訳日:2022-08-09 14:19:37 公開日:2022-08-07
# 擬似制約付き二次計画法におけるパラボリック緩和 -その2:理論と計算結果-

Parabolic Relaxation for Quadratically-constrained Quadratic Programming -- Part II: Theoretical & Computational Results ( http://arxiv.org/abs/2208.03625v1 )

ライセンス: Link先を確認
Ramtin Madani, Mersedeh Ashraphijuo, Mohsen Kheirandishfard, Alper Atamturk(参考訳) 本研究の第1部 [32] では, 2次拘束された二次プログラムに対する凸放物型緩和と逐次ペナルティ化放物型緩和アルゴリズムを導入し, 最適に近い解を回収する。 この第2部では、ある正則性条件を満たす実現可能な解またはほぼ実現可能な解から、逐次擬似放物緩和アルゴリズムがカルーシュ=クーン=タッカー最適性条件を満たす点に収束することを示す。 次に, ベンチマーク非凸QCQP問題に対する数値実験と, 提案手法の有効性を示すシステム同定問題の大規模事例について述べる。

In the first part of this work [32], we introduce a convex parabolic relaxation for quadratically-constrained quadratic programs, along with a sequential penalized parabolic relaxation algorithm to recover near-optimal feasible solutions. In this second part, we show that starting from a feasible solution or a near-feasible solution satisfying certain regularity conditions, the sequential penalized parabolic relaxation algorithm convergences to a point which satisfies Karush-Kuhn-Tucker optimality conditions. Next, we present numerical experiments on benchmark non-convex QCQP problems as well as large-scale instances of system identification problem demonstrating the efficiency of the proposed approach.
翻訳日:2022-08-09 14:19:22 公開日:2022-08-07
# Sparse Attention と Dynamic Pipelining によるFPGA上の変圧器の長長適応アルゴリズム-ハードウェア共設計

A Length Adaptive Algorithm-Hardware Co-design of Transformer on FPGA Through Sparse Attention and Dynamic Pipelining ( http://arxiv.org/abs/2208.03646v1 )

ライセンス: Link先を確認
Hongwu Peng, Shaoyi Huang, Shiyang Chen, Bingbing Li, Tong Geng, Ang Li, Weiwen Jiang, Wujie Wen, Jinbo Bi, Hang Liu and Caiwen Ding(参考訳) 2018年以降、トランスフォーマーは最先端(SOTA)レコードを確立し、既存のDeep Neural Networks(DNN)を置き換える可能性があるため、最も重要なディープラーニングモデルのひとつと考えられている。 驚くべき勝利にもかかわらず、トランスフォーマーモデルの長いターンアラウンドタイムは広く認識されている道路ブロックである。 シーケンス長の多様性は、並列コンピューティングプラットフォームに対応するために、バッチ内の最大文長に入力をゼロパッドする必要がある場合に、追加の計算オーバーヘッドを課す。 本稿では,フィールドプログラマブルゲートアレイ(FPGA)を対象とし,トランスフォーマーアクセラレーションのためのコヒーレントシーケンス長適応アルゴリズム-ハードウェア共設計を提案する。 特に,ハードウェアフレンドリーなスパースアテンション演算子と,ハードウェアリソーススケジューリングアルゴリズムを開発した。 提案したスパースアテンション演算子は、注意に基づくモデルの複雑さを線形複雑化し、オフチップメモリトラフィックを軽減する。 提案アルゴリズムは,パイプラインスロットを埋めるためにハードウェアリソースを動的に割り当て,NLPタスクのバブルを除去する。 実験によると、我々の設計は、非常に精度の損失が小さく、cpuとgpuの実装と比較して80.2$\times$と2.6$\times$ speedupがあり、cublas gemmによって最適化された最先端gpuアクセラレータよりも4$\times$高いエネルギー効率を示している。

Transformers are considered one of the most important deep learning models since 2018, in part because it establishes state-of-the-art (SOTA) records and could potentially replace existing Deep Neural Networks (DNNs). Despite the remarkable triumphs, the prolonged turnaround time of Transformer models is a widely recognized roadblock. The variety of sequence lengths imposes additional computing overhead where inputs need to be zero-padded to the maximum sentence length in the batch to accommodate the parallel computing platforms. This paper targets the field-programmable gate array (FPGA) and proposes a coherent sequence length adaptive algorithm-hardware co-design for Transformer acceleration. Particularly, we develop a hardware-friendly sparse attention operator and a length-aware hardware resource scheduling algorithm. The proposed sparse attention operator brings the complexity of attention-based models down to linear complexity and alleviates the off-chip memory traffic. The proposed length-aware resource hardware scheduling algorithm dynamically allocates the hardware resources to fill up the pipeline slots and eliminates bubbles for NLP tasks. Experiments show that our design has very small accuracy loss and has 80.2 $\times$ and 2.6 $\times$ speedup compared to CPU and GPU implementation, and 4 $\times$ higher energy efficiency than state-of-the-art GPU accelerator optimized via CUBLAS GEMM.
翻訳日:2022-08-09 14:19:09 公開日:2022-08-07
# 強化学習における一般化のゲーム理論的視点

A Game-Theoretic Perspective of Generalization in Reinforcement Learning ( http://arxiv.org/abs/2208.03650v1 )

ライセンス: Link先を確認
Chang Yang, Ruiyu Wang, Xinrun Wang, Zhen Wang(参考訳) 強化学習(RL)の一般化は、RLアルゴリズムの実際の展開において重要である。 伝達学習,マルチタスク学習,メタ学習,強靭で対向的な強化学習など,一般化問題に対処するための様々なスキームが提案されている。 しかし、様々なスキームの統一的な定式化や、異なるスキーム間のメソッドの包括的比較は存在していない。 本研究では,強化学習の一般化のためのゲーム理論フレームワークであるgirlを提案する。そこではrlエージェントが,与えられたしきい値内でタスク上の分布を操作できるタスクセット上の敵に対して訓練される。 異なる構成で、GiRLは上記の様々なスキームを削減できる。 GiRLを解くために、ゲーム理論、ポリシー空間応答オラクル(PSRO)において、以下の3つの重要な修正を加えて広く使われている手法を適用した。 一 モデル非依存メタラーニング(MAML)を最良応答オラクルとして使用すること。 二 逆転の計算メタストラテジーをしきい値内に確保する改良された複製力学、すなわちR-PRDを提案すること。 iii) テスト中の複数戦略の短時間学習のためのプロトコルも提案する。 MuJoCo環境に対する大規模な実験は,提案手法が既存のベースライン,例えばMAMLより優れていることを示す。

Generalization in reinforcement learning (RL) is of importance for real deployment of RL algorithms. Various schemes are proposed to address the generalization issues, including transfer learning, multi-task learning and meta learning, as well as the robust and adversarial reinforcement learning. However, there is not a unified formulation of the various schemes, as well as the comprehensive comparisons of methods across different schemes. In this work, we propose a game-theoretic framework for the generalization in reinforcement learning, named GiRL, where an RL agent is trained against an adversary over a set of tasks, where the adversary can manipulate the distributions over tasks within a given threshold. With different configurations, GiRL can reduce the various schemes mentioned above. To solve GiRL, we adapt the widely-used method in game theory, policy space response oracle (PSRO) with the following three important modifications: i) we use model-agnostic meta learning (MAML) as the best-response oracle, ii) we propose a modified projected replicated dynamics, i.e., R-PRD, which ensures the computed meta-strategy of the adversary fall in the threshold, and iii) we also propose a protocol for the few-shot learning of the multiple strategies during testing. Extensive experiments on MuJoCo environments demonstrate that our proposed methods can outperform existing baselines, e.g., MAML.
翻訳日:2022-08-09 14:18:39 公開日:2022-08-07
# 多エージェント深部強化学習のための最大コレントロピー値分解

Maximum Correntropy Value Decomposition for Multi-agent Deep Reinforcemen Learning ( http://arxiv.org/abs/2208.03663v1 )

ライセンス: Link先を確認
Kai Liu, Tianxian Zhang, Lingjiang Kong(参考訳) 我々は,分散実行(CTDE)を用いた集中学習の一般的なパラダイムにおいて,マルチエージェントの深層強化学習のための価値分解ソリューションを検討する。 CTDEの最適解として、Weighted QMIXはStarCraft Multi-agent Challenge (SMAC)で最先端であり、QMIX上に実装された重み付け方式により、最適な関節動作に重点を置いている。 しかし、固定重み付けはアプリケーションのシナリオに応じて手動のチューニングを必要とするため、より広範なエンジニアリングアプリケーションでWeighted QMIXが使用されるのを困難に防ぐことができる。 本稿では,重み付きqmixの欠点を,一般のワンステップマトリクスゲーム(omg)を用いて実演し,重み付きqmixが選択された場合でも,報酬分布のばらつきが大きい非単調値分解問題に対処できないことを示す。 次に,1次元ロバスト回帰問題として価値分解の問題を挙げ,情報理論的学習の観点から価値分解問題への解を与える最初の試みを行う。 最大コレントロピー基準 (mcc) をコスト関数として導入し, 報酬分布における最小効果を排除するために, 重量を動的に適応させる。 実装を簡略化し,MCVDと呼ばれる新しいアルゴリズムを提案する。 OMGで行った予備実験では、MCVDはカーネル帯域幅選択の許容度が大きい非単調値分解問題に対処できることを示した。 協調ナビゲーションと複数のSMACシナリオでさらなる実験が行われ、MCVDは前例のない実装の容易さ、幅広い適用性、安定性を示す。

We explore value decomposition solutions for multi-agent deep reinforcement learning in the popular paradigm of centralized training with decentralized execution(CTDE). As the recognized best solution to CTDE, Weighted QMIX is cutting-edge on StarCraft Multi-agent Challenge (SMAC), with a weighting scheme implemented on QMIX to place more emphasis on the optimal joint actions. However, the fixed weight requires manual tuning according to the application scenarios, which painfully prevents Weighted QMIX from being used in broader engineering applications. In this paper, we first demonstrate the flaw of Weighted QMIX using an ordinary One-Step Matrix Game (OMG), that no matter how the weight is chosen, Weighted QMIX struggles to deal with non-monotonic value decomposition problems with a large variance of reward distributions. Then we characterize the problem of value decomposition as an Underfitting One-edged Robust Regression problem and make the first attempt to give a solution to the value decomposition problem from the perspective of information-theoretical learning. We introduce the Maximum Correntropy Criterion (MCC) as a cost function to dynamically adapt the weight to eliminate the effects of minimum in reward distributions. We simplify the implementation and propose a new algorithm called MCVD. A preliminary experiment conducted on OMG shows that MCVD could deal with non-monotonic value decomposition problems with a large tolerance of kernel bandwidth selection. Further experiments are carried out on Cooperative-Navigation and multiple SMAC scenarios, where MCVD exhibits unprecedented ease of implementation, broad applicability, and stability.
翻訳日:2022-08-09 14:18:18 公開日:2022-08-07
# エキスパートアドバイスによる予測における最適追跡

Optimal Tracking in Prediction with Expert Advice ( http://arxiv.org/abs/2208.03708v1 )

ライセンス: Link先を確認
Hakan Gokcesu, Suleyman S. Kozat(参考訳) 予測をエキスパートアドバイス設定で検討し,例えば,アルゴリズムの独立実行など,専門家による意思決定を組み合わせることで意思決定を行うことを目的としている。 我々は、専門家のアドバイス設定による予測の下で、最小限の動的後悔、すなわち、最適な方法で専門家の判断の時間変化(必ずしも固定されていない)の組み合わせと競合することができる。 我々の終末アルゴリズムは、文献の様々なアルゴリズムで一般的に使われている時間水平線や損失範囲などの事前情報を持たない真にオンラインである。 我々の後悔の保証とmin-max下限は、専門家の損失が時空的特性を持ち、おそらくは非有界であるという一般的な考察から導かれる。 我々のアルゴリズムは、損失フィードバックと意思決定の両方に関して制限的なシナリオに適応することができる。 我々の保証は普遍的であり、すなわち、対数的複雑性を伴う min-max 最適方法で競合列に対して後悔の保証を与えることができる。 私たちの知識では、専門家のアドバイス問題による予測のために、我々のアルゴリズムは、事前の知識なしで、このような普遍的に最適で適応的で真にオンラインな保証を最初に作成する。

We study the prediction with expert advice setting, where the aim is to produce a decision by combining the decisions generated by a set of experts, e.g., independently running algorithms. We achieve the min-max optimal dynamic regret under the prediction with expert advice setting, i.e., we can compete against time-varying (not necessarily fixed) combinations of expert decisions in an optimal manner. Our end-algorithm is truly online with no prior information, such as the time horizon or loss ranges, which are commonly used by different algorithms in the literature. Both our regret guarantees and the min-max lower bounds are derived with the general consideration that the expert losses can have time-varying properties and are possibly unbounded. Our algorithm can be adapted for restrictive scenarios regarding both loss feedback and decision making. Our guarantees are universal, i.e., our end-algorithm can provide regret guarantee against any competitor sequence in a min-max optimal manner with logarithmic complexity. Note that, to our knowledge, for the prediction with expert advice problem, our algorithms are the first to produce such universally optimal, adaptive and truly online guarantees with no prior knowledge.
翻訳日:2022-08-09 14:17:51 公開日:2022-08-07
# ヒルベルト空間におけるカーネル・ビクラスタリングアルゴリズム

Kernel Biclustering algorithm in Hilbert Spaces ( http://arxiv.org/abs/2208.03675v1 )

ライセンス: Link先を確認
Marcos Matabuena, J.C Vidal, Oscar Hernan Madrid Padilla, Dino Sejdinovic(参考訳) ビクラスタリングアルゴリズムはデータを同時に分割し、新しい生物学的機能を発見するために遺伝子発現を分析するなど、いくつかの領域で新たな洞察を提供する。 本稿では,エネルギー距離 (ED) と最大平均誤差 (MMD) の概念を用いて, 曲線やグラフなどの複雑なデータを扱う確率分布間の2つの距離を, 抽象空間での新しいモデルフリー・ビクラスタリングアルゴリズムを開発した。 提案手法は, 平均および分散差の検出を主眼とした, 既存の文献的アプローチに比べて, より汎用的かつ複雑なクラスター形状を学習できる。 このアプローチの双クラスタリング構成は、ダタムと共変量レベルでの解離構造を作るために制約されているが、結果は競合する。 提案手法は, クラスタ差が高次モーメントに集中する場合に, 適切なカーネル選択を仮定して, 最適シナリオにおける最先端手法と類似している。 モデルのパフォーマンスは、シミュレーションおよび実世界のデータセットを含むいくつかの状況でテストされてきた。 最後に、最適輸送理論のいくつかのツールを用いて、新しい理論整合性結果が確立される。

Biclustering algorithms partition data and covariates simultaneously, providing new insights in several domains, such as analyzing gene expression to discover new biological functions. This paper develops a new model-free biclustering algorithm in abstract spaces using the notions of energy distance (ED) and the maximum mean discrepancy (MMD) -- two distances between probability distributions capable of handling complex data such as curves or graphs. The proposed method can learn more general and complex cluster shapes than most existing literature approaches, which usually focus on detecting mean and variance differences. Although the biclustering configurations of our approach are constrained to create disjoint structures at the datum and covariate levels, the results are competitive. Our results are similar to state-of-the-art methods in their optimal scenarios, assuming a proper kernel choice, outperforming them when cluster differences are concentrated in higher-order moments. The model's performance has been tested in several situations that involve simulated and real-world datasets. Finally, new theoretical consistency results are established using some tools of the theory of optimal transport.
翻訳日:2022-08-09 14:14:53 公開日:2022-08-07
# shap-cam:shapley値に基づく畳み込みニューラルネットワークの視覚的説明

Shap-CAM: Visual Explanations for Convolutional Neural Networks based on Shapley Value ( http://arxiv.org/abs/2208.03608v1 )

ライセンス: Link先を確認
Quan Zheng, Ziwei Wang, Jie Zhou, and Jiwen Lu(参考訳) 深層畳み込みニューラルネットワークの説明は、ネットワークの内部操作と、それが決定を下す理由を理解するのに役立つため、最近注目を集めている。 サージェンシーマップは、ネットワークの意思決定に大きく関係している健全な領域を強調するもので、コンピュータビジョンコミュニティにおけるディープネットワークを視覚化し分析する最も一般的な方法の1つである。 しかし, 従来の手法で生成したサリエンシマップは, 各画素間の関係を考慮せず, 確固とした理論的基礎を欠いた活性化マップの重みに関する未証明の提案のため, 画像内の真正情報を表現することができない。 本稿では,クラスアクティベーションマッピングに基づいて,shap-camと呼ばれるポストホックな視覚説明手法を開発した。 従来の勾配に基づくアプローチとは異なり、Shap-CAMはShapley値を通じて各ピクセルの重要性を得ることにより勾配への依存を取り除く。 意思決定プロセスの解釈において,Shap-CAMがより良い視覚的性能と公平性を実現することを示す。 本手法は,認識課題と局所課題の両方において,従来の手法よりも優れている。

Explaining deep convolutional neural networks has been recently drawing increasing attention since it helps to understand the networks' internal operations and why they make certain decisions. Saliency maps, which emphasize salient regions largely connected to the network's decision-making, are one of the most common ways for visualizing and analyzing deep networks in the computer vision community. However, saliency maps generated by existing methods cannot represent authentic information in images due to the unproven proposals about the weights of activation maps which lack solid theoretical foundation and fail to consider the relations between each pixel. In this paper, we develop a novel post-hoc visual explanation method called Shap-CAM based on class activation mapping. Unlike previous gradient-based approaches, Shap-CAM gets rid of the dependence on gradients by obtaining the importance of each pixel through Shapley value. We demonstrate that Shap-CAM achieves better visual performance and fairness for interpreting the decision making process. Our approach outperforms previous methods on both recognition and localization tasks.
翻訳日:2022-08-09 14:02:05 公開日:2022-08-07
# 学習ビデオ圧縮のための長短時空間情報の探索

Exploring Long & Short Range Temporal Information for Learned Video Compression ( http://arxiv.org/abs/2208.03754v1 )

ライセンス: Link先を確認
Huairui Wang and Zhenzhong Chen(参考訳) 学習されたビデオ圧縮手法は、従来のビデオコーデックのレートゆらぎ(rd)性能と一致した、あるいは超えているため、ビデオコーディングコミュニティで様々な関心を集めている。 しかし,現在の学習手法の多くは短距離時間情報の利用に特化しており,性能が制限されている。 本稿では,映像コンテンツの独特な特徴の活用と,圧縮性能向上のための時間情報の検討に着目する。 具体的には,画像群(GOP)内で画像群を連続的に更新できる時間的事前情報の利用を提案する。 この場合、temporal priorは現在のgop内の全てのデコードされた画像の貴重な時間情報を含んでいる。 短距離時間情報については,頑健かつ効果的な補償を実現するための進行誘導運動補償を提案する。 本稿では,マルチスケール補償を実現する階層構造を設計する。 さらに,各スケールで特徴マップ間の画素オフセットを生成するために光フローガイダンスを用い,各スケールでの補償結果を用いて,以下のスケールの補償を導出する。 提案手法は,最先端のビデオ圧縮手法よりも優れたRD性能が得られることを示す。 コードは、https://github.com/Huairui/LSTVCで公開されている。

Learned video compression methods have gained a variety of interest in the video coding community since they have matched or even exceeded the rate-distortion (RD) performance of traditional video codecs. However, many current learning-based methods are dedicated to utilizing short-range temporal information, thus limiting their performance. In this paper, we focus on exploiting the unique characteristics of video content and further exploring temporal information to enhance compression performance. Specifically, for long-range temporal information exploitation, we propose temporal prior that can update continuously within the group of pictures (GOP) during inference. In that case temporal prior contains valuable temporal information of all decoded images within the current GOP. As for short-range temporal information, we propose a progressive guided motion compensation to achieve robust and effective compensation. In detail, we design a hierarchical structure to achieve multi-scale compensation. More importantly, we use optical flow guidance to generate pixel offsets between feature maps at each scale, and the compensation results at each scale will be used to guide the following scale's compensation. Sufficient experimental results demonstrate that our method can obtain better RD performance than state-of-the-art video compression approaches. The code is publicly available on: https://github.com/Huairui/LSTVC.
翻訳日:2022-08-09 14:01:45 公開日:2022-08-07
# ヒト知覚における量子構造

Quantum Structure in Human Perception ( http://arxiv.org/abs/2208.03726v1 )

ライセンス: Link先を確認
Diederik Aerts and Jonito Aerts Argu\"elles(参考訳) 重ね合わせ、文脈性、絡み合いの量子構造が、人間の認知の側面をモデル化するためにどのように使用されるかを考えると、人間の知覚自体にその起源を持つかを検討する。 我々の分析は、人間の知覚が分類的知覚のワープメカニズムを組み込んだ単純な量子測定モデルから、概念のプロトタイプ理論の量子バージョンまで、概念が組み合わされたときの動的文脈性を可能にする。 我々の研究は、概念の状態コンテキスト特性システムに繋がる操作的量子公理学に根ざしている。 量子プロトタイプモデルとその概念と2つの例を詳細に組み合わせる際の干渉を説明する。

We wish to investigate the ways in which the quantum structures of superposition, contextuality, and entanglement have their origins in human perception itself, given how they are sucessfully used to model aspects of human cognition. Our analysis takes us from a simple quantum measurement model, along how human perception incorporates the warping mechanism of categorical perception, to a quantum version of the prototype theory for concepts, which allows for dynamic contextuality when concepts are combined. Our study is rooted in an operational quantum axiomatics that leads to a state context property system for concepts. We illustrate our quantum prototype model and its interference when combining concepts with two examples worked out in detail
翻訳日:2022-08-09 13:55:45 公開日:2022-08-07
# BSDGAN:人間活動認識のためのセンサデータ生成敵ネットワークのバランシング

BSDGAN: Balancing Sensor Data Generative Adversarial Networks for Human Activity Recognition ( http://arxiv.org/abs/2208.03647v1 )

ライセンス: Link先を確認
Yifan Hu and Yu Wang(参考訳) iotテクノロジの開発により、モバイルデバイスにさまざまなセンサを統合できるようになる。 センサデータに基づくヒューマンアクティビティ認識(HAR)は、機械学習とユビキタスコンピューティングの分野で活発な研究トピックとなっている。 しかし、人間の活動の頻度が不一致であるため、人間の活動データセットの各活動のデータ量は不均衡である。 限られたセンサ資源と手動ラベル付きセンサデータのコストを考えると、ヒューマンアクティビティ認識は高度に不均衡なアクティビティデータセットの課題に直面している。 本稿では,少数者の活動のためのセンサデータを生成するために,BSDGAN(Balancing Sensor Data Generative Adversarial Networks)を提案する。 提案したBSDGANはジェネレータモデルと識別器モデルで構成されている。 人間の活動データセットの極端な不均衡を考慮すると、BSDGANのトレーニングプロセスを初期化し、各アクティビティのデータ特徴を確実に学習するためにオートエンコーダが使用される。 生成されたアクティビティデータは、元のデータセットと組み合わせて、人間のアクティビティクラス間でアクティビティデータの量を調整する。 我々は、WISDMとUNIMIBの2つの不均衡な活動データセット上に、複数の人間の活動認識モデルを構築した。 実験の結果,提案したBSDGANは実活動センサデータの特徴を効果的に捉え,リアルな合成センサデータを生成することができることがわかった。 一方、バランスの取れたアクティビティデータセットは、アクティビティ認識モデルが認識精度を向上させるのに効果的に役立ちます。

The development of IoT technology enables a variety of sensors can be integrated into mobile devices. Human Activity Recognition (HAR) based on sensor data has become an active research topic in the field of machine learning and ubiquitous computing. However, due to the inconsistent frequency of human activities, the amount of data for each activity in the human activity dataset is imbalanced. Considering the limited sensor resources and the high cost of manually labeled sensor data, human activity recognition is facing the challenge of highly imbalanced activity datasets. In this paper, we propose Balancing Sensor Data Generative Adversarial Networks (BSDGAN) to generate sensor data for minority human activities. The proposed BSDGAN consists of a generator model and a discriminator model. Considering the extreme imbalance of human activity dataset, an autoencoder is employed to initialize the training process of BSDGAN, ensure the data features of each activity can be learned. The generated activity data is combined with the original dataset to balance the amount of activity data across human activity classes. We deployed multiple human activity recognition models on two publicly available imbalanced human activity datasets, WISDM and UNIMIB. Experimental results show that the proposed BSDGAN can effectively capture the data features of real human activity sensor data, and generate realistic synthetic sensor data. Meanwhile, the balanced activity dataset can effectively help the activity recognition model to improve the recognition accuracy.
翻訳日:2022-08-09 13:50:53 公開日:2022-08-07
# n2nskip: ニューロンからニューロンへのスキップ接続を用いた高スパースネットワークの学習

N2NSkip: Learning Highly Sparse Networks using Neuron-to-Neuron Skip Connections ( http://arxiv.org/abs/2208.03662v1 )

ライセンス: Link先を確認
Arvind Subramaniam and Avinash Sharma(参考訳) Deep Neural Networksの過度なパラメータ化の性質は、時間と空間の制約のあるローエンドデバイスへのデプロイメントにおいて、かなりの障害を引き起こす。 反復的なプルー・トレインスキームを用いてDNNをスパース化するネットワークプルーニング戦略は、しばしば計算コストがかかる。 その結果,初等化にともなう技術は,教育に先立って普及してきている。 そこで本研究では, 切り抜きDNNの全体的な接続性を高めるために, 疎重み付きスキップ接続として機能するニューロン-ニューロン間スキップ接続を提案する。 予備的なプルーニングステップの後、N2NSkip接続は、ネットワーク全体の間隔を維持しながら、プルーニングされたネットワークの個々のニューロン/チャネル間でランダムに付加される。 本研究では, N2NSkip 接続のないネットワークと比較して, 高い疎度において, N2NSkip 接続の導入により性能が著しく向上することが実証された。 さらに, 熱拡散に基づく接続解析を行い, プルーンネットワークの接続を基準ネットワークに対して定量的に決定する。 本研究では,n2nskip接続による接続性の向上を活かし,初期化時にプルーニングを行う2種類のプリミティブプルーニング法の有効性を評価した。

The over-parametrized nature of Deep Neural Networks leads to considerable hindrances during deployment on low-end devices with time and space constraints. Network pruning strategies that sparsify DNNs using iterative prune-train schemes are often computationally expensive. As a result, techniques that prune at initialization, prior to training, have become increasingly popular. In this work, we propose neuron-to-neuron skip connections, which act as sparse weighted skip connections, to enhance the overall connectivity of pruned DNNs. Following a preliminary pruning step, N2NSkip connections are randomly added between individual neurons/channels of the pruned network, while maintaining the overall sparsity of the network. We demonstrate that introducing N2NSkip connections in pruned networks enables significantly superior performance, especially at high sparsity levels, as compared to pruned networks without N2NSkip connections. Additionally, we present a heat diffusion-based connectivity analysis to quantitatively determine the connectivity of the pruned network with respect to the reference network. We evaluate the efficacy of our approach on two different preliminary pruning methods which prune at initialization, and consistently obtain superior performance by exploiting the enhanced connectivity resulting from N2NSkip connections.
翻訳日:2022-08-09 13:50:30 公開日:2022-08-07
# テンソルグラフ補完による適応的不完全多視点学習

Adaptive incomplete multi-view learning via tensor graph completion ( http://arxiv.org/abs/2208.03710v1 )

ライセンス: Link先を確認
Heng Zhang and Xiaohong Chen(参考訳) データ取得技術の進歩により、マルチビュー学習はホットな話題となっている。 一部のマルチビュー学習手法では、マルチビューデータは完全である、つまりすべてのインスタンスが存在するが、これは理想的すぎる、と仮定している。 不完全なマルチビューデータを手渡すテンソルベースの方法が出現し、より良い結果が得られた。 しかし、計算を高くし、サンプル外処理ができない従来のテンソルノルムの使用など、まだいくつか問題がある。 これら2つの問題を解決するために、我々は新しい不完全多視点学習法を提案した。 新しいテンソルノルムは、グラフテンソルデータリカバリを実装するために定義される。 得られたグラフは、サンプルの一貫した低次元表現に正規化される。 さらに、各ビューに適応重みを設けて、異なるビューの重要性を調整する。 既存の手法と比較して,本手法はビュー間の一貫性を探求するだけでなく,学習した投影行列を用いて新しいサンプルの低次元表現を得る。 inexact augmented lagrange multiplier (alm) 法に基づく効率的なアルゴリズムはモデルを解くために設計され、収束が証明される。 4つのデータセットにおける実験結果から,本手法の有効性を示す。

With the advancement of the data acquisition techniques, multi-view learning has become a hot topic. Some multi-view learning methods assume that the multi-view data is complete, which means that all instances are present, but this too ideal. Certain tensor-based methods for handing incomplete multi-view data have emerged and have achieved better result. However, there are still some problems, such as use of traditional tensor norm which makes the computation high and is not able to handle out-of-sample. To solve these two problems, we proposed a new incomplete multi view learning method. A new tensor norm is defined to implement graph tensor data recover. The recovered graphs are then regularized to a consistent low-dimensional representation of the samples. In addition, adaptive weights are equipped to each view to adjust the importance of different views. Compared with the existing methods, our method nor only explores the consistency among views, but also obtains the low-dimensional representation of the new samples by using the learned projection matrix. An efficient algorithm based on inexact augmented Lagrange multiplier (ALM) method are designed to solve the model and convergence is proved. Experimental results on four datasets show the effectiveness of our method.
翻訳日:2022-08-09 13:50:08 公開日:2022-08-07
# シーケンスレコメンデーションのための負のサンプルの生成

Generating Negative Samples for Sequential Recommendation ( http://arxiv.org/abs/2208.03645v1 )

ライセンス: Link先を確認
Yongjun Chen, Jia Li, Zhiwei Liu, Nitish Shirish Keskar, Huan Wang, Julian McAuley, Caiming Xiong(参考訳) シーケンシャルレコメンデーション(SR)を成功させるために、最近の研究は、効果的なシーケンシャルエンコーダの設計、サイド情報の融合、追加の正の自己超越信号のマイニングに重点を置いている。 各ステップで負の項目をサンプリングする戦略は、より少ない。 トレーニング中のユーザの興味とモデル更新のダイナミクスのため、ユーザの非相互作用アイテムセットからランダムにサンプリングされたアイテムを否定的に考えることは不可能である。 その結果、モデルはアイテムに対するユーザの好みを不正確に学習する。 情報的ネガティブな項目が動的に変化する関心事とモデルパラメータの両方に結びついているため、情報的ネガティブな項目を特定することは困難である。 そこで我々は,SR (GenNi) に対して負のサンプル (items) を生成することを提案する。 現在のsrモデルの学習したユーザ嗜好に基づいて、各タイムステップに負の項目をサンプリングする。 大規模レコメンデーションタスクに拡張性を持たせるため、生成プロセスをさらに高速化する効率的な実装が提案されている。 4つの公開データセットに対する大規模な実験は、SRに高品質な負のサンプルを提供することの重要性を検証し、GenNiの有効性と効率を実証する。

To make Sequential Recommendation (SR) successful, recent works focus on designing effective sequential encoders, fusing side information, and mining extra positive self-supervision signals. The strategy of sampling negative items at each time step is less explored. Due to the dynamics of users' interests and model updates during training, considering randomly sampled items from a user's non-interacted item set as negatives can be uninformative. As a result, the model will inaccurately learn user preferences toward items. Identifying informative negatives is challenging because informative negative items are tied with both dynamically changed interests and model parameters (and sampling process should also be efficient). To this end, we propose to Generate Negative Samples (items) for SR (GenNi). A negative item is sampled at each time step based on the current SR model's learned user preferences toward items. An efficient implementation is proposed to further accelerate the generation process, making it scalable to large-scale recommendation tasks. Extensive experiments on four public datasets verify the importance of providing high-quality negative samples for SR and demonstrate the effectiveness and efficiency of GenNi.
翻訳日:2022-08-09 13:48:36 公開日:2022-08-07
# data leaves: シナリオ指向のメタデータによるデータフェデレーションイノベーション

Data Leaves: Scenario-oriented Metadata for Data Federative Innovation ( http://arxiv.org/abs/2208.03722v1 )

ライセンス: Link先を確認
Yukio Ohsawa, Kaira Sekiguchi, Tomohide Maekawa, Hiroki Yamaguchi, Son Yeon Hyuk, Sae Kondo(参考訳) データセットを用いて価値ある製品、サービス、ビジネスモデルを創造しようとするデータユーザの革新的な思考とコミュニケーションの支援を目的として、各データセットのダイジェスト情報を表現する方法を提案する。 共有属性(変数)を介してデータセットを接続する手法と比較すると、この手法は実世界でアクティブであるはずのシナリオにおいて、イベント、状況、あるいはアクションを介してデータセットを接続する。 この方法は、データから取得されると思われる情報や知識を抽象化した特徴概念に対する各メタデータの適合性を考慮したものであるため、データ利用者は、実際のビジネスや実生活の要件に適合する実用的な知識を取得し、また、データへのai技術の現実的な応用の根拠となる。

A method for representing the digest information of each dataset is proposed, oriented to the aid of innovative thoughts and the communication of data users who attempt to create valuable products, services, and business models using or combining datasets. Compared with methods for connecting datasets via shared attributes (i.e., variables), this method connects datasets via events, situations, or actions in a scenario that is supposed to be active in the real world. This method reflects the consideration of the fitness of each metadata to the feature concept, which is an abstract of the information or knowledge expected to be acquired from data; thus, the users of the data acquire practical knowledge that fits the requirements of real businesses and real life, as well as grounds for realistic application of AI technologies to data.
翻訳日:2022-08-09 13:48:15 公開日:2022-08-07
# いつ話せますか。 音声対話エージェントの開始点の予測

When can I Speak? Predicting initiation points for spoken dialogue agents ( http://arxiv.org/abs/2208.03812v1 )

ライセンス: Link先を確認
Siyan Li, Ashwin Paranjape, Christopher D. Manning(参考訳) 現在の音声対話システムは、長時間の沈黙(700-1000ms)の後、旋回を開始する。 人間は通常200ミリ秒以内で応答し、事前に開始点を予測することに成功すれば、音声対話エージェントも同じことができる。 本稿では,ユーザの音声・単語特徴を扱う事前学習音声表現モデル(wav2vec 1.0)から,インクリメンタルな書き起こしを操作する事前学習言語モデル(gpt-2)から,韻律的特徴を用いて開始までのリードタイムを予測する。 誤差を評価するために、w.r.t.予測と真のリードタイムの2つの指標を提案する。 スイッチボードコーパス上でモデルをトレーニングし,評価した結果,両メトリクスの先行作業による特徴を上回り,700ミリ秒の沈黙待ちの一般的なアプローチを大きく上回っていることがわかった。

Current spoken dialogue systems initiate their turns after a long period of silence (700-1000ms), which leads to little real-time feedback, sluggish responses, and an overall stilted conversational flow. Humans typically respond within 200ms and successfully predicting initiation points in advance would allow spoken dialogue agents to do the same. In this work, we predict the lead-time to initiation using prosodic features from a pre-trained speech representation model (wav2vec 1.0) operating on user audio and word features from a pre-trained language model (GPT-2) operating on incremental transcriptions. To evaluate errors, we propose two metrics w.r.t. predicted and true lead times. We train and evaluate the models on the Switchboard Corpus and find that our method outperforms features from prior work on both metrics and vastly outperforms the common approach of waiting for 700ms of silence.
翻訳日:2022-08-09 13:44:38 公開日:2022-08-07
# テラヘルツ通信システムにおけるスペクトル割当の教師なし学習手法

An Unsupervised Learning Approach for Spectrum Allocation in Terahertz Communication Systems ( http://arxiv.org/abs/2208.03618v1 )

ライセンス: Link先を確認
Akram Shafie, Chunhui Li, Nan Yang, Xiangyun Zhou, and Trung Q. Duong(参考訳) 本稿では,マルチユーザテラヘルツ通信システムのための教師なし学習によるスペクトル割当戦略を提案する。 本手法では,帯域幅が不均等なサブバンドに帯域幅を分割できるように適応型サブバンド帯域を考える。 この戦略により、ユーザ間の分子吸収損失のばらつきが減少し、データレート性能が向上する。 まず、最適化問題を定式化し、最適サブバンド帯域幅を定式化し、電力を伝送し、教師なし学習に基づく手法を提案する。 提案手法では,形式問題のラグランジアンに触発された損失関数を利用して,まずディープニューラルネットワーク(dnn)を訓練する。 そして、訓練されたDNNを用いて、ほぼ最適解を近似する。 その結果,既存の手法と比較して,特に興味のスペクトル内の分子吸収係数が高度に非線形な方法で変化する場合,教師なし学習に基づく手法の方が高いデータレートが得られることがわかった。

We propose a new spectrum allocation strategy, aided by unsupervised learning, for multiuser terahertz communication systems. In this strategy, adaptive sub-band bandwidth is considered such that the spectrum of interest can be divided into sub-bands with unequal bandwidths. This strategy reduces the variation in molecular absorption loss among the users, leading to the improved data rate performance. We first formulate an optimization problem to determine the optimal sub-band bandwidth and transmit power, and then propose the unsupervised learning-based approach to obtaining the near-optimal solution to this problem. In the proposed approach, we first train a deep neural network (DNN) while utilizing a loss function that is inspired by the Lagrangian of the formulated problem. Then using the trained DNN, we approximate the near-optimal solutions. Numerical results demonstrate that comparing to existing approaches, our proposed unsupervised learning-based approach achieves a higher data rate, especially when the molecular absorption coefficient within the spectrum of interest varies in a highly non-linear manner.
翻訳日:2022-08-09 13:42:46 公開日:2022-08-07
# メンタルヘルス予測におけるマルチタスク学習のバイアス低減

Bias Reducing Multitask Learning on Mental Health Prediction ( http://arxiv.org/abs/2208.03621v1 )

ライセンス: Link先を確認
Khadija Zanna, Kusha Sridhar, Han Yu, Akane Sano(参考訳) 近年、社会におけるメンタルヘルス問題の増加により、メンタルヘルス検出や予測のための機械学習モデルの開発研究が増加している。 メンタルヘルス予測や検出モデルの効果的な利用は、メンタルヘルス実践者が現在よりも客観的に精神疾患を再定義し、介入がより効果的である可能性のある早期の疾患を特定するのに役立つ。 しかし、この分野の機械学習モデルにおけるバイアスの評価には、まだ標準の欠如があるため、信頼できる予測を提供し、異質な問題に対処することが困難になる。 この基準の欠如は、特に生理的信号に当てはまる、技術的困難、高次元臨床健康データ等の複雑さなどの要因によって続いている。 これは、一部の生理的信号と特定の人口統計的同一性との関係の以前の証拠と共に、生理的信号を利用するメンタルヘルス予測モデルにおけるバイアスの探索の重要性が再燃している。 本研究では,心電図データを用いた不安予測モデルに対して,公平性分析を行い,マルチタスク学習に基づくバイアス軽減手法を提案する。 本手法は認識的不確実性の概念とモデル重みと特徴空間表現との関係に基づいている。 その結果, 不安予測モデルでは, 年齢, 所得, 民族, および米国生まれか否かのバイアスがみられ, バイアス緩和手法は, 再強調緩和手法と比較して, モデルのバイアス低減効果が良好であった。 特徴的重要性に関する分析は、心拍変動と複数集団群との関係の同定にも役立った。

There has been an increase in research in developing machine learning models for mental health detection or prediction in recent years due to increased mental health issues in society. Effective use of mental health prediction or detection models can help mental health practitioners re-define mental illnesses more objectively than currently done, and identify illnesses at an earlier stage when interventions may be more effective. However, there is still a lack of standard in evaluating bias in such machine learning models in the field, which leads to challenges in providing reliable predictions and in addressing disparities. This lack of standards persists due to factors such as technical difficulties, complexities of high dimensional clinical health data, etc., which are especially true for physiological signals. This along with prior evidence of relations between some physiological signals with certain demographic identities restates the importance of exploring bias in mental health prediction models that utilize physiological signals. In this work, we aim to perform a fairness analysis and implement a multi-task learning based bias mitigation method on anxiety prediction models using ECG data. Our method is based on the idea of epistemic uncertainty and its relationship with model weights and feature space representation. Our analysis showed that our anxiety prediction base model introduced some bias with regards to age, income, ethnicity, and whether a participant is born in the U.S. or not, and our bias mitigation method performed better at reducing the bias in the model, when compared to the reweighting mitigation technique. Our analysis on feature importance also helped identify relationships between heart rate variability and multiple demographic groupings.
翻訳日:2022-08-09 13:42:29 公開日:2022-08-07
# 細粒度エゴセントリック・オブジェクト・セグメンテーション:データセット,モデル,応用

Fine-Grained Egocentric Hand-Object Segmentation: Dataset, Model, and Applications ( http://arxiv.org/abs/2208.03826v1 )

ライセンス: Link先を確認
Lingzhi Zhang, Shenghao Zhou, Simon Stent, Jianbo Shi(参考訳) エゴセントリックビデオは人間の行動の高忠実度モデリングのためのきめ細かい情報を提供する。 手と相互作用するオブジェクトは、視聴者の行動や意図を理解する上で重要な側面である。 11,243枚のエゴセントリックな画像からなるラベル付きデータセットを,多種多様な日常活動において操作される手と物体の画素ごとのセグメンテーションラベルで提供する。 私たちのデータセットは、ハンドオブジェクトの接触境界をラベル付けした最初のものです。 本稿では,非配信型YouTubeエゴセントリックビデオに適応するためのコンテクスト対応合成データ拡張手法を提案する。 提案手法は,手の状態分類,映像アクティビティ認識,手対象インタラクションの3次元メッシュ再構成,自己中心型ビデオにおける手対象前景の映像インペインティングなど,いくつかの下流ビジョンアプリケーションを強化・有効化する基礎的ツールとして機能することを示す。 データセットとコードは、https://github.com/owenzlz/egohosで利用可能である。

Egocentric videos offer fine-grained information for high-fidelity modeling of human behaviors. Hands and interacting objects are one crucial aspect of understanding a viewer's behaviors and intentions. We provide a labeled dataset consisting of 11,243 egocentric images with per-pixel segmentation labels of hands and objects being interacted with during a diverse array of daily activities. Our dataset is the first to label detailed hand-object contact boundaries. We introduce a context-aware compositional data augmentation technique to adapt to out-of-distribution YouTube egocentric video. We show that our robust hand-object segmentation model and dataset can serve as a foundational tool to boost or enable several downstream vision applications, including hand state classification, video activity recognition, 3D mesh reconstruction of hand-object interactions, and video inpainting of hand-object foregrounds in egocentric videos. Dataset and code are available at: https://github.com/owenzlz/EgoHOS
翻訳日:2022-08-09 13:33:54 公開日:2022-08-07
# pdo-s3dcnns:偏微分作用素に基づく3次元cnn

PDO-s3DCNNs: Partial Differential Operator Based Steerable 3D CNNs ( http://arxiv.org/abs/2208.03720v1 )

ライセンス: Link先を確認
Zhengyang Shen, Tao Hong, Qi She, Jinwen Ma, Zhouchen Lin(参考訳) ステアブルモデルは、表現論と特徴体の言語における同値要件を定式化することによって、非常に一般的で柔軟な等式を提供できる。 しかし、3次元回転のより複雑な数学のために、3次元回転のステアブルモデルを導出することは2次元回転よりもずっと難しい。 本研究では、3Dフィルタをモデル化するために偏微分演算子(PDO)を用い、PDO-s3DCNNと呼ばれる一般的な3D CNNを導出する。 等変フィルタは線形制約の対象であり, 様々な条件下で効率的に解けることを示す。 我々の知る限り、PDO-s3DCNNは3次元回転のための最も一般的な操舵可能なCNNであり、それらは$SO(3)$とその表現のすべての共通部分群をカバーしているが、既存のメソッドは特定のグループや表現にのみ適用できる。 また,SHREC'17検索やISBI 2012セグメンテーションタスクにおいて,ネットワークの複雑さを低く抑えながら,従来よりも優れた結果が得られることを示した。

Steerable models can provide very general and flexible equivariance by formulating equivariance requirements in the language of representation theory and feature fields, which has been recognized to be effective for many vision tasks. However, deriving steerable models for 3D rotations is much more difficult than that in the 2D case, due to more complicated mathematics of 3D rotations. In this work, we employ partial differential operators (PDOs) to model 3D filters, and derive general steerable 3D CNNs, which are called PDO-s3DCNNs. We prove that the equivariant filters are subject to linear constraints, which can be solved efficiently under various conditions. As far as we know, PDO-s3DCNNs are the most general steerable CNNs for 3D rotations, in the sense that they cover all common subgroups of $SO(3)$ and their representations, while existing methods can only be applied to specific groups and representations. Extensive experiments show that our models can preserve equivariance well in the discrete domain, and outperform previous works on SHREC'17 retrieval and ISBI 2012 segmentation tasks with a low network complexity.
翻訳日:2022-08-09 13:28:01 公開日:2022-08-07
# 行列推論によるロバスト多対象追跡

Robust Multi-Object Tracking by Marginal Inference ( http://arxiv.org/abs/2208.03727v1 )

ライセンス: Link先を確認
Yifu Zhang, Chunyu Wang, Xinggang Wang, Wenjun Zeng, Wenyu Liu(参考訳) ビデオ内のマルチオブジェクトトラッキングは、隣接するフレーム内のオブジェクト間の1対1の割り当てという根本的な問題を解決する必要がある。 ほとんどの方法は、まず特徴距離がしきい値より大きい不可能ペアを破棄し、次にハンガリーのアルゴリズムでオブジェクトをリンクして全体距離を最小化する。 しかし,Re-ID特徴量から計算した距離の分布は動画によって大きく異なる可能性がある。 ですから、不可能なペアを安全に破棄できる最適なしきい値はありません。 この問題に対処するために,各対象に対する限界確率をリアルタイムで計算する効率的な手法を提案する。 限界確率は、元の特徴距離よりもかなり安定な正規化距離と見なすことができる。 その結果、すべてのビデオに単一のしきい値を使うことができます。 このアプローチは一般的なものであり、既存のトラッカーに適用でき、idf1メトリックで約1ポイントの改善が得られる。 MOT17とMOT20ベンチマークで競合する結果を得る。 さらに、計算確率はより解釈可能であり、その後の処理操作が容易になる。

Multi-object tracking in videos requires to solve a fundamental problem of one-to-one assignment between objects in adjacent frames. Most methods address the problem by first discarding impossible pairs whose feature distances are larger than a threshold, followed by linking objects using Hungarian algorithm to minimize the overall distance. However, we find that the distribution of the distances computed from Re-ID features may vary significantly for different videos. So there isn't a single optimal threshold which allows us to safely discard impossible pairs. To address the problem, we present an efficient approach to compute a marginal probability for each pair of objects in real time. The marginal probability can be regarded as a normalized distance which is significantly more stable than the original feature distance. As a result, we can use a single threshold for all videos. The approach is general and can be applied to the existing trackers to obtain about one point improvement in terms of IDF1 metric. It achieves competitive results on MOT17 and MOT20 benchmarks. In addition, the computed probability is more interpretable which facilitates subsequent post-processing operations.
翻訳日:2022-08-09 13:27:41 公開日:2022-08-07
# PS-NeRV:ビデオのためのパッチワイズスティル化ニューラル表現

PS-NeRV: Patch-wise Stylized Neural Representations for Videos ( http://arxiv.org/abs/2208.03742v1 )

ライセンス: Link先を確認
Yunpeng Bai, Chao Dong, Cairong Wang(参考訳) 暗黙的ニューラル表現(INR)を用いたビデオの表現法について検討する。 古典的なINR法は一般的にMLPを用いて入力座標をマッピングしてピクセルを出力する。 最近の作品では画像全体をCNNで再構築しようと試みているものもある。 しかし,上述の画素戦略と画像戦略の両方がビデオデータには不適当であると主張する。 そこで本研究では,パッチの関数としてビデオを表現するps-nervを提案する。 画像ワイド手法の利点を自然に受け継ぎ、高速な復号速度で優れた復号性能を実現する。 メソッド全体は、位置埋め込み、MLP、CNNなどの従来のモジュールを含み、また中間機能を強化するためにAdaINも導入されている。 これらの単純な変更は、ネットワークを高周波の詳細に簡単に適合させるのに役立つだろう。 広範にわたる実験は、ビデオ圧縮やビデオインパインティングなどのビデオ関連タスクにおいて、その効果を実証している。

We study how to represent a video with implicit neural representations (INRs). Classical INRs methods generally utilize MLPs to map input coordinates to output pixels. While some recent works have tried to directly reconstruct the whole image with CNNs. However, we argue that both the above pixel-wise and image-wise strategies are not favorable to video data. Instead, we propose a patch-wise solution, PS-NeRV, which represents videos as a function of patches and the corresponding patch coordinate. It naturally inherits the advantages of image-wise methods, and achieves excellent reconstruction performance with fast decoding speed. The whole method includes conventional modules, like positional embedding, MLPs and CNNs, while also introduces AdaIN to enhance intermediate features. These simple yet essential changes could help the network easily fit high-frequency details. Extensive experiments have demonstrated its effectiveness in several video-related tasks, such as video compression and video inpainting.
翻訳日:2022-08-09 13:27:24 公開日:2022-08-07
# 非バイアスシーングラフ生成のためのラベル意味知識蒸留

Label Semantic Knowledge Distillation for Unbiased Scene Graph Generation ( http://arxiv.org/abs/2208.03763v1 )

ライセンス: Link先を確認
Lin Li, Long Chen, Hanrong Shi, Wenxiao Wang, Jian Shao, Yi Yang, Jun Xiao(参考訳) シーングラフ生成(SGG)タスクは、与えられた画像内のすべてのオブジェクトとそのペアの視覚的関係を検出することを目的としている。 SGGはここ数年で顕著な進歩を遂げてきたが、既存のSGGモデルのほとんどは、SGGのオブジェクト分類と述語分類の両方を単一ラベルの分類問題として扱い、1ホットのターゲットラベルである。 しかし、この一般的なトレーニングパラダイムは、現在のSGGデータセットの2つの特徴を見落としている。 1) 正の試料については, 特定の対象物に複数の合理的な述語がある場合がある。 2) 負のサンプルでは、多くのアノテーションが欠落している。 2つの特徴にかかわらず、SGGモデルは容易に混乱し、誤った予測をする。 そこで本研究では,非バイアスSGGのためのモデル非依存型ラベルセマンティック知識蒸留(LS-KD)を提案する。 具体的には、LS-KDは、予測されたラベル意味分布(LSD)を元の1ホットターゲットラベルと融合することにより、各対象物に対してソフトラベルを動的に生成する。 LSDは、このインスタンスと複数の述語カテゴリの相関を反映している。 一方,LSDの予測には,反復的自己KDと同期的自己KDの2つの戦略を提案する。 3つのSGGタスクの大幅な改善と結果が提案したLS-KDの優越性と汎用性を証明した。

The Scene Graph Generation (SGG) task aims to detect all the objects and their pairwise visual relationships in a given image. Although SGG has achieved remarkable progress over the last few years, almost all existing SGG models follow the same training paradigm: they treat both object and predicate classification in SGG as a single-label classification problem, and the ground-truths are one-hot target labels. However, this prevalent training paradigm has overlooked two characteristics of current SGG datasets: 1) For positive samples, some specific subject-object instances may have multiple reasonable predicates. 2) For negative samples, there are numerous missing annotations. Regardless of the two characteristics, SGG models are easy to be confused and make wrong predictions. To this end, we propose a novel model-agnostic Label Semantic Knowledge Distillation (LS-KD) for unbiased SGG. Specifically, LS-KD dynamically generates a soft label for each subject-object instance by fusing a predicted Label Semantic Distribution (LSD) with its original one-hot target label. LSD reflects the correlations between this instance and multiple predicate categories. Meanwhile, we propose two different strategies to predict LSD: iterative self-KD and synchronous self-KD. Extensive ablations and results on three SGG tasks have attested to the superiority and generality of our proposed LS-KD, which can consistently achieve decent trade-off performance between different predicate categories.
翻訳日:2022-08-09 13:27:09 公開日:2022-08-07
# スタイルGANにおける潜在空間の階層的意味正規化

Hierarchical Semantic Regularization of Latent Spaces in StyleGANs ( http://arxiv.org/abs/2208.03764v1 )

ライセンス: Link先を確認
Tejan Karmali, Rishubh Parihar, Susmit Agrawal, Harsh Rangwani, Varun Jampani, Maneesh Singh, R. Venkatesh Babu(参考訳) GANの進歩により、驚くべき品質の高解像度フォトリアリスティック画像の生成が可能になった。 StyleGANは、W/W+空間の潜在スタイルベクトルの数学的操作を通じて、そのような画像に対する魅力的な属性修正を可能にし、ジェネレータの豊富な階層表現を効果的に変調する。 このような操作は、元々のstyleganの論文で補間を含むために単なる属性スワップを超えて、最近一般化された。 StyleGANは大幅に改善されているが、いまだに不自然な画像を生成する。 生成された画像の品質は2つの仮定で予測される。 (a)ジェネレータによって学習された階層表現の豊かさ、及び (b)スタイル空間の線型性と滑らか性。 本研究では,生成者が学習する階層的表現を,大量のデータに対して事前学習したネットワークによって学習される強力な特徴に対応づける階層的意味正規化器(hsr)を提案する。 HSRは、ジェネレータ表現の改善だけでなく、潜在スタイル空間の線形性と滑らかさも示しており、より自然なスタイル編集画像の生成につながっている。 線形性の向上を示すために,新しい指標-属性線形性スコア(als)を提案する。 不自然な画像の生成の大幅な削減は、異なる標準データセット間で平均16.19%の知覚パス長(PPL)メートル法の改善と、属性編集タスクにおける属性変更の線形性の改善によって裏付けられている。

Progress in GANs has enabled the generation of high-resolution photorealistic images of astonishing quality. StyleGANs allow for compelling attribute modification on such images via mathematical operations on the latent style vectors in the W/W+ space that effectively modulate the rich hierarchical representations of the generator. Such operations have recently been generalized beyond mere attribute swapping in the original StyleGAN paper to include interpolations. In spite of many significant improvements in StyleGANs, they are still seen to generate unnatural images. The quality of the generated images is predicated on two assumptions; (a) The richness of the hierarchical representations learnt by the generator, and, (b) The linearity and smoothness of the style spaces. In this work, we propose a Hierarchical Semantic Regularizer (HSR) which aligns the hierarchical representations learnt by the generator to corresponding powerful features learnt by pretrained networks on large amounts of data. HSR is shown to not only improve generator representations but also the linearity and smoothness of the latent style spaces, leading to the generation of more natural-looking style-edited images. To demonstrate improved linearity, we propose a novel metric - Attribute Linearity Score (ALS). A significant reduction in the generation of unnatural images is corroborated by improvement in the Perceptual Path Length (PPL) metric by 16.19% averaged across different standard datasets while simultaneously improving the linearity of attribute-change in the attribute editing tasks.
翻訳日:2022-08-09 13:26:48 公開日:2022-08-07
# 深層学習を用いた映像ベースヒューマンアクション認識:レビュー

Video-based Human Action Recognition using Deep Learning: A Review ( http://arxiv.org/abs/2208.03775v1 )

ライセンス: Link先を確認
Hieu H. Pham, Louahdi Khoudour, Alain Crouzil, Pablo Zegers, Sergio A. Velastin(参考訳) ヒューマンアクション認識はコンピュータビジョンの重要な応用領域である。 その主な目的は、センサが取得した未確認データシーケンスから、人間の行動とその相互作用を正確に記述することである。 複雑な人間の行動を認識し、理解し、予測する能力は、インテリジェントな監視システム、ヒューマンコンピュータインターフェース、医療、セキュリティ、軍事アプリケーションなど、多くの重要なアプリケーションの構築を可能にする。 近年、ディープラーニングはコンピュータビジョンコミュニティによって特に注目されている。 本稿では,深層学習技術を用いた映像解析による行動認識の現状について概説する。 本稿では,人間の行動を認識するための最も重要な深層学習モデルを提示し,その利点と欠点を強調するリアルビデオにおける人間の行動認識問題を解決するために応用される深層学習アルゴリズムの進歩を解析する。 本研究は,文献に報告されている認識能力を用いた定量的分析に基づいて,行動認識における最先端の深層アーキテクチャを同定し,今後の動向と今後の課題について述べる。

Human action recognition is an important application domain in computer vision. Its primary aim is to accurately describe human actions and their interactions from a previously unseen data sequence acquired by sensors. The ability to recognize, understand, and predict complex human actions enables the construction of many important applications such as intelligent surveillance systems, human-computer interfaces, health care, security, and military applications. In recent years, deep learning has been given particular attention by the computer vision community. This paper presents an overview of the current state-of-the-art in action recognition using video analysis with deep learning techniques. We present the most important deep learning models for recognizing human actions, and analyze them to provide the current progress of deep learning algorithms applied to solve human action recognition problems in realistic videos highlighting their advantages and disadvantages. Based on the quantitative analysis using recognition accuracies reported in the literature, our study identifies state-of-the-art deep architectures in action recognition and then provides current trends and open problems for future works in this field.
翻訳日:2022-08-09 13:26:25 公開日:2022-08-07
# 長鎖頸部細胞検出のための試料硬度に基づく勾配損失

Sample hardness based gradient loss for long-tailed cervical cell detection ( http://arxiv.org/abs/2208.03779v1 )

ライセンス: Link先を確認
Minmin Liu, Xuechen Li, Xiangbo Gao, Junliang Chen, Linlin Shen, Huisi Wu(参考訳) がんサンプルの収集とアノテーションの難しさから、頸部がんデータセットは通常、ロングテールデータ分布を示す。 TCT(Thinprep Cytology Test)検体から採取したWSI(Whole Slice Image)画像中のがん細胞を検出するための検出器を訓練する場合、頭部分類(例:正常細胞と炎症細胞)は通常、尾分類(例:がん細胞)よりもはるかに多くのサンプルを持つ。 オブジェクト検出における既存の最先端の長期学習手法は、各サンプルの「硬さ」を考慮せずに、カテゴリ分布統計に焦点をあてて長期シナリオの問題を解決する。 この問題に対処するため、本研究では、勾配を利用して各試料の硬度を異なるカテゴリで動的に調整し、正および負の試料の勾配を再調整するグラッド・リブラ損失を提案する。 我々の損失は、検出器が頭と尾の両方でこれらの硬いサンプルをより強調するのに役立ちます。 長い尾を持つTCT WSI画像データセットの大規模な実験によると、主流検出器(RepPoints、FCOS、ATSS、YOLOFなど)は、我々の提案したGradient-Libra Lossを用いてトレーニングされ、クロスエントロピー分類損失を用いてトレーニングされたものよりもはるかに高い(7.8%)mAPを達成した。

Due to the difficulty of cancer samples collection and annotation, cervical cancer datasets usually exhibit a long-tailed data distribution. When training a detector to detect the cancer cells in a WSI (Whole Slice Image) image captured from the TCT (Thinprep Cytology Test) specimen, head categories (e.g. normal cells and inflammatory cells) typically have a much larger number of samples than tail categories (e.g. cancer cells). Most existing state-of-the-art long-tailed learning methods in object detection focus on category distribution statistics to solve the problem in the long-tailed scenario without considering the "hardness" of each sample. To address this problem, in this work we propose a Grad-Libra Loss that leverages the gradients to dynamically calibrate the degree of hardness of each sample for different categories, and re-balance the gradients of positive and negative samples. Our loss can thus help the detector to put more emphasis on those hard samples in both head and tail categories. Extensive experiments on a long-tailed TCT WSI image dataset show that the mainstream detectors, e.g. RepPoints, FCOS, ATSS, YOLOF, etc. trained using our proposed Gradient-Libra Loss, achieved much higher (7.8%) mAP than that trained using cross-entropy classification loss.
翻訳日:2022-08-09 13:26:07 公開日:2022-08-07
# 3dポイントクラウド解析のためのグローバル階層的注意

Global Hierarchical Attention for 3D Point Cloud Analysis ( http://arxiv.org/abs/2208.03791v1 )

ライセンス: Link先を確認
Dan Jia and Alexander Hermans and Bastian Leibe(参考訳) 我々は,GHA(Global Hierarchical Attention)と呼ばれる3Dポイントクラウド解析のための新しい注意機構を提案する。 GHAは、複数の階層レベルの粗い操作と補間操作を通じて、通常のグローバルドット積の注意を近似する。 GHAの利点は2倍である。 まず、点数に関して線形複雑性を持ち、大きな点雲の処理を可能にする。 第2に、GHAは本質的にすべての点間のグローバル接続を維持しながら、空間的近接点にフォーカスする帰納バイアスを持つ。 フィードフォワードネットワークと組み合わせることで、GHAは多くの既存のネットワークアーキテクチャに挿入することができる。 我々は複数のベースラインネットワークで実験を行い、GHAの追加はさまざまなタスクやデータセットのパフォーマンスを継続的に改善することを示した。 セマンティックセグメンテーションのタスクでは、GHAはScanNet上のMinkowskiEngineベースラインに+1.7%のmIoU増加を与える。 3Dオブジェクト検出タスクでは、GHAはCenterPointベースラインをnuScenesデータセットで+0.5% mAP、ScanNetで+2.1% mAP25と+1.5% mAP50で改善する。

We propose a new attention mechanism, called Global Hierarchical Attention (GHA), for 3D point cloud analysis. GHA approximates the regular global dot-product attention via a series of coarsening and interpolation operations over multiple hierarchy levels. The advantage of GHA is two-fold. First, it has linear complexity with respect to the number of points, enabling the processing of large point clouds. Second, GHA inherently possesses the inductive bias to focus on spatially close points, while retaining the global connectivity among all points. Combined with a feedforward network, GHA can be inserted into many existing network architectures. We experiment with multiple baseline networks and show that adding GHA consistently improves performance across different tasks and datasets. For the task of semantic segmentation, GHA gives a +1.7% mIoU increase to the MinkowskiEngine baseline on ScanNet. For the 3D object detection task, GHA improves the CenterPoint baseline by +0.5% mAP on the nuScenes dataset, and the 3DETR baseline by +2.1% mAP25 and +1.5% mAP50 on ScanNet.
翻訳日:2022-08-09 13:25:41 公開日:2022-08-07
# 領域ランダム化による深度シミュレーションと特異および透明物体の知覚と粒度復元

Domain Randomization-Enhanced Depth Simulation and Restoration for Perceiving and Grasping Specular and Transparent Objects ( http://arxiv.org/abs/2208.03792v1 )

ライセンス: Link先を確認
Qiyu Dai, Jiyao Zhang, Qiwei Li, Tianhao Wu, Hao Dong, Ziyuan Liu, Ping Tan, He Wang(参考訳) 商用の深度センサーは、通常ノイズや欠損した深度を生じさせ、特に特異で透明な物体に対して発生し、下流の深度やクラウドベースのタスクに重大な問題を引き起こす。 この問題を軽減するため,深度復元のための強力なRGBD融合ネットワークSwinDRNetを提案する。 さらにドメインランダム化強化深度シミュレーション(DREDS)アプローチを提案し、物理ベースレンダリングを用いたアクティブステレオ深度システムのシミュレートを行い、130K光現実的RGB画像を含む大規模な合成データセットと、現実的なセンサノイズを含むシミュレーション深度を生成する。 深度復元の手法を評価するために,50個のオブジェクトからなる30個の乱雑なシーンを,仕様,透明,拡散などの異なる素材で収集する実世界のデータセットSTDをキュレートした。 提案するdredsデータセットは,deds上でトレーニングされたswindrnetを,cleargraspなど他の実深度データセットにシームレスに一般化し,リアルタイム速度で奥行き復元の競合手法を上回らせるように,sim-to-realドメインギャップを橋渡しする。 さらに,我々の深度復元は,カテゴリーレベルのポーズ推定や把握タスクを含む下流タスクの性能を効果的に向上させることを示す。 我々のデータとコードはhttps://github.com/PKU-EPIC/DREDSで入手できる。

Commercial depth sensors usually generate noisy and missing depths, especially on specular and transparent objects, which poses critical issues to downstream depth or point cloud-based tasks. To mitigate this problem, we propose a powerful RGBD fusion network, SwinDRNet, for depth restoration. We further propose Domain Randomization-Enhanced Depth Simulation (DREDS) approach to simulate an active stereo depth system using physically based rendering and generate a large-scale synthetic dataset that contains 130K photorealistic RGB images along with their simulated depths carrying realistic sensor noises. To evaluate depth restoration methods, we also curate a real-world dataset, namely STD, that captures 30 cluttered scenes composed of 50 objects with different materials from specular, transparent, to diffuse. Experiments demonstrate that the proposed DREDS dataset bridges the sim-to-real domain gap such that, trained on DREDS, our SwinDRNet can seamlessly generalize to other real depth datasets, e.g. ClearGrasp, and outperform the competing methods on depth restoration with a real-time speed. We further show that our depth restoration effectively boosts the performance of downstream tasks, including category-level pose estimation and grasping tasks. Our data and code are available at https://github.com/PKU-EPIC/DREDS
翻訳日:2022-08-09 13:25:20 公開日:2022-08-07
# マウス社会行動の表現学習のためのクロス骨格相互作用グラフ集約ネットワーク

Cross-Skeleton Interaction Graph Aggregation Network for Representation Learning of Mouse Social Behaviour ( http://arxiv.org/abs/2208.03819v1 )

ライセンス: Link先を確認
Feixiang Zhou, Xinyu Yang, Fang Chen, Long Chen, Zheheng Jiang, Hui Zhu, Reiko Heckel, Haikuan Wang, Minrui Fei and Huiyu Zhou(参考訳) マウスの自動行動分析は、行動神経科学においてますます人気のある研究領域となっている。 近年、マウスの社会的行動を解釈するためにポーズ情報(すなわちキーポイントや骨格の位置)が用いられている。 それにもかかわらず、マウスのキーポイントを支える社会的相互作用情報の効果的な符号化と復号化は、既存の方法ではほとんど研究されていない。 特に、高度に変形可能な体型とあいまいな動きパターンにより、マウス間の複雑な社会的相互作用をモデル化することは困難である。 相互作用モデリング問題に対処するため、クロス骨格相互作用グラフ集約ネットワーク(CS-IGANet)を提案し、クロス骨格ノードレベル相互作用モジュール(CS-NLI)を用いてマルチレベル相互作用(イントラ、インタースケルトン相互作用、クロススケルトン相互作用)をモデル化する。 さらに,新たな対話認識変換器 (Interaction-Aware Transformer, IAT) を設計し, グラフレベルの社会行動表現を動的に学習し, ノードレベルの表現を更新する。 最後に,モデルの表現能力を高めるために,クロススケルトンノード間の類似度を測定するための自己教師付き学習タスクを提案する。 標準crmi13-skeletonとpdmb-skeletonデータセットの実験結果から,提案手法は他の手法よりも優れていることが示された。

Automated social behaviour analysis of mice has become an increasingly popular research area in behavioural neuroscience. Recently, pose information (i.e., locations of keypoints or skeleton) has been used to interpret social behaviours of mice. Nevertheless, effective encoding and decoding of social interaction information underlying the keypoints of mice has been rarely investigated in the existing methods. In particular, it is challenging to model complex social interactions between mice due to highly deformable body shapes and ambiguous movement patterns. To deal with the interaction modelling problem, we here propose a Cross-Skeleton Interaction Graph Aggregation Network (CS-IGANet) to learn abundant dynamics of freely interacting mice, where a Cross-Skeleton Node-level Interaction module (CS-NLI) is used to model multi-level interactions (i.e., intra-, inter- and cross-skeleton interactions). Furthermore, we design a novel Interaction-Aware Transformer (IAT) to dynamically learn the graph-level representation of social behaviours and update the node-level representation, guided by our proposed interaction-aware self-attention mechanism. Finally, to enhance the representation ability of our model, an auxiliary self-supervised learning task is proposed for measuring the similarity between cross-skeleton nodes. Experimental results on the standard CRMI13-Skeleton and our PDMB-Skeleton datasets show that our proposed model outperforms several other state-of-the-art approaches.
翻訳日:2022-08-09 13:24:52 公開日:2022-08-07
# シームズ表現による360度ビデオにおける全方位流れの学習

Learning Omnidirectional Flow in 360-degree Video via Siamese Representation ( http://arxiv.org/abs/2208.03620v1 )

ライセンス: Link先を確認
Keshav Bhandari, Bin Duan, Gaowen Liu, Hugo Latapie, Ziliang Zong, Yan Yan(参考訳) 全方向ビデオにおける光学的フロー推定は、ベンチマークデータセットの欠如と、全方向の性質を満たすために視点ビデオベースの手法を適用することの2つの大きな問題に直面している。 本稿では,360度視野のフロー360と40種類のビデオと4,000本のビデオフレームを備えた,初めて知覚的に自然合成された全方位ベンチマークデータセットを提案する。 当社のデータセットと既存の光フローデータセットの包括的特徴解析と比較を行い,知覚的リアリズム,一意性,多様性を呈する。 全方向性に対応するため,SLOF(Omnidirectional Flow)のための新しいSiamese表現学習フレームワークを提案する。 我々は、コントラスト損失と光フロー損失を組み合わせたハイブリッド損失関数を用いて、コントラスト方式でネットワークを訓練する。 大規模な実験により提案されたフレームワークの有効性が検証され、最先端のアプローチよりも40%パフォーマンスが向上した。 flow360のデータセットとコードは、https://siamlof.github.io/で利用可能です。

Optical flow estimation in omnidirectional videos faces two significant issues: the lack of benchmark datasets and the challenge of adapting perspective video-based methods to accommodate the omnidirectional nature. This paper proposes the first perceptually natural-synthetic omnidirectional benchmark dataset with a 360-degree field of view, FLOW360, with 40 different videos and 4,000 video frames. We conduct comprehensive characteristic analysis and comparisons between our dataset and existing optical flow datasets, which manifest perceptual realism, uniqueness, and diversity. To accommodate the omnidirectional nature, we present a novel Siamese representation Learning framework for Omnidirectional Flow (SLOF). We train our network in a contrastive manner with a hybrid loss function that combines contrastive loss and optical flow loss. Extensive experiments verify the proposed framework's effectiveness and show up to 40% performance improvement over the state-of-the-art approaches. Our FLOW360 dataset and code are available at https://siamlof.github.io/.
翻訳日:2022-08-09 13:20:28 公開日:2022-08-07
# グラフR-CNN:Semantic-Decorated Local Graphを用いた高精度3次元オブジェクト検出を目指して

Graph R-CNN: Towards Accurate 3D Object Detection with Semantic-Decorated Local Graph ( http://arxiv.org/abs/2208.03624v1 )

ライセンス: Link先を確認
Honghui Yang, Zili Liu, Xiaopei Wu, Wenxiao Wang, Wei Qian, Xiaofei He, Deng Cai(参考訳) 2段検出器は3d物体検出で大きな人気を集めている。 ほとんどの2段階の3d検出器は、第2段階のroi特徴抽出にグリッドポイント、ボクセルグリッド、サンプルキーポイントを使用する。 しかし、そのような手法は不均等に分散した屋外の点を扱うのに非効率である。 本稿ではこの問題を3つの側面で解決する。 1)動的ポイントアグリゲーション。 本稿では,各3次元提案に対して局所領域の点を高速に探索するパッチ探索を提案する。 次に、動的極端ボクセルサンプリングを適用して点を均等にサンプリングする。 特に、ボクセルサイズは点の不均一分布に対応するために距離に沿って変化する。 2)roiグラフプーリング。 サンプルポイント上にローカルグラフを構築し,反復的なメッセージパッシングによるコンテキスト情報とマイニングポイントの関係をモデル化する。 3)視覚機能強化。 本稿では,LiDAR点を限定的な意味的手がかりで補うための,単純かつ効果的な融合戦略を提案する。 これらのモジュールに基づいてグラフR-CNNを第2段階として構築し、既存の1段検出器に適用して検出性能を継続的に改善する。 大規模な実験により、Graph R-CNNは、最先端の3D検出モデルよりも、KITTIとWaymo Open Datasetに大きな差があることが示されている。 そして、KITTI BEV車検出リーダーボードで1位にランクインする。 コードは \url{https://github.com/Nightmare-n/GraphRCNN} で入手できる。

Two-stage detectors have gained much popularity in 3D object detection. Most two-stage 3D detectors utilize grid points, voxel grids, or sampled keypoints for RoI feature extraction in the second stage. Such methods, however, are inefficient in handling unevenly distributed and sparse outdoor points. This paper solves this problem in three aspects. 1) Dynamic Point Aggregation. We propose the patch search to quickly search points in a local region for each 3D proposal. The dynamic farthest voxel sampling is then applied to evenly sample the points. Especially, the voxel size varies along the distance to accommodate the uneven distribution of points. 2) RoI-graph Pooling. We build local graphs on the sampled points to better model contextual information and mine point relations through iterative message passing. 3) Visual Features Augmentation. We introduce a simple yet effective fusion strategy to compensate for sparse LiDAR points with limited semantic cues. Based on these modules, we construct our Graph R-CNN as the second stage, which can be applied to existing one-stage detectors to consistently improve the detection performance. Extensive experiments show that Graph R-CNN outperforms the state-of-the-art 3D detection models by a large margin on both the KITTI and Waymo Open Dataset. And we rank first place on the KITTI BEV car detection leaderboard. Code will be available at \url{https://github.com/Nightmare-n/GraphRCNN}.
翻訳日:2022-08-09 13:20:12 公開日:2022-08-07
# 協調探索と一般化によるラベル効率ドメイン一般化

Label-Efficient Domain Generalization via Collaborative Exploration and Generalization ( http://arxiv.org/abs/2208.03644v1 )

ライセンス: Link先を確認
Junkun Yuan, Xu Ma, Defang Chen, Kun Kuang, Fei Wu, Lanfen Lin(参考訳) 複数の注釈付きソースドメインから未知のターゲットドメインへの一般化可能なモデルを学習することを目的としたドメイン一般化(DG)において、考慮すべき進歩がなされている。 しかし、多くの実際のシナリオでソースデータセットに十分なアノテーションを得ることは、非常に高価である。 本稿では、ドメインの一般化とアノテーションコストのジレンマから逃れるために、ラベル制限されたソースドメインによるモデル一般化を実現するためのラベル効率ドメイン一般化(LEDG)という新しいタスクを導入する。 この課題に対処するために,能動探索と半教師付き一般化を共同で最適化する共同探索・一般化(CEG)と呼ばれる新しいフレームワークを提案する。 具体的には、情報ばらつきや冗長性を避けつつ、クラスとドメインの識別可能性を探究するために、クラス不確実性、ドメイン代表性、情報の多様性の総合的なランキングでサンプルのラベルを問い合わせる。 半教師付き一般化では、ドメイン知識を拡張しドメイン不変性を一般化するために、MixUpベースのドメイン内およびドメイン間知識拡張を設計する。 我々は,積極的な探索と半教師付き一般化を協調的に統合し,両者の相互強化を促進し,限定的なアノテーションでモデルの一般化を促進する。 広範な実験により、cegは優れた一般化性能をもたらすことが示されている。 特に、CEGは、PACSデータセットに完全にラベル付けされたデータを持つ以前のDGメソッドと比較して、競合的な結果を得るために、5%のデータアノテーション予算しか使用できない。

Considerable progress has been made in domain generalization (DG) which aims to learn a generalizable model from multiple well-annotated source domains to unknown target domains. However, it can be prohibitively expensive to obtain sufficient annotation for source datasets in many real scenarios. To escape from the dilemma between domain generalization and annotation costs, in this paper, we introduce a novel task named label-efficient domain generalization (LEDG) to enable model generalization with label-limited source domains. To address this challenging task, we propose a novel framework called Collaborative Exploration and Generalization (CEG) which jointly optimizes active exploration and semi-supervised generalization. Specifically, in active exploration, to explore class and domain discriminability while avoiding information divergence and redundancy, we query the labels of the samples with the highest overall ranking of class uncertainty, domain representativeness, and information diversity. In semi-supervised generalization, we design MixUp-based intra- and inter-domain knowledge augmentation to expand domain knowledge and generalize domain invariance. We unify active exploration and semi-supervised generalization in a collaborative way and promote mutual enhancement between them, boosting model generalization with limited annotation. Extensive experiments show that CEG yields superior generalization performance. In particular, CEG can even use only 5% data annotation budget to achieve competitive results compared to the previous DG methods with fully labeled data on PACS dataset.
翻訳日:2022-08-09 13:19:50 公開日:2022-08-07
# 高速オンラインとリレーショナルトラッキング

Fast Online and Relational Tracking ( http://arxiv.org/abs/2208.03659v1 )

ライセンス: Link先を確認
Mohammad Hossein Nasseri, Mohammadreza Babaee, Hadi Moradi, Reshad Hosseini(参考訳) 複数のオブジェクト追跡タスクの課題を克服するために、最近のアルゴリズムでは、動きと外観の特徴とともにインタラクションキューを使用している。 これらのアルゴリズムはグラフニューラルネットワークやトランスフォーマーを使用して、高い計算コストにつながるインタラクション機能を抽出する。 本稿では, 計算コストの低さにより, 咬合の検出と失われた目標の再同定を目的とした, 幾何学的特徴に基づく新たなインタラクションキューを提案する。 さらに、ほとんどのアルゴリズムでは、カメラの動きは無視できると考えられており、これは必ずしも真とは限らない強い仮定であり、目標のidスイッチやミスマッチにつながる。 本稿では,カメラの動作を計測し,その効果を除去し,トラッキングにおけるカメラの動作効果を効果的に低減する手法を提案する。 提案アルゴリズムはMOT17とMOT20のデータセットを用いて評価し,MOT17の最先端性能とMOT20の同等結果を達成する。 コードも公開されている。

To overcome challenges in multiple object tracking task, recent algorithms use interaction cues alongside motion and appearance features. These algorithms use graph neural networks or transformers to extract interaction features that lead to high computation costs. In this paper, a novel interaction cue based on geometric features is presented aiming to detect occlusion and re-identify lost targets with low computational cost. Moreover, in most algorithms, camera motion is considered negligible, which is a strong assumption that is not always true and leads to ID Switch or mismatching of targets. In this paper, a method for measuring camera motion and removing its effect is presented that efficiently reduces the camera motion effect on tracking. The proposed algorithm is evaluated on MOT17 and MOT20 datasets and it achieves the state-of-the-art performance of MOT17 and comparable results on MOT20. The code is also publicly available.
翻訳日:2022-08-09 13:19:25 公開日:2022-08-07
# CVLNet:ビデオカメラローカライゼーションのためのクロスビューセマンティック対応学習

CVLNet: Cross-View Semantic Correspondence Learning for Video-based Camera Localization ( http://arxiv.org/abs/2208.03660v1 )

ライセンス: Link先を確認
Yujiao Shi, Xin Yu, Shan Wang, Hongdong Li(参考訳) 本稿では,クロスビュー映像ベースのカメラローカライゼーション(CVL)の問題に取り組む。 タスクは、過去の観測情報、すなわち、過去のタイムスタンプで観測された画像の連続配列を活用して、それらを大きなオーバヘッドビュー衛星画像とマッチングすることで、クエリカメラをローカライズすることである。 この課題の重要な課題は、参照衛星画像とのドメインアライメントを考慮して、シーケンシャルな地上画像の強力なグローバルな特徴記述子を学習することである。 この目的のためにCVLNetを導入し、まず、地上とオーバーヘッドの幾何対応を探索し、次に投影された画像間の光の一貫性を利用してグローバルな表現を形成する。 このように、クロスビュードメインの違いは橋渡しされる。 通常、参照衛星画像は予めスキャンされ、定期的にサンプリングされるため、クエリカメラの位置と衛星画像センターとの間には常に不一致が生じている。 そこで本研究では,類似性マッチングに先立って,問合せカメラの衛星画像への相対変位を推定する手法を提案する。 この変位推定プロセスでは、カメラの位置の不確実性も考慮する。 例えば、カメラが木の上にいる可能性は低い。 提案手法の性能を評価するため,KITTIデータセット用のGoogle Mapから衛星画像を収集し,新しいクロスビュービデオベースローカライゼーションベンチマークデータセットであるKITTI-CVLを構築した。 広範にわたる実験により、単一の画像に基づくローカライズに対するビデオベースのローカライズの有効性と、提案された各モジュールが他の代替モジュールよりも優れていることが示されている。

This paper tackles the problem of Cross-view Video-based camera Localization (CVL). The task is to localize a query camera by leveraging information from its past observations, i.e., a continuous sequence of images observed at previous time stamps, and matching them to a large overhead-view satellite image. The critical challenge of this task is to learn a powerful global feature descriptor for the sequential ground-view images while considering its domain alignment with reference satellite images. For this purpose, we introduce CVLNet, which first projects the sequential ground-view images into an overhead view by exploring the ground-and-overhead geometric correspondences and then leverages the photo consistency among the projected images to form a global representation. In this way, the cross-view domain differences are bridged. Since the reference satellite images are usually pre-cropped and regularly sampled, there is always a misalignment between the query camera location and its matching satellite image center. Motivated by this, we propose estimating the query camera's relative displacement to a satellite image before similarity matching. In this displacement estimation process, we also consider the uncertainty of the camera location. For example, a camera is unlikely to be on top of trees. To evaluate the performance of the proposed method, we collect satellite images from Google Map for the KITTI dataset and construct a new cross-view video-based localization benchmark dataset, KITTI-CVL. Extensive experiments have demonstrated the effectiveness of video-based localization over single image-based localization and the superiority of each proposed module over other alternatives.
翻訳日:2022-08-09 13:19:11 公開日:2022-08-07
# ジョイントフォーマー:3次元人物位置推定のための誤差予測・補正付き単フレームリフティングトランス

Jointformer: Single-Frame Lifting Transformer with Error Prediction and Refinement for 3D Human Pose Estimation ( http://arxiv.org/abs/2208.03704v1 )

ライセンス: Link先を確認
Sebastian Lutz and Richard Blythman and Koustav Ghosal and Matthew Moynihan and Ciaran Simms and Aljosa Smolic(参考訳) 単眼の3次元ポーズ推定技術は、人間の動きデータを大幅に増加させる可能性がある。 シングルイメージ2D-3Dリフトの最高の性能モデルは、通常、異なる体節間の関係を定義するために手動入力を必要とするグラフ畳み込みネットワーク(GCN)を使用する。 本稿では,より一般化された自己着脱機構を用いて,関節を表すトークン列内でこれらの関係を学習するトランスフォーマティブ・アプローチを提案する。 また, 中間管理と, エンコーダ間の残余接続は, 性能に有益であることがわかった。 また、マルチタスク学習フレームワークの一部としてエラー予測を使用することで、ネットワークが信頼性レベルを補うことで性能を向上させることも提案する。 それぞれのコントリビューションがパフォーマンスを向上させることを示すために、広範なアブレーション研究を行います。 さらに,このアプローチは,単眼3次元人物ポーズ推定における最近の技術水準を,大きなマージンで上回っていることを示す。 私たちのコードとトレーニングされたモデルはgithubで公開されている。

Monocular 3D human pose estimation technologies have the potential to greatly increase the availability of human movement data. The best-performing models for single-image 2D-3D lifting use graph convolutional networks (GCNs) that typically require some manual input to define the relationships between different body joints. We propose a novel transformer-based approach that uses the more generalised self-attention mechanism to learn these relationships within a sequence of tokens representing joints. We find that the use of intermediate supervision, as well as residual connections between the stacked encoders benefits performance. We also suggest that using error prediction as part of a multi-task learning framework improves performance by allowing the network to compensate for its confidence level. We perform extensive ablation studies to show that each of our contributions increases performance. Furthermore, we show that our approach outperforms the recent state of the art for single-frame 3D human pose estimation by a large margin. Our code and trained models are made publicly available on Github.
翻訳日:2022-08-09 13:18:45 公開日:2022-08-07
# 多目的ベイズ大域最適化のための並列手法:改善確率のバッチ選択を用いて

A Parallel Technique for Multi-objective Bayesian Global Optimization: Using a Batch Selection of Probability of Improvement ( http://arxiv.org/abs/2208.03685v1 )

ライセンス: Link先を確認
Kaifeng Yang, Guozhi Dong, Michael Affenzeller(参考訳) ベイズ大域最適化(Bayesian Global Optimization, BGO)は、高価な評価を含む問題に対する効率的な代理支援手法である。 並列手法は、実際の目的関数を1イテレーションで並列に評価し、実行時間を向上するために使用することができる。 効果的で簡単なアプローチは、単一ポイント/ソリューションではなく、複数のソリューションの浴槽のパフォーマンスを1イテレーションで評価できる取得関数を設計することである。 本稿では,多目的ベイズ大域最適化 (MOBGO) のためのバッチ (q-PoI) において,複数点間の共分散を考慮した「改善の確率」(PoI) の5つの選択肢を提案する。 全てのq-PoIに対する正確な計算式とモンテカルロ近似アルゴリズムが提供される。 5つのq-PoIsの位置依存的挙動をパレートフロントに関連する複数の点の分布に基づいて検討した。 さらに、5つのq-PoIは、他の9つの最先端および最近提案された20のバイオオブジェクトベンチマーク上のバッチMOBGOアルゴリズムと比較される。 低次元問題に対する2つの欲望なq-pois (\kpoi_{\mbox{best}}$ および $\kpoi_{\mbox{all}}$) の有効性と、難解なパレート境界を持つ高次元問題に対する2つの探索的q-pois (\kpoi_{\mbox{one}}$ および $\kpoi_{\mbox{worst}}$) の有効性を実証する実験を行った。

Bayesian global optimization (BGO) is an efficient surrogate-assisted technique for problems involving expensive evaluations. A parallel technique can be used to parallelly evaluate the true-expensive objective functions in one iteration to boost the execution time. An effective and straightforward approach is to design an acquisition function that can evaluate the performance of a bath of multiple solutions, instead of a single point/solution, in one iteration. This paper proposes five alternatives of \emph{Probability of Improvement} (PoI) with multiple points in a batch (q-PoI) for multi-objective Bayesian global optimization (MOBGO), taking the covariance among multiple points into account. Both exact computational formulas and the Monte Carlo approximation algorithms for all proposed q-PoIs are provided. Based on the distribution of the multiple points relevant to the Pareto-front, the position-dependent behavior of the five q-PoIs is investigated. Moreover, the five q-PoIs are compared with the other nine state-of-the-art and recently proposed batch MOBGO algorithms on twenty bio-objective benchmarks. The empirical experiments on different variety of benchmarks are conducted to demonstrate the effectiveness of two greedy q-PoIs ($\kpoi_{\mbox{best}}$ and $\kpoi_{\mbox{all}}$) on low-dimensional problems and the effectiveness of two explorative q-PoIs ($\kpoi_{\mbox{one}}$ and $\kpoi_{\mbox{worst}}$) on high-dimensional problems with difficult-to-approximate Pareto front boundaries.
翻訳日:2022-08-09 13:08:24 公開日:2022-08-07
# 教師なしドメイン適応による頂点探索クエリ翻訳

Vernacular Search Query Translation with Unsupervised Domain Adaptation ( http://arxiv.org/abs/2208.03711v1 )

ライセンス: Link先を確認
Mandar Kulkarni, Nikesh Garera(参考訳) 電子商取引プラットフォームの民主化に伴い、多様化するユーザー基盤はオンラインショッピングを選択している。 快適で信頼性の高いショッピング体験を提供するには、ユーザが選択した言語でプラットフォームと対話できるようにすることが重要です。 言語間情報検索 (CLIR) には正確なクエリ変換が不可欠である。 インターネット規模の運用のため、eコマースプラットフォームは毎日何百万もの検索クエリを受け取る。 しかし、ドメイン内翻訳モデルをトレーニングするための並列トレーニングセットを作成するのは面倒です。 本稿では,並列コーパスを使わずに検索クエリを翻訳するための教師なしドメイン適応手法を提案する。 オープンドメイン翻訳モデル(パブリックコーパスで学習)を用いて,2つの言語からの単言語クエリのみを用いてクエリデータに適応する。 さらに、小さなラベル付きセットによる微調整により、さらに結果が向上する。 実演では、ヒンディー語から英語へのクエリ翻訳の結果を示し、mBART-large-50モデルをベースラインとして使用して改善する。 実験の結果, 並列コーパスを使わずに, 20点以上のBLEU点改善をベースライン上で達成し, 小さい50kラベルセットで微調整することでベースライン上で27点以上のBLEU点改善を実現した。

With the democratization of e-commerce platforms, an increasingly diversified user base is opting to shop online. To provide a comfortable and reliable shopping experience, it's important to enable users to interact with the platform in the language of their choice. An accurate query translation is essential for Cross-Lingual Information Retrieval (CLIR) with vernacular queries. Due to internet-scale operations, e-commerce platforms get millions of search queries every day. However, creating a parallel training set to train an in-domain translation model is cumbersome. This paper proposes an unsupervised domain adaptation approach to translate search queries without using any parallel corpus. We use an open-domain translation model (trained on public corpus) and adapt it to the query data using only the monolingual queries from two languages. In addition, fine-tuning with a small labeled set further improves the result. For demonstration, we show results for Hindi to English query translation and use mBART-large-50 model as the baseline to improve upon. Experimental results show that, without using any parallel corpus, we obtain more than 20 BLEU points improvement over the baseline while fine-tuning with a small 50k labeled set provides more than 27 BLEU points improvement over the baseline.
翻訳日:2022-08-09 13:02:01 公開日:2022-08-07
# コードミクス検索クエリ変換のためのエンコーダ・デコーダアーキテクチャの検討

Study of Encoder-Decoder Architectures for Code-Mix Search Query Translation ( http://arxiv.org/abs/2208.03713v1 )

ライセンス: Link先を確認
Mandar Kulkarni, Soumya Chennabasavaraj, Nikesh Garera(参考訳) インターネットとスマートフォンの普及に伴い、eコマースプラットフォームはますます多様なユーザーベースを持つようになっている。 ネイティブ・ランゲージのユーザーは英語で会話できないため、彼らの好みのブラウジング・モードは地域言語または地域言語と英語の組み合わせである。 問い合わせデータに関する最近の研究から、私たちが受け取ったクエリの多くはコードミックスであり、特にHinglishは英語(ラテン語)スクリプトで書かれた1つ以上のヒンディー語によるクエリであることがわかった。 本稿では,これらのクエリをユーザが検索できるように,コードミックスクエリ変換のためのトランスフォーマーベースのアプローチを提案する。 本課題は,未ラベル英語テキストの大きなコーパスで学習したプリトレーニングエンコーダ・デコーダモデルの有効性を示す。 汎用的なドメイン翻訳モデルを用いて,検索クエリでモデルをトレーニングするための擬似ラベル付きデータセットを作成し,様々なデータ拡張手法の有効性を検証した。 さらに, モデルの遅延を低減するために, 知識蒸留と重み量子化を用いる。 提案手法の有効性は実験評価とa/b試験により検証された。 モデルは現在flipkartアプリとwebサイトで公開されており、数百万のクエリーを提供する。

With the broad reach of the internet and smartphones, e-commerce platforms have an increasingly diversified user base. Since native language users are not conversant in English, their preferred browsing mode is their regional language or a combination of their regional language and English. From our recent study on the query data, we noticed that many of the queries we receive are code-mix, specifically Hinglish i.e. queries with one or more Hindi words written in English (Latin) script. We propose a transformer-based approach for code-mix query translation to enable users to search with these queries. We demonstrate the effectiveness of pre-trained encoder-decoder models trained on a large corpus of the unlabeled English text for this task. Using generic domain translation models, we created a pseudo-labelled dataset for training the model on the search queries and verified the effectiveness of various data augmentation techniques. Further, to reduce the latency of the model, we use knowledge distillation and weight quantization. Effectiveness of the proposed method has been validated through experimental evaluations and A/B testing. The model is currently live on Flipkart app and website, serving millions of queries.
翻訳日:2022-08-09 13:01:44 公開日:2022-08-07
# 病理組織像における腫瘍分類の連続学習

Continual Learning for Tumor Classification in Histopathology Images ( http://arxiv.org/abs/2208.03609v1 )

ライセンス: Link先を確認
Veena Kaustaban, Qinle Ba, Ipshita Bhattacharya, Nahil Sobh, Satarupa Mukherjee, Jim Martin, Mohammad Saleh Miri, Christoph Guetter, Amal Chaturvedi(参考訳) 近年、デジタル病理学応用における組織像解析のための深層学習モデルの開発が盛んに行われており、これらのモデルが研究と臨床の両方に広く普及していることが証明されている。 このようなモデルは、DPアプリケーションにおける基本的な計算タスクを解く上で、前例のない性能を示したが、転送学習による見当たらないデータに適応した場合、破滅的な忘れを被る。 患者人口の進化や新たな診断検査など、常に変化するデータ分布を扱うためのディープラーニングモデルの必要性が高まっている中、モデル忘れを緩和する継続的学習モデルがdpベース分析に導入される必要がある。 しかし、我々の知る限り、DP固有のアプリケーションに対するそのようなモデルの体系的な研究は存在しない。 本稿では,DP設定におけるCLシナリオを提案する。そこでは,異なるソース/ディストリビューションからの病理像データが順次到着し,その知識を1つのモデルに統合する。 そこで我々は,大腸癌H&E分類のための拡張データセットを構築し,画像の外観変化をシミュレートし,CLモデルの性能を評価する。 乳腺腫瘍H&Eデータセットと大腸癌を併用し,腫瘍タイプ別にCLを評価した。 さらに,アノテーションや計算資源の制約の下で,オンライン数ショット設定におけるCL手法の評価を行った。 本研究は,DP応用におけるCLの有望な結果を明らかにし,臨床応用への道を開く可能性を示した。

Recent years have seen great advancements in the development of deep learning models for histopathology image analysis in digital pathology applications, evidenced by the increasingly common deployment of these models in both research and clinical settings. Although such models have shown unprecedented performance in solving fundamental computational tasks in DP applications, they suffer from catastrophic forgetting when adapted to unseen data with transfer learning. With an increasing need for deep learning models to handle ever changing data distributions, including evolving patient population and new diagnosis assays, continual learning models that alleviate model forgetting need to be introduced in DP based analysis. However, to our best knowledge, there is no systematic study of such models for DP-specific applications. Here, we propose CL scenarios in DP settings, where histopathology image data from different sources/distributions arrive sequentially, the knowledge of which is integrated into a single model without training all the data from scratch. We then established an augmented dataset for colorectal cancer H&E classification to simulate shifts of image appearance and evaluated CL model performance in the proposed CL scenarios. We leveraged a breast tumor H&E dataset along with the colorectal cancer to evaluate CL from different tumor types. In addition, we evaluated CL methods in an online few-shot setting under the constraints of annotation and computational resources. We revealed promising results of CL in DP applications, potentially paving the way for application of these methods in clinical practice.
翻訳日:2022-08-09 12:57:56 公開日:2022-08-07
# 医用画像分割のための分散コントラスト学習

Distributed Contrastive Learning for Medical Image Segmentation ( http://arxiv.org/abs/2208.03808v1 )

ライセンス: Link先を確認
Yawen Wu, Dewen Zeng, Zhepeng Wang, Yiyu Shi, Jingtong Hu(参考訳) 教師付きディープラーニングは、ハイパフォーマンスを達成するために大量のラベル付きデータを必要とする。 しかし、医用画像解析では、各サイトは限られた量のデータとラベルしか持たず、学習を効果的にしない。 連合学習(fl)は分散データから共有モデルを学ぶことができる。 しかし、従来のFLはトレーニングのために完全にラベル付けされたデータが必要です。 自己教師付きコントラスト学習(CL)は、事前学習のためのラベルのないデータから学習し、その後限られたアノテーションで微調整を行う。 しかし、FLにおいてCLを採用する場合、各サイト上の限られたデータ多様性は、FCL(Federated contrastive learning)を非効率にする。 そこで本研究では,限定的なアノテーションによる音量的医用画像セグメンテーションのための2つの教師付き自己教師付き学習フレームワークを提案する。 1つは高精度で高速接続の高性能サーバに適合する。 2番目は通信コストが低く、モバイルデバイスに適している。 第1のフレームワークでは、機能はFCL中に交換され、各サイトに多様なコントラストデータを提供し、生データをプライベートに保ちながら効果的なローカルCLを提供する。 グローバル構造マッチングは、異なるサイト間の統一された機能空間のために、ローカルとリモートの機能を調整する。 第2のフレームワークでは、機能交換の通信コストを削減するため、負のサンプルに依存しない最適化されたFCLOptを提案する。 そこで本研究では,モデルダウンロードの通信量を削減するために,ターゲットネットワークのパラメータを予測する予測対象ネットワーク更新(ptnu)を提案する。 PTNUに基づいて、ターゲットネットワークのアップロードの大部分を削除するための距離予測(DP)を提案する。 心臓MRIデータセットを用いた実験により,提案した2つのフレームワークは,最先端技術と比較してセグメンテーションと一般化性能を大幅に改善した。

Supervised deep learning needs a large amount of labeled data to achieve high performance. However, in medical imaging analysis, each site may only have a limited amount of data and labels, which makes learning ineffective. Federated learning (FL) can learn a shared model from decentralized data. But traditional FL requires fully-labeled data for training, which is very expensive to obtain. Self-supervised contrastive learning (CL) can learn from unlabeled data for pre-training, followed by fine-tuning with limited annotations. However, when adopting CL in FL, the limited data diversity on each site makes federated contrastive learning (FCL) ineffective. In this work, we propose two federated self-supervised learning frameworks for volumetric medical image segmentation with limited annotations. The first one features high accuracy and fits high-performance servers with high-speed connections. The second one features lower communication costs, suitable for mobile devices. In the first framework, features are exchanged during FCL to provide diverse contrastive data to each site for effective local CL while keeping raw data private. Global structural matching aligns local and remote features for a unified feature space among different sites. In the second framework, to reduce the communication cost for feature exchanging, we propose an optimized method FCLOpt that does not rely on negative samples. To reduce the communications of model download, we propose the predictive target network update (PTNU) that predicts the parameters of the target network. Based on PTNU, we propose the distance prediction (DP) to remove most of the uploads of the target network. Experiments on a cardiac MRI dataset show the proposed two frameworks substantially improve the segmentation and generalization performance compared with state-of-the-art techniques.
翻訳日:2022-08-09 12:57:33 公開日:2022-08-07
# NeurVecによる力学系の大規模シミュレーションのための数値解の高速化

Accelerating Numerical Solvers for Large-Scale Simulation of Dynamical System via NeurVec ( http://arxiv.org/abs/2208.03680v1 )

ライセンス: Link先を確認
Zhongzhan Huang, Senwei Liang, Hong Zhang, Haizhao Yang and Liang Lin(参考訳) アンサンブルに基づく力学系の大規模シミュレーションは、幅広い科学と工学の問題に不可欠である。 シミュレーションで使用される従来の数値解法は時間積分のステップサイズによって著しく制限されており、特に精度が要求される場合の効率と実現性が阻害される。 この限界を克服するために,統合誤差を高精度に補償しながら,大きなステップサイズを使用できるデータ駆動補正手法を提案する。 この補正器はベクトル値関数の形で表現され、ニューラルネットワークによってモデル化され、位相空間の誤差を回帰する。 したがって、我々は正しい神経ベクトル(NeurVec)を命名する。 neurvecは従来の解法と同じ精度を、より大きなステップサイズで達成できることを示した。 我々は、NeurVecが様々な数値解法を著しく加速し、これらの解法の安定性制限を克服できることを実証的に実証した。 我々は,高次元問題からカオスシステムまで,ベンチマーク問題の結果から,NeurVecが先行するエラー項を捕捉し,アンサンブル予測の統計を維持可能であることを示唆している。

Ensemble-based large-scale simulation of dynamical systems is essential to a wide range of science and engineering problems. Conventional numerical solvers used in the simulation are significantly limited by the step size for time integration, which hampers efficiency and feasibility especially when high accuracy is desired. To overcome this limitation, we propose a data-driven corrector method that allows using large step sizes while compensating for the integration error for high accuracy. This corrector is represented in the form of a vector-valued function and is modeled by a neural network to regress the error in the phase space. Hence we name the corrector neural vector (NeurVec). We show that NeurVec can achieve the same accuracy as traditional solvers with much larger step sizes. We empirically demonstrate that NeurVec can accelerate a variety of numerical solvers significantly and overcome the stability restriction of these solvers. Our results on benchmark problems, ranging from high-dimensional problems to chaotic systems, suggest that NeurVec is capable of capturing the leading error term and maintaining the statistics of ensemble forecasts.
翻訳日:2022-08-09 12:55:49 公開日:2022-08-07
# ラプラス核と神経接核の実験的解析

An Empirical Analysis of the Laplace and Neural Tangent Kernels ( http://arxiv.org/abs/2208.03761v1 )

ライセンス: Link先を確認
Ronaldas Paulius Lencevicius(参考訳) 神経接核(neural tangent kernel)は、無限幅ニューラルネットワークのパラメータ分布上で定義されるカーネル関数である。 この限界が現実的でないにもかかわらず、神経接核は、ニューラルネットワークのより直接的な研究と、そのブラックボックスのベールを通しての視線を可能にした。 より最近では、ラプラス核とニューラル接核が、その同値性に応じて$\mathbb{S}^{d-1}$の空間で同じ再生カーネルヒルベルト空間を共有することが理論的に示されている。 本研究では,2つのカーネルの実用的等価性を解析する。 まず、核を正確にマッチングし、次にガウス過程の後方をマッチングすることでそれを行う。 さらに, カーネルを$\mathbb{R}^d$で解析し, 回帰処理で実験する。

The neural tangent kernel is a kernel function defined over the parameter distribution of an infinite width neural network. Despite the impracticality of this limit, the neural tangent kernel has allowed for a more direct study of neural networks and a gaze through the veil of their black box. More recently, it has been shown theoretically that the Laplace kernel and neural tangent kernel share the same reproducing kernel Hilbert space in the space of $\mathbb{S}^{d-1}$ alluding to their equivalence. In this work, we analyze the practical equivalence of the two kernels. We first do so by matching the kernels exactly and then by matching posteriors of a Gaussian process. Moreover, we analyze the kernels in $\mathbb{R}^d$ and experiment with them in the task of regression.
翻訳日:2022-08-09 12:55:13 公開日:2022-08-07
# ネットワーク構造選好がノード分類とリンク予測に及ぼす影響

The Influence of Network Structural Preference on Node Classification and Link Prediction ( http://arxiv.org/abs/2208.03712v1 )

ライセンス: Link先を確認
Sarmad N. Mohammed and Semra G\"und\"u\c{c}(参考訳) 複雑なネットワーク分析の最近の進歩は、様々な分野の応用に幅広い可能性をもたらした。 ネットワーク分析のパワーはノードの機能に依存します。 トポロジに基づくノードの特徴は、局所的および大域的空間関係とノード接続構造の実現である。 したがって、ノード特性と隣接ノードの接続構造に関する正しい情報収集は、複雑なネットワーク解析におけるノード分類とリンク予測において最も顕著な役割を果たす。 本稿では,特徴ベクトル上に無作為なランダムウォークを埋め込んだ遷移確率行列 (Transition Probabilities Matrix, TPM) という新しい特徴抽象化手法を提案する。 ノード特徴ベクトルは、予め定義された半径のウォークの集合から得られる遷移確率からなる。 遷移確率は局所接続構造に直接関係しており、したがって特徴ベクトルに正しく埋め込まれている。 提案手法の成功は3つの実世界のネットワーク上でのノード識別/分類とリンク予測で検証された。 実世界のネットワークでは、類似した接続構造を持つノードが一般的であり、新しいネットワーク上の予測のために類似ネットワークから情報を取得することは、クロスネットワークの一般化タスクにおいて、提案アルゴリズムが最先端のアルゴリズムよりも優れているという識別特性である。

Recent advances in complex network analysis opened a wide range of possibilities for applications in diverse fields. The power of the network analysis depends on the node features. The topology-based node features are realizations of local and global spatial relations and node connectivity structure. Hence, collecting correct information on the node characteristics and the connectivity structure of the neighboring nodes plays the most prominent role in node classification and link prediction in complex network analysis. The present work introduces a new feature abstraction method, namely the Transition Probabilities Matrix (TPM), based on embedding anonymous random walks on feature vectors. The node feature vectors consist of transition probabilities obtained from sets of walks in a predefined radius. The transition probabilities are directly related to the local connectivity structure, hence correctly embedded onto feature vectors. The success of the proposed embedding method is tested on node identification/classification and link prediction on three commonly used real-world networks. In real-world networks, nodes with similar connectivity structures are common; Thus, obtaining information from similar networks for predictions on the new networks is the distinguishing characteristic that makes the proposed algorithm superior to the state-of-the-art algorithms in terms of cross-networks generalization tasks.
翻訳日:2022-08-09 12:51:03 公開日:2022-08-07
# 明示的ノルム形成のための社会的に知能な遺伝的エージェント

Socially Intelligent Genetic Agents for the Emergence of Explicit Norms ( http://arxiv.org/abs/2208.03789v1 )

ライセンス: Link先を確認
Rishabh Agrawal (1), Nirav Ajmeri (2), Munindar P. Singh (1) ((1) North Carolina State University, (2) University of Bristol)(参考訳) 規範は社会を規制するのに役立つ。 ノルムは明示的(構造化形式で表される)または暗黙的である。 我々は、制裁決定や代替規範の特定において、規範違反の説明を提供し、理由づけするエージェントを開発することによって、明示的規範の出現に対処する。 これらのエージェントは遺伝的アルゴリズムを用いてノルムを生成し、強化学習を行い、これらのノルムの価値を学習する。 説明を適用すれば,エージェントの結束性や目標満足度が向上する規範が導かれることがわかった。 我々の結果は寛大な態度の異なる社会にとって安定している。

Norms help regulate a society. Norms may be explicit (represented in structured form) or implicit. We address the emergence of explicit norms by developing agents who provide and reason about explanations for norm violations in deciding sanctions and identifying alternative norms. These agents use a genetic algorithm to produce norms and reinforcement learning to learn the values of these norms. We find that applying explanations leads to norms that provide better cohesion and goal satisfaction for the agents. Our results are stable for societies with differing attitudes of generosity.
翻訳日:2022-08-09 12:50:44 公開日:2022-08-07
# 量子技術のための人工知能と機械学習

Artificial Intelligence and Machine Learning for Quantum Technologies ( http://arxiv.org/abs/2208.03836v1 )

ライセンス: Link先を確認
Mario Krenn, Jonas Landgraf, Thomas Foesel, Florian Marquardt(参考訳) 近年、機械学習の劇的な進歩は、科学やテクノロジーの多くの分野に大きな影響を与え始めている。 本論では、量子技術がこの革命からどのように恩恵を受けているのかを考察する。 我々は、ここ数年、科学者が機械学習やより広範な人工知能の手法を使って量子計測を分析し、量子デバイスのパラメータを推定し、新しい量子実験装置、プロトコル、フィードバック戦略を発見し、一般に量子コンピューティング、量子通信、量子シミュレーションの側面を改善してきた例を紹介した。 オープンな課題と将来の可能性を強調し、次の10年間の投機的ビジョンで締めくくります。

In recent years, the dramatic progress in machine learning has begun to impact many areas of science and technology significantly. In the present perspective article, we explore how quantum technologies are benefiting from this revolution. We showcase in illustrative examples how scientists in the past few years have started to use machine learning and more broadly methods of artificial intelligence to analyze quantum measurements, estimate the parameters of quantum devices, discover new quantum experimental setups, protocols, and feedback strategies, and generally improve aspects of quantum computing, quantum communication, and quantum simulation. We highlight open challenges and future possibilities and conclude with some speculative visions for the next decade.
翻訳日:2022-08-09 12:50:35 公開日:2022-08-07
# 乳幼児一般運動に対する弱教師付きオンライン行動検出

Weakly Supervised Online Action Detection for Infant General Movements ( http://arxiv.org/abs/2208.03648v1 )

ライセンス: Link先を確認
Tongyi Luo, Jia Xiao, Chuncao Zhang, Siheng Chen, Yuan Tian, Guangjun Yu, Kang Dang, Xiaowei Ding(参考訳) 幼児の脳性麻痺 (CP) の早期医学的治療を行うためには, 脳損傷の早期診断が重要である。 一般運動評価(GMA)は早期CP検出において有望な結果を示したが、それは困難である。 既存のほとんどの作品では、GMA自動化のために動画を入力としてフィジティ・ムーブメント(FM)の分類を行っている。 これらの手法はビデオの完全な観察を必要とし、通常のFMを含むビデオフレームのローカライズはできない。 そこで本稿では,弱教師付きオンライン環境でFMのローカライズを行うWO-GMAという手法を提案する。 幼児の身体キーポイントをWO−GMAへの入力として抽出する。 そして、WO-GMAは、ローカル時空間抽出を行い、2つのネットワーク分岐を行い、擬似クリップラベルを生成し、オンラインアクションをモデル化する。 クリップレベルの擬似ラベルにより、アクションモデリングブランチは、オンライン形式でFMを検出することを学ぶ。 異なる乳幼児の757本の動画をデータセット上で実験した結果、wo-gmaは最先端のビデオレベルの分類とクリップレベルの検出結果を得ることができる。 さらに、分類結果を十分に観察するためには、ビデオの最初の20%の期間しか必要とせず、FMの診断時間が大幅に短縮されたことを意味する。 コードはhttps://github.com/scofiedluo/WO-GMA.comで入手できる。

To make the earlier medical intervention of infants' cerebral palsy (CP), early diagnosis of brain damage is critical. Although general movements assessment(GMA) has shown promising results in early CP detection, it is laborious. Most existing works take videos as input to make fidgety movements(FMs) classification for the GMA automation. Those methods require a complete observation of videos and can not localize video frames containing normal FMs. Therefore we propose a novel approach named WO-GMA to perform FMs localization in the weakly supervised online setting. Infant body keypoints are first extracted as the inputs to WO-GMA. Then WO-GMA performs local spatio-temporal extraction followed by two network branches to generate pseudo clip labels and model online actions. With the clip-level pseudo labels, the action modeling branch learns to detect FMs in an online fashion. Experimental results on a dataset with 757 videos of different infants show that WO-GMA can get state-of-the-art video-level classification and cliplevel detection results. Moreover, only the first 20% duration of the video is needed to get classification results as good as fully observed, implying a significantly shortened FMs diagnosis time. Code is available at: https://github.com/scofiedluo/WO-GMA.
翻訳日:2022-08-09 12:44:46 公開日:2022-08-07
# サロゲートアンサンブル検索によるブラックボックス攻撃

Blackbox Attacks via Surrogate Ensemble Search ( http://arxiv.org/abs/2208.03610v1 )

ライセンス: Link先を確認
Zikui Cai, Chengyu Song, Srikanth Krishnamurthy, Amit Roy-Chowdhury, M. Salman Asif(参考訳) blackboxの逆攻撃は、転送およびクエリベースの攻撃に分類できる。 転送メソッドは、被害者モデルからのフィードバックを必要としないが、クエリベースのメソッドに比べて成功率が低い。 クエリ攻撃は多くの場合、成功のために大量のクエリを必要とする。 両方のアプローチを最大限に活用するために、最近の試みはそれらを組み合わせようと試みているが、高い成功率(特に攻撃対象)を達成するには数百のクエリが必要である。 本稿では,非常に少数のクエリを用いて高い精度でブラックボックス攻撃を発生させることができる,サロゲートアンサンブルサーチ(BASES)によるブラックボックス攻撃の新しい手法を提案する。 まず,固定されたサロゲートモデル上の重み付き損失関数を最小化し,摂動画像を生成する摂動機械を定義する。 所定の犠牲者モデルに対する攻撃を生成するために,摂動機械が生成したクエリを用いて損失関数の重みを探索する。 探索空間の次元は小さいので(サーロゲートモデルの数と同じ)、検索には少数のクエリが必要である。 提案手法は,ImageNetで訓練した画像分類器(VGG-19, DenseNet-121, ResNext-50を含む)の最先端手法と比較して,少なくとも30倍のクエリで良好な成功率が得られることを示す。 特に,対象攻撃の90%以上の成功率と,非対象攻撃の99%以上の成功率の1~2クエリを達成するためには,画像毎に最大3クエリ(平均)が必要となる。 われわれの方法はGoogle Cloud Vision APIでも有効であり、画像当たり2.9クエリで91%の非ターゲット攻撃成功率を達成した。 また,提案手法により発生する摂動は伝達性が高く,ハードラベルブラックボックス攻撃にも適用可能であることを示す。

Blackbox adversarial attacks can be categorized into transfer- and query-based attacks. Transfer methods do not require any feedback from the victim model, but provide lower success rates compared to query-based methods. Query attacks often require a large number of queries for success. To achieve the best of both approaches, recent efforts have tried to combine them, but still require hundreds of queries to achieve high success rates (especially for targeted attacks). In this paper, we propose a novel method for blackbox attacks via surrogate ensemble search (BASES) that can generate highly successful blackbox attacks using an extremely small number of queries. We first define a perturbation machine that generates a perturbed image by minimizing a weighted loss function over a fixed set of surrogate models. To generate an attack for a given victim model, we search over the weights in the loss function using queries generated by the perturbation machine. Since the dimension of the search space is small (same as the number of surrogate models), the search requires a small number of queries. We demonstrate that our proposed method achieves better success rate with at least 30x fewer queries compared to state-of-the-art methods on different image classifiers trained with ImageNet (including VGG-19, DenseNet-121, and ResNext-50). In particular, our method requires as few as 3 queries per image (on average) to achieve more than a 90% success rate for targeted attacks and 1-2 queries per image for over a 99% success rate for non-targeted attacks. Our method is also effective on Google Cloud Vision API and achieved a 91% non-targeted attack success rate with 2.9 queries per image. We also show that the perturbations generated by our proposed method are highly transferable and can be adopted for hard-label blackbox attacks.
翻訳日:2022-08-09 12:39:24 公開日:2022-08-07
# no more strided convolutions or pooling: 低解像度画像と小さなオブジェクトのための新しいcnnビルディングブロック

No More Strided Convolutions or Pooling: A New CNN Building Block for Low-Resolution Images and Small Objects ( http://arxiv.org/abs/2208.03641v1 )

ライセンス: Link先を確認
Raja Sunkara and Tie Luo(参考訳) 畳み込みニューラルネットワーク(cnns)は、画像分類やオブジェクト検出など、多くのコンピュータビジョンタスクで大きな成功を収めている。 しかし、画像が解像度の低いタスクやオブジェクトが小さいタスクでは、パフォーマンスが急速に低下する。 本稿では,既存のCNNアーキテクチャにおいて,複雑な畳み込み層やプール層を用いることによって,微細な情報が失われ,より効率的な特徴表現が学習されるという,欠点のある共通設計のルーツを指摘する。 そこで本研究では,スプライド畳み込み層とプール層に代えて,spd-convと呼ばれる新しいcnnビルディングブロックを提案する。 SPD-Convはスペース・トゥ・ディープス(SPD)層と非ストリップ・コンボリューション(Conv)層で構成されており、全てのCNNアーキテクチャでは適用できない。 我々は,この新たな設計について,オブジェクト検出と画像分類という2つの代表的なコンピュータビジョンタスクで説明する。 次に, YOLOv5とResNetにSPD-Convを適用することで新しいCNNアーキテクチャを構築し, 最先端のディープラーニングモデル, 特に低解像度の画像や小さなオブジェクトの厳しいタスクにおいて, そのアプローチが著しく優れていることを示す。 コードをhttps://github.com/LabSAINT/SPD-Conv.comでオープンソース化しました。

Convolutional neural networks (CNNs) have made resounding success in many computer vision tasks such as image classification and object detection. However, their performance degrades rapidly on tougher tasks where images are of low resolution or objects are small. In this paper, we point out that this roots in a defective yet common design in existing CNN architectures, namely the use of strided convolution and/or pooling layers, which results in a loss of fine-grained information and learning of less effective feature representations. To this end, we propose a new CNN building block called SPD-Conv in place of each strided convolution layer and each pooling layer (thus eliminates them altogether). SPD-Conv is comprised of a space-to-depth (SPD) layer followed by a non-strided convolution (Conv) layer, and can be applied in most if not all CNN architectures. We explain this new design under two most representative computer vision tasks: object detection and image classification. We then create new CNN architectures by applying SPD-Conv to YOLOv5 and ResNet, and empirically show that our approach significantly outperforms state-of-the-art deep learning models, especially on tougher tasks with low-resolution images and small objects. We have open-sourced our code at https://github.com/LabSAINT/SPD-Conv.
翻訳日:2022-08-09 12:38:55 公開日:2022-08-07
# エントロピー正規化による分類における細粒化特徴情報の保存

Preserving Fine-Grain Feature Information in Classification via Entropic Regularization ( http://arxiv.org/abs/2208.03684v1 )

ライセンス: Link先を確認
Raphael Baena, Lucas Drumetz, Vincent Gripon(参考訳) 分類データセットのラベル付けは、クラスと関連する粗いラベルを定義することを意味する。 例えば、自然画像には複数のオブジェクトが含まれており、そのうちの1つだけが多くのビジョンデータセットにラベル付けされているか、クラスは回帰問題の離散化から生じる可能性がある。 このような粗いラベルの分類モデルのトレーニングにクロスエントロピーを使用することは、機能空間を大まかに切り抜ける可能性が高く、そのような特徴、特に基礎となる細粒度タスクに関する情報を失うことを無視する可能性がある。 本稿では,粗粒ラベルのみを訓練したモデルを用いて,微粒分類や回帰の問題を解くことに関心がある。 標準クロスエントロピーは粗い特徴に過剰適合する可能性がある。 我々は,訓練モデルの特徴空間におけるより多様性を促進するために,エントロピーに基づく正則化を導入し,この手法の有効性を実証的に実証する。 この結果は理論的発展と実証的検証によって裏付けられる。

Labeling a classification dataset implies to define classes and associated coarse labels, that may approximate a smoother and more complicated ground truth. For example, natural images may contain multiple objects, only one of which is labeled in many vision datasets, or classes may result from the discretization of a regression problem. Using cross-entropy to train classification models on such coarse labels is likely to roughly cut through the feature space, potentially disregarding the most meaningful such features, in particular losing information on the underlying fine-grain task. In this paper we are interested in the problem of solving fine-grain classification or regression, using a model trained on coarse-grain labels only. We show that standard cross-entropy can lead to overfitting to coarse-related features. We introduce an entropy-based regularization to promote more diversity in the feature space of trained models, and empirically demonstrate the efficacy of this methodology to reach better performance on the fine-grain problems. Our results are supported through theoretical developments and empirical validation.
翻訳日:2022-08-09 12:38:28 公開日:2022-08-07
# 手術ワークフロー予測に基づくグラフ表現学習に向けて

Towards Graph Representation Learning Based Surgical Workflow Anticipation ( http://arxiv.org/abs/2208.03824v1 )

ライセンス: Link先を確認
Xiatian Zhang, Noura Al Moubayed, Hubert P. H. Shum(参考訳) 外科的ワークフロー予測は、ロボット手術におけるワークフロー推論など、手術のためのコンピュータ支援介入システムにおいて重要な部分である、どの手順を実行するか、次にどの器具を使用するかを予測することができる。 しかし、現在のアプローチは楽器間の関係に不十分な表現力に限られている。 そこで我々は,外科的ワークフロー予測問題における楽器の動きを包括的に表現するグラフ表現学習フレームワークを提案する。 提案するグラフ表現では,楽器のバウンディングボックス情報を連続するフレーム内のグラフノードにマップし,フレーム間/挿入間グラフエッジを構築し,楽器の経時的軌跡と相互作用を表現する。 この設計により,手術器具の空間的・時間的パターンとその相互作用をモデル化するネットワークの能力が向上する。 さらに,様々な地平線と予測課題の理解を両立させるマルチホリゾン学習戦略を考案し,様々な地平線と予測のモデル性能を著しく向上させた。 cholec80データセットにおける実験により,提案手法の性能は,よりリッチなバックボーンに基づく最先端手法,特にインスツルメンツ予測(inmaeでは1.27 v.s. 1.48,emaeでは1.48 v.s. 2.68)を超えることが示された。 我々の知る限りでは、外科的ワークフロー予測に空間時間グラフ表現を導入するのは初めてである。

Surgical workflow anticipation can give predictions on what steps to conduct or what instruments to use next, which is an essential part of the computer-assisted intervention system for surgery, e.g. workflow reasoning in robotic surgery. However, current approaches are limited to their insufficient expressive power for relationships between instruments. Hence, we propose a graph representation learning framework to comprehensively represent instrument motions in the surgical workflow anticipation problem. In our proposed graph representation, we maps the bounding box information of instruments to the graph nodes in the consecutive frames and build inter-frame/inter-instrument graph edges to represent the trajectory and interaction of the instruments over time. This design enhances the ability of our network on modeling both the spatial and temporal patterns of surgical instruments and their interactions. In addition, we design a multi-horizon learning strategy to balance the understanding of various horizons indifferent anticipation tasks, which significantly improves the model performance in anticipation with various horizons. Experiments on the Cholec80 dataset demonstrate the performance of our proposed method can exceed the state-of-the-art method based on richer backbones, especially in instrument anticipation (1.27 v.s. 1.48 for inMAE; 1.48 v.s. 2.68 for eMAE). To the best of our knowledge, we are the first to introduce a spatial-temporal graph representation into surgical workflow anticipation.
翻訳日:2022-08-09 12:38:10 公開日:2022-08-07
# セルラーネットワークにおける意図に基づくサービス保証のためのマルチエージェント強化学習

Multi-agent reinforcement learning for intent-based service assurance in cellular networks ( http://arxiv.org/abs/2208.03740v1 )

ライセンス: Link先を確認
Satheesh K. Perepu, Jean P. Martins, Ricardo Souza S, Kaushik Dey(参考訳) 近年,多くのユースケースにおいて,厳格な性能要件のため,テレコムネットワークにおいて意図に基づく管理が注目されている。 文献におけるいくつかのアプローチは、クローズドループとして定義できるKPIの意図を満たすために、通信領域における伝統的な手法を用いる。 しかし、これらの手法は互いに独立な全ての閉ループを考慮し、クローズドループ性能の組合せを劣化させる。 また、多くの閉ループが必要な場合、これらの方法は容易に拡張できない。 マルチエージェント強化学習(MARL)技術は、従来のクローズドループ制御が不足している多くの分野において、一般にループ間の複雑な協調と競合管理のために大きな可能性を示している。 本研究では,MARLに基づくシステムモデルを必要としないインテントベースの管理を実現する手法を提案する。 さらに、対立する意図がある場合、MARLエージェントは重要なKPIを優先順位付けすることで、人間の相互作用なしに協調するためのループを暗黙的に動機付けることができる。 ネットワークエミュレータ上で3つのサービスに対してKPIを最適化する実験が行われており、提案システムの性能は良好であり、十分なリソースがある場合やリソース不足時にKPIを優先する場合には、既存のすべての意図を満たすことができる。

Recently, intent-based management is receiving good attention in telecom networks owing to stringent performance requirements for many of the use cases. Several approaches on the literature employ traditional methods in the telecom domain to fulfill intents on the KPIs, which can be defined as a closed loop. However, these methods consider every closed-loop independent of each other which degrades the combined closed-loop performance. Also, when many closed loops are needed, these methods are not easily scalable. Multi-agent reinforcement learning (MARL) techniques have shown significant promise in many areas in which traditional closed-loop control falls short, typically for complex coordination and conflict management among loops. In this work, we propose a method based on MARL to achieve intent-based management without the requirement of the model of the underlying system. Moreover, when there are conflicting intents, the MARL agents can implicitly incentivize the loops to cooperate, without human interaction, by prioritizing the important KPIs. Experiments have been performed on a network emulator on optimizing KPIs for three services and we observe the proposed system performs well and is able to fulfill all existing intents when there are enough resources or prioritize the KPIs when there are scarce resources.
翻訳日:2022-08-09 12:34:12 公開日:2022-08-07
# 分散を一般化するモジュラー構造を学ぶ

Learning Modular Structures That Generalize Out-of-Distribution ( http://arxiv.org/abs/2208.03753v1 )

ライセンス: Link先を確認
Arjun Ashok, Chaitanya Devaguptapu, Vineeth Balasubramanian(参考訳) アウトオブディストリビューション(o.o.d.)の一般化は、現実世界の機械学習システムにとって重要な課題である。 本稿では,o.o.d.一般化の手法について述べる。トレーニングを通じて,複数のトレーニングドメインで十分に再利用されたネットワークの特徴のみを保存することをモデルに推奨する。 本手法は,2つの相補的ニューロンレベル正規化器とネットワーク上の確率的微分可能なバイナリマスクを組み合わせることで,元のネットワークよりも優れたO.O.D.性能を実現するモジュールサブネットワークを抽出する。 2つのベンチマークデータセットの予備評価は,提案手法の期待を裏付けるものである。

Out-of-distribution (O.O.D.) generalization remains to be a key challenge for real-world machine learning systems. We describe a method for O.O.D. generalization that, through training, encourages models to only preserve features in the network that are well reused across multiple training domains. Our method combines two complementary neuron-level regularizers with a probabilistic differentiable binary mask over the network, to extract a modular sub-network that achieves better O.O.D. performance than the original network. Preliminary evaluation on two benchmark datasets corroborates the promise of our method.
翻訳日:2022-08-09 12:33:51 公開日:2022-08-07
# Federated Adversarial Learning: Convergence Analysis を用いたフレームワーク

Federated Adversarial Learning: A Framework with Convergence Analysis ( http://arxiv.org/abs/2208.03635v1 )

ライセンス: Link先を確認
Xiaoxiao Li, Zhao Song, Jiaming Yang(参考訳) フェデレートラーニング(Federated Learning、FL)は、分散トレーニングデータを活用するためのトレンドトレーニングパラダイムである。 FLは、クライアントがいくつかのエポックでモデルパラメータをローカルに更新し、集約のためのグローバルモデルと共有することを可能にする。 集約の前にマルチローカルなステップをアップデートするこのトレーニングパラダイムは、敵の攻撃に対してユニークな脆弱性を公開する。 敵のトレーニングは、敵に対するネットワークの堅牢性を改善するために人気があり効果的な方法である。 本研究では,中央集権的な環境下での対人学習から適応した一般の対人学習(FAL)を定式化する。 FLトレーニングのクライアント側では、FALは逆行訓練用の逆行サンプルを生成するインナーループと、ローカルモデルパラメータを更新するための外ループを備えている。 サーバ側では、FALはローカルモデルの更新を集約し、集約されたモデルをブロードキャストする。 グローバルロバストなトレーニングロスを設計し,min-max最適化問題としてfalトレーニングを定式化する。 勾配方向に依存する古典的集中訓練における収束解析とは異なり、FALにおける収束解析は3つの理由により困難である。 1) min-max最適化の複雑さ。 2)集約前のクライアント側でのマルチローカル更新による勾配方向の更新を行わないモデル 3)クライアント間の異質性。 適切な勾配近似とカップリング手法を用いてこれらの課題に対処し、過パラメータ化状態における収束解析を提案する。 理論的には、我々のアルゴリズムの最小損失は、選択した学習率と通信ラウンドで$\epsilon$ smallに収束できる。 非IIDクライアントに対して、我々の分析が実現可能であることは注目に値する。

Federated learning (FL) is a trending training paradigm to utilize decentralized training data. FL allows clients to update model parameters locally for several epochs, then share them to a global model for aggregation. This training paradigm with multi-local step updating before aggregation exposes unique vulnerabilities to adversarial attacks. Adversarial training is a popular and effective method to improve the robustness of networks against adversaries. In this work, we formulate a general form of federated adversarial learning (FAL) that is adapted from adversarial learning in the centralized setting. On the client side of FL training, FAL has an inner loop to generate adversarial samples for adversarial training and an outer loop to update local model parameters. On the server side, FAL aggregates local model updates and broadcast the aggregated model. We design a global robust training loss and formulate FAL training as a min-max optimization problem. Unlike the convergence analysis in classical centralized training that relies on the gradient direction, it is significantly harder to analyze the convergence in FAL for three reasons: 1) the complexity of min-max optimization, 2) model not updating in the gradient direction due to the multi-local updates on the client-side before aggregation and 3) inter-client heterogeneity. We address these challenges by using appropriate gradient approximation and coupling techniques and present the convergence analysis in the over-parameterized regime. Our main result theoretically shows that the minimum loss under our algorithm can converge to $\epsilon$ small with chosen learning rate and communication rounds. It is noteworthy that our analysis is feasible for non-IID clients.
翻訳日:2022-08-09 12:32:31 公開日:2022-08-07
# ニューラルネットワークを用いたグレンジャー因果関係

Granger Causality using Neural Networks ( http://arxiv.org/abs/2208.03703v1 )

ライセンス: Link先を確認
Samuel Horvath, Malik Shahid Sultan and Hernando Ombao(参考訳) グランジャー因果関係テスト(granger causality test)は、ある時系列の過去が他方の将来に影響を及ぼすかどうかを調べる有名な統計仮説テストである。 1つの時系列が予測に役立つかどうかという質問に答えるのに役立つ。 グランガー因果検出の標準的なアプローチは一般に線形力学を仮定するが、そのような単純化は本質的に非線形ではない神経科学やゲノム学のような現実世界の多くの応用には当てはまらない。 そのような場合、ベクトル自己回帰(VAR)モデルのような線形モデルを導入することは、真のグランガー因果相互作用の矛盾した推定につながる。 機械学習(ml)はデータセット内の隠れたパターンを学習することができる。特にディープラーニング(dl)は、複雑なシステムの非線形ダイナミクスを学ぶ上で非常に有望である。 Tank et al の最近の研究は、ニューラルネットワークと学習可能なウェイトに対する空間的罰則を組み合わせることで、VARモデルにおける線形単純化の問題を克服することを提案する。 この本では、t tankらによって紹介されたアイデアに基づいています。 基礎となる非線形性を扱うための新しいモデルをいくつか提案する。 まず、ニューラルネットワークによってパラメータ化されたカーネルも学習するLearred Kernal VAR(LeKVAR)モデルをVARモデルの拡張として提示する。 第2に,ラグと個々の時系列を分離したペナルティによって直接分離できることを示す。 この分離によってスケーリングが向上し、ラグ選択をRNNに組み込むことができます。 最後に,この手法を実世界応用に触発された複数のシミュレーションデータセット上で評価し,脳電図(eeg)データに適用し,19個の脳波チャネルを横断する発作の前後におけるgcの進化について検討した。

The Granger Causality (GC) test is a famous statistical hypothesis test for investigating if the past of one time series affects the future of the other. It helps in answering the question whether one time series is helpful in forecasting. Standard traditional approaches to Granger causality detection commonly assume linear dynamics, but such simplification does not hold in many real-world applications, e.g., neuroscience or genomics that are inherently non-linear. In such cases, imposing linear models such as Vector Autoregressive (VAR) models can lead to inconsistent estimation of true Granger Causal interactions. Machine Learning (ML) can learn the hidden patterns in the datasets specifically Deep Learning (DL) has shown tremendous promise in learning the non-linear dynamics of complex systems. Recent work of Tank et al propose to overcome the issue of linear simplification in VAR models by using neural networks combined with sparsity-inducing penalties on the learn-able weights. In this work, we build upon ideas introduced by Tank et al. We propose several new classes of models that can handle underlying non-linearity. Firstly, we present the Learned Kernal VAR(LeKVAR) model-an extension of VAR models that also learns kernel parametrized by a neural net. Secondly, we show one can directly decouple lags and individual time series importance via decoupled penalties. This decoupling provides better scaling and allows us to embed lag selection into RNNs. Lastly, we propose a new training algorithm that supports mini-batching, and it is compatible with commonly used adaptive optimizers such as Adam.he proposed techniques are evaluated on several simulated datasets inspired by real-world applications.We also apply these methods to the Electro-Encephalogram (EEG) data for an epilepsy patient to study the evolution of GC before , during and after seizure across the 19 EEG channels.
翻訳日:2022-08-09 12:32:07 公開日:2022-08-07
# 事前学習から下流課題への対向的ロバスト性伝達

How Adversarial Robustness Transfers from Pre-training to Downstream Tasks ( http://arxiv.org/abs/2208.03835v1 )

ライセンス: Link先を確認
Laura Fee Nern, Yash Sharma(参考訳) 大規模なトレーニング体制の台頭により、トレーニング済みのモデルを幅広い下流タスクに適応させることが、機械学習の標準的アプローチとなっている。 経験的性能に大きな利点が観測されているが、事前訓練されたモデルから下流タスクへのロバスト性プロパティの転送方法はまだよく分かっていない。 下流タスクにおける予測子のロバスト性は,事前学習プロトコルによらず,その基盤となる表現のロバスト性によって拘束可能であることを示す。 総じて,デプロイ時の信頼性の高いパフォーマンスを実現するために,表現関数に何が必要かを正確に特徴付ける。

Given the rise of large-scale training regimes, adapting pre-trained models to a wide range of downstream tasks has become a standard approach in machine learning. While large benefits in empirical performance have been observed, it is not yet well understood how robustness properties transfer from a pre-trained model to a downstream task. We prove that the robustness of a predictor on downstream tasks can be bound by the robustness of its underlying representation, irrespective of the pre-training protocol. Taken together, our results precisely characterize what is required of the representation function for reliable performance upon deployment.
翻訳日:2022-08-09 12:16:18 公開日:2022-08-07
# クロススペースクラスタリングと制御転送によるクラスインクリメンタル学習

Class-Incremental Learning with Cross-Space Clustering and Controlled Transfer ( http://arxiv.org/abs/2208.03767v1 )

ライセンス: Link先を確認
Arjun Ashok, K J Joseph, Vineeth Balasubramanian(参考訳) クラス増分学習では,従来のクラスに関する知識を維持しつつ,新しいクラスを継続的に学習することが期待される。 ここでの課題は、モデルが機能空間で事前クラスを効果的に表現できる能力を維持しながら、入ってくる新しいクラスを表現できることだ。 そこで本研究では,先行クラスにおける正確性を維持するため,特徴空間の構造を活用した授業インクリメンタル学習のための蒸留ベースの2つの目標を提案する。 クロススペースクラスタリング(csc:cross-space clustering)と呼ばれる最初の目的において、私たちは、以前のモデルの機能空間構造を使用して、クラスを最大に保存する最適化の方向を特徴付けることを提案します。 これは、忘れることの最小化とは別に、間接的にモデルに現在の機能空間内のクラスのすべてのインスタンスをクラスタ化させ、クラスの全サンプルが一緒にクラスを忘れるのを防げるように、herd免疫の感覚を生じさせる。 第2の目的である制御伝達(CT)は,クラス間移動の観点からの漸進的な学習に取り組む。 CTは、インクリメンタルに到着したクラスと先行クラスのセマンティックな類似点に関する現在のモデルを明示的に近似し、条件付けする。 これにより、モデルが類似した先行クラスからの正の転送を最大化し、可塑性を増大させ、異種前クラスに対する負の後方移動を最小化し、安定性を強化することができる。 2つのベンチマークデータセットで広範囲な実験を行い,3つの著名なクラスインクリメンタル学習手法の上に本手法(cscct)を付加した。 我々は様々な実験環境で一貫した性能改善を観察する。

In class-incremental learning, the model is expected to learn new classes continually while maintaining knowledge on previous classes. The challenge here lies in preserving the model's ability to effectively represent prior classes in the feature space, while adapting it to represent incoming new classes. We propose two distillation-based objectives for class incremental learning that leverage the structure of the feature space to maintain accuracy on previous classes, as well as enable learning the new classes. In our first objective, termed cross-space clustering (CSC), we propose to use the feature space structure of the previous model to characterize directions of optimization that maximally preserve the class - directions that all instances of a specific class should collectively optimize towards, and those that they should collectively optimize away from. Apart from minimizing forgetting, this indirectly encourages the model to cluster all instances of a class in the current feature space, and gives rise to a sense of herd-immunity, allowing all samples of a class to jointly combat the model from forgetting the class. Our second objective termed controlled transfer (CT) tackles incremental learning from an understudied perspective of inter-class transfer. CT explicitly approximates and conditions the current model on the semantic similarities between incrementally arriving classes and prior classes. This allows the model to learn classes in such a way that it maximizes positive forward transfer from similar prior classes, thus increasing plasticity, and minimizes negative backward transfer on dissimilar prior classes, whereby strengthening stability. We perform extensive experiments on two benchmark datasets, adding our method (CSCCT) on top of three prominent class-incremental learning methods. We observe consistent performance improvement on a variety of experimental settings.
翻訳日:2022-08-09 12:15:20 公開日:2022-08-07