このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20221001となっている論文です。

PDF登録状況(公開日: 20221001)

TitleAuthorsAbstract論文公表日・翻訳日
# データセンター内のインターコネクションからメトロネットワークへ:CV-QKDは損失かバンド幅の受信機が必要か?

From Intra-Datacenter Interconnects to Metro Networks: Does CV-QKD Need Loss- or Bandwidth-Conscious Receivers? ( http://arxiv.org/abs/2210.00230v1 )

ライセンス: Link先を確認
Florian Honz (1), Fabian Laudenbach (2), Hannes H\"ubel (1), Philip Walther (3), Bernhard Schrenk (1) ((1) AIT Austrian Institute of Technology, (2) AIT Austrian Institute of Technology (now with Xanadu Quantum Tech), (3) University of Vienna, Faculty of Physics)(参考訳) 損失最適化コヒーレントヘテロダインと帯域幅を付与したcv-qkdアーキテクチャを実験的に比較した。 前者は中・長期のリンクリーチに対して,後者は短距離よりも5-9dB高いセキュアキーレートを特徴とする。

We experimentally compare a loss-optimized coherent heterodyne and a bandwidth-blessed intradyne CV-QKD architecture. We find the former to prevail performance-wise for medium/long link reach, while the latter features a 5-9 dB higher secure-key rate over short reach.
翻訳日:2023-01-24 05:19:11 公開日:2022-10-01
# 2光子基底リドベルク遷移と有限リドベルク遮断強度に対するオフ共振変調駆動ゲートプロトコル

Off-resonant modulated driving gate protocols for two-photon ground-Rydberg transition and finite Rydberg blockade strength ( http://arxiv.org/abs/2210.00196v1 )

ライセンス: Link先を確認
Yuan Sun(参考訳) 近年、オフ共振変調駆動による2量子ビット制御位相ゲートの概念が中性原子量子ビットプラットフォームに導入され、単光子と2光子基底-リドバーグ遷移の両方に関している。 より優れたパフォーマンスを達成するためには、この有望な手法に関する以前の議論において、いくつかの既知の制限を克服する必要がある。 本稿では、2光子遷移の様々な変調スタイルを徹底的に解析し、オフ共振変調駆動プロトコルの汎用性を示す。 さらに,特定の有限ブロック強度値に対する性能改善のための設計プロセスの洗練が可能であることを示す。 特に、遮断強度の低下要件は、中性原子のクビット配列における接続性の改善と直接的に関連付けられる。 これらの進歩は、原子波関数が時間発展から幾何位相を取得し、同じ量子状態から始まり終わるという核となる特徴と密接に関連している。 現在容易に利用できる合理的な実験条件下では、技術的な誤差や冷却原子の非零温度の影響が考慮されても、そのようなプロトコルの忠実性はnisqの必須要件に到達できると予測している。

Recently, the notion of two-qubit controlled phase gate via off-resonant modulated driving has been introduced into the neutral atom qubit platform, with respect to both single-photon and two-photon ground-Rydberg transitions. In order to reach a better performance practically, further developments are in need to overcome a few known limitations in previous discussions of this promising method. Here, we thoroughly analyze a variety of modulation styles for two-photon transitions, demonstrating the versatility of off-resonant modulated driving protocols. Furthermore, we show that it is possible to refine the designing process for improved performances for specific finite Rydberg blockade strength values. In particular, a reduced requirement on the blockade strength can be directly linked to an improvement of connectivity in qubit array of neutral atoms. These progress are closely related to the core feature that the atomic wave function acquires a geometric phase from the time evolution, which begins and finishes at the same quantum state. Under reasonable experimental conditions readily available nowadays, we anticipate that the fidelity of such protocols can reach as high as the essential requirement of NISQ even if the effects of technical errors and cold atoms' nonzero temperatures are considered.
翻訳日:2023-01-24 05:19:03 公開日:2022-10-01
# 量子ラビ模型の超ラジアント相におけるパリティのエキゾチックな挙動

Exotic Behavior of Parity in the Superradiant Phase of Quantum Rabi Model ( http://arxiv.org/abs/2210.00188v1 )

ライセンス: Link先を確認
Yun-Tong Yang, Junpeng Liu and Hong-Gang Luo(参考訳) 空間反転変換の下での量子力学波動関数の対称性を記述するパリティは、量子システムを解く上で重要な役割を果たすだけでなく、量子ラビモデル(QRM)やその変量といったハイブリッド量子系の運動量子状態の操作や測定にも利用できる。 ここでは、QRMの対角化による超ラジアント相におけるエキゾチックパリティの挙動、すなわち、QRMの固有状態のパリティは強い結合状態において不規則に振る舞うが、基底状態から始まる一対の固有状態のパリティの和は消える。 このエキゾチックな挙動は、各一対の固有状態の固有エネルギーが互いに十分に接近するときにフォック基底の奇数および偶数成分の光子分布の可視性から生じており、これは単モード光子場と二レベル原子との強い結合によって引き起こされる創発的な二重井戸電位に起因する。 この結果は、以前はQRMで知られていなかった物理学だけでなく、現代の量子科学や技術におけるパリティの測定を通じて、運動量子状態の測定精度に固有の制限を与える。

Parity describing the symmetry of quantum mechanics wavefunction under space inversion transformation not only plays an essential role in solving quantum systems but also can be used to manipulate and measure the motional quantum states of such hybrid quantum systems as quantum Rabi model(QRM) and/or its variants through parity measurements. Here we address an exotic parity behavior of the QRM in its superradiant phase by numerical exact diagonalization, namely, the parities of eigenstates of the QRM behave irregular in the strong coupling regime but the sum of parities for each pair of eigenstates beginning from the ground state remains vanishing. It is found that this exotic behavior originates from the comparability of the photon distribution in the odd and even components of Fock basis when the eigenenergies of each pair of eigenstates approach enough to each other and physically is due to the emergent double-well potential induced by the strong coupling between the single-mode photon field and the two-level atom. The result not only uncovers the physics not known previously in the QRM but also makes an intrinsic limitation on the measurement precision of motional quantum states through parity measurements in modern quantum science and technologies.
翻訳日:2023-01-24 05:18:40 公開日:2022-10-01
# ハードコアシステムにおけるwエントロピー

W entropy in hard-core system ( http://arxiv.org/abs/2210.00179v1 )

ライセンス: Link先を確認
Putuo Guo and Yang Yu(参考訳) 熱力学の第2法則によって予測されるように、エントロピーの増加は時間では不可逆である。 しかし、量子力学では、量子状態の進化は時間反転に関して対称であり、熱力学的エントロピーと量子エントロピーの矛盾をもたらす。 本研究では,wエントロピーをワニエ基底の波動関数の確率分布から計算し,wエントロピーについて検討した。 その結果、wエントロピーとfエントロピーは、フォック関数の確率分布から計算され、近似線形関係を満たし、同じ傾向を持つことがわかった。 次に,様々なパラメータに対するWエントロピーの進化について検討する。 wエントロピーの回帰周期を計算し、格子スケールに依存することを求める。 この結果は、量子力学では熱力学の第二法則が完全には有効でないことを示している。 Wエントロピーの挙動は、系のスケールが十分に大きいときのみ熱力学の第二法則に従う。

As predicted by the second law of thermodynamics, the increase of entropy is irreversible in time. However, in quantum mechanics the evolution of quantum states is symmetrical about time-reversal, resulting a contradiction between thermodynamic entropy and quantum entropy. We study the W entropy, which is calculated from the probability distribution of the wave function on Wannier basis, in hard-core boson system. We find that W entropy and F entropy, which is calculated from the probability distribution of the wave function on Fock basis, satisfy an approximately linear relationship and have the same trend. Then, we investigate the evolution of W entropy for various parameters. We calculate the regression period of W entropy and find its dependence on the lattice scale. Our results show that the second law of thermodynamics is not completely valid in quantum mechanics. The behaviour of W entropy obeys the second law of thermodynamics, only when the system scale is large enough.
翻訳日:2023-01-24 05:18:15 公開日:2022-10-01
# ダイナミックデカップリングパルスのないノイズ分光

Noise Spectroscopy Without Dynamical Decoupling Pulses ( http://arxiv.org/abs/2210.00386v1 )

ライセンス: Link先を確認
Arian Vezvaee, Nanako Shitara, Shuo Sun, Andr\'es Montoya-Castillo(参考訳) 量子ビットのデコヒーレンスにつながる雑音環境のスペクトル的特徴は、堅牢な量子技術を開発する上で重要である。 動的デカップリングはノイズスペクトルを特徴付ける最も成功した方法の1つを提供するが、その方法の複雑さとコストを増大させる$\pi$パルスの大規模なシーケンスを適用する必要がある。 本稿では,自由誘導減衰測定のフーリエ変換のみを利用する雑音分光法を提案する。 提案手法は, ノイズスペクトルを忠実に復元し, 従来の動的デカップリング方式より優れ, 実験オーバーヘッドを大幅に低減する。 また,提案手法の実験的実現可能性についても論じ,統計的測定ノイズの存在下でのロバスト性を示す。 提案手法は幅広い量子プラットフォームに適用可能であり,量子デバイスのより正確なスペクトル評価を行うための簡単な経路を提供する。

Spectral characterization of noise environments that lead to the decoherence of qubits is critical to developing robust quantum technologies. While dynamical decoupling offers one of the most successful approaches to characterize noise spectra, it necessitates applying large sequences of $\pi$ pulses that increase the complexity and cost of the method. Here, we introduce a noise spectroscopy method that utilizes only the Fourier transform of free induction decay measurements, thus removing the need for the application any $\pi$ pulses. We show that our method faithfully recovers the correct noise spectra and outperforms previous dynamical decoupling schemes while significantly reducing its experimental overhead. We also discuss the experimental feasibility of our proposal and demonstrate its robustness in the presence of statistical measurement noise. Our method is applicable to a wide range of quantum platforms and provides a simpler path toward a more accurate spectral characterization of quantum devices, thus offering possibilities for tailored decoherence mitigation.
翻訳日:2023-01-24 05:13:35 公開日:2022-10-01
# 量子超チャネルへの公理的アプローチ

Axiomatic Approach to Quantum Superchannels ( http://arxiv.org/abs/2210.00370v1 )

ライセンス: Link先を確認
P\'adraig Daly(参考訳) 量子スーパーチャネルは、入力と出力が量子チャネルである地図である。 領域をすべての線型写像の空間とするのではなく、量子チャネルにまたがる作用素系上の超チャネルを動機付けて定義する。 完全正の写像に対する拡張定理は、スーパーチャネルのキャラクタリゼーション定理をこの小さな写像集合に適用することができる。 これらの拡張は非一意であり、2つの異なるスーパーチャネルが全ての入力量子チャネル上で同じ作用を示すので、より小さな領域におけるこの新しい定義は、量子チャネル間の変換としてのスーパーチャネルの作用をより正確に捉えている。 非一意性は、スーパーチャネルのテンソル積と同様に、キャラクタリゼーションに必要な補助次元に影響を及ぼす。

Quantum superchannels are maps whose input and output are quantum channels. Rather than taking the domain to be the space of all linear maps we motivate and define superchannels on the operator system spanned by quantum channels. Extension theorems for completely positive maps allow us to apply the characterisation theorem for superchannels to this smaller set of maps. These extensions are non unique, showing two different superchannels act the same on all input quantum channels, and so this new definition on the smaller domain captures more precisely the action of superchannels as transformations between quantum channels. The non uniqueness can affect the auxilliary dimension needed for the characterisation as well as the tensor product of the superchannels.
翻訳日:2023-01-24 05:13:20 公開日:2022-10-01
# NISQにおける高次近似を持つマヨラナダイナミクスの(1+1)次元時空における量子ウォーク

Quantum walk in (1+1)-dimensional spacetime for Majorana dynamics with high order approximation in NISQ ( http://arxiv.org/abs/2210.00306v1 )

ライセンス: Link先を確認
Wei-Ting Wang, Xiao-Gang He, Hsien-Chung Kao, and Ching-Ray Chang(参考訳) 本研究では,ローレンツ共分散と初期状態がマヨラナ条件を満たす場合,量子ウォークはマヨラナフェルミオンを記述することができることを示す。 マヨラナフェルミオンの時間進化は数値シミュレーションで実証され、IBM量子システムが提供する実量子デバイス上で実験的に実行される。 近似による誤差を低減するため,第1次近似と比較して量子ゲート回路の複雑さを増大させることなく,短期量子コンピュータにおいて第2次精度を実現する方法を提案する。 その結果、rest majorana fermion(運動量の予測値はゼロ)は十分に定義でき、その挙動はマヨラナ条件の厳密な制約のため、ディラック粒子よりも近似の精度に敏感に依存することがわかった。

In this study, we show that quantum walk can describe a Majorana fermion when the coin operator constrained by Lorentz covariance and the initial state satisfies the Majorana condition. The time evolution of a Majorana fermion is demonstrated with the numerical simulations and experimentally runs on a real quantum device provided by IBM Quantum System. To reduce errors due to approximation, we proposed a new efficient way to achieve second order accuracy in the near-term quantum computer without increase the complexity of quantum gate circuitry compared with the first order approximation. We show that rest Majorana fermion (expectation value of momentum is zero) can be well defined and its behavior depends more sensitively on the accuracy of the approximation than a Dirac particle due to the stringent constraints of Majorana condition.
翻訳日:2023-01-24 05:13:08 公開日:2022-10-01
# 間隔におけるシュウィンガーモデル:解析結果とDMRG

Schwinger model on an interval: analytic results and DMRG ( http://arxiv.org/abs/2210.00297v1 )

ライセンス: Link先を確認
Takuya Okuda(参考訳) 区間上の1+1$次元の量子電磁力学(シュウィンガーモデル)は有限次元ヒルベルト空間との格子の離散化を認め、量子シミュレーションやテンソルネットワークシミュレーションの試験台としてよく用いられる。 本研究では連続体理論と格子理論の境界条件の正確なマッピングを明らかにする。 特に,シミュレーションでよく用いられる従来のガウス則制約は電荷密度に強い境界効果を生じさせ,代替制約がより穏やかな効果を持つことを示す。 さらに、マスレスシュウィンガーモデルにおいて、大域的および局所的な物理観測可能量の正確な解析結果をボゾン化することによって得られる。 これらの解析結果を密度行列再正規化群 (dmrg) 法によるシミュレーション結果と比較し, 良好な一致を得た。

Quantum electrodynamics in $1+1$ dimensions (Schwinger model) on an interval admits lattice discretization with a finite-dimensional Hilbert space, and is often used as a testbed for quantum simulation and tensor network simulation. In this work we clarify the precise mapping between the boundary conditions in the continuum and lattice theories. In particular we show that the conventional Gauss law constraint commonly used in simulations induces a strong boundary effect on the charge density, and demonstrate that an alternative constraint has a much milder effect. Further, we obtain by bosonization a number of exact analytic results for global and local physical observables in the massless Schwinger model. We compare these analytic results with the simulation results obtained by the density matrix renormalization group (DMRG) method and find excellent agreements.
翻訳日:2023-01-24 05:12:51 公開日:2022-10-01
# 集中飽和非線形性とPT対称ポテンシャルを持つ分数非線形シュリンガー方程式によって支えられる自然対称性の破れとゴースト状態

Spontaneous symmetry breaking and ghost states supported by the fractional nonlinear Schr\"odinger equation with focusing saturable nonlinearity and PT-symmetric potential ( http://arxiv.org/abs/2210.00277v1 )

ライセンス: Link先を確認
Ming Zhong, Li Wang, Pengfei Li, and Zhenya Yan(参考訳) 我々は、飽和非線形性とPT対称ポテンシャルに焦点をあてた分数非線形Schr\"odinger(FNLS)方程式の枠組みに、新しい自発対称性破壊現象とゴースト状態が存在することを報告した。 連続的な非対称ソリトン分岐は、電力がいくつかの臨界値を超えると基本対称分岐から分岐する。 興味深いことに、基本ソリトンの対称性は、複素共役伝播定数を持つ非対称性ソリトン(alias ghost state)の2つの分枝に分割されている。 さらに、双極子(反対称性)と三重項ソリトンも数値的に研究されている。 さらに,分数L'evy指数と飽和非線形パラメータがソリトン対称性の破れに与える影響を詳細に分析した。 また, 基本ソリトン, 非対称, 双極子および三重項ソリトンの安定性を線形安定性解析および直接伝播によって検討した。 さらに, 対称ソリトンと非対称ソリトンとの弾性/半弾性衝突現象についても検討した。 一方,飽和非線形性を持つ分数回折から,パラメータの断熱励起を介してケラー非線形性を持つ整数次回折まで,安定な励起が見られる。 これらの結果は,pt対称ポテンシャルを持つ分数媒質における自発的対称性破砕現象と関連する物理実験の理論的基礎を提供する。

We report a novel spontaneous symmetry breaking phenomenon and ghost states existed in the framework of the fractional nonlinear Schr\"odinger (FNLS) equation with focusing saturable nonlinearity and PT-symmetric potential. The continuous asymmetric soliton branch bifurcates from the fundamental symmetric one as the power exceeds some critical value. Intriguingly, the symmetry of fundamental solitons is broken into two branches of asymmetry solitons (alias ghost states) with complex conjugate propagation constants, which is solely in fractional media. Besides, the dipole (antisymmetry) and tripole solitons are also studied numerically. Moreover, we analyze the influences of fractional L\'evy index and saturable nonlinear parameters on the symmetry breaking of solitons in detail. And the stability of fundamental soliton, asymmetric, dipole and tripole solitons are explored via the linear stability analysis and direct propagations. Moreover, we explore the elastic/semi-elastic collision phenomena between symmetric and asymmetric solitons. Meanwhile, we find the stable excitations from the fractional diffraction with saturation nonlinearity to integer-order diffraction with Kerr nonlinearity via the adiabatic excitations of parameters. These results will provide some theoretical basis for the study of spontaneous symmetry breaking phenomena and related physical experiments in the fractional media with PT-symmetric potentials.
翻訳日:2023-01-24 05:12:38 公開日:2022-10-01
# 非古典的テレポーテーション忠実度における古典的相関と絡み合いの寄与

Contribution of classical correlation and entanglement in the non-classical teleportation fidelity ( http://arxiv.org/abs/2210.00238v1 )

ライセンス: Link先を確認
Priyanka Chowdhury(参考訳) 絡み合いが量子テレポーテーションの資源であることはよく知られている。 テレポーテーションは、古典的相関(CC)と2/3$までのテレポーテーションフィデリティ(TF)を用いて達成できる。 本研究は, 脱コヒーレンスの存在下でTF, 絡み合い, CCについて検討した。 我々は,デコヒーレンス強度に対するccの大幅な増加は,絡み合いが減少する一方,非古典領域においてtfを導くことを見出した。 また,弱い測定法と逆弱い測定法(WMRWM)を用いて,TFと絡み合いの保護について検討した。 ここでは,絡み合いの最大保護はTFとCCを最適化しないことがわかった。 TFの最適化はCCの最大化を示す。 したがって、共有状態の絡み合いと古典的相関は、将来検討される必要のある複雑な方法でテレポーテーションに参加する。

It is well known that entanglement is the resource of quantum teleportation. Teleportation can be accomplished using classical correlation (CC) with a teleportation fidelity (TF) upto $2/3$. In the present work we have studied TF, entanglement and CC in the presence of decoherence. We have found that significant increment of CC with respect to the strength of decoherence can lead TF in the non-classical region while entanglement is decreasing. We have also studied the protection of TF and entanglement using the technique of weak measurement and reverse weak measurement (WMRWM). Here we found that maximum protection of entanglement does not optimize the TF and CC. While optimization of TF indicates maximization of CC. Therefore, both entanglement and classical correlation of the shared state take part in the teleportation in a complex manner that needs to be explored in the future.
翻訳日:2023-01-24 05:12:02 公開日:2022-10-01
# サブシステムの局所記述による非局所量子相関の物理的解釈

Physical interpretation of nonlocal quantum correlation through local description of subsystems ( http://arxiv.org/abs/2210.00237v1 )

ライセンス: Link先を確認
Tanumoy Pramanik, Xiaojiong Chen, Yu Xiang, Xudong Li, Jun Mao, Jueming Bao, Yaohao Deng, Tianxiang Dai, Bo Tang, Yan Yang, Zhihua Li, Qihuang Gong, Qiongyi He and Jianwei Wang(参考訳) 量子相関のキャラクタリゼーションと分類は、量子情報科学において基本的かつ実質的に重要である。 非分離性、ステアビリティ、非局所性などの量子相関は、関連する系の既知の(信頼された)知識または未知の(信頼されていない)知識を持つ異なるシナリオにおける異なる理論モデルによって特徴づけられるが、そのような特徴付けは実験家にとって曖昧なものである。 本研究では,2つの系間の非局所量子相関の物理的解釈を提案する。 局所不確実性関係によって定量化されたサブシステムの1つの完全局所記述が存在しない場合、サブシステム間の相関は非局所となる。 注目すべきは、異なる非局所量子相関は、局所隠れ状態(LHS)-LHSモデルでのみ導かれる単一の不確実性関係から区別することができることである。 異なるシナリオで2量子Werner状態を実験的に特徴づける。

Characterization and categorization of quantum correlations are both fundamentally and practically important in quantum information science. Although quantum correlations such as non-separability, steerability, and non-locality can be characterized by different theoretical models in different scenarios with either known (trusted) or unknown (untrusted) knowledge of the associated systems, such characterization sometimes lacks unambiguous to experimentalist. In this work, we propose the physical interpretation of nonlocal quantum correlation between two systems. In the absence of {\it complete local description} of one of the subsystems quantified by the {\it local uncertainty relation}, the correlation between subsystems becomes nonlocal. Remarkably, different nonlocal quantum correlations can be discriminated from a single uncertainty relation derived under local hidden state (LHS)-LHS model only. We experimentally characterize the two-qubit Werner state in different scenarios.
翻訳日:2023-01-24 05:11:49 公開日:2022-10-01
# 17{\lambda} x 10 Gb/s C-Band Classical / DV-QKD のホロコアファイバリンクへの共存

Demonstration of 17{\lambda} x 10 Gb/s C-Band Classical / DV-QKD Co-Existence Over Hollow-Core Fiber Link ( http://arxiv.org/abs/2210.00233v1 )

ライセンス: Link先を確認
Florian Honz (1), Florian Prawits (1), Obada Alia (2), Hessam Sakr (3), Thomas Bradley (3), Cong Zhang (3), Radan Slav\'ik (3), Francesco Poletti (3), George Kanellos (2), Reza Nejabati (2), Philip Walther (4), Dimitra Simeonidou (2), Hannes H\"ubel (1), Bernhard Schrenk (1) ((1) AIT Austrian Institute of Technology, (2) University of Bristol, (3) Optoelectronics Research Centre, University of Southampton, (4) University of Vienna, Faculty of Physics)(参考訳) 1540.56 nmから 1558.17 nm までの17 edfa ブースト c-バンドデータチャネルと7.7 km の中空コアファイバーリンクでコヒーレントな一方向qkdを1538 nmで統合し、11 dbm の電力を集約した。 古典チャネルの広帯域レイアウトにもかかわらず、QKD操作は成功している。

We successfully integrate coherent one-way QKD at 1538 nm in a 7.7 km long hollow-core fiber link with 17 EDFA-boosted C-band data channels from 1540.56 to 1558.17 nm, aggregating a power of 11 dBm. QKD operation proves successful despite the wideband layout of classical channels.
翻訳日:2023-01-24 05:11:32 公開日:2022-10-01
# 無バイアス量子位相推定

Unbiased quantum phase estimation ( http://arxiv.org/abs/2210.00231v1 )

ライセンス: Link先を確認
Xi Lu, Hongwei Lin(参考訳) 量子位相推定アルゴリズム (PEA) は、量子計算の初期研究において最も重要なアルゴリズムの1つである。 また、量子カウントアルゴリズムやショアの整数分解アルゴリズムなど、他の多くの量子アルゴリズムの鍵でもある。 しかし,peaは偏りのない推定ではなく,推定誤差が任意に小さいレベルに達することを防止していることがわかった。 本稿では、元のPEAに基づく非バイアス位相推定アルゴリズム(UPEA)を提案し、その量子カウントへの応用について検討する。 また、処理後処理の最大化により、その堅牢性をさらに向上できることを示す。 最後に、UPEAを量子カウントに適用し、量子カウントアルゴリズムをバイアスなくするために追加の補正ステップを使用する。

Quantum phase estimation algorithm (PEA) is one of the most important algorithms in early studies of quantum computation. It is also a key for many other quantum algorithms, such as the quantum counting algorithm and the Shor's integer factorization algorithm. However, we find that the PEA is not an unbiased estimation, which prevents the estimation error from achieving an arbitrarily small level. In this paper, we propose an unbiased phase estimation algorithm (UPEA) based on the original PEA, and study its application in quantum counting. We also show that a maximum likelihood post-processing step can further improve its robustness. In the end, we apply UPEA to quantum counting, and use an additional correction step to make the quantum counting algorithm unbiased.
翻訳日:2023-01-24 05:11:20 公開日:2022-10-01
# 知識グラフ補完のためのブロック項形式との多分割埋め込み

Multi-Partition Embedding Interaction with Block Term Format for Knowledge Graph Completion ( http://arxiv.org/abs/2006.16365v2 )

ライセンス: Link先を確認
Hung Nghiep Tran and Atsuhiro Takasu(参考訳) 知識グラフ補完は、エンティティ間のリレーショナルリンクの欠如を予測するために重要なタスクである。 知識グラフ埋め込み法は、エンティティと関係を埋め込みベクトルとして表現し、それらの相互作用をモデル化し、各トリプルのマッチングスコアを計算することで、このタスクを実行する。 従来の作業は通常、各埋め込み全体を扱い、これらの埋め込み全体間の相互作用をモデル化し、モデルが過度に高価になるか、特別に設計された相互作用メカニズムを必要とする可能性がある。 本研究では,ブロック項形式を用いたマルチパーティション埋め込み相互作用(MEI)モデルを提案し,この問題に体系的に対処する。 MEIは、各埋め込みを多分割ベクトルに分割し、効率的に相互作用を制限する。 各局所的相互作用はタッカーテンソル形式でモデル化され、完全な相互作用はブロック項テンソル形式でモデル化され、MEIは表現性と計算コストのトレードオフを制御し、データから相互作用機構を自動学習し、リンク予測タスクにおける最先端のパフォーマンスを達成する。 さらに,パラメータ効率問題を理論的に検討し,最適パラメータトレードオフのための簡易な検証基準を導出する。 また, mei の枠組みを応用して, 従来モデルで特に設計されたインタラクション機構について, 新たな一般化説明を行う。 ソースコードはhttps://github.com/tranhunghiep/MEI-KGEで公開されている。

Knowledge graph completion is an important task that aims to predict the missing relational link between entities. Knowledge graph embedding methods perform this task by representing entities and relations as embedding vectors and modeling their interactions to compute the matching score of each triple. Previous work has usually treated each embedding as a whole and has modeled the interactions between these whole embeddings, potentially making the model excessively expensive or requiring specially designed interaction mechanisms. In this work, we propose the multi-partition embedding interaction (MEI) model with block term format to systematically address this problem. MEI divides each embedding into a multi-partition vector to efficiently restrict the interactions. Each local interaction is modeled with the Tucker tensor format and the full interaction is modeled with the block term tensor format, enabling MEI to control the trade-off between expressiveness and computational cost, learn the interaction mechanisms from data automatically, and achieve state-of-the-art performance on the link prediction task. In addition, we theoretically study the parameter efficiency problem and derive a simple empirically verified criterion for optimal parameter trade-off. We also apply the framework of MEI to provide a new generalized explanation for several specially designed interaction mechanisms in previous models. The source code is released at https://github.com/tranhungnghiep/MEI-KGE.
翻訳日:2022-11-15 13:11:28 公開日:2022-10-01
# クラスタリング評価のための非パラメータ間距離に基づく新しい尺度

A new nonparametric interpoint distance-based measure for assessment of clustering ( http://arxiv.org/abs/2210.08972v1 )

ライセンス: Link先を確認
Soumita Modak(参考訳) データセットに存在するクラスタの最適な数を特定するために,新たなインターポイント距離に基づく測度を提案する。 非パラメトリックな方法で設計され、与えられたデータの分布とは独立している。 データメンバー間の点間距離は、任意のスケールで測定された不等変量および多変量データに適用可能か、または研究変数の数がサンプルサイズよりさらに大きい任意の次元空間で観測可能となる。 提案する基準は任意のクラスタリングアルゴリズムと互換性があり,未知のクラスタ数の決定や,データセットのクラスタの品質評価に利用することができる。 合成および実生活データによる実証は、文献のよく知られたクラスタリング精度尺度よりも優れている。

A new interpoint distance-based measure is proposed to identify the optimal number of clusters present in a data set. Designed in nonparametric approach, it is independent of the distribution of given data. Interpoint distances between the data members make our cluster validity index applicable to univariate and multivariate data measured on arbitrary scales, or having observations in any dimensional space where the number of study variables can be even larger than the sample size. Our proposed criterion is compatible with any clustering algorithm, and can be used to determine the unknown number of clusters or to assess the quality of the resulting clusters for a data set. Demonstration through synthetic and real-life data establishes its superiority over the well-known clustering accuracy measures of the literature.
翻訳日:2022-10-23 20:44:55 公開日:2022-10-01
# T2CI-GAN:Generative Adversarial Networkを用いた圧縮画像生成

T2CI-GAN: Text to Compressed Image generation using Generative Adversarial Network ( http://arxiv.org/abs/2210.03734v1 )

ライセンス: Link先を確認
Bulla Rajesh and Nandakishore Dusa and Mohammed Javed and Shiv Ram Dubey and P. Nagabhushan(参考訳) 近年,視覚データに対してテキスト記述を生成する問題は研究の注目を集めている。 対照的に、テキスト記述から視覚データを生成するという問題は、自然言語処理(NLP)とコンピュータビジョンの組み合わせを必要とするため、依然として非常に難しい。 既存の手法では、gans(generative adversarial network)を利用し、テキスト記述から未圧縮画像を生成する。 しかし、実際には、視覚データのほとんどが圧縮表現で処理され、送信される。 そこで,提案手法では,Deep Convolutional GAN(DCGAN)を用いて圧縮表現形式で直接視覚データを生成し,記憶効率と計算効率を向上させる。 テキストから圧縮画像を生成するためのGANモデルを提案する。 最初のモデルはJPEG圧縮DCT画像(圧縮領域)で直接訓練され、テキスト記述から圧縮画像を生成する。 第2のモデルはRGB画像(ピクセル領域)でトレーニングされ、テキスト記述からJPEG圧縮DCT表現を生成する。 提案したモデルは、RGBおよびJPEG圧縮版の両方を用いて、オープンソースのベンチマークデータセットであるOxford-102 Flowerイメージ上でテストされ、JPEG圧縮領域における最先端のパフォーマンスを達成した。 コードは、論文を受理した後、GitHubで公開される。

The problem of generating textual descriptions for the visual data has gained research attention in the recent years. In contrast to that the problem of generating visual data from textual descriptions is still very challenging, because it requires the combination of both Natural Language Processing (NLP) and Computer Vision techniques. The existing methods utilize the Generative Adversarial Networks (GANs) and generate the uncompressed images from textual description. However, in practice, most of the visual data are processed and transmitted in the compressed representation. Hence, the proposed work attempts to generate the visual data directly in the compressed representation form using Deep Convolutional GANs (DCGANs) to achieve the storage and computational efficiency. We propose GAN models for compressed image generation from text. The first model is directly trained with JPEG compressed DCT images (compressed domain) to generate the compressed images from text descriptions. The second model is trained with RGB images (pixel domain) to generate JPEG compressed DCT representation from text descriptions. The proposed models are tested on an open source benchmark dataset Oxford-102 Flower images using both RGB and JPEG compressed versions, and accomplished the state-of-the-art performance in the JPEG compressed domain. The code will be publicly released at GitHub after acceptance of paper.
翻訳日:2022-10-16 16:22:12 公開日:2022-10-01
# 脳波信号分類のためのクロスタスクニューラルアーキテクチャ探索

Cross Task Neural Architecture Search for EEG Signal Classifications ( http://arxiv.org/abs/2210.06298v1 )

ライセンス: Link先を確認
Yiqun Duan, Zhen Wang, Yi Li, Jianhang Tang, Yu-Kai Wang, Chin-Teng Lin(参考訳) 脳波計 (eeg) は脳の外で測定される脳の動態であり、非侵襲的な脳-コンピューターインタフェースで広く使われている。 近年,脳波信号認識の精度向上のために,様々なニューラルネットワーク手法が提案されている。 しかしながら、これらのアプローチは、一般的に同じ経験的設計を共有していない異なるタスクに対して、手動で設計されたネットワーク構造に強く依存している。 本稿では、タスク間でネットワーク構造を自動設計し、脳波信号の認識精度を向上させることができる、脳波信号認識のためのクロスタスクニューラルネットワーク探索(CTNAS-EEG)フレームワークを提案する。 具体的には,脳波信号による課題を克服するために,タスク横断探索のための対応検索空間と効率的な制約付き探索法を提案する。 異なる脳波タスクにおける構造探索を統一することにより、この研究は、探索された構造差をクロスタスクで探索し分析する最初の方法である。 さらに,アーキテクチャ探索を導入することで,人体毎にモデル構造をカスタマイズすることで,モデル性能を初めて解析する。 詳細な実験結果から、提案したCTNAS-EEGは、運動画像(MI)や感情認識など、さまざまな脳波タスクにおける最先端の性能に達する可能性が示唆された。 大規模な実験と詳細な分析は、フォローアップ研究者にとって良い参考となる。

Electroencephalograms (EEGs) are brain dynamics measured outside the brain, which have been widely utilized in non-invasive brain-computer interface applications. Recently, various neural network approaches have been proposed to improve the accuracy of EEG signal recognition. However, these approaches severely rely on manually designed network structures for different tasks which generally are not sharing the same empirical design cross-task-wise. In this paper, we propose a cross-task neural architecture search (CTNAS-EEG) framework for EEG signal recognition, which can automatically design the network structure across tasks and improve the recognition accuracy of EEG signals. Specifically, a compatible search space for cross-task searching and an efficient constrained searching method is proposed to overcome challenges brought by EEG signals. By unifying structure search on different EEG tasks, this work is the first to explore and analyze the searched structure difference cross-task-wise. Moreover, by introducing architecture search, this work is the first to analyze model performance by customizing model structure for each human subject. Detailed experimental results suggest that the proposed CTNAS-EEG could reach state-of-the-art performance on different EEG tasks, such as Motor Imagery (MI) and Emotion recognition. Extensive experiments and detailed analysis are provided as a good reference for follow-up researchers.
翻訳日:2022-10-16 16:21:12 公開日:2022-10-01
# 合成テキスト検出:システム文献レビュー

Synthetic Text Detection: Systemic Literature Review ( http://arxiv.org/abs/2210.06336v1 )

ライセンス: Link先を確認
Jesus Guerrero and Izzat Alsmadi(参考訳) テキスト解析と処理の分野では、生成されたテキスト攻撃がこれまで以上に簡単に作成できるようになった。 これらの攻撃に対抗するために、オープンソースのモデルとデータセットは、認証を守るために自動検出アルゴリズムを作成する主要なトレンドとなっている。 この目的のために、合成テキスト検出は次第に研究の対象となっている。 このレビューは、現在の文学の状況のスナップショットを作成し、将来の著者への参入障壁を緩和するために書かれている。 その目標に向かって、この分野の研究動向と課題がほとんどなかった。

Within the text analysis and processing fields, generated text attacks have been made easier to create than ever before. To combat these attacks open sourcing models and datasets have become a major trend to create automated detection algorithms in defense of authenticity. For this purpose, synthetic text detection has become an increasingly viable topic of research. This review is written for the purpose of creating a snapshot of the state of current literature and easing the barrier to entry for future authors. Towards that goal, we identified few research trends and challenges in this field.
翻訳日:2022-10-16 16:20:24 公開日:2022-10-01
# 未知の因果的介入の混合物の分離

Disentangling Mixtures of Unknown Causal Interventions ( http://arxiv.org/abs/2210.03242v1 )

ライセンス: Link先を確認
Abhinav Kumar, Gaurav Sinha(参考訳) 遺伝子ノックアウト実験のような多くの現実世界のシナリオでは、標的とした介入はしばしば標的外の場所で未知の介入を伴う。 さらに、異なるユニットは、異なる未知の介入にランダムに曝されるため、複数の介入が混在する。 この混合物の異なるコンポーネントを特定することは、いくつかのアプリケーションで非常に有用である。 このような状況に動機づけられた本研究では,与えられた因果ベイズネットワーク上の介入の混合に存在するすべての構成要素を同定する問題について検討する。 我々は、一般に、成分が混合分布から識別できないことを示す例として構成する。 次に、与えられたネットワークが正の条件を満たすと仮定すると、混合成分の集合が穏やかな排他的仮定を満たすならば、それらは一意に識別できることを示す。 我々の証明は、これらのターゲットを可能なターゲットの指数的に大きな探索空間から回収する効率的なアルゴリズムを与える。 有限個のサンプルによって分布が与えられるより現実的なシナリオでは、同定可能性証明から導かれるアルゴリズムの性能を分析するためのシミュレーション研究を行う。

In many real-world scenarios, such as gene knockout experiments, targeted interventions are often accompanied by unknown interventions at off-target sites. Moreover, different units can get randomly exposed to different unknown interventions, thereby creating a mixture of interventions. Identifying different components of this mixture can be very valuable in some applications. Motivated by such situations, in this work, we study the problem of identifying all components present in a mixture of interventions on a given causal Bayesian Network. We construct an example to show that, in general, the components are not identifiable from the mixture distribution. Next, assuming that the given network satisfies a positivity condition, we show that, if the set of mixture components satisfy a mild exclusion assumption, then they can be uniquely identified. Our proof gives an efficient algorithm to recover these targets from the exponentially large search space of possible targets. In the more realistic scenario, where distributions are given via finitely many samples, we conduct a simulation study to analyze the performance of an algorithm derived from our identifiability proof.
翻訳日:2022-10-16 16:10:19 公開日:2022-10-01
# 逆学習とエキスパートフィードバックによる不規則ネットワーク活動の検出

Detecting Irregular Network Activity with Adversarial Learning and Expert Feedback ( http://arxiv.org/abs/2210.02841v1 )

ライセンス: Link先を確認
Gopikrishna Rathinavel, Nikhil Muralidhar, Timothy O'Shea and Naren Ramakrishnan(参考訳) 異常検出は多くの分野にまたがるユビキタスで困難な課題である。 コミュニケーションネットワークが日常生活で果たす重要な役割により、これらのネットワークのセキュリティは社会の円滑な機能に不可欠である。 そこで本稿では,無線通信システムにおける異常検出のための自己教師型ディープラーニングフレームワークCAADを提案する。 特にCAADは、無線ネットワークにおける正常および異常な動作の効果的な表現を学習するために、対向的な設定で対照的な学習を採用する。 我々はCAADの厳密な性能比較をいくつかの最先端異常検出技術と比較し、CAADが92.84%の性能改善をもたらすことを検証した。 さらに,新たなコントラスト学習フィードバックループを通じて,専門家のフィードバックを体系的に取り入れることで,学習表現の改善と予測不確実性(caad-ef)の低減を可能にした。 われわれはCAAD-EFを,異常検出のための新規で総合的で広く適用可能なソリューションであると考えている。

Anomaly detection is a ubiquitous and challenging task relevant across many disciplines. With the vital role communication networks play in our daily lives, the security of these networks is imperative for smooth functioning of society. To this end, we propose a novel self-supervised deep learning framework CAAD for anomaly detection in wireless communication systems. Specifically, CAAD employs contrastive learning in an adversarial setup to learn effective representations of normal and anomalous behavior in wireless networks. We conduct rigorous performance comparisons of CAAD with several state-of-the-art anomaly detection techniques and verify that CAAD yields a mean performance improvement of 92.84%. Additionally, we also augment CAAD enabling it to systematically incorporate expert feedback through a novel contrastive learning feedback loop to improve the learned representations and thereby reduce prediction uncertainty (CAAD-EF). We view CAAD-EF as a novel, holistic and widely applicable solution to anomaly detection.
翻訳日:2022-10-09 17:04:05 公開日:2022-10-01
# 新型コロナウイルス患者データにおける重症疾患分類の階層的Neyman-Pearson分類

Hierarchical Neyman-Pearson Classification for Prioritizing Severe Disease Categories in COVID-19 Patient Data ( http://arxiv.org/abs/2210.02197v1 )

ライセンス: Link先を確認
Lijia Wang, Y. X. Rachel Wang, Jingyi Jessica Li, Xin Tong(参考訳) 新型コロナウイルスは無症状から入院まで、さまざまな病気の重症度がある。 重度の患者に適切な医療を提供することは、死亡リスクを減らすために重要である。 したがって、重症度分類において、より重要な分類ミスは「診断下」であり、患者は重症度の低い分類に分類され、治療が不十分である。 Neyman-Pearson(NP)分類パラダイムは、指定されたタイプのエラーを優先順位付けするために開発された。 しかし、現在のnp手続きはバイナリ分類のためか、マルチクラス分類における優先度付きエラーに対する高い確率制御を提供していない。 本稿では,一般的な分類法に適応し,高い確率で診断下エラーを制御する階層型NP(H-NP)フレームワークと傘アルゴリズムを提案する。 740症例を対象とした単細胞RNA-seq(scRNA-seq)データセットの統合収集について,H-NPアルゴリズムの有効性を検討した。 新型コロナウイルスの重症度分類以外にも、H-NPアルゴリズムは、クラスが優先的な順序を持つマルチクラス分類問題に適用される。

COVID-19 has a spectrum of disease severity, ranging from asymptomatic to requiring hospitalization. Providing appropriate medical care to severe patients is crucial to reduce mortality risks. Hence, in classifying patients into severity categories, the more important classification errors are "under-diagnosis", in which patients are misclassified into less severe categories and thus receive insufficient medical care. The Neyman-Pearson (NP) classification paradigm has been developed to prioritize the designated type of error. However, current NP procedures are either for binary classification or do not provide high probability controls on the prioritized errors in multi-class classification. Here, we propose a hierarchical NP (H-NP) framework and an umbrella algorithm that generally adapts to popular classification methods and controls the under-diagnosis errors with high probability. On an integrated collection of single-cell RNA-seq (scRNA-seq) datasets for 740 patients, we explore ways of featurization and demonstrate the efficacy of the H-NP algorithm in controlling the under-diagnosis errors regardless of featurization. Beyond COVID-19 severity classification, the H-NP algorithm generally applies to multi-class classification problems, where classes have a priority order.
翻訳日:2022-10-06 15:11:01 公開日:2022-10-01
# imagenetから10年が経ち、aiに関する360{\deg}の展望

Ten Years after ImageNet: A 360{\deg} Perspective on AI ( http://arxiv.org/abs/2210.01797v1 )

ライセンス: Link先を確認
Sanjay Chawla and Preslav Nakov and Ahmed Ali and Wendy Hall and Issa Khalil and Xiaosong Ma and Husrev Taha Sencar and Ingmar Weber and Michael Wooldridge and Ting Yu(参考訳) ニューラルネットワークが壮大な復活を遂げてから10年になる。 この記念日を記念して、人工知能(AI)の総合的な視点を取ります。 十分な品質のラベル付きデータがあれば、認知タスクのための教師付き学習は効果的に解決されます。 しかし、ディープニューラルネットワークモデルは容易には解釈できないため、ブラックボックスとホワイトボックスのモデリングの議論が目前に迫っている。 注目ネットワークの台頭、自己教師付き学習、生成モデリング、グラフニューラルネットワークがAIの応用領域を広げている。 Deep Learningはまた、自律的な意思決定システムの中核となるビルディングブロックとして強化学習を復活させた。 新しいai技術によって起こりうる害は、透明性、公平性、説明責任といった社会技術的問題を引き起こした。 人材、コンピューティングリソース、そして最も重要なことは、データを制御しているBig-TechによるAIの支配は、極端なAIの分裂につながるかもしれない。 高い期待に応えることができず、自動運転車のような旗艦プロジェクトは、新たなAI冬を引き起こす可能性がある。

It is ten years since neural networks made their spectacular comeback. Prompted by this anniversary, we take a holistic perspective on Artificial Intelligence (AI). Supervised Learning for cognitive tasks is effectively solved - provided we have enough high-quality labeled data. However, deep neural network models are not easily interpretable, and thus the debate between blackbox and whitebox modeling has come to the fore. The rise of attention networks, self-supervised learning, generative modeling, and graph neural networks has widened the application space of AI. Deep Learning has also propelled the return of reinforcement learning as a core building block of autonomous decision making systems. The possible harms made possible by new AI technologies have raised socio-technical issues such as transparency, fairness, and accountability. The dominance of AI by Big-Tech who control talent, computing resources, and most importantly, data may lead to an extreme AI divide. Failure to meet high expectations in high profile, and much heralded flagship projects like self-driving vehicles could trigger another AI winter.
翻訳日:2022-10-06 13:35:44 公開日:2022-10-01
# 相関特性制御による多目的深部データ生成

Multi-objective Deep Data Generation with Correlated Property Control ( http://arxiv.org/abs/2210.01796v1 )

ライセンス: Link先を確認
Shiyu Wang, Xiaojie Guo, Xuanyang Lin, Bo Pan, Yuanqi Du, Yinkai Wang, Yanfang Ye, Ashley Ann Petersen, Austin Leitgeb, Saleh AlKhalifa, Kevin Minbiole, Bill Wuest, Amarda Shehu, Liang Zhao(参考訳) 深層生成モデルの開発は、画像合成や分子設計など、様々な目的で複雑なデータをモデル化し、生成する能力によって、新たな分野となった。 しかし、深層生成モデルの進歩は、複数の望ましい性質を持つオブジェクトを生成するための課題によって制限される。 1) 実世界の特性間の複素相関の存在は一般的であるが、識別することは困難である。 2) 個々のプロパティの制御は,その関連付けられたプロパティを暗黙的に部分的に制御することを強制する。 3)様々な方法で同時に複数の特性を制御することは困難で未検討である。 これらの課題に対処するために、非絡み付き潜在ベクトルを通して意味論と特性の相関を復元する、新しい深層生成フレームワークを提案する。 相関は説明可能なマスクプーリング層を介して処理され、特性は潜在ベクトルと特性の相互依存を介して生成オブジェクトによって正確に保持される。 我々の生成モデルは,多目的最適化フレームワークの下で,特性の相関と矛盾を扱いながら,興味のある特性を保存する。 実験は,提案モデルが望ましい特性を持つデータを生成する際の優れた性能を示す。

Developing deep generative models has been an emerging field due to the ability to model and generate complex data for various purposes, such as image synthesis and molecular design. However, the advancement of deep generative models is limited by challenges to generate objects that possess multiple desired properties: 1) the existence of complex correlation among real-world properties is common but hard to identify; 2) controlling individual property enforces an implicit partially control of its correlated properties, which is difficult to model; 3) controlling multiple properties under various manners simultaneously is hard and under-explored. We address these challenges by proposing a novel deep generative framework that recovers semantics and the correlation of properties through disentangled latent vectors. The correlation is handled via an explainable mask pooling layer, and properties are precisely retained by generated objects via the mutual dependence between latent vectors and properties. Our generative model preserves properties of interest while handling correlation and conflicts of properties under a multi-objective optimization framework. The experiments demonstrate our model's superior performance in generating data with desired properties.
翻訳日:2022-10-06 12:58:45 公開日:2022-10-01
# ランク制約による潜在階層的因果構造発見

Latent Hierarchical Causal Structure Discovery with Rank Constraints ( http://arxiv.org/abs/2210.01798v1 )

ライセンス: Link先を確認
Biwei Huang, Charles Jia Han Low, Feng Xie, Clark Glymour, Kun Zhang(参考訳) ほとんどの因果的発見手順は、システムに潜伏する共同設立者がいないと仮定している。 本稿では,ある変数が潜在性であり,それらが測定された変数を生成する階層グラフ構造を形成する因果構造同定の難解なシナリオについて考察する。 そこで本研究では, 潜在変数を効率的に同定し, 基数を判定し, 潜在階層構造を同定する手法を提案する。 提案アルゴリズムは,グラフ構造の適切な制約の下で,グラフ全体のマルコフ同値クラスを漸近的に求めることができることを示す。

Most causal discovery procedures assume that there are no latent confounders in the system, which is often violated in real-world problems. In this paper, we consider a challenging scenario for causal structure identification, where some variables are latent and they form a hierarchical graph structure to generate the measured variables; the children of latent variables may still be latent and only leaf nodes are measured, and moreover, there can be multiple paths between every pair of variables (i.e., it is beyond tree structure). We propose an estimation procedure that can efficiently locate latent variables, determine their cardinalities, and identify the latent hierarchical structure, by leveraging rank deficiency constraints over the measured variables. We show that the proposed algorithm can find the correct Markov equivalence class of the whole graph asymptotically under proper restrictions on the graph structure.
翻訳日:2022-10-06 12:58:29 公開日:2022-10-01
# STGIN - 時系列交通速度予測のための時空間グラフインフォーマネットワーク

STGIN: A Spatial Temporal Graph-Informer Network for Long Sequence Traffic Speed Forecasting ( http://arxiv.org/abs/2210.01799v1 )

ライセンス: Link先を確認
Ruikang Luo, Yaofeng Song, Liping Huang, Yicheng Zhang and Rong Su(参考訳) インテリジェントなトラヒックシステムの開発には,トラヒック情報の正確な時系列予測が不可欠である。 この進歩により、ニューラルネットワーク分析技術の急速な成長により、ネットワークの基盤となる機能パターンをよりよく理解することが可能になるでしょう。 交通データと施設利用状況が過去の状況と現在の状況に順次依存していることから,時間依存性抽出モデルに基づくニューラルネットワーク技術が開発され,その課題が解決されている。 一方、複雑なトポロジカルな道路構造は、純粋な時間的抽出アプローチでは捉えられない空間的相互依存の効果を増幅する。 さらに、典型的なDeep Recurrent Neural Network(RNN)トポロジーは、包括的な長期予測に必要なグローバル情報抽出に制約がある。 本研究では,空間的・時間的関係抽出のために,Informer and Graph Attention Network(GAT)レイヤを統合することで,長期トラフィックパラメータ予測問題を処理するため,空間時空間グラフインフォーマ(STGIN)と呼ばれる新しい時空間ニューラルネットワークアーキテクチャを提案する。 注意機構は、遠方の入力から重要な情報を失うことなく、長期的な予測性能を保証できる。 水平方向の異なる2つの実世界の交通データセットにおいて、実験結果により長周期予測能力が検証され、さらなる解釈が提供される。

Accurate long series forecasting of traffic information is critical for the development of intelligent traffic systems. We may benefit from the rapid growth of neural network analysis technology to better understand the underlying functioning patterns of traffic networks as a result of this progress. Due to the fact that traffic data and facility utilization circumstances are sequentially dependent on past and present situations, several related neural network techniques based on temporal dependency extraction models have been developed to solve the problem. The complicated topological road structure, on the other hand, amplifies the effect of spatial interdependence, which cannot be captured by pure temporal extraction approaches. Additionally, the typical Deep Recurrent Neural Network (RNN) topology has a constraint on global information extraction, which is required for comprehensive long-term prediction. This study proposes a new spatial-temporal neural network architecture, called Spatial-Temporal Graph-Informer (STGIN), to handle the long-term traffic parameters forecasting issue by merging the Informer and Graph Attention Network (GAT) layers for spatial and temporal relationships extraction. The attention mechanism potentially guarantees long-term prediction performance without significant information loss from distant inputs. On two real-world traffic datasets with varying horizons, experimental findings validate the long sequence prediction abilities, and further interpretation is provided.
翻訳日:2022-10-06 12:58:16 公開日:2022-10-01
# 不完全な専門家によるベイズ型q-learning

Bayesian Q-learning With Imperfect Expert Demonstrations ( http://arxiv.org/abs/2210.01800v1 )

ライセンス: Link先を確認
Fengdi Che, Xiru Zhu, Doina Precup, David Meger, and Gregory Dudek(参考訳) 専門家によるガイド付き探索は強化学習のためのデータ効率を向上させるが、現在のアルゴリズムでは専門家情報を使い過ぎていることが多い。 限られた量の不完全な実演の助けを借りて,q-learningを高速化する新しいアルゴリズムを提案する。 このアルゴリズムは、最適な専門家仮定を緩和し、非形式的専門家データの使用を徐々に減らし、専門家データへの過度な依存を避ける。 実験では, スパース・リワード・チェーン環境とより複雑な6つのatariゲームに対する評価を行った。 提案手法では,ほとんどの環境において,実演(hester et al., 2017)による深いq学習よりも優れた結果が得られる。

Guided exploration with expert demonstrations improves data efficiency for reinforcement learning, but current algorithms often overuse expert information. We propose a novel algorithm to speed up Q-learning with the help of a limited amount of imperfect expert demonstrations. The algorithm avoids excessive reliance on expert data by relaxing the optimal expert assumption and gradually reducing the usage of uninformative expert data. Experimentally, we evaluate our approach on a sparse-reward chain environment and six more complicated Atari games with delayed rewards. With the proposed methods, we can achieve better results than Deep Q-learning from Demonstrations (Hester et al., 2017) in most environments.
翻訳日:2022-10-06 12:57:52 公開日:2022-10-01
# BIASeD: 自動システム設計に不合理性をもたらす

BIASeD: Bringing Irrationality into Automated System Design ( http://arxiv.org/abs/2210.01122v1 )

ライセンス: Link先を確認
Aditya Gulati, Miguel Angel Lozano, Bruno Lepri, Nuria Oliver(参考訳) 人間の知覚、記憶、意思決定は、行動や決定に影響を与える数十の認知バイアスとヒューリスティックの影響を受けます。 このようなバイアスの広がりにもかかわらず、それらは一般に人間の行動をモデル化し人間と対話する今日の人工知能(ai)システムでは利用されない。 本稿では、人間と機械の協調の未来には、人間の認知バイアスをモデル化し、理解し、再現するaiシステムの開発が伴うと主張する。 我々は、人間の認知バイアスと人工知能の相互作用に関する研究課題の必要性を提案する。 我々は、AIシステムの観点から既存の認知バイアスを分類し、3つの幅広い関心領域を特定し、私たちのバイアスをよりよく理解するAIシステムの設計のための研究の方向性を概説する。

Human perception, memory and decision-making are impacted by tens of cognitive biases and heuristics that influence our actions and decisions. Despite the pervasiveness of such biases, they are generally not leveraged by today's Artificial Intelligence (AI) systems that model human behavior and interact with humans. In this theoretical paper, we claim that the future of human-machine collaboration will entail the development of AI systems that model, understand and possibly replicate human cognitive biases. We propose the need for a research agenda on the interplay between human cognitive biases and Artificial Intelligence. We categorize existing cognitive biases from the perspective of AI systems, identify three broad areas of interest and outline research directions for the design of AI systems that have a better understanding of our own biases.
翻訳日:2022-10-05 14:59:26 公開日:2022-10-01
# オンデバイス音声認識のためのコンバータ変換器の多段プログレッシブ圧縮

Multi-stage Progressive Compression of Conformer Transducer for On-device Speech Recognition ( http://arxiv.org/abs/2210.00169v1 )

ライセンス: Link先を確認
Jash Rathod, Nauman Dawalatabad, Shatrughan Singh, Dhananjaya Gowda(参考訳) スマートデバイスにおけるメモリ帯域幅の縮小は、より小さな自動音声認識(ASR)モデルの開発を促す。 より小さなモデルを得るには、モデル圧縮技術を用いることができる。 知識蒸留 (KD) は, モデル性能を比較的低下させることなく, より小さなモデルサイズを実現するための一般的なモデル圧縮手法である。 このアプローチでは、訓練された大規模教師モデルからより小規模な学生モデルに知識を蒸留する。 また、トランスデューサベースのモデルでは、デバイス上でのストリーミングASRタスクがうまく機能し、コンバータモデルは長期的な依存関係を扱うのに効率的であることが最近示されている。 そこで本研究では,コンバータをエンコーダとするストリーミングトランスデューサアーキテクチャを採用した。 KDを用いてコンバータトランスデューサモデルを圧縮する多段階プログレッシブアプローチを提案する。 留学生モデルを用いて,多段階的に教師モデルを段階的に更新する。 標準librispeechデータセットでは, 教師モデルと比較して, 性能が著しく低下することなく, 60%以上の圧縮率を達成できた。

The smaller memory bandwidth in smart devices prompts development of smaller Automatic Speech Recognition (ASR) models. To obtain a smaller model, one can employ the model compression techniques. Knowledge distillation (KD) is a popular model compression approach that has shown to achieve smaller model size with relatively lesser degradation in the model performance. In this approach, knowledge is distilled from a trained large size teacher model to a smaller size student model. Also, the transducer based models have recently shown to perform well for on-device streaming ASR task, while the conformer models are efficient in handling long term dependencies. Hence in this work we employ a streaming transducer architecture with conformer as the encoder. We propose a multi-stage progressive approach to compress the conformer transducer model using KD. We progressively update our teacher model with the distilled student model in a multi-stage setup. On standard LibriSpeech dataset, our experimental results have successfully achieved compression rates greater than 60% without significant degradation in the performance compared to the larger teacher model.
翻訳日:2022-10-04 17:56:55 公開日:2022-10-01
# 可塑性新状態のインセンティブによるアクター臨界アルゴリズムの探索

Boosting Exploration in Actor-Critic Algorithms by Incentivizing Plausible Novel States ( http://arxiv.org/abs/2210.00211v1 )

ライセンス: Link先を確認
Chayan Banerjee, Zhiyong Chen, Nasimul Noman(参考訳) アクタ-クリティック(ac)アルゴリズムはモデルフリーな深層強化学習アルゴリズムのクラスであり、様々な領域、特に連続制御問題の解法において有効性が証明されている。 より効率的なサンプルを用いた探索(アクションエントロピー)と利用(予測リターン)の改善は、ACアルゴリズムにおいて重要な問題である。 学習アルゴリズムの基本的な戦略は、すべての環境状態空間を無差別に探索し、頻繁に訪れるのではなく、めったに訪れない状態の探索を促進することである。 そこで本研究では,国家の目新しさを計測し,(政策最適化に関して)国家を探索することのメリットを基礎として,内在的な報酬を通じて探索を促進する新しい手法を提案する。 可塑性新規状態のインセンティブ付き探索により、ACアルゴリズムはサンプル効率を向上し、従って訓練性能を向上させることができる。 本手法は,多種多様な外部ACアルゴリズムを用いたMuJoCo環境の連続制御タスクの広範囲なシミュレーションにより検証された。

Actor-critic (AC) algorithms are a class of model-free deep reinforcement learning algorithms, which have proven their efficacy in diverse domains, especially in solving continuous control problems. Improvement of exploration (action entropy) and exploitation (expected return) using more efficient samples is a critical issue in AC algorithms. A basic strategy of a learning algorithm is to facilitate indiscriminately exploring all of the environment state space, as well as to encourage exploring rarely visited states rather than frequently visited one. Under this strategy, we propose a new method to boost exploration through an intrinsic reward, based on measurement of a state's novelty and the associated benefit of exploring the state (with regards to policy optimization), altogether called plausible novelty. With incentivized exploration of plausible novel states, an AC algorithm is able to improve its sample efficiency and hence training performance. The new method is verified by extensive simulations of continuous control tasks of MuJoCo environments on a variety of prominent off-policy AC algorithms.
翻訳日:2022-10-04 17:56:40 公開日:2022-10-01
# 声帯感情認識のための微調整Wav2vec

Fine-tuning Wav2vec for Vocal-burst Emotion Recognition ( http://arxiv.org/abs/2210.00263v1 )

ライセンス: Link先を確認
Dang-Khanh Nguyen, Sudarshan Pant, Ngoc-Huynh Ho, Guee-Sang Lee, Soo-Huyng Kim, Hyung-Jeong Yang(参考訳) acii affective vocal bursts (a-vb) コンペティションでは、人間の非言語音を用いて感情表現を理解する、感情コンピューティングの新しいトピックが紹介されている。 我々は音声や表情による感情認識に精通している。 しかし、笑い、泣き声、標識といった声帯の破裂は、行動分析に非常に有益であるにもかかわらず、悪用されない。 A-VBコンペティションは、異なる空間における非言語情報を探索する4つのタスクからなる。 本技術報告では,課題の課題に対するScribCNUチームの方法と成果について述べる。 主催者が提供するベースラインモデルと比較して有望な結果を得た。

The ACII Affective Vocal Bursts (A-VB) competition introduces a new topic in affective computing, which is understanding emotional expression using the non-verbal sound of humans. We are familiar with emotion recognition via verbal vocal or facial expression. However, the vocal bursts such as laughs, cries, and signs, are not exploited even though they are very informative for behavior analysis. The A-VB competition comprises four tasks that explore non-verbal information in different spaces. This technical report describes the method and the result of SclabCNU Team for the tasks of the challenge. We achieved promising results compared to the baseline model provided by the organizers.
翻訳日:2022-10-04 17:56:22 公開日:2022-10-01
# FINDE:不変量の探索と保存のためのニューラルネットワーク微分方程式

FINDE: Neural Differential Equations for Finding and Preserving Invariant Quantities ( http://arxiv.org/abs/2210.00272v1 )

ライセンス: Link先を確認
Takashi Matsubara, Takaharu Yaguchi(参考訳) 多くの実世界の力学系は、時間とともに変化しない量である第一積分(すなわち不変量)と関連している。 第一積分の発見と理解は、自然科学と産業応用の両方において、基本的で重要なトピックである。 第一積分は系エネルギー、運動量、質量の保存則と状態の制約から生じ、これらは典型的には支配方程式の特定の幾何学的構造に関係している。 このような最初の積分を保証するために設計された既存のニューラルネットワークは、データからのモデリングにおいて優れた精度を示している。 しかしながら、これらのモデルには基盤構造が含まれており、ニューラルネットワークが未知のシステムを学ぶほとんどの状況では、これらの構造も未知である。 この制限は未知のシステムの科学的発見とモデリングのために克服する必要がある。 そこで本研究では,第一積分保存型ニューラル微分方程式(FINDE)を提案する。 プロジェクション法と離散勾配法を利用して、FINDEは基礎構造に関する事前の知識がなくても、データから最初の積分を発見し保存する。 実験の結果,fingeは目標系の将来状態をずっと長く予測でき,よく知られた第一積分と統一的に一致する様々な量を見出すことができた。

Many real-world dynamical systems are associated with first integrals (a.k.a. invariant quantities), which are quantities that remain unchanged over time. The discovery and understanding of first integrals are fundamental and important topics both in the natural sciences and in industrial applications. First integrals arise from the conservation laws of system energy, momentum, and mass, and from constraints on states; these are typically related to specific geometric structures of the governing equations. Existing neural networks designed to ensure such first integrals have shown excellent accuracy in modeling from data. However, these models incorporate the underlying structures, and in most situations where neural networks learn unknown systems, these structures are also unknown. This limitation needs to be overcome for scientific discovery and modeling of unknown systems. To this end, we propose first integral-preserving neural differential equation (FINDE). By leveraging the projection method and the discrete gradient method, FINDE finds and preserves first integrals from data, even in the absence of prior knowledge about underlying structures. Experimental results demonstrate that FINDE can predict future states of target systems much longer and find various quantities consistent with well-known first integrals in a unified manner.
翻訳日:2022-10-04 17:56:13 公開日:2022-10-01
# 最大符号化率削減によるフェデレーション表現学習

Federated Representation Learning via Maximal Coding Rate Reduction ( http://arxiv.org/abs/2210.00299v1 )

ライセンス: Link先を確認
Juan Cervino, Navid NaderiAlizadeh, and Alejandro Ribeiro(参考訳) 本稿では,複数のクライアントに分散したデータセットから低次元表現を学習するフェデレーション手法を提案する。 特に,フェデレーション学習における一般的なクロスエントロピー損失から脱却し,最大符号化率低減(mcr2)の原理を用いて,データの共有低次元表現を分散的に学習することを求める。 提案手法はFLOWと呼ばれ, MCR2を選択対象とし, その結果, クラス間判別とクラス内圧縮の両方が可能な表現が得られた。 分散アルゴリズムが一階定常点を達成することを理論的に示す。 さらに,数値実験により,学習した低次元表現の有用性を示す。

We propose a federated methodology to learn low-dimensional representations from a dataset that is distributed among several clients. In particular, we move away from the commonly-used cross-entropy loss in federated learning, and seek to learn shared low-dimensional representations of the data in a decentralized manner via the principle of maximal coding rate reduction (MCR2). Our proposed method, which we refer to as FLOW, utilizes MCR2 as the objective of choice, hence resulting in representations that are both between-class discriminative and within-class compressible. We theoretically show that our distributed algorithm achieves a first-order stationary point. Moreover, we demonstrate, via numerical experiments, the utility of the learned low-dimensional representations.
翻訳日:2022-10-04 17:55:55 公開日:2022-10-01
# 多様体上のグローバルな平滑関数の学習

Learning Globally Smooth Functions on Manifolds ( http://arxiv.org/abs/2210.00301v1 )

ライセンス: Link先を確認
Juan Cervino, Luiz Chamon, Benjamin D. Haeffele, Rene Vidal, and Alejandro Ribeiro(参考訳) 滑らかさと低次元構造は、学習と統計の一般化と安定性を改善する上で中心的な役割を果たす。 これらの特性の組み合わせは、半教師付き学習、生成モデリング、動的システムの制御において多くの進歩をもたらした。 しかし、線形モデルやカーネルモデルなどの単純な場合を除いて、スムーズな関数の学習は一般的に難しい。 典型的な手法は保守的すぎるか、スペクトル正規化やlax、平均的な滑らかさのペナライズといった粗い上限に依存するか、あるいは計算集約的すぎるかのいずれかであり、大規模な半定義プログラムの解を必要とする。 これらの問題は、例えば多様体を用いて低次元を同時に利用しようとする場合にのみ悪化する。 本研究は,半無限制約学習と多様体正規化の技法を組み合わせることで,これらの障害を克服することを提案する。 そのため、典型的な条件下では、多様体上のリプシッツ連続函数を学習する問題は、動的重み付き多様体正則化問題と同値である。 この観測により,確率勾配法を用いて重み付けされたラプラシアンペナルティに基づく実用的アルゴリズムが導かれる。 軽度条件下では、この手法は解のリプシッツ定数を推定し、副生成物として大域的に滑らかな解を学ぶ。 数値例は、この方法を使って多様体に大域的な滑らかさを課すことの利点を、平均的に滑らかさを課すこととは対照的に示している。

Smoothness and low dimensional structures play central roles in improving generalization and stability in learning and statistics. The combination of these properties has led to many advances in semi-supervised learning, generative modeling, and control of dynamical systems. However, learning smooth functions is generally challenging, except in simple cases such as learning linear or kernel models. Typical methods are either too conservative, relying on crude upper bounds such as spectral normalization, too lax, penalizing smoothness on average, or too computationally intensive, requiring the solution of large-scale semi-definite programs. These issues are only exacerbated when trying to simultaneously exploit low dimensionality using, e.g., manifolds. This work proposes to overcome these obstacles by combining techniques from semi-infinite constrained learning and manifold regularization. To do so, it shows that, under typical conditions, the problem of learning a Lipschitz continuous function on a manifold is equivalent to a dynamically weighted manifold regularization problem. This observation leads to a practical algorithm based on a weighted Laplacian penalty whose weights are adapted using stochastic gradient techniques. We prove that, under mild conditions, this method estimates the Lipschitz constant of the solution, learning a globally smooth solution as a byproduct. Numerical examples illustrate the advantages of using this method to impose global smoothness on manifolds as opposed to imposing smoothness on average.
翻訳日:2022-10-04 17:55:45 公開日:2022-10-01
# 時間変動通信グラフによるプライバシー保護型分散フェデレーション学習

Privacy-preserving Decentralized Federated Learning over Time-varying Communication Graph ( http://arxiv.org/abs/2210.00325v1 )

ライセンス: Link先を確認
Yang Lu, Zhengxin Yu, Neeraj Suri(参考訳) 完全な分散化(peer-to-peer, no coordinator)方式で、一連の学習者がプライバシーを保った連合学習を提供する方法を確立することは、オープンな問題である。 本研究では,分散学習者が分散グローバルモデル集約を実現するために,分散学習者間のコミュニケーショングラフが連続するモデル集約毎に異なる分散グローバルモデル集約を実現する,プライバシ保存型コンセンサスベースアルゴリズムを提案する。 特に,グローバルモデル集約の各ラウンドにおいて,現在の通信トポロジに基づく重み付き隣接行列の更新にメトロポリス・ハスティングス法を適用した。 さらに、シャミールの秘密共有スキームは、世界モデルの合意に達するためのプライバシーを促進するために統合されている。 本論文は,提案アルゴリズムの正確性とプライバシー特性について述べる。 実単語データセットを用いた連合学習フレームワーク上に構築したシミュレーションにより、計算効率を評価する。

Establishing how a set of learners can provide privacy-preserving federated learning in a fully decentralized (peer-to-peer, no coordinator) manner is an open problem. We propose the first privacy-preserving consensus-based algorithm for the distributed learners to achieve decentralized global model aggregation in an environment of high mobility, where the communication graph between the learners may vary between successive rounds of model aggregation. In particular, in each round of global model aggregation, the Metropolis-Hastings method is applied to update the weighted adjacency matrix based on the current communication topology. In addition, the Shamir's secret sharing scheme is integrated to facilitate privacy in reaching consensus of the global model. The paper establishes the correctness and privacy properties of the proposed algorithm. The computational efficiency is evaluated by a simulation built on a federated learning framework with a real-word dataset.
翻訳日:2022-10-04 17:55:20 公開日:2022-10-01
# 一様マニフォールド近似と投影によるHIV-1逆転写酵素の同定

Identifying Selections Operating on HIV-1 Reverse Transcriptase via Uniform Manifold Approximation and Projection ( http://arxiv.org/abs/2210.00345v1 )

ライセンス: Link先を確認
Shefali Qamar, Manel Camps, Jay Kim(参考訳) 治療レジームで標識されたスタンフォードhiv抵抗性データベースから14,651個のhiv1逆転写酵素(hiv rt)配列を解析し,この酵素の進化を臨床で研究した。 我々のゴールは、HIV RTの配列空間の異なるセクターを特定し、個々の選択または/または進化的解を識別する方法として進化中である。 非線型依存の検出に特に適しているグラフベースの次元削減手法であるUniform Manifold Approximation and Projection (UMAP) を用い、密度解析に基づく教師なしクラスタリングアルゴリズムを用いて結果を可視化する。 解析では21の異なる配列のクラスターが得られた。 これらのクラスターの生物学的意義を支持するため、異なる治療レギュラーに強く対応した系統関係の配列を表わす傾向にある。 したがって、進化中のHIV RT領域を可視化するこの方法は、相関性はあるものの、選択的圧力に関する情報を推測するのに役立つ。 各クラスターに関連する突然変異のシグネチャは、これらの進化経路を促進する高次エピスタティック・コンテクストを表し、他のタイプの変異共依存解析では一般にアクセスできない情報である。

We analyze 14,651 HIV1 reverse transcriptase (HIV RT) sequences from the Stanford HIV Drug Resistance Database labeled with treatment regimen in order to study the evolution this enzyme under drug selection in the clinic. Our goal is to identify distinct sectors of HIV RT's sequence space that are undergoing evolution as a way to identify individual selections and/or evolutionary solutions. We utilize Uniform Manifold Approximation and Projection (UMAP), a graph-based dimensionality reduction technique uniquely suited for the detection of non-linear dependencies and visualize the results using an unsupervised clustering algorithm based on density analysis. Our analysis produced 21 distinct clusters of sequences. Supporting the biological significance of these clusters, they tend to represent phylogenetically related sequences with strong correspondence to distinct treatment regimens. Thus, this method for visualization of areas of HIV RT undergoing evolution can help infer information about selective pressures, although it is correlative. The mutation signatures associated with each cluster may represent the higher-order epistatic context facilitating these evolutionary pathways, information that is generally not accessible by other types of mutational co-dependence analyses.
翻訳日:2022-10-04 17:55:04 公開日:2022-10-01
# 機械学習における最近の発展の社会的・環境的影響と生物学・化学研究

Social and environmental impact of recent developments in machine learning on biology and chemistry research ( http://arxiv.org/abs/2210.00356v1 )

ライセンス: Link先を確認
Daniel Probst(参考訳) Potential societal and environmental effects such as the rapidly increasing resource use and the associated environmental impact, reproducibility issues, and exclusivity, the privatization of ML research leading to a public research brain-drain, a narrowing of the research effort caused by a focus on deep learning, and the introduction of biases through a lack of sociodemographic diversity in data and personnel caused by recent developments in machine learning are a current topic of discussion and scientific publications. しかし、これらの議論や出版物は主にコンピュータビジョンや自然言語処理、基本的なml研究など、コンピュータ科学に親しむ分野に焦点を当てている。 オープンアクセス文学の完全かつ全文分析の書誌学的分析を用いて,同じ観察が化学および生物学の応用機械学習にも応用できることを示した。 これらの発展は、既知の偏りのあるデータセットの問題を超えて、薬物の発見や開発のような基礎研究や応用研究に影響を与える可能性がある。

Potential societal and environmental effects such as the rapidly increasing resource use and the associated environmental impact, reproducibility issues, and exclusivity, the privatization of ML research leading to a public research brain-drain, a narrowing of the research effort caused by a focus on deep learning, and the introduction of biases through a lack of sociodemographic diversity in data and personnel caused by recent developments in machine learning are a current topic of discussion and scientific publications. However, these discussions and publications focus mainly on computer science-adjacent fields, including computer vision and natural language processing or basic ML research. Using bibliometric analysis of the complete and full-text analysis of the open-access literature, we show that the same observations can be made for applied machine learning in chemistry and biology. These developments can potentially affect basic and applied research, such as drug discovery and development, beyond the known issue of biased data sets.
翻訳日:2022-10-04 17:31:28 公開日:2022-10-01
# マニフォールド上の畳み込みニューラルネットワーク:グラフとバックから

Convolutional Neural Networks on Manifolds: From Graphs and Back ( http://arxiv.org/abs/2210.00376v1 )

ライセンス: Link先を確認
Zhiyang Wang and Luana Ruiz and Alejandro Ribeiro(参考訳) 幾何学的深層学習は、非ユークリッド領域から取得したより多くのデータによって近年注目を集めている。 例えば、3Dモデルのためのポイントクラウドや通信における無線センサーネットワークなどがある。 グラフはこれらの離散データポイントを接続し、基礎となる幾何学的構造をキャプチャする一般的なモデルである。 これらの幾何的データの量が多ければ、任意の大きさのグラフは極限モデル(多様体)に収束する傾向にある。 ディープニューラルネットワークアーキテクチャは、多様体上のこれらのデータに基づいて問題を解決するための強力な手法として証明されている。 本稿では,多様体畳み込みフィルタのバンクと点方向非線形性からなる多様体ニューラルネットワーク(mnn)を提案する。 空間領域と時間領域の両方で離散化することで離散グラフ畳み込みと一致する多様体畳み込み演算を定義する。 要約すると、我々は大きなグラフの極限として多様体モデルに焦点を合わせ、MNNを構築するが、それでもMNNの離散化によってグラフニューラルネットワークを復活させることができる。 提案するMNNの性能を示すために,ポイントクラウドデータセットに基づく実験を行った。

Geometric deep learning has gained much attention in recent years due to more available data acquired from non-Euclidean domains. Some examples include point clouds for 3D models and wireless sensor networks in communications. Graphs are common models to connect these discrete data points and capture the underlying geometric structure. With the large amount of these geometric data, graphs with arbitrarily large size tend to converge to a limit model -- the manifold. Deep neural network architectures have been proved as a powerful technique to solve problems based on these data residing on the manifold. In this paper, we propose a manifold neural network (MNN) composed of a bank of manifold convolutional filters and point-wise nonlinearities. We define a manifold convolution operation which is consistent with the discrete graph convolution by discretizing in both space and time domains. To sum up, we focus on the manifold model as the limit of large graphs and construct MNNs, while we can still bring back graph neural networks by the discretization of MNNs. We carry out experiments based on point-cloud dataset to showcase the performance of our proposed MNNs.
翻訳日:2022-10-04 17:31:14 公開日:2022-10-01
# アドホックネットワーク環境におけるIoTデバイスの近接認証技術

Technical Report-IoT Devices Proximity Authentication In Ad Hoc Network Environment ( http://arxiv.org/abs/2210.00175v1 )

ライセンス: Link先を確認
Ali Abdullah S. AlQahtani, Hosam Alamleh, Baker Al Smadi(参考訳) モノのインターネット(モノのインターネット、Internet of Things、IoT)は、モノとして知られる物理的デバイス(車載家電のセンサーアクチュエータなど)が、人間の対話なしにデータを接続し、交換することを可能にする分散通信技術システムである。 IoTは日常生活において重要な役割を果たすため、IoT環境を効果的に動作させる必要があります。 IoTデバイスに対するさまざまなセキュリティ要件の認証は、攻撃者によるネガティブな影響を防ぐための第一歩であるため、不可欠である。 現在のIEEE 802.11インフラストラクチャを使用して、IoTデバイス環境(例えば、環境アクセスポイント)にあるものに基づいて、IoTデバイス認証スキームを実装する。 放送メッセージ(すなわちビーコンフレーム特性)からのデータを利用して、アドホックIoTネットワーク内の2つのデバイス間の近接を確認する認証係数を実装する。

Internet of Things (IoT) is a distributed communication technology system that offers the possibility for physical devices (e.g. vehicles home appliances sensors actuators etc.) known as Things to connect and exchange data more importantly without human interaction. Since IoT plays a significant role in our daily lives we must secure the IoT environment to work effectively. Among the various security requirements authentication to the IoT devices is essential as it is the first step in preventing any negative impact of possible attackers. Using the current IEEE 802.11 infrastructure this paper implements an IoT devices authentication scheme based on something that is in the IoT devices environment (i.e. ambient access points). Data from the broadcast messages (i.e. beacon frame characteristics) are utilized to implement the authentication factor that confirms proximity between two devices in an ad hoc IoT network.
翻訳日:2022-10-04 17:20:20 公開日:2022-10-01
# 決定木の効率的な量子非依存不適切な学習

Efficient Quantum Agnostic Improper Learning of Decision Trees ( http://arxiv.org/abs/2210.00212v1 )

ライセンス: Link先を確認
Debajyoti Bera and Sagnik Chatterjee(参考訳) 不可知的な設定は、対向雑音による学習に似ているため、PACモデルの最も難しい一般化である。 本稿では,この設定における効率的な量子ブースティングアルゴリズムの存在について,オープンな考察を行う。 我々は、カライカナーデポテンシャル増強アルゴリズムの量子バージョンを提供することで、この疑問に肯定的な形で答える。 このアルゴリズムは、古典的な場合と比較して弱い学習者のVC次元の標準的な二次的スピードアップを示す。 昇降アルゴリズムをサブルーチンとして使用し,多項式実行時間における決定木を非依存的に学習する量子アルゴリズムを提案する。 私たちの知る限りでは、これは最初のアルゴリズム(量子または古典)である。 メンバシップクエリなしで決定木を学ぶことは、標準的な古典的実現可能な設定では難しい(そしてオープンな問題)。 一般的に、無知な設定で弱い学習者を見つけ出すのは難しい作業です。 本稿では,アンサンブル学習設定の設計に独立した関心を持つ標準量子アルゴリズムを用いて,量子非依存な弱い学習者を構築する方法を示す。

The agnostic setting is the hardest generalization of the PAC model since it is akin to learning with adversarial noise. We study an open question on the existence of efficient quantum boosting algorithms in this setting. We answer this question in the affirmative by providing a quantum version of the Kalai-Kanade potential boosting algorithm. This algorithm shows the standard quadratic speedup in the VC dimension of the weak learner compared to the classical case. Using our boosting algorithm as a subroutine, we give a quantum algorithm for agnostically learning decision trees in polynomial running time without using membership queries. To the best of our knowledge, this is the first algorithm (quantum or classical) to do so. Learning decision trees without membership queries is hard (and an open problem) in the standard classical realizable setting. In general, even coming up with weak learners in the agnostic setting is a challenging task. We show how to construct a quantum agnostic weak learner using standard quantum algorithms, which is of independent interest for designing ensemble learning setups.
翻訳日:2022-10-04 17:20:05 公開日:2022-10-01
# カーネル距離保存のためのランダムフーリエ特徴の相対誤差について

On The Relative Error of Random Fourier Features for Preserving Kernel Distance ( http://arxiv.org/abs/2210.00244v1 )

ライセンス: Link先を確認
Kuan Cheng, Shaofeng H.-C. Jiang, Luojian Wei, Zhide Wei(参考訳) Rahimi and Recht (NIPS'07) によるセミナー論文で提案されたランダムフーリエ特徴法(RFF)は、シフト不変カーネルに対して、(高次元)カーネル空間における点の近似低次元表現を求める強力な手法である。 RFFは様々なエラー保証の概念で分析されているが、\emph{relative} エラーでカーネル距離を保存する能力は理解されていない。 有名なラプラシアカーネルを含むかなりの範囲のカーネルに対して、RFFは低次元を用いて小さな相対誤差でカーネル距離を近似することはできないことを示す。 我々は、シフト不変なカーネルが解析的である限り、rff と $\mathrm{poly}(\epsilon^{-1} \log n)$次元が 1 対のカーネル距離が $n$ である場合の $\epsilon$-relative error を達成し、その次元境界が $\mathrm{poly}(\epsilon^{-1}\log k)$ に改善されることを示した。 最後に、rff を越え、一般シフト不変核のデータ-oblivious dimension-reduction への第一歩を踏み出し、ラプラシアン核に対して同様の $\mathrm{poly}(\epsilon^{-1} \log n)$ 次元を得る。 また,シミュレーションデータセット上での手法の次元誤差トレードオフを検証し,ランダム投影法やnystr\"{o}m法など他の一般的な手法と比較して優れた性能を示す。

The method of random Fourier features (RFF), proposed in a seminal paper by Rahimi and Recht (NIPS'07), is a powerful technique to find approximate low-dimensional representations of points in (high-dimensional) kernel space, for shift-invariant kernels. While RFF has been analyzed under various notions of error guarantee, the ability to preserve the kernel distance with \emph{relative} error is less understood. We show that for a significant range of kernels, including the well-known Laplacian kernels, RFF cannot approximate the kernel distance with small relative error using low dimensions. We complement this by showing as long as the shift-invariant kernel is analytic, RFF with $\mathrm{poly}(\epsilon^{-1} \log n)$ dimensions achieves $\epsilon$-relative error for pairwise kernel distance of $n$ points, and the dimension bound is improved to $\mathrm{poly}(\epsilon^{-1}\log k)$ for the specific application of kernel $k$-means. Finally, going beyond RFF, we make the first step towards data-oblivious dimension-reduction for general shift-invariant kernels, and we obtain a similar $\mathrm{poly}(\epsilon^{-1} \log n)$ dimension bound for Laplacian kernels. We also validate the dimension-error tradeoff of our methods on simulated datasets, and they demonstrate superior performance compared with other popular methods including random-projection and Nystr\"{o}m methods.
翻訳日:2022-10-04 17:19:50 公開日:2022-10-01
# メタ強化学習における不連続タスク表現を用いたゼロショットポリシー転送

Zero-Shot Policy Transfer with Disentangled Task Representation of Meta-Reinforcement Learning ( http://arxiv.org/abs/2210.00350v1 )

ライセンス: Link先を確認
Zheng Wu, Yichen Xie, Wenzhao Lian, Changhao Wang, Yanjiang Guo, Jianyu Chen, Stefan Schaal and Masayoshi Tomizuka(参考訳) 人間は様々なタスクを複数の属性の異なる組み合わせとして抽象化することができる。 この構成性という視点は、人間の素早い学習と適応に不可欠である。なぜなら、関連するタスクからの経験を組み合わせることで、新しい構成設定を一般化することができるからである。 本研究では,タスク構成性を活用した強化学習(RL)エージェントのゼロショットポリシーの一般化を目指す。 提案手法は,タスクの異なる側面を明示的にエンコードする,タスク表現の絡み合ったメタrlアルゴリズムである。 政策一般化は、余分な探索をせずに得られる非可視な構成的タスク表現を導出することによって行われる。 3つのシミュレーション課題と実世界のロボット挿入課題について評価を行った。 実験の結果,提案手法はゼロショット方式で非知覚合成タスクに対するポリシー一般化を実現することが示された。

Humans are capable of abstracting various tasks as different combinations of multiple attributes. This perspective of compositionality is vital for human rapid learning and adaption since previous experiences from related tasks can be combined to generalize across novel compositional settings. In this work, we aim to achieve zero-shot policy generalization of Reinforcement Learning (RL) agents by leveraging the task compositionality. Our proposed method is a meta- RL algorithm with disentangled task representation, explicitly encoding different aspects of the tasks. Policy generalization is then performed by inferring unseen compositional task representations via the obtained disentanglement without extra exploration. The evaluation is conducted on three simulated tasks and a challenging real-world robotic insertion task. Experimental results demonstrate that our proposed method achieves policy generalization to unseen compositional tasks in a zero-shot manner.
翻訳日:2022-10-04 17:19:13 公開日:2022-10-01
# 一般状態と作用空間をもつマルコフ決定過程に対する素数双回帰アプローチ

Primal-dual regression approach for Markov decision processes with general state and action space ( http://arxiv.org/abs/2210.00258v1 )

ライセンス: Link先を確認
Denis Belomestny and John Schoenmakers(参考訳) 我々は,有限時間地平線MDPを一般状態と行動空間で解くための回帰に基づく原始双対マーチンゲール手法を開発した。 その結果,提案手法では,値関数の上下のバイアス付き近似値の構成が可能となり,最適方針への厳密な近似値が得られる。 特に, 時間軸に対する多項式依存性と, 無限状態と作用空間の濃度・次元に対する部分線形依存性を特徴とする推定双対性ギャップに対する厳密な誤差境界を証明し, 計算学的観点からは, 文献における最適制御問題に対する通常の双対性に基づく手法とは対照的に, モンテカルロ手順はネストシミュレーションを必要としないため, 提案手法は効率的である。

We develop a regression based primal-dual martingale approach for solving finite time horizon MDPs with general state and action space. As a result, our method allows for the construction of tight upper and lower biased approximations of the value functions, and, provides tight approximations to the optimal policy. In particular, we prove tight error bounds for the estimated duality gap featuring polynomial dependence on the time horizon, and sublinear dependence on the cardinality/dimension of the possibly infinite state and action space.From a computational point of view the proposed method is efficient since, in contrast to usual duality-based methods for optimal control problems in the literature, the Monte Carlo procedures here involved do not require nested simulations.
翻訳日:2022-10-04 17:13:06 公開日:2022-10-01
# PINNの故障インフォーム適応サンプリング

Failure-informed adaptive sampling for PINNs ( http://arxiv.org/abs/2210.00279v1 )

ライセンス: Link先を確認
Zhiwei Gao, Liang Yan, Tao Zhou(参考訳) 物理学インフォームドニューラルネットワーク(PINN)は、幅広い領域でPDEを解決する効果的な手法として登場した。 しかし近年の研究では, PINNの性能は異なるサンプリング手順で劇的に変化し, トレーニングポイントの固定セットの使用は, PINNの正しい解への収束に寄与することが示されている。 本稿では,信頼度解析の視点に触発された,障害に変形したピン(fiピン)と呼ばれる適応的アプローチを提案する。 基本的な考え方は、PINNの信頼性を表す残差を用いて障害確率を定義することである。 障害領域により多くのサンプルを配置し、安全な領域にサンプルを減らすことを目的として、FI-PINNは、トレーニングセットに新たなコロケーションポイントを適応的に追加するために、フェールインフォームされたエンリッチメント技術を採用している。 新たなコロケーションポイントを用いることで、PINNモデルの精度が向上する。 古典的適応有限要素法と同様の失敗確率は、トレーニングセットの洗練を導くエラー指標として機能する。 従来のPINN法や残差ベース適応精錬法と比較すると,特に低規則性および高次元問題に対して,精度を著しく向上させることができる。 提案するfiピンによる誤差の厳密な境界を証明し,いくつかの問題によりその性能を示す。

Physics-informed neural networks (PINNs) have emerged as an effective technique for solving PDEs in a wide range of domains. Recent research has demonstrated, however, that the performance of PINNs can vary dramatically with different sampling procedures, and that using a fixed set of training points can be detrimental to the convergence of PINNs to the correct solution. In this paper, we present an adaptive approach termed failure-informed PINNs(FI-PINNs), which is inspired by the viewpoint of reliability analysis. The basic idea is to define a failure probability by using the residual, which represents the reliability of the PINNs. With the aim of placing more samples in the failure region and fewer samples in the safe region, FI-PINNs employs a failure-informed enrichment technique to incrementally add new collocation points to the training set adaptively. Using the new collocation points, the accuracy of the PINNs model is then improved. The failure probability, similar to classical adaptive finite element methods, acts as an error indicator that guides the refinement of the training set. When compared to the conventional PINNs method and the residual-based adaptive refinement method, the developed algorithm can significantly improve accuracy, especially for low regularity and high-dimensional problems. We prove rigorous bounds on the error incurred by the proposed FI-PINNs and illustrate its performance through several problems.
翻訳日:2022-10-04 17:12:50 公開日:2022-10-01
# Inverse Unscented Kalman Filter による対逆学習

Counter-Adversarial Learning with Inverse Unscented Kalman Filter ( http://arxiv.org/abs/2210.00359v1 )

ライセンス: Link先を確認
Himali Singh, Kumar Vijay Mishra and Arpan Chattopadhyay(参考訳) 知的攻撃者の戦略を推測するためには、防御者が攻撃者の状態を認知的に把握することが望ましい。 この文脈では、ベイズの観点から敵が収集した情報を学習することを目的としている。 先行研究では線形ガウス状態空間モデルを採用し、逆確率フィルタの設計によりこの逆認知問題を解く。 実際、これらの対向的な設定は高度に非線形なシステムである。 我々は、逆認知を非線形ガウス状態空間モデルとして定式化することでこの問題に対処する。 敵の我々の推定を推定するために、システムモデルは敵と守備側の双方で知られている逆ukf(iukf)を提案し、開発する。 また、平均二乗有界感におけるIUKFの確率安定性の条件も導出する。 複数の実用システムモデルに対する数値実験により、 iukf の推定誤差が収束し、再帰的 cram\'{e}r-rao 下界に密接に従うことが示された。

In order to infer the strategy of an intelligent attacker, it is desired for the defender to cognitively sense the attacker's state. In this context, we aim to learn the information that an adversary has gathered about us from a Bayesian perspective. Prior works employ linear Gaussian state-space models and solve this inverse cognition problem through the design of inverse stochastic filters. In practice, these counter-adversarial settings are highly nonlinear systems. We address this by formulating the inverse cognition as a nonlinear Gaussian state-space model, wherein the adversary employs an unscented Kalman filter (UKF) to estimate our state with reduced linearization errors. To estimate the adversary's estimate of us, we propose and develop an inverse UKF (IUKF), wherein the system model is known to both the adversary and the defender. We also derive the conditions for the stochastic stability of IUKF in the mean-squared boundedness sense. Numerical experiments for multiple practical system models show that the estimation error of IUKF converges and closely follows the recursive Cram\'{e}r-Rao lower bound.
翻訳日:2022-10-04 17:12:09 公開日:2022-10-01
# 洗濯機用ファジィ論理制御器の設計

Design of Economical Fuzzy Logic Controller for Washing Machine ( http://arxiv.org/abs/2210.00187v1 )

ライセンス: Link先を確認
Kriti Dheerawat, Umme Salma M Pirzada, and H.R. Kataria(参考訳) 技術が進歩するにつれて物事はより進歩し、機械は手作業の大半をこなしている。 最もよく使われる家電は布の洗濯機である。 この分野における改良と研究は、洗濯に要する時間、水、電気の量に関係し、不可欠である。 本研究では,スマート洗濯機用のファジィロジックコントローラを開発した。 本研究の目的は,洗濯機の電気,水,洗剤の消費を最適化することである。 汚れの種類、衣服の量、布の種類は、水、電気、洗剤の節約に重要な役割を果たしている。 しかしながら、Fuzzy Logic Controllerの研究は、Pythonで実装された特定のインプットとアウトプットを備えた設計手順を提供していない。 本稿では,mamdaniアプローチを用いてマルチ入力マルチアウトプットに基づくアルゴリズムを開発した。 アルゴリズムはPythonで実装されている。 このシミュレーションの結果, 洗濯機の性能は計算コストが低く, 性能が向上した。

Things are becoming more advanced as technology advances, and machines now perform the majority of the manual work. The most often used home appliance is the washing machine for cloths. Modification and research in this field is essential since it pertains to the amount of time, water, and electricity required for washing. In this work, a Fuzzy Logic Controller has been developed for smart washing machines. The objective of this paper is to optimize the consumption of electricity, water, and detergent for washing machines. The type of dirt, volume of clothes, and type of cloth play a vital role in saving water, electricity, and detergent. However, none of the work on the Fuzzy Logic Controller provided a design procedure endowed with the specified inputs and outputs implemented in Python. In this paper, we used the Mamdani approach and created an algorithm based on multi-input multi-output. The algorithm is implemented in Python. The results of this simulation show that the washing machine provides better execution at a low computation cost.
翻訳日:2022-10-04 17:01:39 公開日:2022-10-01
# 不完全データを用いたアルツハイマー病分類用多モード混合変圧器

Cascaded Multi-Modal Mixing Transformers for Alzheimer's Disease Classification with Incomplete Data ( http://arxiv.org/abs/2210.00255v1 )

ライセンス: Link先を確認
Linfeng Liu, Siyu Liu, Lu Zhang, Xuan Vinh To, Fatima Nasrallah, Shekhar S. Chandra(参考訳) 正確な医療分類には多数のマルチモーダルデータが必要である。 これまでの研究では、ADなどの疾患の分類において、マルチモーダルデータを使用することで、単一モーダルモデルよりも優れた結果が得られた。 しかし、これらのモデルは通常、欠落したモダリティを扱うのに十分な柔軟性がない。 現在、最も一般的な回避策は、未使用のサンプルを除外し、使用中のかなりのデータを生み出すことである。 ラベル付き医療画像がすでに不足していることに加えて、ディープラーニングのようなデータ駆動型手法のパフォーマンスは著しく阻害されている。 したがって,様々な臨床場面で欠如したデータを優雅に処理できるマルチモーダル法が望まれる。 本稿では,マルチモーダルデータに基づく疾患分類のための新しい変圧器であるマルチモーダル混合トランス(3mt)について述べる。 本研究では,神経画像データ,性別,年齢,MMSEスコアを用いて,ac{AD} または \ac{CN} の分類を行う。 このモデルは、クロスアテンションを持つ新しいCascaded Modality Transformersアーキテクチャを使用して、より情報のある予測にマルチモーダル情報を組み込む。 補助出力と新しいモダリティドロップアウト機構が組み込まれ、前例のないモダリティの独立性と堅牢性が保証された。 その結果、さまざまなフォーマットと完全なデータ利用で無制限のモダリティを混合できる汎用ネットワークが誕生した。 3MTはADNIデータセットで最初にテストされ、0.987\pm0.0006$の最先端のテスト精度を達成した。 汎用性をテストするため、3MTはADNIデータセットのトレーニング後にAIBLに直接適用され、微調整なしで0.925\pm0.0004$のテスト精度を達成した。 最後に,本モデルではGrad-CAMの可視化も可能であることを示す。

Accurate medical classification requires a large number of multi-modal data, and in many cases, in different formats. Previous studies have shown promising results when using multi-modal data, outperforming single-modality models on when classifying disease such as AD. However, those models are usually not flexible enough to handle missing modalities. Currently, the most common workaround is excluding samples with missing modalities which leads to considerable data under-utilisation. Adding to the fact that labelled medical images are already scarce, the performance of data-driven methods like deep learning is severely hampered. Therefore, a multi-modal method that can gracefully handle missing data in various clinical settings is highly desirable. In this paper, we present the Multi-Modal Mixing Transformer (3MT), a novel Transformer for disease classification based on multi-modal data. In this work, we test it for \ac{AD} or \ac{CN} classification using neuroimaging data, gender, age and MMSE scores. The model uses a novel Cascaded Modality Transformers architecture with cross-attention to incorporate multi-modal information for more informed predictions. Auxiliary outputs and a novel modality dropout mechanism were incorporated to ensure an unprecedented level of modality independence and robustness. The result is a versatile network that enables the mixing of an unlimited number of modalities with different formats and full data utilization. 3MT was first tested on the ADNI dataset and achieved state-of-the-art test accuracy of $0.987\pm0.0006$. To test its generalisability, 3MT was directly applied to the AIBL after training on the ADNI dataset, and achieved a test accuracy of $0.925\pm0.0004$ without fine-tuning. Finally, we show that Grad-CAM visualizations are also possible with our model for explainable results.
翻訳日:2022-10-04 16:55:26 公開日:2022-10-01
# Det-SLAM: Detectron2を用いた高ダイナミックシーンのセマンティックビジュアルSLAM

Det-SLAM: A semantic visual SLAM for highly dynamic scenes using Detectron2 ( http://arxiv.org/abs/2210.00278v1 )

ライセンス: Link先を確認
Ali Eslamian, Mohammad R. Ahmadzadeh(参考訳) 専門家によると、同時局在マッピング(SLAM)は自律ロボットシステムの本質的な部分である。 素晴らしい性能を持つSLAMシステムは、ここ数十年の間に発明され、使用されてきた。 しかし、動的な状況で動くオブジェクトをどう扱うかなど、まだ解決されていない問題が残っている。 古典的なSLAMシステムは静的環境の仮定に依存し、非常にダイナミックな状況では動作不能になる。 近年、この問題に取り組むためのいくつかの方法が提示されているが、それぞれに制限がある。 本研究は,視覚的SLAMシステムであるORB-SLAM3とDectron2を組み合わせて,深度情報とセマンティックセグメンテーションを用いて動的状況のセマンティックSLAMを識別・消去するDet-SLAMシステムを提案する。 公共TUMデータセットの評価は、Det-SLAMが従来の動的SLAMシステムよりも弾力性が高く、動的屋内シナリオにおけるカメラ姿勢推定誤差を低減できることを示している。

According to experts, Simultaneous Localization and Mapping (SLAM) is an intrinsic part of autonomous robotic systems. Several SLAM systems with impressive performance have been invented and used during the last several decades. However, there are still unresolved issues, such as how to deal with moving objects in dynamic situations. Classic SLAM systems depend on the assumption of a static environment, which becomes unworkable in highly dynamic situations. Several methods have been presented to tackle this issue in recent years, but each has its limitations. This research combines the visual SLAM systems ORB-SLAM3 and Detectron2 to present the Det-SLAM system, which employs depth information and semantic segmentation to identify and eradicate dynamic spots to accomplish semantic SLAM for dynamic situations. Evaluation of public TUM datasets indicates that Det-SLAM is more resilient than previous dynamic SLAM systems and can lower the estimated error of camera posture in dynamic indoor scenarios.
翻訳日:2022-10-04 16:54:54 公開日:2022-10-01
# ベッティングによる条件付き独立性のモデルフリーシーケンシャルテスト

Model-Free Sequential Testing for Conditional Independence via Testing by Betting ( http://arxiv.org/abs/2210.00354v1 )

ライセンス: Link先を確認
Shalev Shaer, Gal Maman, Yaniv Romano(参考訳) 本稿では条件付き独立性のモデルフリーシーケンシャルテストを開発した。 提案したテストでは、任意の依存関係構造で入ってくるi.d.データストリームを分析し、ある機能が研究中の応答に条件付きかどうかを安全に判定することができる。 我々は,I型エラー率を厳格に制御しつつ,重要な結果が検出されると,オンライン上でデータポイントの処理を許可し,データ取得を停止する。 我々のテストは、あらゆる高度な機械学習アルゴリズムを使って、データ効率を可能な限り高めることができる。 この手法は2つの統計的枠組みに着想を得ている。 1つ目は、サンプルサイズがあらかじめ固定されているオフライン設定で有効である条件独立性テストであるモデル-X条件ランダム化テストである。 2つ目は、逐次仮説テストのための「ゲーム理論」アプローチであるベッティングによるテストである。 実世界のタスクに適用することで,テストの多重性を考慮した実時間連続テストに対するテストの利点を実証するための合成実験を行い,提案手法の実用性を実証した。

This paper develops a model-free sequential test for conditional independence. The proposed test allows researchers to analyze an incoming i.i.d. data stream with any arbitrary dependency structure, and safely conclude whether a feature is conditionally associated with the response under study. We allow the processing of data points online as soon as they arrive and stop data acquisition once significant results are detected while rigorously controlling the type-I error rate. Our test can work with any sophisticated machine learning algorithm to enhance data efficiency to the extent possible. The developed method is inspired by two statistical frameworks. The first is the model-X conditional randomization test, a test for conditional independence that is valid in offline settings where the sample size is fixed in advance. The second is testing by betting, a "game-theoretic" approach for sequential hypothesis testing. We conduct synthetic experiments to demonstrate the advantage of our test over out-of-the-box sequential tests that account for the multiplicity of tests in the time horizon, and demonstrate the practicality of our proposal by applying it to real-world tasks.
翻訳日:2022-10-04 16:44:33 公開日:2022-10-01
# 線形緩和法に基づくロバスト性認定法の厳密性について

On the tightness of linear relaxation based robustness certification methods ( http://arxiv.org/abs/2210.00178v1 )

ライセンス: Link先を確認
Cheng Tang(参考訳) 近年、機械学習コミュニティでは、敵対的なトレーニングや防御に対する迅速な開発と関心が高まっている。 1つの研究は、ニューラルネットワークに対する敵の堅牢性証明の性能と効率の改善に焦点を当てている。cite{gowal:19, wong_zico:18, raghunathan:18, WengTowardsFC:18, wong:scalable:18, singh:convex_barrier:19, Huang_etal:19, single-neuron-relax:20, Zhang2020TowardsSA}。 それぞれがリラクゼーションを通じて敵対的な攻撃によって真の歪みを低く(または上)に制限する認定を与える一方で、リラクゼーションの厳しさについてはあまり研究されていない。 本稿では,メタアルゴリズム IBP-Lin を用いて,線形外部近似に基づく証明手法のファミリーを解析する。 上記の研究は、ネットワーク構成や近似パラメータの選択にどのように依存するかといった問題に答えるための定量的分析を欠いていることが多い。 この枠組みでは,線形近似認証の厳密性がネットワークの構成に大きく依存することを明らかにするため,これらの質問に答える最初の試みを行う。

There has been a rapid development and interest in adversarial training and defenses in the machine learning community in the recent years. One line of research focuses on improving the performance and efficiency of adversarial robustness certificates for neural networks \cite{gowal:19, wong_zico:18, raghunathan:18, WengTowardsFC:18, wong:scalable:18, singh:convex_barrier:19, Huang_etal:19, single-neuron-relax:20, Zhang2020TowardsSA}. While each providing a certification to lower (or upper) bound the true distortion under adversarial attacks via relaxation, less studied was the tightness of relaxation. In this paper, we analyze a family of linear outer approximation based certificate methods via a meta algorithm, IBP-Lin. The aforementioned works often lack quantitative analysis to answer questions such as how does the performance of the certificate method depend on the network configuration and the choice of approximation parameters. Under our framework, we make a first attempt at answering these questions, which reveals that the tightness of linear approximation based certification can depend heavily on the configuration of the trained networks.
翻訳日:2022-10-04 16:20:49 公開日:2022-10-01
# HyperHawkes: ハイパーネットワークベースのニューラルテンポラルポイントプロセス

HyperHawkes: Hypernetwork based Neural Temporal Point Process ( http://arxiv.org/abs/2210.00213v1 )

ライセンス: Link先を確認
Manisha Dubey, P.K. Srijith, Maunendra Sankar Desarkar(参考訳) テンポラリポイントプロセスは、連続時間空間におけるイベントデータのモデリングに不可欠なツールとして機能する。 ソーシャルメディアやヘルスケアなど,さまざまなドメインから大量のイベントシーケンスデータが取得されているにも関わらず,時間的ポイントプロセスの実世界の適用には2つの大きな課題がある。 1) 動的環境における未知列からの事象の予測は一般化できない 2) 従来から学んだ知識を維持しつつ, 最小限の監督で継続的に進化する環境に育つことはできない。 これらの問題に対処するために,超ネットワークベースの時間的ポイント処理フレームワークである \textit{hyperhawkes} を提案する。 これにより、時間対イベントモデリングにおけるゼロショット学習の問題を解決する。 また、時間-イベント間の連続的なモデリングのための、時間的ポイントプロセスを継続的に学習するハイパーネットワークも開発した。 このように、 \textit{HyperHawkes} は、ゼロショットモデリングと連続学習機能によって、時間的ポイントプロセスを強化します。 提案するフレームワークを実世界の2つのデータセットで実験して実演する。 提案手法は,未発見の事象系列に対するゼロショットレジーム下での将来の事象予測における有効性を示す。 また,提案モデルでは,過去のイベントシーケンスからの情報を保持しながら,シーケンスを連続的に予測することが可能であることを示す。

Temporal point process serves as an essential tool for modeling time-to-event data in continuous time space. Despite having massive amounts of event sequence data from various domains like social media, healthcare etc., real world application of temporal point process faces two major challenges: 1) it is not generalizable to predict events from unseen sequences in dynamic environment 2) they are not capable of thriving in continually evolving environment with minimal supervision while retaining previously learnt knowledge. To tackle these issues, we propose \textit{HyperHawkes}, a hypernetwork based temporal point process framework which is capable of modeling time of occurrence of events for unseen sequences. Thereby, we solve the problem of zero-shot learning for time-to-event modeling. We also develop a hypernetwork based continually learning temporal point process for continuous modeling of time-to-event sequences with minimal forgetting. In this way, \textit{HyperHawkes} augments the temporal point process with zero-shot modeling and continual learning capabilities. We demonstrate the application of the proposed framework through our experiments on two real-world datasets. Our results show the efficacy of the proposed approach in terms of predicting future events under zero-shot regime for unseen event sequences. We also show that the proposed model is able to predict sequences continually while retaining information from previous event sequences, hence mitigating catastrophic forgetting for time-to-event data.
翻訳日:2022-10-04 16:20:23 公開日:2022-10-01
# 単一ニューラル演算子を用いた実用多体ダイナミクス問題の解法

Solving practical multi-body dynamics problems using a single neural operator ( http://arxiv.org/abs/2210.00222v1 )

ライセンス: Link先を確認
Wenhao Ding, Qing He, Hanghang Tong, Qingjing Wang, Ping Wang(参考訳) 多くの工学分野における基本的な設計ツールとして、多体力学(MBD)は、複数の物理量を含む微分方程式群を持つ複素構造をモデル化する。 エンジニアは設計段階で常に構造を調整しなければなりません。 ディープラーニング技術の台頭はMBDに新たな視点をもたらした。 残念ながら、既存のブラックボックスモデルは精度とロバスト性に乏しいが、単一出力演算子の回帰の高度な手法は同時に複数の量を扱うことはできない。 これらの課題に対処するために,物理インフォームド・ニューラル演算子(PINO)の理論に基づいて,実用的なMBD問題を解決するためのディープラーニングフレームワークであるPINO-MBDを提案する。 PINO-MBDは、既存の文献のように数十のネットワークや数百のネットワークをトレーニングする代わりに、マルチボディシステムにおいて、すべての量に対して単一のネットワークを使用する。 自動車軌道結合力学(VTCD)と4階建て建築物の信頼性解析の2つの実践的応用例とPINO-MBDの柔軟性と実現可能性を示す。 VTCDの性能は、我々のフレームワークが既存のソフトウェアと機械学習ベースの手法をそれぞれ効率と精度で上回っていることを示している。 信頼性解析のために、PINO-MBD は確率密度進化法 (PDEM) を用いて得られた時間の4分の1以下で高分解能な結果が得られる。 このフレームワークはメカニクスとディープラーニング技術を統合し、MBDと確率工学の新しい概念を明らかにする。

As a fundamental design tool in many engineering disciplines, multi-body dynamics (MBD) models a complex structure with a differential equation group containing multiple physical quantities. Engineers must constantly adjust structures at the design stage, which requires a highly efficient solver. The rise of deep learning technologies has offered new perspectives on MBD. Unfortunately, existing black-box models suffer from poor accuracy and robustness, while the advanced methodologies of single-output operator regression cannot deal with multiple quantities simultaneously. To address these challenges, we propose PINO-MBD, a deep learning framework for solving practical MBD problems based on the theory of physics-informed neural operator (PINO). PINO-MBD uses a single network for all quantities in a multi-body system, instead of training dozens, or even hundreds of networks as in the existing literature. We demonstrate the flexibility and feasibility of PINO-MBD for one toy example and two practical applications: vehicle-track coupled dynamics (VTCD) and reliability analysis of a four-storey building. The performance of VTCD indicates that our framework outperforms existing software and machine learning-based methods in terms of efficiency and precision, respectively. For the reliability analysis, PINO-MBD can provide higher-resolution results in less than a quarter of the time incurred when using the probability density evolution method (PDEM). This framework integrates mechanics and deep learning technologies and may reveal a new concept for MBD and probabilistic engineering.
翻訳日:2022-10-04 16:20:02 公開日:2022-10-01
# 不均一フェデレーション学習における次元崩壊の理解と緩和に向けて

Towards Understanding and Mitigating Dimensional Collapse in Heterogeneous Federated Learning ( http://arxiv.org/abs/2210.00226v1 )

ライセンス: Link先を確認
Yujun Shi, Jian Liang, Wenqing Zhang, Vincent Y. F. Tan, Song Bai(参考訳) フェデレートラーニングは、プライバシ考慮のためにデータを共有することなく、異なるクライアント間で協調的にモデルをトレーニングすることを目的としている。 しかし、この学習パラダイムの大きな課題の1つは、様々なクライアント間の局所的なデータ分布の相違に言及する {\em data heterogeneity} 問題である。 この問題に対処するために,データの不均一性がグローバル集約モデルの表現にどのように影響するかをまず検討する。 興味深いことに、ヘテロジニアスなデータは、環境空間ではなく低次元空間に表現が配置されがちであるような深刻な「em次元崩壊」に苦しむ大域モデルをもたらす。 さらに、各クライアント上で局所的に訓練されたモデル上で同様の現象を観測し、グローバルモデル上の次元崩壊が局所モデルから受け継がれていることを推定する。 さらに,データの不均一性が局所モデルに対してどのように次元的崩壊をもたらすのかを理論的に解析する。 データの不均一性に起因するこの問題を解決するために,フェデレーション学習における次元的崩壊を効果的に緩和する新しい手法である {\sc FedDecorr} を提案する。 特に {\sc FedDecorr} は局所訓練中に正規化項を適用し、表現の異なる次元が非相関であるように促す。 実装フレンドリで計算効率のよい {\sc FedDecorr} は、標準ベンチマークデータセットのベースラインよりも一貫した改善をもたらす。 コードはリリースされる。

Federated learning aims to train models collaboratively across different clients without the sharing of data for privacy considerations. However, one major challenge for this learning paradigm is the {\em data heterogeneity} problem, which refers to the discrepancies between the local data distributions among various clients. To tackle this problem, we first study how data heterogeneity affects the representations of the globally aggregated models. Interestingly, we find that heterogeneous data results in the global model suffering from severe {\em dimensional collapse}, in which representations tend to reside in a lower-dimensional space instead of the ambient space. Moreover, we observe a similar phenomenon on models locally trained on each client and deduce that the dimensional collapse on the global model is inherited from local models. In addition, we theoretically analyze the gradient flow dynamics to shed light on how data heterogeneity result in dimensional collapse for local models. To remedy this problem caused by the data heterogeneity, we propose {\sc FedDecorr}, a novel method that can effectively mitigate dimensional collapse in federated learning. Specifically, {\sc FedDecorr} applies a regularization term during local training that encourages different dimensions of representations to be uncorrelated. {\sc FedDecorr}, which is implementation-friendly and computationally-efficient, yields consistent improvements over baselines on standard benchmark datasets. Code will be released.
翻訳日:2022-10-04 16:19:39 公開日:2022-10-01
# 不均一グラフコントラスト多視点学習

Heterogeneous Graph Contrastive Multi-view Learning ( http://arxiv.org/abs/2210.00248v1 )

ライセンス: Link先を確認
Zehong Wang, Qi Li, Donghua Yu, Xiaolong Han, Xiao-Zhi Gao, Shigen Shen(参考訳) コンピュータビジョンと自然言語処理におけるコントラスト学習(cl)の成功にインスパイアされたグラフコントラスト学習(gcl)は、グラフデータセットの識別ノード表現を学ぶために開発された。 しかし、異種情報ネットワーク(HIN)におけるGCLの開発は、まだ幼児期である。 例えば、下位のセマンティクスを実質的に変えることなくhinを補完する方法や、リッチセマンティクスを完全に捉えるためのコントラストの目的をどのように設計するかは明確ではない。 さらに、初期の研究では、CLはサンプリングバイアスに悩まされているのに対し、従来のデバイアス技術はGCLには不十分であることが実証的に示されている。 異種gclのサンプリングバイアスを軽減する方法も重要な問題である。 上記の課題に対処するため,HGCML(Heterogeneous Graph Contrastive Multi-view Learning)モデルを提案する。 特に,メタパスを拡張として,複数のサブグラフを複数ビューとして生成し,メタパスが引き起こすビュー間の相互情報を最大化するためのコントラスト的目的を提案する。 サンプリングバイアスを軽減するため,各メタパスビューに保存されている意味情報と構造情報を共同で考慮し,各ノードの正を明示的に選択する正のサンプリング戦略を提案する。 大規模な実験は、HGCMLが5つの実世界のベンチマークデータセットの最先端のベースラインを一貫して上回っていることを示している。

Inspired by the success of contrastive learning (CL) in computer vision and natural language processing, graph contrastive learning (GCL) has been developed to learn discriminative node representations on graph datasets. However, the development of GCL on Heterogeneous Information Networks (HINs) is still in the infant stage. For example, it is unclear how to augment the HINs without substantially altering the underlying semantics, and how to design the contrastive objective to fully capture the rich semantics. Moreover, early investigations demonstrate that CL suffers from sampling bias, whereas conventional debiasing techniques are empirically shown to be inadequate for GCL. How to mitigate the sampling bias for heterogeneous GCL is another important problem. To address the aforementioned challenges, we propose a novel Heterogeneous Graph Contrastive Multi-view Learning (HGCML) model. In particular, we use metapaths as the augmentation to generate multiple subgraphs as multi-views, and propose a contrastive objective to maximize the mutual information between any pairs of metapath-induced views. To alleviate the sampling bias, we further propose a positive sampling strategy to explicitly select positives for each node via jointly considering semantic and structural information preserved on each metapath view. Extensive experiments demonstrate HGCML consistently outperforms state-of-the-art baselines on five real-world benchmark datasets.
翻訳日:2022-10-04 16:19:13 公開日:2022-10-01
# ウェーブレット係数を利用した太陽電力時系列予測

Solar Power Time Series Forecasting Utilising Wavelet Coefficients ( http://arxiv.org/abs/2210.00269v1 )

ライセンス: Link先を確認
Sarah Almaghrabi, Mashud Rana, Margaret Hamilton and Mohammad Saiedur Rahaman(参考訳) 太陽光発電(PV)発電の正確かつ信頼性の高い予測は電力グリッドの安定性と送電能力に不可欠である。 しかし、太陽光発電(PV)発電は様々な理由で非常に揮発性で不安定である。 ウェーブレット変換(WT)は、確率的ボラティリティをモデル化し、予測誤差を低減するために、太陽光発電(PV)電力予測などの時系列アプリケーションで利用されてきた。 しかし、既存のWavelet Transform(WT)アプローチは、時間的複雑さの点で制限がある。 分解されたコンポーネントを再構築し、個別にモデリングする必要があるため、再構築やモデル構成、トレーニングにより多くの時間が必要です。 本研究の目的は,単一単純化モデルを用いた新しい手法を提案することで,ウェーブレット変換(wt)の適用効率を向上させることである。 時系列とそのウェーブレット変換(WT)係数が与えられたとき、その係数を特徴として、元の時系列をラベルとして訓練する。 これにより、コンポーネントの再構築や多数のモデルのトレーニングが不要になる。 本研究は、WTを用いた新しいアプローチを提案し、包括的に評価することにより、日頭集積太陽電池(PV)電力時系列予測問題に寄与する。 提案手法は、2つの実世界のデータセットから17ヶ月の太陽太陽光発電(PV)電力データを用いて評価される。 この評価には、線形回帰、ランダムフォレスト、サポートベクトル回帰、畳み込みニューラルネットワークを含む様々な予測モデルの使用が含まれる。 その結果、係数に基づく戦略を用いることで、モデルが少なく計算時間を短縮しながら、コンポーネントベースのアプローチで得られる予測と同等の予測が得られることが示された。

Accurate and reliable prediction of Photovoltaic (PV) power output is critical to electricity grid stability and power dispatching capabilities. However, Photovoltaic (PV) power generation is highly volatile and unstable due to different reasons. The Wavelet Transform (WT) has been utilised in time series applications, such as Photovoltaic (PV) power prediction, to model the stochastic volatility and reduce prediction errors. Yet the existing Wavelet Transform (WT) approach has a limitation in terms of time complexity. It requires reconstructing the decomposed components and modelling them separately and thus needs more time for reconstruction, model configuration and training. The aim of this study is to improve the efficiency of applying Wavelet Transform (WT) by proposing a new method that uses a single simplified model. Given a time series and its Wavelet Transform (WT) coefficients, it trains one model with the coefficients as features and the original time series as labels. This eliminates the need for component reconstruction and training numerous models. This work contributes to the day-ahead aggregated solar Photovoltaic (PV) power time series prediction problem by proposing and comprehensively evaluating a new approach of employing WT. The proposed approach is evaluated using 17 months of aggregated solar Photovoltaic (PV) power data from two real-world datasets. The evaluation includes the use of a variety of prediction models, including Linear Regression, Random Forest, Support Vector Regression, and Convolutional Neural Networks. The results indicate that using a coefficients-based strategy can give predictions that are comparable to those obtained using the components-based approach while requiring fewer models and less computational time.
翻訳日:2022-10-04 16:18:50 公開日:2022-10-01
# 適応ビームフォーミングにおけるbowtie要素を用いたハイブリッドアンテナアレーのための3クラス分類ls-svmモデルの実装

Implementation of a Three-class Classification LS-SVM Model for the Hybrid Antenna Array with Bowtie Elements in the Adaptive Beamforming Application ( http://arxiv.org/abs/2210.00317v1 )

ライセンス: Link先を確認
Somayeh Komeylian and Christopher Paolini(参考訳) 伝搬損失,長距離伝送,チャネルフェージングを含む大規模無線通信の3つの課題に対処するため,ビームフォーミング用小型のボウタイ素子を備えたハイブリッドアンテナアレイの確立を目指す。 本研究は, ボウタイ素子が, 他のアンテナアレイと比較すると, ハイブリッドアンテナアレイのビームフォーミング性能を著しく向上するだけでなく, 双極子素子と幾何的に相似することを示すものである。 我々は3つの分類ls-svm(leastsquares support vector machine)最適化を行い,sinr値の15db以上の増加,アンテナ効率の20%以上の向上,doa推定の大幅な向上,bowtie要素を用いたハイブリッドアンテナアレーの指向性20インクリメントを達成した。 提案したハイブリッドアンテナアレイは3次元一様指向性を示し, ビーム走査性能の優れた3次元一様指向性を示す。 指向性はほぼ一定であり、角度 {\theta} の変動は 40.83 dBi であり、角度 {\phi} の変動は 41.21 dBi である。 ボウタイ素子を備えたハイブリッドアンテナアレイの機能と性能は、大規模な無線通信におけるビームフォーミングの潜在的な候補となる。

To address three significant challenges of massive wireless communications including propagation loss, long-distance transmission, and channel fading, we aim at establishing the hybrid antenna array with bowtie elements in a compact size for beamforming applications. In this work we rigorously demonstrate that bowtie elements allow for a significant improvement in the beamforming performance of the hybrid antenna array compared to not only other available antenna arrays, but also its geometrical counterpart with dipole elements. We have achieved a greater than 15 dB increase in SINR values, a greater than 20% improvement in the antenna efficiency, a significant enhancement in the DoA estimation, and 20 increments in the directivity for the hybrid antenna array with bowtie elements, compared to its geometrical counterpart, by performing a three-class classification LS-SVM (LeastSquares Support Vector Machine) optimization method. The proposed hybrid antenna array has shown a 3D uniform directivity, which is accompanied by its superior performance in the 3D uniform beam-scanning capability. The directivities remain almost constant at 40.83 dBi with the variation of angle {\theta}, and 41.21 dBi with the variation of angle {\phi}. The unrivaled functionality and performance of the hybrid antenna array with bowtie elements makes it a potential candidate for beamforming applications in massive wireless communications.
翻訳日:2022-10-04 16:18:26 公開日:2022-10-01
# PathFinder:ディープニューラルネットワークにおける決定経路の発見

PathFinder: Discovering Decision Pathways in Deep Neural Networks ( http://arxiv.org/abs/2210.00319v1 )

ライセンス: Link先を確認
Ozan \.Irsoy, Ethem Alpayd{\i}n(参考訳) 深いニューラルネットワークにとって、説明可能性はますます重要なトピックになりつつある。 畳み込み層での操作は理解しやすいが、完全に接続された層では処理が不透明になる。 作業の基本的な考え方は、各インスタンスがレイヤを流れると、隠れたレイヤ内で異なるアクティベーションパターンを引き起こし、Pathの方法論では、これらのアクティベーションベクトルを隠れたレイヤ毎にクラスタ化し、次に、連続したレイヤ内のクラスタが、入力層から出力へのアクティベーションフローとして接続する様子を見ることです。 同じクラスのインスタンスは、レイヤ上の少数のクラスタシーケンスに従っており、それを ``decision paths' と呼ぶ。 「このような道は、一般的に分類決定の仕方を説明し、異常な道をたどる外れ道の判断にも役立ちます。」 また,サンキー図を用いて経路を可視化する手法を提案する。 mnistとcelebデータセットでトレーニングされた2つのフィードフォワードネットワークと,pendigitsでトレーニングされた1つのリカレントネットワークについて実験を行い,本手法を検証する。

Explainability is becoming an increasingly important topic for deep neural networks. Though the operation in convolutional layers is easier to understand, processing becomes opaque in fully-connected layers. The basic idea in our work is that each instance, as it flows through the layers, causes a different activation pattern in the hidden layers and in our Paths methodology, we cluster these activation vectors for each hidden layer and then see how the clusters in successive layers connect to one another as activation flows from the input layer to the output. We find that instances of the same class follow a small number of cluster sequences over the layers, which we name ``decision paths." Such paths explain how classification decisions are typically made, and also help us determine outliers that follow unusual paths. We also propose using the Sankey diagram to visualize such pathways. We validate our method with experiments on two feed-forward networks trained on MNIST and CELEB data sets, and one recurrent network trained on PenDigits.
翻訳日:2022-10-04 16:17:59 公開日:2022-10-01
# グラディエントDescentの背景:基底関数分解による軌道解析

Behind the Scenes of Gradient Descent: A Trajectory Analysis via Basis Function Decomposition ( http://arxiv.org/abs/2210.00346v1 )

ライセンス: Link先を確認
Jianhao Ma, Lingjun Gun, Salar Fattahi(参考訳) この研究は、新しい基底関数分解による勾配アルゴリズムの解軌道を解析する。 グラデーションに基づくアルゴリズムの解の軌跡は学習タスクによって異なるが、適切な正規直交関数基底に投影された場合、ほとんど単調に振る舞う。 このような射影は、解軌道の基底関数分解を引き起こす。 理論的には,提案する基底関数分解を用いて,いくつかの代表的な学習タスクにおける勾配降下(gd)の収束性を確立する。 特に、対称行列因子分解におけるgdの収束を改善し、直交対称テンソル分解に対して完全に新しい収束結果を与える。 経験的に、我々は、異なるアーキテクチャ、勾配ベースの解法、データセットをまたいだ、現実的なディープニューラルネットワーク(dnn)に関する提案フレームワークの約束を示す。 我々の重要な発見は、勾配に基づくアルゴリズムが訓練後に共役核の固有ベクトルとして定義されるDNNの特定の正規正規関数基底の係数を単調に学習することである。 私たちのコードはhttps://github.com/jianhaoma/function-basis-decompositionで利用可能です。

This work analyzes the solution trajectory of gradient-based algorithms via a novel basis function decomposition. We show that, although solution trajectories of gradient-based algorithms may vary depending on the learning task, they behave almost monotonically when projected onto an appropriate orthonormal function basis. Such projection gives rise to a basis function decomposition of the solution trajectory. Theoretically, we use our proposed basis function decomposition to establish the convergence of gradient descent (GD) on several representative learning tasks. In particular, we improve the convergence of GD on symmetric matrix factorization and provide a completely new convergence result for the orthogonal symmetric tensor decomposition. Empirically, we illustrate the promise of our proposed framework on realistic deep neural networks (DNNs) across different architectures, gradient-based solvers, and datasets. Our key finding is that gradient-based algorithms monotonically learn the coefficients of a particular orthonormal function basis of DNNs defined as the eigenvectors of the conjugate kernel after training. Our code is available at https://github.com/jianhaoma/function-basis-decomposition.
翻訳日:2022-10-04 16:17:35 公開日:2022-10-01
# ネットワーク分割を伴うパラメータ可変ニューラル常微分方程式

Parameter-varying neural ordinary differential equations with partition-of-unity networks ( http://arxiv.org/abs/2210.00368v1 )

ライセンス: Link先を確認
Kookjin Lee and Nathaniel Trask(参考訳) 本研究では,パラメータ変化型ニューラル常微分方程式(NODE)を提案する。モデルパラメータの進化は,エキスパートアーキテクチャの混合である分割・オブ・ユニティネットワーク(POUNets)によって表現される。 提案したNODEの変種は、POUNetsで合成され、空間のメッシュフリーパーティションを学び、各パーティションに関連付けられた多項式の集合を用いてODEパラメータの進化を表現する。 本稿では,(1)ハイブリッドシステムのデータ駆動力学モデリング,(2)線形力学系の切替,(3)外部強制力の異なる動的系の潜時力学の3つの重要な課題に対して提案手法の有効性を実証する。

In this study, we propose parameter-varying neural ordinary differential equations (NODEs) where the evolution of model parameters is represented by partition-of-unity networks (POUNets), a mixture of experts architecture. The proposed variant of NODEs, synthesized with POUNets, learn a meshfree partition of space and represent the evolution of ODE parameters using sets of polynomials associated to each partition. We demonstrate the effectiveness of the proposed method for three important tasks: data-driven dynamics modeling of (1) hybrid systems, (2) switching linear dynamical systems, and (3) latent dynamics for dynamical systems with varying external forcing.
翻訳日:2022-10-04 16:17:17 公開日:2022-10-01
# クラス不均衡グラフ表現学習のための統一データモデル空間分割

Diving into Unified Data-Model Sparsity for Class-Imbalanced Graph Representation Learning ( http://arxiv.org/abs/2210.00162v1 )

ライセンス: Link先を確認
Chunhui Zhang, Chao Huang, Yijun Tian, Qianlong Wen, Zhongyu Ouyang, Youhuan Li, Yanfang Ye, Chuxu Zhang(参考訳) 最先端のネットワーク圧縮手法に圧倒されてさえも、非ユークリッドグラフデータに対するグラフニューラルネットワーク(GNN)トレーニングは、通常のユークリッド空間のデータと比較して不規則で汚い密度特性のため、比較的高い時間コストに直面することが多い。 グラフと共通する別の自然な性質は、gnnの一般化を妨げる一方で、巨大なグラフデータでは緩和できないクラス不均衡である。 これらの不快な性質に 完全に取り組むためです i) 理論的には,トレーニングデータのサブセットが,データセットの学習効率をどの程度近似できるかという仮説を導入する。 有効性はさらに保証され、部分集合と完全集合の間の勾配距離によって証明される。 実験により,GNNの学習過程において,モデルのパラメータを更新するための勾配を与えるために,トレーニングデータセットのサンプルが有用であることが判明した。 さらに、情報サブセットはトレーニングプロセス中に固定されない。 現在のトレーニングエポックで有益なサンプルは、次の例ではそうではないかもしれません。 また、十分に訓練されたGNNから切り出されたスパースサブネットは、情報的サブセットが提供する情報を忘れてしまうことがある。 これらの結果に基づき,グラフデファイナンス(Graph Decantation, GraphDec)と呼ばれる統一されたデータモデル動的疎結合フレームワークを開発し,大規模なクラス不均衡グラフデータに基づくトレーニングによる課題に対処する。 GraphDecのキーとなるアイデアは、スパースグラフコントラスト学習を採用することで、トレーニングプロセス中に情報サブセットを動的に識別することである。 ベンチマークデータセットに関する広範な実験は、graphdecが分類精度とデータ利用効率に関して、グラフおよびノードタスクのベースラインよりも優れていることを示している。

Even pruned by the state-of-the-art network compression methods, Graph Neural Networks (GNNs) training upon non-Euclidean graph data often encounters relatively higher time costs, due to its irregular and nasty density properties, compared with data in the regular Euclidean space. Another natural property concomitantly with graph is class-imbalance which cannot be alleviated by the massive graph data while hindering GNNs' generalization. To fully tackle these unpleasant properties, (i) theoretically, we introduce a hypothesis about what extent a subset of the training data can approximate the full dataset's learning effectiveness. The effectiveness is further guaranteed and proved by the gradients' distance between the subset and the full set; (ii) empirically, we discover that during the learning process of a GNN, some samples in the training dataset are informative for providing gradients to update model parameters. Moreover, the informative subset is not fixed during training process. Samples that are informative in the current training epoch may not be so in the next one. We also notice that sparse subnets pruned from a well-trained GNN sometimes forget the information provided by the informative subset, reflected in their poor performances upon the subset. Based on these findings, we develop a unified data-model dynamic sparsity framework named Graph Decantation (GraphDec) to address challenges brought by training upon a massive class-imbalanced graph data. The key idea of GraphDec is to identify the informative subset dynamically during the training process by adopting sparse graph contrastive learning. Extensive experiments on benchmark datasets demonstrate that GraphDec outperforms baselines for graph and node tasks, with respect to classification accuracy and data usage efficiency.
翻訳日:2022-10-04 16:09:00 公開日:2022-10-01
# 浅部ReLUネットワークの最適化に関する総合的展望

A Combinatorial Perspective on the Optimization of Shallow ReLU Networks ( http://arxiv.org/abs/2210.00176v1 )

ライセンス: Link先を確認
Michael Matena, Colin Raffel(参考訳) 浅いreluネットワークを最適化するnp-hard問題は、各トレーニングサンプルのアクティベーションパターンに対する組合せ探索と、一定の一連のアクティベーションパターンが与えられた制約付き凸問題とを特徴付けることができる。 本稿では,ReLU最適化におけるこの組合せ的側面の意義について考察する。 本稿では,その頂点集合が実現可能な活性化パターンの集合に同型なゾノトペとして知られる幾何学的および組合せ的対象を通して自然にモデル化できることを示す。 これは分析を支援し、さらなる研究の基盤を提供する。 トレーニングデータの摂動に対する最適損失の感度を検討する際に,その有用性を示す。 その後,zonotope 頂点選択法とその最適化への応用について考察する。 過剰パラメータ化は、ランダムに選択された頂点が良い解をより多く含むようにすることで、トレーニングを支援する。 次に,データに適合する最小パラメータの2倍だけを用いて,大域的最適化を含む頂点を確実に選択する多項式時間頂点選択手順を提案する。 さらに,zonotope頂点上での局所的グリーディ探索ヒューリスティックを導入し,低パラメータ問題に対する勾配降下よりも優れることを示す。

The NP-hard problem of optimizing a shallow ReLU network can be characterized as a combinatorial search over each training example's activation pattern followed by a constrained convex problem given a fixed set of activation patterns. We explore the implications of this combinatorial aspect of ReLU optimization in this work. We show that it can be naturally modeled via a geometric and combinatoric object known as a zonotope with its vertex set isomorphic to the set of feasible activation patterns. This assists in analysis and provides a foundation for further research. We demonstrate its usefulness when we explore the sensitivity of the optimal loss to perturbations of the training data. Later we discuss methods of zonotope vertex selection and its relevance to optimization. Overparameterization assists in training by making a randomly chosen vertex more likely to contain a good solution. We then introduce a novel polynomial-time vertex selection procedure that provably picks a vertex containing the global optimum using only double the minimum number of parameters required to fit the data. We further introduce a local greedy search heuristic over zonotope vertices and demonstrate that it outperforms gradient descent on underparameterized problems.
翻訳日:2022-10-04 16:08:29 公開日:2022-10-01
# 音素認識における変圧器, 畳み込み, 繰り返しニューラルネットワークの比較

A Comparison of Transformer, Convolutional, and Recurrent Neural Networks on Phoneme Recognition ( http://arxiv.org/abs/2210.00367v1 )

ライセンス: Link先を確認
Kyuhong Shim, Wonyong Sung(参考訳) 音素認識は音声認識の重要な部分であり、複数のフレームから音声の特徴を抽出する能力を必要とする。 本稿では,音素認識を用いたCNN,RNN,Transformer,Conformerモデルの比較と解析を行う。 CNNでは、ContextNetモデルが実験に使用される。 まず,レセプティブフィールド長,パラメータサイズ,層深さなど,異なる制約下での各種アーキテクチャの精度を比較する。 第2に、観測可能なシーケンス長が変化する場合、これらのモデルの性能差を解釈する。 本研究では,トランスフォーマーモデルとコンフォーメータモデルが,入力フレームによる自己着脱の長距離的アクセシビリティの恩恵を受けることを示す。

Phoneme recognition is a very important part of speech recognition that requires the ability to extract phonetic features from multiple frames. In this paper, we compare and analyze CNN, RNN, Transformer, and Conformer models using phoneme recognition. For CNN, the ContextNet model is used for the experiments. First, we compare the accuracy of various architectures under different constraints, such as the receptive field length, parameter size, and layer depth. Second, we interpret the performance difference of these models, especially when the observable sequence length varies. Our analyses show that Transformer and Conformer models benefit from the long-range accessibility of self-attention through input frames.
翻訳日:2022-10-04 15:59:45 公開日:2022-10-01
# エピポーラ制約によるカメラレス構造認識型NeRF

Structure-Aware NeRF without Posed Camera via Epipolar Constraint ( http://arxiv.org/abs/2210.00183v1 )

ライセンス: Link先を確認
Shu Chen, Yang Zhang, Yaxin Xu, and Beiji Zou(参考訳) リアルなノベルビュー合成のためのニューラル・ラディアンス・フィールド(NeRF)は、カメラのポーズをStructure-from-motion (SfM)アプローチで事前に取得する必要がある。 この2段階戦略は、ポーズ抽出における誤差がビュー合成に伝播するため、使用し、性能を低下させる。 ポーズ抽出とビュー合成を単一のエンド・ツー・エンドの手順に統合し,互いの利益を享受できるようにした。 NeRFモデルのトレーニングには、既知のカメラポーズなしでRGB画像のみが提供される。 カメラポーズは、抽出されたポーズに応じて局所カメラ座標から変換された、異なるビューにおける同一の特徴が同一世界座標を有するエピポーラ制約により得られる。 エピポーラ制約はピクセルカラー制約と共同で最適化される。 ポーズはCNNベースのディープネットワークで表現され、入力は関連するフレームである。 このジョイント最適化により、nerfは一般化性能が向上したシーンの構造を認識することができる。 様々な場面で大規模な実験を行い,提案手法の有効性を示した。 コードはhttps://github.com/XTU-PR-LAB/SaNerf.comで入手できる。

The neural radiance field (NeRF) for realistic novel view synthesis requires camera poses to be pre-acquired by a structure-from-motion (SfM) approach. This two-stage strategy is not convenient to use and degrades the performance because the error in the pose extraction can propagate to the view synthesis. We integrate the pose extraction and view synthesis into a single end-to-end procedure so they can benefit from each other. For training NeRF models, only RGB images are given, without pre-known camera poses. The camera poses are obtained by the epipolar constraint in which the identical feature in different views has the same world coordinates transformed from the local camera coordinates according to the extracted poses. The epipolar constraint is jointly optimized with pixel color constraint. The poses are represented by a CNN-based deep network, whose input is the related frames. This joint optimization enables NeRF to be aware of the scene's structure that has an improved generalization performance. Extensive experiments on a variety of scenes demonstrate the effectiveness of the proposed approach. Code is available at https://github.com/XTU-PR-LAB/SaNerf.
翻訳日:2022-10-04 15:27:18 公開日:2022-10-01
# 医用視覚質問応答のための単語と文の埋め込みによるデュアルアテンション学習ネットワーク

A Dual-Attention Learning Network with Word and Sentence Embedding for Medical Visual Question Answering ( http://arxiv.org/abs/2210.00220v1 )

ライセンス: Link先を確認
Xiaofei Huang, Hongfang Gong(参考訳) 医学的視覚的質問応答(MVQA)の研究は、コンピュータ診断の発展に寄与する。 MVQAは、与えられた医療画像と関連する自然言語の質問に基づいて、正確で説得力のある回答を予測することを目的としたタスクである。 このタスクでは、医療知識豊富な特徴コンテンツの抽出と、それらに関する詳細な理解が必要です。 したがって、効果的な特徴抽出と理解手法の構築がモデリングの鍵となる。 既存のMVQA質問抽出方式は、主にテキスト中の医療情報を無視した単語情報に焦点を当てている。 一方、視覚およびテキストの特徴理解スキームでは、合理的な視覚的推論のために、領域とキーワードの相関を効果的に捉えることはできない。 本研究では,word and sentence embedded (wsdan) を用いた二重学習ネットワークを提案する。 文埋め込み(TSE)を備えたモジュールトランスフォーマーを設計し,キーワードや医療情報を含む質問の二重埋め込み表現を抽出する。 集中的なモーダル内相互作用とモーダル間相互作用をモデル化するために、自己注意と誘導注意からなるデュアルアテンション学習(DAL)モジュールを提案する。 複数のDALモジュール(DAL)により、視覚的およびテキスト的コアテンションの学習は、理解の粒度を高め、視覚的推論を改善する。 ImageCLEF 2019 VQA-MED(VQA-MED 2019)とVQA-RADデータセットの実験結果は、提案手法が従来の最先端手法よりも優れていることを示す。 アブレーション研究とGrad-CAMマップによると、WSDANは豊富なテキスト情報を抽出することができ、視覚的推論能力が強い。

Research in medical visual question answering (MVQA) can contribute to the development of computeraided diagnosis. MVQA is a task that aims to predict accurate and convincing answers based on given medical images and associated natural language questions. This task requires extracting medical knowledge-rich feature content and making fine-grained understandings of them. Therefore, constructing an effective feature extraction and understanding scheme are keys to modeling. Existing MVQA question extraction schemes mainly focus on word information, ignoring medical information in the text. Meanwhile, some visual and textual feature understanding schemes cannot effectively capture the correlation between regions and keywords for reasonable visual reasoning. In this study, a dual-attention learning network with word and sentence embedding (WSDAN) is proposed. We design a module, transformer with sentence embedding (TSE), to extract a double embedding representation of questions containing keywords and medical information. A dualattention learning (DAL) module consisting of self-attention and guided attention is proposed to model intensive intramodal and intermodal interactions. With multiple DAL modules (DALs), learning visual and textual co-attention can increase the granularity of understanding and improve visual reasoning. Experimental results on the ImageCLEF 2019 VQA-MED (VQA-MED 2019) and VQA-RAD datasets demonstrate that our proposed method outperforms previous state-of-the-art methods. According to the ablation studies and Grad-CAM maps, WSDAN can extract rich textual information and has strong visual reasoning ability.
翻訳日:2022-10-04 15:27:02 公開日:2022-10-01
# 動画におけるモーションインダクティブな自己監督型物体発見

Motion-inductive Self-supervised Object Discovery in Videos ( http://arxiv.org/abs/2210.00221v1 )

ライセンス: Link先を確認
Shuangrui Ding, Weidi Xie, Yabo Chen, Rui Qian, Xiaopeng Zhang, Hongkai Xiong, Qi Tian(参考訳) 本稿では,ビデオにおける教師なし物体発見の課題について考察する。 従来の研究は、セグメントオブジェクトへの光フローの処理による有望な結果を示している。 しかし、入力としての流れを取ると2つの欠点が生じる。 第一に、フローは、オブジェクトが静的または部分的に隠されているときに十分なキューをキャプチャできない。 第2に,テクスチャ情報が欠落しているため,フローのみ入力からの時間的一貫性を確立することが困難である。 これらの制約に対処するために,連続するrgbフレームを直接処理するモデルを提案し,不透明チャネルをセグメンテーションとして扱うことにより,階層表現を用いた任意のフレーム間の光フローを推定する。 さらに、物体の永続性を強制するために、ランダムにペアリングされたフレームから推定マスクに時間的整合性損失を適用し、その動きを異なるペースで参照し、現在の時点で動かなくてもオブジェクトを分割するようモデルに促す。 実験では,3つの公開ビデオセグメンテーションデータセット (davis2016, segtrackv2, fbms-59) において,従来の最先端手法よりも優れた性能を示した。

In this paper, we consider the task of unsupervised object discovery in videos. Previous works have shown promising results via processing optical flows to segment objects. However, taking flow as input brings about two drawbacks. First, flow cannot capture sufficient cues when objects remain static or partially occluded. Second, it is challenging to establish temporal coherency from flow-only input, due to the missing texture information. To tackle these limitations, we propose a model for directly processing consecutive RGB frames, and infer the optical flow between any pair of frames using a layered representation, with the opacity channels being treated as the segmentation. Additionally, to enforce object permanence, we apply temporal consistency loss on the inferred masks from randomly-paired frames, which refer to the motions at different paces, and encourage the model to segment the objects even if they may not move at the current time point. Experimentally, we demonstrate superior performance over previous state-of-the-art methods on three public video segmentation datasets (DAVIS2016, SegTrackv2, and FBMS-59), while being computationally efficient by avoiding the overhead of computing optical flow as input.
翻訳日:2022-10-04 15:26:39 公開日:2022-10-01
# 意味的セグメンテーションのための輪郭学習

Contour-Aware Equipotential Learning for Semantic Segmentation ( http://arxiv.org/abs/2210.00223v1 )

ライセンス: Link先を確認
Xu Yin, Dongbo Min, Yuchi Huo and Sung-Eui Yoon(参考訳) 業界における高品質なセマンティクスセグメンテーションの需要が高まる中、難解なセマンティクス境界は既存のソリューションに重大な脅威をもたらした。 実生活体験に触発され,多様な観察を組み合わせることで高い視覚認知信頼が得られ,等価学習法(epl)を提案する。 このモジュールは、予測/接地的意味ラベルを自己定義可能なドメインに転送し、カスタマイズされた方向に沿って決定境界を学習し推論する。 ポテンシャル領域への変換は、パラメータのオーバーヘッドを発生させることなく、軽量な微分可能な異方性畳み込みによって実装される。 また,2つの損失関数である点損失関数と等電位線損失関数はそれぞれ異方性場回帰とカテゴリレベルの輪郭学習を実行し,インタークラス/イントラクラス境界領域の予測精度を高める。 より重要なことに、eplはネットワークアーキテクチャに依存せず、既存のほとんどのセグメンテーションモデルにプラグインすることができる。 本稿では,フィールド回帰と輪郭学習を用いた境界分割問題に対する最初の試みである。 Pascal Voc 2012 と Cityscapes での有意義なパフォーマンス改善は、提案された EPL モジュールがセマンティック境界領域を認識する際に、既製の完全な畳み込みネットワークモデルに恩恵をもたらすことを示した。 さらに、集中的な比較と分析は、意味的に類似したカテゴリーと不規則な形態のカテゴリを区別する上で、EPLの好ましい利点を示している。

With increasing demands for high-quality semantic segmentation in the industry, hard-distinguishing semantic boundaries have posed a significant threat to existing solutions. Inspired by real-life experience, i.e., combining varied observations contributes to higher visual recognition confidence, we present the equipotential learning (EPL) method. This novel module transfers the predicted/ground-truth semantic labels to a self-defined potential domain to learn and infer decision boundaries along customized directions. The conversion to the potential domain is implemented via a lightweight differentiable anisotropic convolution without incurring any parameter overhead. Besides, the designed two loss functions, the point loss and the equipotential line loss implement anisotropic field regression and category-level contour learning, respectively, enhancing prediction consistencies in the inter/intra-class boundary areas. More importantly, EPL is agnostic to network architectures, and thus it can be plugged into most existing segmentation models. This paper is the first attempt to address the boundary segmentation problem with field regression and contour learning. Meaningful performance improvements on Pascal Voc 2012 and Cityscapes demonstrate that the proposed EPL module can benefit the off-the-shelf fully convolutional network models when recognizing semantic boundary areas. Besides, intensive comparisons and analysis show the favorable merits of EPL for distinguishing semantically-similar and irregular-shaped categories.
翻訳日:2022-10-04 15:26:18 公開日:2022-10-01
# Few-Shot Class-Incremental Learningのための学習可能な分布校正法

Learnable Distribution Calibration for Few-Shot Class-Incremental Learning ( http://arxiv.org/abs/2210.00232v1 )

ライセンス: Link先を確認
Binghao Liu, Boyu Yang, Lingxi Xie, Ren Wang, Qi Tian, Qixiang Ye(参考訳) FSCIL(Few-shot class-incremental Learning)は、古いクラス分布を記憶し、少数のトレーニングサンプルから新しいクラス分布を推定するという課題に直面している。 本研究では,これら2つの課題を統一フレームワークを用いて体系的に解決することを目的とした,学習可能な分布校正手法を提案する。 LDCはパラメータ化キャリブレーションユニット(PCU)上に構築されており、全てのクラスに対するバイアス分布を、分類器ベクトル(メモリフリー)と1つの共分散行列に基づいて初期化する。 共分散行列はすべてのクラスで共有され、メモリコストが固定される。 ベーストレーニング中、PCUは実際の分布の監督の下でサンプリングされた特徴を繰り返し更新することでバイアス分布を校正する能力を備えている。 漸進的な学習の間、PCUは古いクラスの分布を復元し、'forgetting'を避け、新しいクラスの分布を推定し、サンプルを増強し、少数のサンプルのバイアス分布に起因する'over-fitting'を緩和する。 LDCは変分推論手順をフォーマットすることで理論的に妥当である。 FSCILの柔軟性は、トレーニング手順がクラスの類似性を事前に必要としないため改善される。 CUB200、CIFAR100、mini-ImageNetのデータセットによる実験では、LCCは、それぞれ4.64%、1.98%、および3.97%のパフォーマンスを示している。 ldcの有効性は、少数の学習シナリオでも検証できる。

Few-shot class-incremental learning (FSCIL) faces challenges of memorizing old class distributions and estimating new class distributions given few training samples. In this study, we propose a learnable distribution calibration (LDC) approach, with the aim to systematically solve these two challenges using a unified framework. LDC is built upon a parameterized calibration unit (PCU), which initializes biased distributions for all classes based on classifier vectors (memory-free) and a single covariance matrix. The covariance matrix is shared by all classes, so that the memory costs are fixed. During base training, PCU is endowed with the ability to calibrate biased distributions by recurrently updating sampled features under the supervision of real distributions. During incremental learning, PCU recovers distributions for old classes to avoid `forgetting', as well as estimating distributions and augmenting samples for new classes to alleviate `over-fitting' caused by the biased distributions of few-shot samples. LDC is theoretically plausible by formatting a variational inference procedure. It improves FSCIL's flexibility as the training procedure requires no class similarity priori. Experiments on CUB200, CIFAR100, and mini-ImageNet datasets show that LDC outperforms the state-of-the-arts by 4.64%, 1.98%, and 3.97%, respectively. LDC's effectiveness is also validated on few-shot learning scenarios.
翻訳日:2022-10-04 15:25:53 公開日:2022-10-01
# 盲目的にデコンボラブルな超ノイズぼやけた画像列

Blindly Deconvolving Super-noisy Blurry Image Sequences ( http://arxiv.org/abs/2210.00252v1 )

ライセンス: Link先を確認
Leonid Kostrykin, Stefan Harmeling(参考訳) 画像のぼやきや画像ノイズは、画像取得において本質的に生じる画像アーチファクトである。 本稿では、観測不能で劣化しない画像と未知のフィルタの畳み込みによって、画像のぼかしが記述されるマルチフレームブラインドデコンボリューション(MFBD)について考察し、そのぼかしとノイズのある観測結果から、劣化しない画像を復元することを目的とする。 MFBDの2つの新しい手法を提案するが、これは従来の研究とは対照的に、未知のフィルタを推定する必要がない。 第1の方法は極大化に基づいており、損失関数の非凸性に対処するためには慎重な初期化が必要である。 第2の方法は、この要件を回避し、観測にまたがる信号部分空間が十分に大きな次元を持つ場合、ラピッド最大化の解が特定の構成行列の固有ベクトルとして現れることを利用する。 本稿では,信号部分空間の次元を人工的に増大させる前処理ステップについて述べる。 また,未知フィルタの足跡(フィルタの大きさのベクトルであり,画像列全体に対して1つだけ必要)を推定することにより,信号サブスペースの寸法不足に対処する固有ベクトル法の拡張を提案する。 我々は, 固有ベクトル法を合成生成画像系列に適用し, 従来手法と定量的に比較し, 改良された結果を得た。

Image blur and image noise are imaging artifacts intrinsically arising in image acquisition. In this paper, we consider multi-frame blind deconvolution (MFBD), where image blur is described by the convolution of an unobservable, undeteriorated image and an unknown filter, and the objective is to recover the undeteriorated image from a sequence of its blurry and noisy observations. We present two new methods for MFBD, which, in contrast to previous work, do not require the estimation of the unknown filters. The first method is based on likelihood maximization and requires careful initialization to cope with the non-convexity of the loss function. The second method circumvents this requirement and exploits that the solution of likelihood maximization emerges as an eigenvector of a specifically constructed matrix, if the signal subspace spanned by the observations has a sufficiently large dimension. We describe a pre-processing step, which increases the dimension of the signal subspace by artificially generating additional observations. We also propose an extension of the eigenvector method, which copes with insufficient dimensions of the signal subspace by estimating a footprint of the unknown filters (that is a vector of the size of the filters, only one is required for the whole image sequence). We have applied the eigenvector method to synthetically generated image sequences and performed a quantitative comparison with a previous method, obtaining strongly improved results.
翻訳日:2022-10-04 15:25:26 公開日:2022-10-01
# 長期学習型インクリメンタルラーニング

Long-Tailed Class Incremental Learning ( http://arxiv.org/abs/2210.00266v1 )

ライセンス: Link先を確認
Xialei Liu, Yu-Song Hu, Xu-Sheng Cao, Andrew D. Bagdanov, Ke Li, Ming-Ming Cheng(参考訳) クラスインクリメンタル学習(cil)では、モデルは古いクラスを忘れずに、シーケンシャルに新しいクラスを学習する必要があります。 しかし,従来のcil法は,実世界におけるロングテール分布の発生を無視する新しいタスクごとにバランスのとれた分布を考える。 本研究では, LT-CILを順序付けし, シャッフルした2つの長鎖CILシナリオを提案する。 Ordered LT-CILは、少ない尾クラスよりも多くのサンプルで収集されたヘッドクラスから学習するシナリオを考える。 一方、Shuffled LT-CILはタスク毎に完全にランダムな長い尾の分布を仮定する。 LT-CILシナリオの既存手法を体系的に評価し,従来のCILシナリオとは大きく異なる振る舞いを示す。 さらに,LT-CILの長期分布によるバイアスを低減するため,学習可能な重みスケーリング層を備えた2段階学習ベースラインを提案する。 その結果,CIFAR-100 と ImageNet-Subset に対するアプローチの優れた性能(平均インクリメンタル精度6.44ポイント)が示された。 コードはhttps://github.com/xialeiliu/Long-Tailed-CILで公開されている。

In class incremental learning (CIL) a model must learn new classes in a sequential manner without forgetting old ones. However, conventional CIL methods consider a balanced distribution for each new task, which ignores the prevalence of long-tailed distributions in the real world. In this work we propose two long-tailed CIL scenarios, which we term ordered and shuffled LT-CIL. Ordered LT-CIL considers the scenario where we learn from head classes collected with more samples than tail classes which have few. Shuffled LT-CIL, on the other hand, assumes a completely random long-tailed distribution for each task. We systematically evaluate existing methods in both LT-CIL scenarios and demonstrate very different behaviors compared to conventional CIL scenarios. Additionally, we propose a two-stage learning baseline with a learnable weight scaling layer for reducing the bias caused by long-tailed distribution in LT-CIL and which in turn also improves the performance of conventional CIL due to the limited exemplars. Our results demonstrate the superior performance (up to 6.44 points in average incremental accuracy) of our approach on CIFAR-100 and ImageNet-Subset. The code is available at https://github.com/xialeiliu/Long-Tailed-CIL
翻訳日:2022-10-04 15:24:59 公開日:2022-10-01
# Few-shot Learning を用いたオフライン手書き文字認識

Offline Handwritten Amharic Character Recognition Using Few-shot Learning ( http://arxiv.org/abs/2210.00275v1 )

ライセンス: Link先を確認
Mesay Samuel, Lars Schmidt-Thieme, DP Sharma, Abiot Sinamo, Abey Bruck(参考訳) 少ないラベル付きトレーニング例から学ぶことを目的とした機械学習は、重要な問題だが難しい問題だ。 大量のラベル付きデータセットを必要とするディープラーニングによって、現実世界では実現不可能な研究の活発な領域となっている。 いくつか例から学ぶことは、人間のように学ぶための重要な試みでもある。 機械学習のさまざまな分野で、特に画像分類において、あまり良い約束をしていない。 最近の技術であるため、ほとんどの研究者はmini-imagenetやomniglotといった一般的な画像データセットのみに焦点を当てて、その概念に関する理解と解決に焦点を当てている。 少数ショット学習は、amharicのような低リソース言語に対処する機会も開ける。 本研究では,少数ショット学習を用いたオフライン手書き文字認識について述べる。 特に,プロトタイプラーニングネットワークは,一般的でシンプルな数発学習方式であり,ベースラインとして実装されている。 行と列の類似性を持つアムハラ文字の性質を探求する機会を利用することで、トレーニングエピソードを増強する新たな方法が提案されている。 実験の結果,提案手法はベースライン法よりも優れていた。 本研究は,アンハリック文字に対する数発の学習を初めて実施した。 さらに重要なことは、この研究の結果が、数発の学習におけるトレーニングエピソードの影響を調べる新しい方法を開くことだ。 この研究で使用されるデータセットは、この研究の一部として開発されたAndroidアプリを使用して、ネイティブなアムハラ語ライターから収集される。

Few-shot learning is an important, but challenging problem of machine learning aimed at learning from only fewer labeled training examples. It has become an active area of research due to deep learning requiring huge amounts of labeled dataset, which is not feasible in the real world. Learning from a few examples is also an important attempt towards learning like humans. Few-shot learning has proven a very good promise in different areas of machine learning applications, particularly in image classification. As it is a recent technique, most researchers focus on understanding and solving the issues related to its concept by focusing only on common image datasets like Mini-ImageNet and Omniglot. Few-shot learning also opens an opportunity to address low resource languages like Amharic. In this study, offline handwritten Amharic character recognition using few-shot learning is addressed. Particularly, prototypical networks, the popular and simpler type of few-shot learning, is implemented as a baseline. Using the opportunities explored in the nature of Amharic alphabet having row-wise and column-wise similarities, a novel way of augmenting the training episodes is proposed. The experimental results show that the proposed method outperformed the baseline method. This study has implemented few-shot learning for Amharic characters for the first time. More importantly, the findings of the study open new ways of examining the influence of training episodes in few-shot learning, which is one of the important issues that needs exploration. The datasets used for this study are collected from native Amharic language writers using an Android App developed as a part of this study.
翻訳日:2022-10-04 15:24:41 公開日:2022-10-01
# 地理偽画像検出のための事前学習cnnモデルの評価

Evaluation of Pre-Trained CNN Models for Geographic Fake Image Detection ( http://arxiv.org/abs/2210.00361v1 )

ライセンス: Link先を確認
Sid Ahmed Fezza, Mohammed Yasser Ouis, Bachir Kaddar, Wassim Hamidouche, Abdenour Hadid(参考訳) gans(generative adversarial network)の著しい進歩により、画像の生成/操作がますます容易になっている。 既存の作品は、主に顔画像やビデオのディープフェイクに焦点を当てている。 しかし、我々は現在、偽の衛星画像の出現を目撃している。 そのため、実際の衛星画像と偽の衛星画像を区別できる検出方法の開発が急務である。 そこで本研究では,衛星画像検出のためのいくつかの畳み込みニューラルネットワーク(CNN)アーキテクチャの適合性について検討する。 具体的には,様々な画像歪みに対する性能とロバスト性を評価するために,4つのcnnモデルのベンチマークを行った。 この研究は、新しいベースラインの確立を可能にし、偽衛星画像検出のためのCNNベースの手法の開発に有用かもしれない。

Thanks to the remarkable advances in generative adversarial networks (GANs), it is becoming increasingly easy to generate/manipulate images. The existing works have mainly focused on deepfake in face images and videos. However, we are currently witnessing the emergence of fake satellite images, which can be misleading or even threatening to national security. Consequently, there is an urgent need to develop detection methods capable of distinguishing between real and fake satellite images. To advance the field, in this paper, we explore the suitability of several convolutional neural network (CNN) architectures for fake satellite image detection. Specifically, we benchmark four CNN models by conducting extensive experiments to evaluate their performance and robustness against various image distortions. This work allows the establishment of new baselines and may be useful for the development of CNN-based methods for fake satellite image detection.
翻訳日:2022-10-04 15:24:18 公開日:2022-10-01
# NeRF:3Dビジョンにおけるニューラル・ラジアンス・フィールドの総合的レビュー

NeRF: Neural Radiance Field in 3D Vision, A Comprehensive Review ( http://arxiv.org/abs/2210.00379v1 )

ライセンス: Link先を確認
Kyle Gao, Yina Gao, Hongjie He, Denning Lu, Linlin Xu and Jonathan Li(参考訳) 暗黙的なシーン表現を備えた新しいビュー合成であるNeRF(Neural Radiance Field)が,嵐によるコンピュータビジョンの分野に進出した。 新規なビュー合成と3D再構成手法として、NeRFモデルはロボット工学、都市マッピング、自律ナビゲーション、仮想現実/拡張現実などに適用できる。 mildenhallらによる最初の論文以降、250以上のプレプリントが出版され、最終的に100以上のプレプリントがtier one computer vision conferenceで受け入れられた。 nerfの人気と現在の研究領域への関心を考えると、我々は過去2年間のnerf論文の包括的な調査を、アーキテクチャとアプリケーションに基づく分類の両方にまとめる必要があると考えています。 また,NeRFを用いた新規ビュー合成理論の紹介と,鍵となるNeRFモデルの性能と速度のベンチマーク比較を行った。 この調査を作成することで、新しい研究者をNeRFに紹介し、この分野における影響力のある研究の参考となるとともに、今後の研究方向性を議論節で動機付けることを期待する。

Neural Radiance Field (NeRF), a new novel view synthesis with implicit scene representation has taken the field of Computer Vision by storm. As a novel view synthesis and 3D reconstruction method, NeRF models find applications in robotics, urban mapping, autonomous navigation, virtual reality/augmented reality, and more. Since the original paper by Mildenhall et al., more than 250 preprints were published, with more than 100 eventually being accepted in tier one Computer Vision Conferences. Given NeRF popularity and the current interest in this research area, we believe it necessary to compile a comprehensive survey of NeRF papers from the past two years, which we organized into both architecture, and application based taxonomies. We also provide an introduction to the theory of NeRF based novel view synthesis, and a benchmark comparison of the performance and speed of key NeRF models. By creating this survey, we hope to introduce new researchers to NeRF, provide a helpful reference for influential works in this field, as well as motivate future research directions with our discussion section.
翻訳日:2022-10-04 15:24:04 公開日:2022-10-01
# ネスト検索と限定的不一致検索

Nested Search versus Limited Discrepancy Search ( http://arxiv.org/abs/2210.00216v1 )

ライセンス: Link先を確認
Tristan Cazenave(参考訳) Limited Discrepancy Search (LDS) は、状態空間をヒューリスティックで探索し、可能なアクションを順序付けする一般的なアルゴリズムである。 nested search (ns) は、同じヒューリスティックな状態空間を探索する別のアルゴリズムである。 LDSは最高のヒューリスティックな動きにより多くの時間を費やす一方、NSは最高のヒューリスティックな動きにより多くの時間を費やす。 どちらも同じレベルの検索に同じ時間を使っている。 この論文では、ldsのようにヒューリスティックに従うよりも、nsのように最高のヒューリスティックなプレーアウトに従う方が良いと論じている。

Limited Discrepancy Search (LDS) is a popular algorithm to search a state space with a heuristic to order the possible actions. Nested Search (NS) is another algorithm to search a state space with the same heuristic. NS spends more time on the move associated to the best heuristic playout while LDS spends more time on the best heuristic move. They both use similar times for the same level of search. We advocate in this paper that it is often better to follow the best heuristic playout as in NS than to follow the heuristic as in LDS.
翻訳日:2022-10-04 15:17:00 公開日:2022-10-01
# 知識グラフを用いた確率的推論のためのswift markov logic

Swift Markov Logic for Probabilistic Reasoning on Knowledge Graphs ( http://arxiv.org/abs/2210.00283v1 )

ライセンス: Link先を確認
Luigi Bellomarini, Eleonora Laurenza, Emanuel Sallinger, Evgeny Sherkhonov(参考訳) 我々は,vadalog ベースの知識グラフ (kgs) における確率的推論の枠組みを提供し,完全な帰納法,強力な存在量化,帰納的定義の表現といった存在論的推論の要件を満たす。 vadalogは,存在規則の論理コア言語である warded datalog+/- に基づいた知識表現推論(krr)言語であり,計算複雑性と表現力のバランスが良好である。 KGの推論には不確実性を扱うことが不可欠である。 しかし、VadalogとWarded Datalog+/は、存在量化による再帰の不十分なサポート、帰納的定義を表現できないことなど、いくつかの理由から、既存の確率論的論理プログラミングや統計的リレーショナルラーニングアプローチによってカバーされていない。 本稿では,これらのデシラタを満たす確率的拡張であるSoft Vadalogを紹介する。 ソフトバダログプログラムは、チェイスインスタンスのネットワーク上の確率分布からなる確率論的知識グラフ(PKG)と呼ばれるものを誘導する。 pkgを確率的辺縁推論に活用する。 本稿では,モンテカルロ法であるMCMC-chaseの理論と現状について論じる。 データ管理と産業問題の解決に我々のフレームワークを適用し,それをVadalogシステムで実験的に評価する。 論理プログラミングの理論と実践(tplp)における考察。

We provide a framework for probabilistic reasoning in Vadalog-based Knowledge Graphs (KGs), satisfying the requirements of ontological reasoning: full recursion, powerful existential quantification, expression of inductive definitions. Vadalog is a Knowledge Representation and Reasoning (KRR) language based on Warded Datalog+/-, a logical core language of existential rules, with a good balance between computational complexity and expressive power. Handling uncertainty is essential for reasoning with KGs. Yet Vadalog and Warded Datalog+/- are not covered by the existing probabilistic logic programming and statistical relational learning approaches for several reasons, including insufficient support for recursion with existential quantification, and the impossibility to express inductive definitions. In this work, we introduce Soft Vadalog, a probabilistic extension to Vadalog, satisfying these desiderata. A Soft Vadalog program induces what we call a Probabilistic Knowledge Graph (PKG), which consists of a probability distribution on a network of chase instances, structures obtained by grounding the rules over a database using the chase procedure. We exploit PKGs for probabilistic marginal inference. We discuss the theory and present MCMC-chase, a Monte Carlo method to use Soft Vadalog in practice. We apply our framework to solve data management and industrial problems, and experimentally evaluate it in the Vadalog system. Under consideration in Theory and Practice of Logic Programming (TPLP).
翻訳日:2022-10-04 15:16:50 公開日:2022-10-01
# 口頭弁論による法的推論のモデル化

Using Argumentation Schemes to Model Legal Reasoning ( http://arxiv.org/abs/2210.00315v1 )

ライセンス: Link先を確認
Trevor Bench-Capon and Katie Atkinson(参考訳) 判例による推論をモデル化するための議論スキームを提案する。 我々は,事実が確立された後に生じる3つの段階(因子記述,課題解決,成果決定)のそれぞれについてスキームを提供する。 これらのスキームは、特定の法的領域、米国貿易秘密法(US Trade Secrets law)の例で説明され、これらのスキームの適用性について論じる。

We present argumentation schemes to model reasoning with legal cases. We provide schemes for each of the three stages that take place after the facts are established: factor ascription, issue resolution and outcome determination. The schemes are illustrated with examples from a specific legal domain, US Trade Secrets law, and the wider applicability of these schemes is discussed.
翻訳日:2022-10-04 15:16:25 公開日:2022-10-01
# EAPruning: ビジョントランスフォーマーとCNNのための進化的プルーニング

EAPruning: Evolutionary Pruning for Vision Transformers and CNNs ( http://arxiv.org/abs/2210.00181v1 )

ライセンス: Link先を確認
Qingyuan Li, Bo Zhang, Xiangxiang Chu(参考訳) 構造化プルーニングは、リソース制約された環境における大規模ニューラルネットワークの展開を大幅に緩和する。 しかし、現在の手法では、強力なドメイン専門知識を必要とするか、追加のハイパーパラメータチューニングを必要とするか、特定のタイプのネットワークに限定されている。 本稿では,視覚変換器と畳み込みニューラルネットワークの両方に容易に適用可能な,シンプルで効果的なアプローチを提案する。 具体的には,再建技術によって重みを継承するサブネットワーク構造の進化過程として,プルーニングを考察する。 ResNet50とMobileNetV1の50%のFLOPS削減を実現し,それぞれ1.37倍,1.34倍の高速化を実現した。 DeiT-Baseでは、約40%のFLOP削減と1.4倍のスピードアップを実現しています。 私たちのコードは利用可能になります。

Structured pruning greatly eases the deployment of large neural networks in resource-constrained environments. However, current methods either involve strong domain expertise, require extra hyperparameter tuning, or are restricted only to a specific type of network, which prevents pervasive industrial applications. In this paper, we undertake a simple and effective approach that can be easily applied to both vision transformers and convolutional neural networks. Specifically, we consider pruning as an evolution process of sub-network structures that inherit weights through reconstruction techniques. We achieve a 50% FLOPS reduction for ResNet50 and MobileNetV1, leading to 1.37x and 1.34x speedup respectively. For DeiT-Base, we reach nearly 40% FLOPs reduction and 1.4x speedup. Our code will be made available.
翻訳日:2022-10-04 15:15:13 公開日:2022-10-01
# Zemi: 複数のタスクからゼロショットセミパラメトリック言語モデルを学ぶ

Zemi: Learning Zero-Shot Semi-Parametric Language Models from Multiple Tasks ( http://arxiv.org/abs/2210.00185v1 )

ライセンス: Link先を確認
Zhenhailong Wang, Xiaoman Pan, Dian Yu, Dong Yu, Jianshu Chen, Heng Ji(参考訳) 大きな言語モデルは印象的なゼロショット能力を達成したが、大きなモデルサイズは一般的に高いコストを発生させる。 近年,より小さな言語モデルを外部レトリバーで拡張するセミパラメトリック言語モデルは,有望な言語モデリング能力を実証している。 しかし、そのような半パラメトリック言語モデルが、下流タスクへのゼロショット一般化に関する完全なパラメトリック言語モデルと競合的に機能するかどうかは不明である。 本稿では,ゼロショットセミパラメトリック言語モデルである$\text{Zemi}$を紹介する。 私たちの知る限りでは、これは幅広い無意味なタスクで強いゼロショット性能を示すことができる最初の半パラメトリック言語モデルです。 我々は,T0 が提案したパラメトリックマルチタスクトレーニングと比較して大幅に改善した,新しい半パラメトリックマルチタスク誘導トレーニングパラダイムで $\text{Zemi}$ をトレーニングする。 具体的には,大規模タスク非依存コーパスからの検索により,マルチタスクトレーニングとゼロショット評価を増強する。 複数の潜在的にノイズの多い検索拡張を組み込むため、perceiver resamplerとgated cross-attentionを利用した新しい$\text{augmentation fusion}$モジュールも提案する。 特に,提案した$\text{Zemi}_\text{LARGE}$は,モデルサイズを3.9倍小さくしながら,T0-3Bを16%向上させる。

Although large language models have achieved impressive zero-shot ability, the huge model size generally incurs high cost. Recently, semi-parametric language models, which augment a smaller language model with an external retriever, have demonstrated promising language modeling capabilities. However, it remains unclear whether such semi-parametric language models can perform competitively well as their fully-parametric counterparts on zero-shot generalization to downstream tasks. In this work, we introduce $\text{Zemi}$, a zero-shot semi-parametric language model. To our best knowledge, this is the first semi-parametric language model that can demonstrate strong zero-shot performance on a wide range of held-out unseen tasks. We train $\text{Zemi}$ with a novel semi-parametric multitask prompted training paradigm, which shows significant improvement compared with the parametric multitask training as proposed by T0. Specifically, we augment the multitask training and zero-shot evaluation with retrieval from a large-scale task-agnostic unlabeled corpus. In order to incorporate multiple potentially noisy retrieved augmentations, we further propose a novel $\text{augmentation fusion}$ module leveraging perceiver resampler and gated cross-attention. Notably, our proposed $\text{Zemi}_\text{LARGE}$ outperforms T0-3B by 16% on all seven evaluation tasks while being 3.9x smaller in model size.
翻訳日:2022-10-04 14:58:31 公開日:2022-10-01
# FRMT:Few-Shot Region-Aware Machine Translationのベンチマーク

FRMT: A Benchmark for Few-Shot Region-Aware Machine Translation ( http://arxiv.org/abs/2210.00193v1 )

ライセンス: Link先を確認
Parker Riley, Timothy Dozat, Jan A. Botha, Xavier Garcia, Dan Garrette, Jason Riesa, Orhan Firat, Noah Constant(参考訳) 本稿ではFew-shot Region-aware Machine Translationのための新しいデータセットと評価ベンチマークFRMTを提案する。 このデータセットは、英語からポルトガル語と中国語の2つの地域訳から成り立っている。 ソース文書は、語彙的に異なる用語や散逸した用語を含む興味のある現象の詳細な分析を可能にするために選択される。 本研究では,frmtの自動評価指標を探索し,地域マッチングとミスマッチ評価の両シナリオにおいて,専門家の人間評価との相関性を検証する。 最後に、このタスクのためのベースラインモデルをいくつか提示し、研究者が自身のモデルをトレーニング、評価、比較する方法のガイドラインを提供する。 私たちのデータセットと評価コードは公開されています。

We present FRMT, a new dataset and evaluation benchmark for Few-shot Region-aware Machine Translation, a type of style-targeted translation. The dataset consists of professional translations from English into two regional variants each of Portuguese and Mandarin Chinese. Source documents are selected to enable detailed analysis of phenomena of interest, including lexically distinct terms and distractor terms. We explore automatic evaluation metrics for FRMT and validate their correlation with expert human evaluation across both region-matched and mismatched rating scenarios. Finally, we present a number of baseline models for this task, and offer guidelines for how researchers can train, evaluate, and compare their own models. Our dataset and evaluation code are publicly available: https://bit.ly/frmt-task
翻訳日:2022-10-04 14:58:12 公開日:2022-10-01
# PromptKG:知識グラフ表現学習のためのプロンプト学習フレームワークとその応用

PromptKG: A Prompt Learning Framework for Knowledge Graph Representation Learning and Application ( http://arxiv.org/abs/2210.00305v1 )

ライセンス: Link先を確認
Xin Xie, Zhoubo Li, Xiaohan Wang, Shumin Deng, Feiyu Xiong, Huajun Chen, Ningyu Zhang(参考訳) 知識グラフ(KG)は、異種グラフ構造とテキストリッチなエンティティ/リレーショナル情報という2つの特徴を持つことが多い。 KG表現モデルは、グラフ構造とテキストセマンティクスを考慮すべきであるが、情報的テキスト記述に関して主にKGのために設計された包括的なオープンソースフレームワークは存在しない。 本稿では,KG表現学習のための素早い学習フレームワークであるPromptKGを提案する。このフレームワークは,最先端のテキストベースの手法を実装し,新しい素早い学習モデルを統合し,様々なタスク(知識グラフ補完,質問応答,推薦,知識探索など)をサポートする。 PromptKGはhttps://github.com/zjunlp/PromptKGで公開されている。

Knowledge Graphs (KGs) often have two characteristics: heterogeneous graph structure and text-rich entity/relation information. KG representation models should consider graph structures and text semantics, but no comprehensive open-sourced framework is mainly designed for KG regarding informative text description. In this paper, we present PromptKG, a prompt learning framework for KG representation learning and application that equips the cutting-edge text-based methods, integrates a new prompt learning model and supports various tasks (e.g., knowledge graph completion, question answering, recommendation, and knowledge probing). PromptKG is publicly open-sourced at https://github.com/zjunlp/PromptKG with long-term technical support.
翻訳日:2022-10-04 14:58:01 公開日:2022-10-01
# 知識グラフを用いたマルチモーダル解析

Multimodal Analogical Reasoning over Knowledge Graphs ( http://arxiv.org/abs/2210.00312v1 )

ライセンス: Link先を確認
Ningyu Zhang, Lei Li, Xiang Chen, Xiaozhuan Liang, Shumin Deng, Huajun Chen(参考訳) アナロジー推論は人間の認知の基本であり、様々な分野で重要な位置を占めている。 しかし、従来の研究は主に単様類推と構造知識の活用に重点を置いていた。 特に、認知心理学の研究は、マルチモーダルソースからの情報が常に単一のモーダルソースよりも強力な認知伝達をもたらすことを示した。 そこで本研究では,背景知識の助けを借りて,マルチモーダル推論能力を必要とする知識グラフに対するマルチモーダル類似推論という新たなタスクを導入する。 具体的には、マルチモーダルアナロジカル推論データセット(MARS)とマルチモーダル知識グラフMarKGを構築する。 マルチモーダルナレッジグラフ埋め込みと事前学習されたトランスフォーマーベースラインを用いて評価を行い,提案課題の可能性を示す。 さらに,構造マッピング理論によって動機付けられたTransformer (MarT) を用いたモデル非依存型マルチモーダル類似推論フレームワークを提案する。

Analogical reasoning is fundamental to human cognition and holds an important place in various fields. However, previous studies mainly focus on single-modal analogical reasoning and ignore taking advantage of structure knowledge. Notably, the research in cognitive psychology has demonstrated that information from multimodal sources always brings more powerful cognitive transfer than single modality sources. To this end, we introduce the new task of multimodal analogical reasoning over knowledge graphs, which requires multimodal reasoning ability with the help of background knowledge. Specifically, we construct a Multimodal Analogical Reasoning dataSet (MARS) and a multimodal knowledge graph MarKG. We evaluate with multimodal knowledge graph embedding and pre-trained Transformer baselines, illustrating the potential challenges of the proposed task. We further propose a novel model-agnostic Multimodal analogical reasoning framework with Transformer (MarT) motivated by the structure mapping theory, which can obtain better performance.
翻訳日:2022-10-04 14:57:49 公開日:2022-10-01
# CGELBank: CGELは英語の構文アノテーションのためのフレームワーク

CGELBank: CGEL as a Framework for English Syntax Annotation ( http://arxiv.org/abs/2210.00394v1 )

ライセンス: Link先を確認
Brett Reynolds, Aryaman Arora, Nathan Schneider(参考訳) 本稿では,CGELBankプロジェクトを通じて,木バンクの世界でのCGEL (textit{Cambridge Grammar of the English Language}) の構文形式について紹介する。 本稿では,コーパスアノテーションへの形式的適応に起因した言語分析における諸問題と,並列udとptb木バンクとの定量的・質的比較について論じる。 CGELは分析の包括性とアノテーションのユーザビリティとの間に良いトレードオフをもたらしており、将来ツリーバンクを自動変換して拡張する動機となる。

We introduce the syntactic formalism of the \textit{Cambridge Grammar of the English Language} (CGEL) to the world of treebanking through the CGELBank project. We discuss some issues in linguistic analysis that arose in adapting the formalism to corpus annotation, followed by quantitative and qualitative comparisons with parallel UD and PTB treebanks. We argue that CGEL provides a good tradeoff between comprehensiveness of analysis and usability for annotation, which motivates expanding the treebank with automatic conversion in the future.
翻訳日:2022-10-04 14:57:32 公開日:2022-10-01
# オブジェクト配置のための言語指示の微分解析と視覚的接地

Differentiable Parsing and Visual Grounding of Verbal Instructions for Object Placement ( http://arxiv.org/abs/2210.00215v1 )

ライセンス: Link先を確認
Zirui Zhao, Wee Sun Lee, David Hsu(参考訳) オブジェクト配置のための自然言語における接地空間関係はあいまいさと構成性の問題を引き起こす可能性がある。 この問題に対処するために、言語条件のオブジェクト配置のためのPARsing and visual GrOuNdingフレームワークであるParaGonを紹介する。 言語命令をオブジェクト間の関係に解析し、それらのオブジェクトを視覚的なシーンで根拠付けする。 粒子ベースGNNは、配置生成のための接地対象間の関係推論を行う。 ParaGonは、これらの手順をすべてニューラルネットワークにエンコードしてエンドツーエンドのトレーニングを行う。 当社のアプローチは本質的に解析ベースのメソッドを確率的データ駆動フレームワークに統合します。 データ効率が高く、構成命令の学習に汎用的であり、ノイズの多い言語入力に頑健であり、曖昧な命令の不確実性に適応する。

Grounding spatial relations in natural language for object placing could have ambiguity and compositionality issues. To address the issues, we introduce ParaGon, a PARsing And visual GrOuNding framework for language-conditioned object placement. It parses language instructions into relations between objects and grounds those objects in visual scenes. A particle-based GNN then conducts relational reasoning between grounded objects for placement generation. ParaGon encodes all of those procedures into neural networks for end-to-end training, which avoids annotating parsing and object reference grounding labels. Our approach inherently integrates parsing-based methods into a probabilistic, data-driven framework. It is data-efficient and generalizable for learning compositional instructions, robust to noisy language inputs, and adapts to the uncertainty of ambiguous instructions.
翻訳日:2022-10-04 14:52:03 公開日:2022-10-01
# 直腸腫瘍セグメンテーションのための注意強化convnext unet

Attention Augmented ConvNeXt UNet For Rectal Tumour Segmentation ( http://arxiv.org/abs/2210.00227v1 )

ライセンス: Link先を確認
Hongwei Wu, Junlin Wang, Xin Wang, Hui Nan, Yaxin Wang, Haonan Jing, Kaixuan Shi(参考訳) 深層学習により直腸癌腫瘍の位置と大きさを分割することが課題である。 本稿では,直腸腫瘍分節におけるsuffi-cient feature情報抽出能を向上させるために,注意拡大型convnext unet (aacn-unet) を提案する。 ネットワークは主に2つの改善が含まれている。 1) UNet のエンコーダ段階を ConvNeXt 構造に変更し,大規模な意味情報を統合できるだけでなく,情報損失を低減し,CT 画像からより多くの特徴情報を抽出することができる。 2) CBAMアテンション機構は,ターゲットの有効特徴の抽出とセグメンテーション精度の向上に寄与するチャネルと空間における各特徴の接続を改善するために追加され,UNetとその変種ネットワークを用いた実験により,AACN-UNetがP,F1,Miouの最高値より0.9%,1.1%,1.4%高いことがわかった。 今回提案したAACN-UNetは,直腸癌のCT像分割において極めて優れた結果を得た。

It is a challenge to segment the location and size of rectal cancer tumours through deep learning. In this paper, in order to improve the ability of extracting suffi-cient feature information in rectal tumour segmentation, attention enlarged ConvNeXt UNet (AACN-UNet), is proposed. The network mainly includes two improvements: 1) the encoder stage of UNet is changed to ConvNeXt structure for encoding operation, which can not only integrate multi-scale semantic information on a large scale, but al-so reduce information loss and extract more feature information from CT images; 2) CBAM attention mechanism is added to improve the connection of each feature in channel and space, which is conducive to extracting the effective feature of the target and improving the segmentation accuracy.The experiment with UNet and its variant network shows that AACN-UNet is 0.9% ,1.1% and 1.4% higher than the current best results in P, F1 and Miou.Compared with the training time, the number of parameters in UNet network is less. This shows that our proposed AACN-UNet has achieved ex-cellent results in CT image segmentation of rectal cancer.
翻訳日:2022-10-04 14:51:49 公開日:2022-10-01
# 深層学習による血管内oct画像における微小血管の自動分割

Automated segmentation of microvessels in intravascular OCT images using deep learning ( http://arxiv.org/abs/2210.00166v1 )

ライセンス: Link先を確認
Juhwan Lee, Justin N. Kim, Lia Gomez-Perez, Yazan Gharaibeh, Issam Motairek, Ga-briel T. R. Pereira, Vladislav N. Zimin, Luis A. P. Dallan, Ammar Hoori, Sadeer Al-Kindi, Giulio Guagliumi, Hiram G. Bezerra, David L. Wilson(参考訳) この脆弱性の特徴を分析するために,血管内光コヒーレンス断層撮影(ivoct)画像中の微小血管を自動検出する深層学習法を開発した。 85病変から8,403個のivoct画像フレームと37個の正常セグメントを解析した。 このグループが開発した専用のソフトウェア(OCTOPUS)を使って手動アノテーションを行った。 極域(r,{\theta})領域におけるデータ拡張を生のVOCT画像に適用し、微小容器があらゆる角度に現れるようにした。 前処理にはガイドワイヤ/シャドウ検出、ルーメンセグメンテーション、ピクセルシフト、ノイズ低減などがある。 DeepLab v3+はマイクロコンテナ候補のセグメンテーションに使用された。 各候補のバウンディングボックスは、浅い畳み込みニューラルネットワークを用いてマイクロベセルまたは非マイクロベセルに分類された。 より良い分類のために,ネットワークトレーニング中にマイクロベセルを用いたバウンディングボックス上でのデータ拡張(角度回転)を行った。 データ拡張と前処理のステップはマイクロベッセルのセグメンテーション性能を大幅に改善し、dice 0.71+/-0.10の方法と87.7+/-6.6%/99.8+/-0.1%の画素感度/特異性をもたらした。 99.5+/-0.3%,特異度98.8+/-1.0%,精度99.1+/-0.5%であった。 分類ステップは残存偽陽性の多数を除去し, dice係数は0.71から0.73に増加した。 また,手作業による解析では730フレームに対して,マイクロベセルを用いた698フレームをそれぞれ4.4%の差で生成した。 手動法と比較すると,マイクロ容器の連続性が向上し,セグメンテーション性能が向上した。 この方法は研究目的や将来の治療計画に有用である。

To analyze this characteristic of vulnerability, we developed an automated deep learning method for detecting microvessels in intravascular optical coherence tomography (IVOCT) images. A total of 8,403 IVOCT image frames from 85 lesions and 37 normal segments were analyzed. Manual annotation was done using a dedicated software (OCTOPUS) previously developed by our group. Data augmentation in the polar (r,{\theta}) domain was applied to raw IVOCT images to ensure that microvessels appear at all possible angles. Pre-processing methods included guidewire/shadow detection, lumen segmentation, pixel shifting, and noise reduction. DeepLab v3+ was used to segment microvessel candidates. A bounding box on each candidate was classified as either microvessel or non-microvessel using a shallow convolutional neural network. For better classification, we used data augmentation (i.e., angle rotation) on bounding boxes with a microvessel during network training. Data augmentation and pre-processing steps improved microvessel segmentation performance significantly, yielding a method with Dice of 0.71+/-0.10 and pixel-wise sensitivity/specificity of 87.7+/-6.6%/99.8+/-0.1%. The network for classifying microvessels from candidates performed exceptionally well, with sensitivity of 99.5+/-0.3%, specificity of 98.8+/-1.0%, and accuracy of 99.1+/-0.5%. The classification step eliminated the majority of residual false positives, and the Dice coefficient increased from 0.71 to 0.73. In addition, our method produced 698 image frames with microvessels present, compared to 730 from manual analysis, representing a 4.4% difference. When compared to the manual method, the automated method improved microvessel continuity, implying improved segmentation performance. The method will be useful for research purposes as well as potential future treatment planning.
翻訳日:2022-10-04 14:39:57 公開日:2022-10-01
# タスク親和性からの因果的知識伝達

Causal Knowledge Transfer from Task Affinity ( http://arxiv.org/abs/2210.00380v1 )

ライセンス: Link先を確認
Ahmed Aloui, Juncheng Dong, Cat P. Le, Vahid Tarokh(参考訳) 反事実的バランスによる深層表現モデルの最近の発展は、ニーマン・ルービンポテンシャルフレームワークにおける因果推論に不可欠な個々の治療効果(ites)を推定するための有望な枠組みにつながった。 ランダム化制御試験は因果効果を理解するのに不可欠であるが、実行に不利、費用がかかる、非倫理的な場合もある。 このようなデータ取得の潜在的な障害に動機づけられて,先行実験で得られた因果知識を,限られたデータのみ利用可能な新たなシナリオに移行することに注力する。 この目的のために、我々はまず、ITEの絶対値が、治療のラベル上の対称群の作用の下で不変であることを観察する。 この不変性から,対象シナリオと先行するシナリオの類似性を計算するための対称性付きタスク距離を提案する。 上記のタスク距離は、予め学習された全てのタスクの最も近い部分から目的のシナリオに因果的知識を転送するために使用される。 因果知識の伝達可能性を示す対象タスクの非事実的損失と ite エラーの上限を提供する。 種々の実世界, 半合成, 合成データセットに対して実証的研究を行い, 提案した対称性付きタスク距離が, 対物損失の推定と強く関連していることを示す。 数値的な結果から, 因果知識の伝達により, スクラッチからのトレーニングと比較して, 必要なデータ量を最大95%削減できることがわかった。 これらの結果から, 治療効果の知識(医学, 社会政策, パーソナルトレーニングなど)を, 研究に欠場した他のグループに移管するなど, 現実のシナリオに挑戦しつつも, 本手法が適用できる可能性が示唆された。

Recent developments in deep representation models through counterfactual balancing have led to a promising framework for estimating Individual Treatment Effects (ITEs) that are essential to causal inference in the Neyman-Rubin potential outcomes framework. While Randomized Control Trials are vital to understanding causal effects, they are sometimes infeasible, costly, or unethical to conduct. Motivated by these potential obstacles to data acquisition, we focus on transferring the causal knowledge acquired in prior experiments to new scenarios for which only limited data is available. To this end, we first observe that the absolute values of ITEs are invariant under the action of the symmetric group on the labels of treatments. Given this invariance, we propose a symmetrized task distance for calculating the similarity of a target scenario with those encountered before. The aforementioned task distance is then used to transfer causal knowledge from the closest of all the available previously learned tasks to the target scenario. We provide upper bounds on the counterfactual loss and ITE error of the target task indicating the transferability of causal knowledge. Empirical studies are provided for various real-world, semi-synthetic, and synthetic datasets demonstrating that the proposed symmetrized task distance is strongly related to the estimation of the counterfactual loss. Numerical results indicate that transferring causal knowledge reduces the amount of required data by up to 95% when compared to training from scratch. These results reveal the promise of our method when applied to important albeit challenging real-world scenarios such as transferring the knowledge of treatment effects (e.g., medicine, social policy, personal training, etc.) studied on a population to other groups absent in the study.
翻訳日:2022-10-04 14:32:27 公開日:2022-10-01
# トランスフォーマーを用いたマルウェア検出装置の敵意攻撃

Adversarial Attacks on Transformers-Based Malware Detectors ( http://arxiv.org/abs/2210.00008v1 )

ライセンス: Link先を確認
Yash Jakhotiya, Heramb Patil, Jugal Rawlani(参考訳) 署名ベースのマルウェア検出装置は、悪性な実行可能コードのわずかな変更でさえこれらの署名ベースの検出装置をバイパスできるため、不十分であることが証明されている。 さまざまなマルウェアを効率的に検出するために、多くの機械学習ベースのモデルが提案されている。 これらのモデルの多くは、故意に設計された入力を生成して、これらのモデルに誤分類を強いることで機能する、敵対的攻撃の影響を受けやすいことが分かっています。 本研究は,敵の攻撃に対するartマルウェア検出器の現況における脆弱性を探索することを目的としている。 我々は、transformersベースのマルウェア検出器を訓練し、逆襲を行い、誤分類率を23.9%とし、この誤分類率を半分に減らす防御を提案する。 私たちの作業の実装はhttps://github.com/yashjakhotiya/Adversarial-Attacks-On-Transformersで確認できます。

Signature-based malware detectors have proven to be insufficient as even a small change in malignant executable code can bypass these signature-based detectors. Many machine learning-based models have been proposed to efficiently detect a wide variety of malware. Many of these models are found to be susceptible to adversarial attacks - attacks that work by generating intentionally designed inputs that can force these models to misclassify. Our work aims to explore vulnerabilities in the current state of the art malware detectors to adversarial attacks. We train a Transformers-based malware detector, carry out adversarial attacks resulting in a misclassification rate of 23.9% and propose defenses that reduce this misclassification rate to half. An implementation of our work can be found at https://github.com/yashjakhotiya/Adversarial-Attacks-On-Transformers.
翻訳日:2022-10-04 14:24:19 公開日:2022-10-01
# DeltaBound攻撃:低クエリ方式における効率的な意思決定ベースの攻撃

DeltaBound Attack: Efficient decision-based attack in low queries regime ( http://arxiv.org/abs/2210.00292v1 )

ライセンス: Link先を確認
Lorenzo Rossi(参考訳) ディープニューラルネットワークやその他の機械学習システムは、非常に強力で高精度に予測できるにもかかわらず、敵の攻撃に対して脆弱である。 我々はDeltaBound攻撃を提案した:$\ell_2$ norm bounded perturbationsのハードラベル設定において、新しい強力な攻撃である。 このシナリオでは、攻撃者はモデルの上位1つの予測ラベルのみにアクセスでき、したがってリモートAPIのような現実世界の設定に適用できる。 攻撃者はモデルに関する情報がほとんどないので、これは複雑な問題である。 その結果、文献に存在する他の技術のほとんどは、単一の例を攻撃するために大量のクエリを必要とする。 反対に、この研究は主に、ハードラベル設定で$\ell_2$ normを持つ低クエリレジーム$\leq 1000$クエリにおける攻撃力の評価に焦点を当てている。 DeltaBound攻撃は、様々な種類のモデルにまたがる競争力を維持しながら、現在の最先端の攻撃よりも、時折、よく機能することがわかった。 さらに,本手法はディープニューラルネットワークだけでなく,勾配ブースティング決定木や多項ナイーブベイなどの非深層学習モデルに対しても評価する。

Deep neural networks and other machine learning systems, despite being extremely powerful and able to make predictions with high accuracy, are vulnerable to adversarial attacks. We proposed the DeltaBound attack: a novel, powerful attack in the hard-label setting with $\ell_2$ norm bounded perturbations. In this scenario, the attacker has only access to the top-1 predicted label of the model and can be therefore applied to real-world settings such as remote API. This is a complex problem since the attacker has very little information about the model. Consequently, most of the other techniques present in the literature require a massive amount of queries for attacking a single example. Oppositely, this work mainly focuses on the evaluation of attack's power in the low queries regime $\leq 1000$ queries) with $\ell_2$ norm in the hard-label settings. We find that the DeltaBound attack performs as well and sometimes better than current state-of-the-art attacks while remaining competitive across different kinds of models. Moreover, we evaluate our method against not only deep neural networks, but also non-deep learning models, such as Gradient Boosting Decision Trees and Multinomial Naive Bayes.
翻訳日:2022-10-04 14:23:31 公開日:2022-10-01
# CRISP:Polar Code Familyのためのカリキュラムベースのシーケンスニューラルデコーダ

CRISP: Curriculum based Sequential Neural Decoders for Polar Code Family ( http://arxiv.org/abs/2210.00313v1 )

ライセンス: Link先を確認
S Ashwin Hebbar, Viraj Nadkarni, Ashok Vardhan Makkuva, Suma Bhat, Sewoong Oh, Pramod Viswanath(参考訳) 極性符号は、最近第5世代無線規格(5G)に含まれる信頼できる通信のための最先端の符号として広く使われている。 しかし、短ブロック長領域において効率的かつ信頼性の高い極性デコーダの設計の余地は残っている。 データ駆動型チャネルデコーダの最近の成功に動機づけられ、新しい$\textbf{c}$ur$\textbf{ri}$culumベースの$\textbf{s}$equential neural decoder for $\textbf{p}$olar codes (crisp)を導入する。 我々は、情報理論的な洞察で導かれたカリキュラムを設計し、CRISPを訓練し、逐次キャンセラ(SC)デコーダより優れ、Polar(16,32)およびPolar(22,64)符号のほぼ最適信頼性性能が得られることを示す。 提案カリキュラムの選択は,他のカリキュラムと比較することによって示すように,CRISPの精度向上に不可欠である。 より注目すべきは、CRISPは、既存のSCデコーダの信頼性が著しく低いPAC(Polarization-Adjusted-Convolutional)コードに容易に拡張できることである。 我々の知る限り、CRISPはPACコードのための最初のデータ駆動デコーダを構築し、PAC(16, 32)コードでほぼ最適性能を得る。

Polar codes are widely used state-of-the-art codes for reliable communication that have recently been included in the 5th generation wireless standards (5G). However, there remains room for the design of polar decoders that are both efficient and reliable in the short blocklength regime. Motivated by recent successes of data-driven channel decoders, we introduce a novel $\textbf{C}$ur$\textbf{RI}$culum based $\textbf{S}$equential neural decoder for $\textbf{P}$olar codes (CRISP). We design a principled curriculum, guided by information-theoretic insights, to train CRISP and show that it outperforms the successive-cancellation (SC) decoder and attains near-optimal reliability performance on the Polar(16,32) and Polar(22, 64) codes. The choice of the proposed curriculum is critical in achieving the accuracy gains of CRISP, as we show by comparing against other curricula. More notably, CRISP can be readily extended to Polarization-Adjusted-Convolutional (PAC) codes, where existing SC decoders are significantly less reliable. To the best of our knowledge, CRISP constructs the first data-driven decoder for PAC codes and attains near-optimal performance on the PAC(16, 32) code.
翻訳日:2022-10-04 14:23:11 公開日:2022-10-01
# ビデオオブジェクト認識のためのプロトネットの改良: ORBIT Challenge 2022の勝者

Improving ProtoNet for Few-Shot Video Object Recognition: Winner of ORBIT Challenge 2022 ( http://arxiv.org/abs/2210.00174v1 )

ライセンス: Link先を確認
Li Gu, Zhixiang Chi, Huan Liu, Yuanhao Yu, Yang Wang(参考訳) 本稿では,ORBIT Few-Shot Video Object Recognition Challenge 2022の入賞ソリューションを提案する。 ProtoNetベースラインを基盤として,提案手法の性能を3つの有効な手法により改善した。 これらの手法には、埋め込み適応、一様ビデオクリップサンプリング器、無効フレーム検出が含まれる。 さらに、モジュール化、互換性、パフォーマンス改善を促進するために、公式コードベースをリファクタリングし、再実装しています。 我々の実装は、トレーニングとテストの両方でデータのロードを加速します。

In this work, we present the winning solution for ORBIT Few-Shot Video Object Recognition Challenge 2022. Built upon the ProtoNet baseline, the performance of our method is improved with three effective techniques. These techniques include the embedding adaptation, the uniform video clip sampler and the invalid frame detection. In addition, we re-factor and re-implement the official codebase to encourage modularity, compatibility and improved performance. Our implementation accelerates the data loading in both training and testing.
翻訳日:2022-10-04 14:15:49 公開日:2022-10-01
# 半監督病変分割のためのカットペースト一貫性学習

Cut-Paste Consistency Learning for Semi-Supervised Lesion Segmentation ( http://arxiv.org/abs/2210.00191v1 )

ライセンス: Link先を確認
Boon Peng Yap and Beng Koon Ng(参考訳) 半教師付き学習は、ラベル付きデータが不足している医療画像解析タスクにおいて特に重要である深層ニューラルネットワークのトレーニングデータ効率を改善する可能性がある。 本研究では,切削ペースト増分法と整合性正規化の考え方に基づく,簡易な半教師付き学習法を提案する。 ラベル付きデータで利用可能なマスク情報を利用して、ラベル付き画像から部分的にラベル付けされたサンプルを合成し、通常の教師付き学習目的(例えばバイナリクロスエントロピー)を適用する。 さらに、合成画像のラベルのない背景領域のトレーニングを規則化するための背景整合項を導入する。 眼底写真データセットと脳ctスキャンデータセットを含む2つの公衆病変区分データセットに対する提案手法の有効性を実証的に検証した。 本手法は,高度なネットワークコンポーネントを導入することなく,他の自己学習および一貫性に基づく手法よりも一貫性と優れた性能を実現することを示す。

Semi-supervised learning has the potential to improve the data-efficiency of training data-hungry deep neural networks, which is especially important for medical image analysis tasks where labeled data is scarce. In this work, we present a simple semi-supervised learning method for lesion segmentation tasks based on the ideas of cut-paste augmentation and consistency regularization. By exploiting the mask information available in the labeled data, we synthesize partially labeled samples from the unlabeled images so that the usual supervised learning objective (e.g., binary cross entropy) can be applied. Additionally, we introduce a background consistency term to regularize the training on the unlabeled background regions of the synthetic images. We empirically verify the effectiveness of the proposed method on two public lesion segmentation datasets, including an eye fundus photograph dataset and a brain CT scan dataset. The experiment results indicate that our method achieves consistent and superior performance over other self-training and consistency-based methods without introducing sophisticated network components.
翻訳日:2022-10-04 14:15:41 公開日:2022-10-01
# 適応グラフニューラルネットワークを用いた歩行に基づく年齢分類

Gait-based Age Group Classification with Adaptive Graph Neural Network ( http://arxiv.org/abs/2210.00294v1 )

ライセンス: Link先を確認
Timilehin B. Aderinola, Tee Connie, Thian Song Ong, Andrew Beng Jin Teoh, Michael Kah Ong Goh(参考訳) 深層学習技術は、最近、モデルのない年齢関連歩行特徴抽出に活用されている。 しかし, モデルフリー歩行の取得には, 制約のない環境では非自明なバックグラウンドサブトラクションのような, 正確な事前処理が必要である。 一方, モデルに基づく歩行は, 背景下降を伴わずに得ることができ, 共変量の影響を受けない。 モデルに基づく歩行に基づく年齢グループ分類の問題に対して、本研究は、特徴抽出が面倒でドメインの専門知識を必要とする手作り機能にのみ依存する。 本稿では,年齢群分類のためのモデルに基づく歩行から年齢関連特徴を抽出する深層学習手法を提案する。 具体的には、まず、マルチメディア大学歩行年齢・ジェンダーデータセット(MMU GAG)と呼ばれる、制約のない歩行データセットを開発する。 次に、ボディジョイント座標をポーズ推定アルゴリズムにより決定し、新しい部分集約スキームを介してコンパクトな歩行グラフとして表現する。 次に、年齢関連特徴学習のためにPairGCN(Part-AdaptIve Residual Graph Convolutional Neural Network)を設計する。 実験の結果、PairGCNの特徴は手作りの特徴よりもはるかに有益であることが示唆され、MMU GAGデータセットの被検体を子供、成人、または高齢者として分類する精度は99%に達する。

Deep learning techniques have recently been utilized for model-free age-associated gait feature extraction. However, acquiring model-free gait demands accurate pre-processing such as background subtraction, which is non-trivial in unconstrained environments. On the other hand, model-based gait can be obtained without background subtraction and is less affected by covariates. For model-based gait-based age group classification problems, present works rely solely on handcrafted features, where feature extraction is tedious and requires domain expertise. This paper proposes a deep learning approach to extract age-associated features from model-based gait for age group classification. Specifically, we first develop an unconstrained gait dataset called Multimedia University Gait Age and Gender dataset (MMU GAG). Next, the body joint coordinates are determined via pose estimation algorithms and represented as compact gait graphs via a novel part aggregation scheme. Then, a Part-AdaptIve Residual Graph Convolutional Neural Network (PairGCN) is designed for age-associated feature learning. Experiments suggest that PairGCN features are far more informative than handcrafted features, yielding up to 99% accuracy for classifying subjects as a child, adult, or senior in the MMU GAG dataset.
翻訳日:2022-10-04 14:15:26 公開日:2022-10-01
# ラジカル化研究のための縦断感度分析:ソーシャルメディアプラットフォームにおける時間的ダイナミクスとその意味

Longitudinal Sentiment Analyses for Radicalization Research: Intertemporal Dynamics on Social Media Platforms and their Implications ( http://arxiv.org/abs/2210.00339v1 )

ライセンス: Link先を確認
Dennis Klinkhammer(参考訳) 本稿では,ソーシャルメディアプラットフォーム上での縦断的感情分析が時間的ダイナミックスをどのように表すか,課題は何か,さらに縦断的視点から研究がもたらすメリットについて述べる。 さらに、感傷分析のためのツールが、許容された周波数間信頼性で定性的データに関する分析プロセスを簡素化し、加速するので、2021年1月6日にワシントンで起きた米国議会議事堂襲撃の日、急進化研究におけるそれらの適用性について検討する。 そのため、ワシントンの連邦議会議事堂の前後の3つのシーケンスで、合計49,350のつぶやきが均等に分析される。 これらのシーケンスは、ソーシャルメディアプラットフォーム上でのコメントの時間的ダイナミクスと、条件付き手段と条件付き分散を用いた場合の長手視点の利点を強調している。 このような出来事の支持者の特定と関連するヘイトスピーチ、および一般的なアプリケーションエラーに関する制限も示します。 その結果, ある条件下では, 過激化研究の文脈において, 証拠に基づく予測の精度を高めることができる。

This discussion paper demonstrates how longitudinal sentiment analyses can depict intertemporal dynamics on social media platforms, what challenges are inherent and how further research could benefit from a longitudinal perspective. Furthermore and since tools for sentiment analyses shall simplify and accelerate the analytical process regarding qualitative data at acceptable inter-rater reliability, their applicability in the context of radicalization research will be examined regarding the Tweets collected on January 6th 2021, the day of the storming of the U.S. Capitol in Washington. Therefore, a total of 49,350 Tweets will be analyzed evenly distributed within three different sequences: before, during and after the U.S. Capitol in Washington was stormed. These sequences highlight the intertemporal dynamics within comments on social media platforms as well as the possible benefits of a longitudinal perspective when using conditional means and conditional variances. Limitations regarding the identification of supporters of such events and associated hate speech as well as common application errors will be demonstrated as well. As a result, only under certain conditions a longitudinal sentiment analysis can increase the accuracy of evidence based predictions in the context of radicalization research.
翻訳日:2022-10-04 14:06:23 公開日:2022-10-01
# 物理計算と構成性

Physical computation and compositionality ( http://arxiv.org/abs/2210.00392v1 )

ライセンス: Link先を確認
Nima Dehghani, Gianluca Caterina(参考訳) 量子コンピューティングおよび一般的には非標準コンピューティングシステムにおける開発は、物理コンピューティングデバイスとは何かという概念が厳密で健全な枠組みで再キャストされるべきであるという明確な兆候を表している。 物理コンピューティングは、様々な物理デバイスによってどのように情報が処理されるかを理解し、制御することを目的とした、新しい研究のストリームを開いた。 したがって、物理コンピューティングシステムとは何かというより広い概念に適合するために、古典的な定義とフレームワーク全体を適用する必要がある。 近年の研究では、より適切な物理コンピューティングの概念を彫るために使える形式主義が提案されている。 本稿では、カテゴリー理論の基本的な構成を通して、そのような結果を自然な方法で捉える枠組みを提案する。 さらに,本フレームワークでは,物理計算システムの構成的性質が自然に定式化され,その関係性によって一貫性のある構造に整理可能であることを示す。

Developments in quantum computing and, more in general, non-standard computing systems, represent a clear indication that the very notion of what a physical computing device is and does should be recast in a rigorous and sound framework. Physical computing has opened a whole stream of new research aimed to understand and control how information is processed by several types of physical devices. Therefore, classical definitions and entire frameworks need to be adapted in order to fit a broader notion of what physical computing systems really are. Recent studies have proposed a formalism that can be used to carve out a more proper notion of physical computing. In this paper we present a framework which capture such results in a very natural way via some basic constructions in Category Theory. Furthermore, we show that, within our framework, the compositional nature of physical computing systems is naturally formalized, and that it can be organized in coherent structures by the means of their relational nature.
翻訳日:2022-10-04 14:06:02 公開日:2022-10-01
# NCEにおけるノイズ分布としてのガウスの落とし穴

Pitfalls of Gaussians as a noise distribution in NCE ( http://arxiv.org/abs/2210.00189v1 )

ライセンス: Link先を確認
Holden Lee, Chirag Pabbaraju, Anish Sevekari, Andrej Risteski(参考訳) ノイズコントラスト推定(NCE)は,比例定数までパラメータ化された確率密度関数を学習するための一般的な手法である。 主なアイデアは、サンプルからトレーニングデータを区別するための分類問題と、分割関数の計算を回避して、簡単にサンプルできるノイズ分散$q$を設計することである。 q$の選択がNCEの計算効率と統計効率に大きな影響を与えることはよく知られている。 実際には、$q$ の共通の選択は、データの平均と共分散と一致するガウスである。 本稿では、そのような選択が、非常に単純なデータ分布であっても、Hessianの損失を指数的に悪い(環境次元における)条件にすることができることを示す。 結果として、$q$の選択の統計的およびアルゴリズム的な複雑さは、実際には問題となり、より複雑なノイズ分布がNCEの成功に不可欠であることが示唆される。

Noise Contrastive Estimation (NCE) is a popular approach for learning probability density functions parameterized up to a constant of proportionality. The main idea is to design a classification problem for distinguishing training data from samples from an easy-to-sample noise distribution $q$, in a manner that avoids having to calculate a partition function. It is well-known that the choice of $q$ can severely impact the computational and statistical efficiency of NCE. In practice, a common choice for $q$ is a Gaussian which matches the mean and covariance of the data. In this paper, we show that such a choice can result in an exponentially bad (in the ambient dimension) conditioning of the Hessian of the loss, even for very simple data distributions. As a consequence, both the statistical and algorithmic complexity for such a choice of $q$ will be problematic in practice, suggesting that more complex noise distributions are essential to the success of NCE.
翻訳日:2022-10-04 13:56:53 公開日:2022-10-01
# パラメータ付きランダムウォーク拡散核を用いた有向グラフのクラスタリング

Clustering for directed graphs using parametrized random walk diffusion kernels ( http://arxiv.org/abs/2210.00310v1 )

ライセンス: Link先を確認
Harry Sevi, Matthieu Jonckheere, Argyris Kalogeratos(参考訳) ランダムウォーク演算子に基づくクラスタリングは、無向グラフに対して有効であることが証明されているが、有向グラフへの一般化はより困難である。 ランダムウォーク作用素はグラフに対してよく定義されているが、ほとんどの場合、そのようなグラフは強く連結されていないので、関連するランダムウォークは既約ではない。 これに対処するために、通常の回避策は、隣接行列をネイティブに対称性化するか、自然ランダムウォーク演算子をテレポーティングランダムウォーク演算子に置き換えるかのどちらかであるが、これはエッジ方向性によって運ばれる貴重な情報を失う可能性がある。 本稿では,有向グラフと無向グラフの両方を扱うのに適した新しいクラスタリングフレームワークであるパラメータ付きランダムウォーク拡散カーネルクラスタリング(p-rwdkc)を提案する。 我々のフレームワークは拡散幾何学と一般化スペクトルクラスタリングフレームワークに基づいている。 そこで,パラメトリズドカーネル演算子に付随するランダムウォークダイナミクスを考慮し,その臨界拡散時間を推定することにより,クラスタ構造を所定のスケールで自動的に明らかにするアルゴリズムを提案する。 実世界のデータセットと実世界のグラフから構築された$K$-NNグラフの実験は、クラスタリングアプローチがすべてのテストケースで良好に機能し、既存のアプローチよりも優れていることを示している。

Clustering based on the random walk operator has been proven effective for undirected graphs, but its generalization to directed graphs (digraphs) is much more challenging. Although the random walk operator is well-defined for digraphs, in most cases such graphs are not strongly connected, and hence the associated random walks are not irreducible, which is a crucial property for clustering that exists naturally in the undirected setting. To remedy this, the usual workaround is to either naively symmetrize the adjacency matrix or to replace the natural random walk operator by the teleporting random walk operator, but this can lead to the loss of valuable information carried by edge directionality. In this paper, we introduce a new clustering framework, the Parametrized Random Walk Diffusion Kernel Clustering (P-RWDKC), which is suitable for handling both directed and undirected graphs. Our framework is based on the diffusion geometry and the generalized spectral clustering framework. Accordingly, we propose an algorithm that automatically reveals the cluster structure at a given scale, by considering the random walk dynamics associated with a parametrized kernel operator, and by estimating its critical diffusion time. Experiments on $K$-NN graphs constructed from real-world datasets and real-world graphs show that our clustering approach performs well in all tested cases, and outperforms existing approaches in most of them.
翻訳日:2022-10-04 13:56:38 公開日:2022-10-01
# 腕の多い2面バンディットにおけるコールドスタート学習の高速化

Speed Up the Cold-Start Learning in Two-Sided Bandits with Many Arms ( http://arxiv.org/abs/2210.00340v1 )

ライセンス: Link先を確認
Mohsen Bayati, Junyu Cao, Wanning Chen(参考訳) mab(multi-armed bandit)アルゴリズムは、オンライン実験の機会コストを削減するための効率的なアプローチであり、定期的に更新された製品カタログから最高の製品を見つけるために企業が利用する。 しかし、これらのアルゴリズムは、新製品に対する顧客の好みに関する知識が不足しているため、実験開始時にいわゆるコールドスタートに直面し、燃え尽きる期間として知られる初期データ収集フェーズが必要となる。 この期間、MABアルゴリズムはランダム化実験のように動作し、多数の製品でスケールする大規模な燃焼コストを発生させる。 焼成量を減らすために, 多数の製品が2面製品に鋳造可能であること, そして, 列と列がそれぞれ2面を表わす行列を用いて, 生成物の報酬を自然にモデル化することを試みた。 次に,まずサブサンプリングと低ランク行列推定を併用した2相帯域幅アルゴリズムを設計し,ターゲットとする製品群をかなり小さくし,対象製品にUTB手順を適用して最適なものを求める。 提案アルゴリズムは,大規模な製品セットとともに実験時間に制限がある場合,コストを低減し,実験を高速化する。 また, 長大, 短大, 超短大地平線実験の3つの系を, 行列の次元に依存して明らかにした。 合成データと音楽ストリーミングサービス上の実世界のデータセットの両方による実証的な証拠は、この優れたパフォーマンスを実証する。

Multi-armed bandit (MAB) algorithms are efficient approaches to reduce the opportunity cost of online experimentation and are used by companies to find the best product from periodically refreshed product catalogs. However, these algorithms face the so-called cold-start at the onset of the experiment due to a lack of knowledge of customer preferences for new products, requiring an initial data collection phase known as the burning period. During this period, MAB algorithms operate like randomized experiments, incurring large burning costs which scale with the large number of products. We attempt to reduce the burning by identifying that many products can be cast into two-sided products, and then naturally model the rewards of the products with a matrix, whose rows and columns represent the two sides respectively. Next, we design two-phase bandit algorithms that first use subsampling and low-rank matrix estimation to obtain a substantially smaller targeted set of products and then apply a UCB procedure on the target products to find the best one. We theoretically show that the proposed algorithms lower costs and expedite the experiment in cases when there is limited experimentation time along with a large product set. Our analysis also reveals three regimes of long, short, and ultra-short horizon experiments, depending on dimensions of the matrix. Empirical evidence from both synthetic data and a real-world dataset on music streaming services validates this superior performance.
翻訳日:2022-10-04 13:56:12 公開日:2022-10-01
# 移動ロボットを用いたエネルギー制約被覆のための深部繰り返しQ-ラーニング

Deep Recurrent Q-learning for Energy-constrained Coverage with a Mobile Robot ( http://arxiv.org/abs/2210.00327v1 )

ライセンス: Link先を確認
Aaron Zellner, Ayan Dutta, Iliya Kulbaka, Gokarna Sharma(参考訳) 本稿では,複数の充電ステーションの存在下でのエネルギー制約型ロボットによる環境被覆の問題点について検討する。 ロボットの電源は限られているので、環境のすべての点を1回の充電でカバーできるエネルギーは十分ではないかもしれない。 代わりに、バッテリーを断続的に充電するには1つまたは複数の充電ステーションで停止する必要がある。 ロボットはエネルギー制約、すなわち負のエネルギーのある場所を訪れることはできない。 この問題を解決するために,我々は,カバー範囲を最大化し,予算違反を最小限に抑えるためのポリシを生成する,深層q学習フレームワークを提案する。 また,提案フレームワークでは,再帰ニューラルネットワーク(rnn)のメモリを活用して,この多目的最適化問題に適合する。 提案フレームワークを16×16のグリッド環境において,充電ステーションと各種障害物設定を備えたテストを行った。 その結果,提案手法は実現可能な解を見つけ,既存の手法に匹敵する性能を示した。

In this paper, we study the problem of coverage of an environment with an energy-constrained robot in the presence of multiple charging stations. As the robot's on-board power supply is limited, it might not have enough energy to cover all the points in the environment with a single charge. Instead, it will need to stop at one or more charging stations to recharge its battery intermittently. The robot cannot violate the energy constraint, i.e., visit a location with negative available energy. To solve this problem, we propose a deep Q-learning framework that produces a policy to maximize the coverage and minimize the budget violations. Our proposed framework also leverages the memory of a recurrent neural network (RNN) to better suit this multi-objective optimization problem. We have tested the presented framework within a 16 x 16 grid environment having charging stations and various obstacle configurations. Results show that our proposed method finds feasible solutions and outperforms a comparable existing technique.
翻訳日:2022-10-04 13:39:59 公開日:2022-10-01
# MALM:ゼロショット機械翻訳のための混合言語モデリング

MALM: Mixing Augmented Language Modeling for Zero-Shot Machine Translation ( http://arxiv.org/abs/2210.00320v1 )

ライセンス: Link先を確認
Kshitij Gupta(参考訳) 大規模な事前訓練された言語モデルは、NLPに顕著な進歩をもたらした。 事前トレーニングと微調整は、テキスト処理におけるタスク間での最先端のパフォーマンスを提供する。 データ拡張技術は、低あるいはゼロのリソースタスクで最先端のモデルを構築するのにも役立ちます。 これまで多くの作品は、ゼロショット翻訳のための巨大な多言語機械翻訳モデルを学ぶことを試みてきた。 これらの翻訳モデルは正しい翻訳を生成するが、主な課題は、ゼロショット翻訳のために間違った言語を生成することである。 この研究とその成果は、条件付き大規模モデルは、ターゲット外の言語エラー、すなわち、間違った言語への翻訳によって生じる誤りに悩まされないことを示している。 ゼロショット多言語機械翻訳における自己教師付き事前学習とデータ拡張の有効性を実証的に実証した。

Large pre-trained language models have brought remarkable progress in NLP. Pre-training and Fine-tuning have given state-of-art performance across tasks in text processing. Data Augmentation techniques have also helped build state-of-art models on low or zero resource tasks. Many works in the past have attempted at learning a single massively-multilingual machine translation model for zero-shot translation. Although those translation models are producing correct translations, the main challenge is those models are producing the wrong languages for zero-shot translation. This work and its results indicate that prompt conditioned large models do not suffer from off-target language errors i.e. errors arising due to translation to wrong languages. We empirically demonstrate the effectiveness of self-supervised pre-training and data augmentation for zero-shot multi-lingual machine translation.
翻訳日:2022-10-04 13:39:45 公開日:2022-10-01
# 継続的制御における深い本質的動機づけによる探索

Deep Intrinsically Motivated Exploration in Continuous Control ( http://arxiv.org/abs/2210.00293v1 )

ライセンス: Link先を確認
Baturay Saglam, Suleyman S. Kozat(参考訳) 連続制御では、ネットワークのパラメータや選択されたアクションがランダムノイズによって摂動する無向戦略によって探索が行われることが多い。 非向探索の深い設定は、オンポリシー法の性能を向上させることが示されているが、過剰な計算の複雑さをもたらし、オフポリシー設定では失敗することが知られている。 本質的に動機づけられた探索は、無向戦略の効果的な代替であるが、通常は離散的な行動領域で研究されている。 本稿では,連続システムの制御において,本質的なモチベーションと深い強化学習が効果的に組み合わさって,探究行動を得る方法について検討する。 我々は,動物モチベーションシステムに関する既存の理論を強化学習パラダイムに適応させ,新しいスケーラブルな有向探索戦略を導入する。 提案手法は,有意関数の誤差の最大化を動機として,有用情報を抽出し,単一の探索目的の下で本質的な探索動機を統一することにより,収集された経験の集合の恩恵を受けることができる。 大規模な実証研究により、我々のフレームワークはより大きく多様な状態空間に拡張され、ベースラインが劇的に改善され、非方向性の戦略を著しく上回ることを示した。

In continuous control, exploration is often performed through undirected strategies in which parameters of the networks or selected actions are perturbed by random noise. Although the deep setting of undirected exploration has been shown to improve the performance of on-policy methods, they introduce an excessive computational complexity and are known to fail in the off-policy setting. The intrinsically motivated exploration is an effective alternative to the undirected strategies, but they are usually studied for discrete action domains. In this paper, we investigate how intrinsic motivation can effectively be combined with deep reinforcement learning in the control of continuous systems to obtain a directed exploratory behavior. We adapt the existing theories on animal motivational systems into the reinforcement learning paradigm and introduce a novel and scalable directed exploration strategy. The introduced approach, motivated by the maximization of the value function's error, can benefit from a collected set of experiences by extracting useful information and unify the intrinsic exploration motivations in the literature under a single exploration objective. An extensive set of empirical studies demonstrate that our framework extends to larger and more diverse state spaces, dramatically improves the baselines, and outperforms the undirected strategies significantly.
翻訳日:2022-10-04 13:38:19 公開日:2022-10-01
# NeuroEvo:進化的および粒子群アルゴリズムを用いたニューラルネットワークの自動設計とトレーニングのためのクラウドプラットフォーム

NeuroEvo: A Cloud-based Platform for Automated Design and Training of Neural Networks using Evolutionary and Particle Swarm Algorithms ( http://arxiv.org/abs/2210.00286v1 )

ライセンス: Link先を確認
Philip Schroeder(参考訳) 進化的アルゴリズム(EA)は、複雑な検索空間におけるニューラルネットワークの最適化にユニークな利点を提供する。 本稿では,ニューロエボ(neuroevo.io)という新しいwebプラットフォームを導入し,進化的およびパーティクルスワーミングアルゴリズムを用いたニューラルネットワーク分類器の対話的設計と学習を可能にする。 分類問題とトレーニングデータはユーザによって提供され、トレーニングプロセスが完了すると、最良の分類器がpython、java、javascriptでダウンロードおよび実装できるようになる。 NeuroEvoはクラウドベースのアプリケーションで、GPU並列化を活用して、突然変異、クロスオーバー、フィットネス評価といった独立した進化段階が人口全体にわたって実行される速度を改善する。 本稿では,設計決定とハイパーパラメータ設定をユーザが指定するためのトレーニングアルゴリズムと機会について概説する。 この論文で説明したアルゴリズムはPythonパッケージであるNeuroevo(PyPI: https://pypi.org/project/neuroevo/)としても利用可能である。

Evolutionary algorithms (EAs) provide unique advantages for optimizing neural networks in complex search spaces. This paper introduces a new web platform, NeuroEvo (neuroevo.io), that allows users to interactively design and train neural network classifiers using evolutionary and particle swarm algorithms. The classification problem and training data are provided by the user and, upon completion of the training process, the best classifier is made available to download and implement in Python, Java, and JavaScript. NeuroEvo is a cloud-based application that leverages GPU parallelization to improve the speed with which the independent evolutionary steps, such as mutation, crossover, and fitness evaluation, are executed across the population. This paper outlines the training algorithms and opportunities for users to specify design decisions and hyperparameter settings. The algorithms described in this paper are also made available as a Python package, neuroevo (PyPI: https://pypi.org/project/neuroevo/).
翻訳日:2022-10-04 13:30:17 公開日:2022-10-01
# Apple工場における葉病検出のための畳み込みニューラルネットワーク

An Ensemble of Convolutional Neural Networks to Detect Foliar Diseases in Apple Plants ( http://arxiv.org/abs/2210.00298v1 )

ライセンス: Link先を確認
Kush Vora, Dishant Padalia(参考訳) リンゴの病気は、早期に診断されていなければ、大量の資源喪失を招き、感染したリンゴを消費する人間や動物に深刻な脅威をもたらす可能性がある。 したがって、これらの病気を早期に診断し、植物の健康を管理し、それらに関連するリスクを最小限に抑えることが重要である。 しかし、植物病をモニタリングする従来のアプローチでは、手作業によるスカウティングと、植物葉の特徴、質感、色、形状の分析が伴い、診断や誤った判断が遅れる。 そこで本研究では,xception,inceptionresnet,mobilenet の5種類の病原体を検出するシステムを提案する。 このモデルは、利用可能な植物病理2021データセットに基づいてトレーニングされ、特定の植物葉で複数の疾患を分類することができる。 このシステムは、マルチクラス、マルチラベルの分類において優れた成果を上げており、農家が収穫を効果的に管理するのを助けるために、大きなリンゴのプランテーションをリアルタイムで監視するために使用することができる。

Apple diseases, if not diagnosed early, can lead to massive resource loss and pose a serious threat to humans and animals who consume the infected apples. Hence, it is critical to diagnose these diseases early in order to manage plant health and minimize the risks associated with them. However, the conventional approach of monitoring plant diseases entails manual scouting and analyzing the features, texture, color, and shape of the plant leaves, resulting in delayed diagnosis and misjudgments. Our work proposes an ensembled system of Xception, InceptionResNet, and MobileNet architectures to detect 5 different types of apple plant diseases. The model has been trained on the publicly available Plant Pathology 2021 dataset and can classify multiple diseases in a given plant leaf. The system has achieved outstanding results in multi-class and multi-label classification and can be used in a real-time setting to monitor large apple plantations to aid the farmers manage their yields effectively.
翻訳日:2022-10-04 13:22:01 公開日:2022-10-01
# 適応セグメントトークンを用いた同時認識とセグメンテーション

Concurrent Recognition and Segmentation with Adaptive Segment Tokens ( http://arxiv.org/abs/2210.00314v1 )

ライセンス: Link先を確認
Tsung-Wei Ke, Jyh-Jing Hwang and Stella X. Yu(参考訳) 画像を認識してコヒーレントな領域に分割することは、しばしば別のタスクとして扱われる。 しかし、人間の視覚は認識される前にセグメンテーション階層の一般的な感覚を持っている。 したがって,ラベルなし画像に基づく階層的画像分割による画像認識の学習に着想を得た。 我々の洞察は、画像インスタンス間の識別を最大化しつつ、特徴誘発セグメンテーションの一貫性と良さを強制し、スーパーピクセル、セグメント、フルイメージレベルで並列に微調整機能を学ぶことである。 我々のモデルは3つの面で視覚トランスフォーマーを革新する。 1)固定形パッチトークンの代わりに適応セグメントトークンを使用する。 2) 変圧器ブロック間のグラフプーリングを挿入してトークン階層を作成し, セグメントサイズを増大させ, トークン数を減少させながら, 自然に一貫したマルチスケールセグメンテーションを創出する。 3) 画像識別の最大化による認識訓練中に, 自由な階層画像分割を行う。 我々の研究は、監督なしに最初の同時認識と階層分割モデルを提供します。 ImageNetとPASCAL VOCで検証され、高い計算効率でより良い認識とセグメンテーションを実現する。

Recognizing an image and segmenting it into coherent regions are often treated as separate tasks. Human vision, however, has a general sense of segmentation hierarchy before recognition occurs. We are thus inspired to learn image recognition with hierarchical image segmentation based entirely on unlabeled images. Our insight is to learn fine-to-coarse features concurrently at superpixels, segments, and full image levels, enforcing consistency and goodness of feature induced segmentations while maximizing discrimination among image instances. Our model innovates vision transformers on three aspects. 1) We use adaptive segment tokens instead of fixed-shape patch tokens. 2) We create a token hierarchy by inserting graph pooling between transformer blocks, naturally producing consistent multi-scale segmentations while increasing the segment size and reducing the number of tokens. 3) We produce hierarchical image segmentation for free while training for recognition by maximizing image-wise discrimination. Our work delivers the first concurrent recognition and hierarchical segmentation model without any supervision. Validated on ImageNet and PASCAL VOC, it achieves better recognition and segmentation with higher computational efficiency.
翻訳日:2022-10-04 13:21:44 公開日:2022-10-01
# 文末素粒子の意味理解のためのセルフ・アテンションモデルの構築と評価

Construction and Evaluation of a Self-Attention Model for Semantic Understanding of Sentence-Final Particles ( http://arxiv.org/abs/2210.00282v1 )

ライセンス: Link先を確認
Shuhei Mandokoro, Natsuki Oka, Akane Matsushima, Chie Fukada, Yuko Yoshimura, Koji Kawahara and Kazuaki Tanaka(参考訳) 文末助詞は命題や対話者に対する話者の精神的な態度を表現するため、日本語で重要な役割を果たす。 早期に獲得され、日常的な会話で頻繁に発生する。 しかし、文末粒子を取得するための計算モデルはほとんど提案されていない。 本稿では,言語や画像に加えて,様々な主観的感覚を入力とし,単語と主観的感覚の関係を学習する自己意識モデルである主観的bertを提案する。 評価実験により,新しい情報を伝達しようとする話者の意図を表現した「よ」と,情報を共有することを確認しようとする話者の願望を示す「ね」の用法をモデルが理解していることが判明した。

Sentence-final particles serve an essential role in spoken Japanese because they express the speaker's mental attitudes toward a proposition and/or an interlocutor. They are acquired at early ages and occur very frequently in everyday conversation. However, there has been little proposal for a computational model of acquiring sentence-final particles. This paper proposes Subjective BERT, a self-attention model that takes various subjective senses in addition to language and images as input and learns the relationship between words and subjective senses. An evaluation experiment revealed that the model understands the usage of "yo", which expresses the speaker's intention to communicate new information, and that of "ne", which denotes the speaker's desire to confirm that some information is shared.
翻訳日:2022-10-04 13:19:47 公開日:2022-10-01
# 特徴整形予測を用いた予測推論

Predictive Inference with Feature Conformal Prediction ( http://arxiv.org/abs/2210.00173v1 )

ライセンス: Link先を確認
Jiaye Teng, Chuan Wen, Dinghuai Zhang, Yoshua Bengio, Yang Gao, Yang Yuan(参考訳) 共形予測(conformal prediction)は、有効な予測間隔を確立するための分散フリーな手法である。 従来、人々は出力空間で共形予測を行うが、これは唯一の可能性ではない。 本稿では, 深層表現学習の帰納バイアスを利用して, 意味的特徴空間への共形予測の範囲を拡大する特徴共形予測を提案する。 理論的観点からは, 特徴共形予測が軽度仮定下での正則共形予測よりも優れていることを実証する。 提案手法は,バニラ共形予測だけでなく,他の適応共形予測手法と組み合わせることができる。 様々な予測推論タスクの実験は,本手法の有効性を裏付けるものである。

Conformal prediction is a distribution-free technique for establishing valid prediction intervals. Although conventionally people conduct conformal prediction in the output space, this is not the only possibility. In this paper, we propose feature conformal prediction, which extends the scope of conformal prediction to semantic feature spaces by leveraging the inductive bias of deep representation learning. From a theoretical perspective, we demonstrate that feature conformal prediction provably outperforms regular conformal prediction under mild assumptions. Our approach could be combined with not only vanilla conformal prediction, but also other adaptive conformal prediction methods. Experiments on various predictive inference tasks corroborate the efficacy of our method.
翻訳日:2022-10-04 13:13:46 公開日:2022-10-01
# DCI-ES: Identifiabilityと接続可能な拡張型アンタングルメントフレームワーク

DCI-ES: An Extended Disentanglement Framework with Connections to Identifiability ( http://arxiv.org/abs/2210.00364v1 )

ライセンス: Link先を確認
Cian Eastwood, Andrei Liviu Nicolicioiu, Julius von K\"ugelgen, Armin Keki\'c, Frederik Tr\"auble, Andrea Dittadi, Bernhard Sch\"olkopf(参考訳) 表現学習において、共通のアプローチは、変動の根底にある要因を乱す表現を求めることである。 eastwood & williams (2018) は、これらの不等角表現の品質を定量化するための3つの指標を提案した: 不等角性(d)、完全性(c)、情報性(i)である。 本研究では、まずこのDCIフレームワークを線形および非線形識別可能性という2つの共通概念に結合し、非絡み合いと独立成分分析の密接に関連する分野の形式的リンクを確立する。 次に、表現品質の2つの新しい尺度である明示性(E)とサイズ(S)を備えた拡張DCI-ESフレームワークを提案し、ブラックボックス予測器に対してDとCをどのように計算できるかを指摘する。 私たちの考えでは、表現の使用に必要な機能能力は、表現の質の重要だが無視された側面であり、明示性や使いやすさ(E)を用いて定量化します。 MPI3DおよびCars3Dデータセットにおける拡張の関連について説明する。

In representation learning, a common approach is to seek representations which disentangle the underlying factors of variation. Eastwood & Williams (2018) proposed three metrics for quantifying the quality of such disentangled representations: disentanglement (D), completeness (C) and informativeness (I). In this work, we first connect this DCI framework to two common notions of linear and nonlinear identifiability, thus establishing a formal link between disentanglement and the closely-related field of independent component analysis. We then propose an extended DCI-ES framework with two new measures of representation quality - explicitness (E) and size (S) - and point out how D and C can be computed for black-box predictors. Our main idea is that the functional capacity required to use a representation is an important but thus-far neglected aspect of representation quality, which we quantify using explicitness or ease-of-use (E). We illustrate the relevance of our extensions on the MPI3D and Cars3D datasets.
翻訳日:2022-10-04 13:05:07 公開日:2022-10-01
# re-imagen: 検索型テキスト対画像生成器

Re-Imagen: Retrieval-Augmented Text-to-Image Generator ( http://arxiv.org/abs/2209.14491v2 )

ライセンス: Link先を確認
Wenhu Chen, Hexiang Hu, Chitwan Saharia, William W. Cohen(参考訳) テキスト対画像生成の研究は、大規模画像テキストデータで訓練された拡散と自己回帰モデルによって駆動される、多様でフォトリアリスティックな画像の生成において大きな進歩を遂げている。 最先端のモデルでは、共通実体の高品質な画像を生成することができるが、しばしば「Chortai(犬)」「Picarones(食物)」などの一般的でない物体の画像を生成するのが困難である。 この課題に対処するために,検索した情報を用いて高忠実で忠実な画像を生成するRetrieval-Augmented Text-to-Image Generator (Re-Imagen)を提案する。 テキストプロンプトが与えられると、re-imagenは外部のマルチモーダル知識ベースにアクセスして関連する(画像、テキスト)ペアを取得し、それらを参照として画像を生成する。 この検索ステップにより、Re-Imagenは、上述のエンティティの高レベルなセマンティクスと低レベルな視覚的詳細に関する知識を付加し、エンティティの視覚的外観を生成する精度を向上させる。 我々は,(画像,テキスト,検索)トリプルを含む構築されたデータセットで再画像化を訓練し,モデルにテキストのプロンプトと検索の両方に接地するよう教える。 さらに,テキストと検索条件の分類なし指導をインターリーブし,テキストと検索アライメントのバランスをとるための新しいサンプリング手法を開発した。 Re-ImagenはCOCO(ie, FID = 5.25)とWikiImage(ie, FID = 5.82)の2つの画像生成ベンチマークにおいて、微調整なしで新しいSoTA FID結果を達成する。 モデルの性能をさらに評価するために、EntityDrawBenchを導入する。これは、複数の視覚領域にまたがる頻繁な状態から稀な状態まで、多様なエンティティに対する画像生成を評価する新しいベンチマークである。 EntityDrawBenchでの人間による評価は、Re-Imagenがフォトリアリズムの最高の先行モデルと同等だが、特に少ない頻度のエンティティにおいて、はるかに忠実であることを示している。

Research on text-to-image generation has witnessed significant progress in generating diverse and photo-realistic images, driven by diffusion and auto-regressive models trained on large-scale image-text data. Though state-of-the-art models can generate high-quality images of common entities, they often have difficulty generating images of uncommon entities, such as `Chortai (dog)' or `Picarones (food)'. To tackle this issue, we present the Retrieval-Augmented Text-to-Image Generator (Re-Imagen), a generative model that uses retrieved information to produce high-fidelity and faithful images, even for rare or unseen entities. Given a text prompt, Re-Imagen accesses an external multi-modal knowledge base to retrieve relevant (image, text) pairs, and uses them as references to generate the image. With this retrieval step, Re-Imagen is augmented with the knowledge of high-level semantics and low-level visual details of the mentioned entities, and thus improves its accuracy in generating the entities' visual appearances. We train Re-Imagen on a constructed dataset containing (image, text, retrieval) triples to teach the model to ground on both text prompt and retrieval. Furthermore, we develop a new sampling strategy to interleave the classifier-free guidance for text and retrieval condition to balance the text and retrieval alignment. Re-Imagen achieves new SoTA FID results on two image generation benchmarks, such as COCO (ie, FID = 5.25) and WikiImage (ie, FID = 5.82) without fine-tuning. To further evaluate the capabilities of the model, we introduce EntityDrawBench, a new benchmark that evaluates image generation for diverse entities, from frequent to rare, across multiple visual domains. Human evaluation on EntityDrawBench shows that Re-Imagen performs on par with the best prior models in photo-realism, but with significantly better faithfulness, especially on less frequent entities.
翻訳日:2022-10-04 10:53:49 公開日:2022-10-01