このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230101となっている論文です。

PDF登録状況(公開日: 20230101)

TitleAuthorsAbstract論文公表日・翻訳日
# ラベルセマンティクスのモデリングによる活動認識の改善

Modeling Label Semantics Improves Activity Recognition ( http://arxiv.org/abs/2301.03462v1 )

ライセンス: Link先を確認
Xiyuan Zhang, Ranak Roy Chowdhury, Dezhi Hong, Rajesh K. Gupta, Jingbo Shang(参考訳) HAR(Human Activity Recognition)は、感覚時系列をさまざまなアクティビティに分類することを目的としており、アクティビティトラッキング、ヘルスケア、ヒューマンコンピュータインタラクションなど幅広い用途に応用されている。 既存のharはより複雑な特徴抽出法を設計して認識性能を向上させるが、ラベルを整数idとして扱うだけでラベルの意味を無視する。 現在のHARデータセットの多くのアクティビティが、"オープンドア"や"オープン冷蔵庫"、"2階のウォークアップ"、"2階のウォークダウン"といったラベル名を共有しています。 探索分析の結果,アクティビティ名の共有構造は入力特徴の類似性にもマップできることがわかった。 この目的のために,ラベルを整数idとして分類するのではなく,ラベル名のセマンティクスをデコードするシーケンシャル・ツー・シーケンス・フレームワークを設計する。 提案手法では,共有トークン(「オープン」,「ウォーク」)の学習に学習活動を分割し,共同分布(「オープン冷蔵庫」,「ウォークアップ階」)の学習よりも学習が容易であり,データサンプルが不十分な活動への学習の伝達を支援する。 ラベル名に共有トークンを含まないデータセットに対しては、OpenAIのChatGPTを使用して、共有アクションとオブジェクトを生成する自動メソッドも提供しています。 7つのHARベンチマークデータセットに対する大規模な実験により,本手法の最先端性能が示された。 また、長時間の活動分布設定と数ショット設定でもパフォーマンスが向上した。

Human activity recognition (HAR) aims to classify sensory time series into different activities, with wide applications in activity tracking, healthcare, human computer interaction, etc. Existing HAR works improve recognition performance by designing more complicated feature extraction methods, but they neglect the label semantics by simply treating labels as integer IDs. We find that many activities in the current HAR datasets have shared label names, e.g., "open door" and "open fridge", "walk upstairs" and "walk downstairs". Through some exploratory analysis, we find that such shared structure in activity names also maps to similarity in the input features. To this end, we design a sequence-to-sequence framework to decode the label name semantics rather than classifying labels as integer IDs. Our proposed method decomposes learning activities into learning shared tokens ("open", "walk"), which is easier than learning the joint distribution ("open fridge", "walk upstairs") and helps transfer learning to activities with insufficient data samples. For datasets originally without shared tokens in label names, we also offer an automated method, using OpenAI's ChatGPT, to generate shared actions and objects. Extensive experiments on seven HAR benchmark datasets demonstrate the state-of-the-art performance of our method. We also show better performance in the long-tail activity distribution settings and few-shot settings.
翻訳日:2023-01-15 23:07:51 公開日:2023-01-01
# 混合トンネル、多クローントンネル、量子重力のための経路積分

Path Integral for Mixed Tunneling, Polychronic Tunneling and Quantum Gravity ( http://arxiv.org/abs/2212.06774v2 )

ライセンス: Link先を確認
Yutaro Shoji(参考訳) 多体系における量子トンネルは、単体系よりもはるかに非自明である。 最も特徴的な現象は混合トンネルであり、何十年もの間多くの分野で研究されてきた。 例えば、2つの結合粒子が存在し、そのうちの1つだけが潜在的な障壁を感じているシステムを考える。 そのような系の量子トンネルはユークリッドやローレンツの時間発展によって説明されず、WKB波動関数の指数は複雑になる。 近年、準安定真空の減衰速度を何桁も大きくする量子重力理論において、同様の現象である多クローントンネルが提案されている。 本稿では,そのようなシステムに適用可能な経路積分形式を提案する。 形式論は直接量子重力に拡張することができ、量子重力における時間の問題にいくつかの影響がある。

Quantum tunneling in a many-body system is much more non-trivial than that in a one-body system. The most characteristic phenomenon is the mixed tunneling, which has been studied in many fields for decades. For instance, let us consider a system where there are two coupled particles and only one of them feels a potential barrier. Quantum tunneling of such a system is not described by either Euclidean or Lorentzian time evolution and the exponent of the WKB wave function becomes complex. Recently, a similar phenomenon, polychronic tunneling, has been proposed in quantum gravity, which enhances the decay rate of a meta-stable vacuum by many orders of magnitude. In this paper, we present path integral formalism that is applicable to such systems. The formalism can be directly extended to quantum gravity and has some implications on the problem of time in quantum gravity.
翻訳日:2023-01-09 16:01:09 公開日:2023-01-01
# 宇宙論的摂動のユニタリパラドックス

Unitary paradox of cosmological perturbations ( http://arxiv.org/abs/2212.12865v2 )

ライセンス: Link先を確認
Ngo Phuc Duc Loc(参考訳) ハッブル地平線のベッケンシュタイン-ホーキングエントロピーを熱力学的エントロピーと解釈すると、準水平モードに絡み合った曲率摂動の超水平モードのエントロピーは、ある点でベーケンシュタイン-ホーキング境界を超える。 微調整された問題を避けるために、このパラドックスは臨界時$t_c=\ln(3\sqrt{\pi}/\sqrt{2}\epsilon_hh_{inf})/2h_{inf}$(プランク単位)のインフレーション時代に起こり、ここでは$\epsilon_h$が最初のハッブルスローロールパラメータ、$h_{inf}$がインフレーション中のハッブルレートである。 代わりに微調整された問題を受理すれば、臨界時間 $t_c'=\ln(3\sqrt{\pi}H_{inf}/\sqrt{2}fe^{2N}H_\Lambda^2)/2H_\Lambda$, ここで$H_\Lambda$はダークエネルギーに支配されるハッブルレートであり、$N$はインフレーションのeフォールドの総数であり、$f$は$0<f<3\sqrt{\pi}H_{inf}/\sqrt{2}e^{2N}H_\Lambda^2$である。

If we interpret the Bekenstein-Hawking entropy of the Hubble horizon as thermodynamic entropy, then the entanglement entropy of the superhorizon modes of curvature perturbation entangled with the subhorizon modes will exceed the Bekenstein-Hawking bound at some point; we call this the unitary paradox of cosmological perturbations by analogy with black hole. In order to avoid a fine-tuned problem, the paradox must occur during the inflationary era at the critical time $t_c=\ln(3\sqrt{\pi}/\sqrt{2}\epsilon_HH_{inf})/2H_{inf}$ (in Planck units), where $\epsilon_H$ is the first Hubble slow-roll parameter and $H_{inf}$ is the Hubble rate during inflation. If we instead accept the fine-tuned problem, then the paradox will occur during the dark energy era at the critical time $t_c'=\ln(3\sqrt{\pi}H_{inf}/\sqrt{2}fe^{2N}H_\Lambda^2)/2H_\Lambda$, where $H_\Lambda$ is the Hubble rate dominated by dark energy, $N$ is the total number of e-folds of inflation, and $f$ is a purification factor that takes the range $0<f<3\sqrt{\pi}H_{inf}/\sqrt{2}e^{2N}H_\Lambda^2$.
翻訳日:2023-01-09 07:07:13 公開日:2023-01-01
# キラル結合原子ナノフォトニックキャビティにおける状態彫り

State Carving in a Chirally-Coupled Atom-Nanophotonic Cavity ( http://arxiv.org/abs/2212.13927v2 )

ライセンス: Link先を確認
W. S. Hiew and H. H. Jen(参考訳) マルチキュービットシステムのコヒーレント量子制御は、量子科学と量子技術における課題の1つである。 ここでは,集合的非相反結合を持つ原子-ナノフォトニックキャビティの反射スペクトルを理論的に検討する。 高い協調性を有する強結合系では, キラルカップリングの破壊的干渉により, 異なる共振スペクトルディップを理論的に予測する。 スペクトルの分離された多重ディップのため、コントラスト反射度は、所望の絡み合った状態の準備に対して新しい制御ノブを示唆する。 このような原子-ナノフォトニックキャビティを、光子による双極子-双極子相互作用と崩壊チャネルのキラリティーを介して原子内部状態の量子工学に利用し、任意の数の原子に対する原子ベル状態とw状態が、単一光子反射スペクトルにおける状態彫りによって調整・保持可能であることを提案する。 我々は,マルチ量子ビット状態の量子工学への道を開き,ナノフォトニックデバイスに結合した原子内のコヒーレントでスケーラブルなマルチパーティタイト絡み合い輸送の新たな機会を提供する。

Coherent quantum control of multiqubit systems represents one of the challenging tasks in quantum science and quantum technology. Here we theoretically investigate the reflectivity spectrum in an atom-nanophotonic cavity with collective nonreciprocal couplings. In the strong-coupling regime with a high cooperativity, we theoretically predict distinct on-resonance spectral dips owing to destructive interferences of chiral couplings. Due to the well-separated multiple dips in the spectrum, a contrasted reflectivity suggests a new control knob over the desired entangled state preparation. We propose to utilize such atom-nanophotonic cavity to quantum engineer the atomic internal states via photon-mediated dipole-dipole interactions and the chirality of decay channels, where the atomic Bell state and W states for arbitrary number of atoms can be tailored and heralded by state carving in the single-photon reflection spectrum. Our results pave the way toward quantum engineering of multiqubit states and offer new opportunities for coherent and scalable multipartite entanglement transport in atoms coupled to nanophotonic devices.
翻訳日:2023-01-09 02:16:08 公開日:2023-01-01
# 音の量子表現:機械波から量子回路へ

Quantum Representations of Sound: from mechanical waves to quantum circuits ( http://arxiv.org/abs/2301.01595v1 )

ライセンス: Link先を確認
Paulo V. Itaborai, Eduardo R. Miranda(参考訳) 執筆時点では、量子オーディオはまだ非常に若い研究領域であり、量子信号処理コミュニティ内でさえもそうだ。 本章では、量子オーディオにおける技術の現状を紹介し、音声信号の量子表現法について論じる。 現在、音声アプリケーションにとって最高の量子表現戦略は主張されていない。 それぞれに長所と短所がある。 将来の量子オーディオ表現スキームは、特定のアプリケーションを対象とした複数の戦略を利用することができる。 NOTE: これは、E.R. Miranda氏 (pp. 223 - 274) の著書Quantum Computer Music: Foundations, Methods and Advanced Concepts(量子コンピュータ音楽:財団、メソッド、そして高度な概念)に同じタイトルの章の事前提出草案の未編集版である。 本書の応用例や、量子音声表現に基づく音合成法とその新しいタイプの楽器の開発の可能性に関する議論については、本書の版を参照のこと。 https://link.springer.com/book/10.1007/978-3-031-13909-3

By the time of writing, quantum audio still is a very young area of study, even within the quantum signal processing community. This chapter introduces the state of the art in quantum audio and discusses methods for the quantum representation of audio signals. Currently, no quantum representation strategy claims to be the best one for audio applications. Each one presents advantages and disadvantages. It can be argued that future quantum audio representation schemes will make use of multiple strategies aimed at specific applications. NOTE: This is an unedited abridged version of the pre-submission draft of a chapter, with the same title, published in the book Quantum Computer Music: Foundations, Methods and Advanced Concepts, by E. R. Miranda (pp. 223 - 274). Please refer to the version in this book for application examples and a discussion on sound synthesis methods based on quantum audio representation and their potential for developing new types of musical instruments. https://link.springer.com/book/10.1007/978-3-031-13909-3
翻訳日:2023-01-09 01:40:00 公開日:2023-01-01
# 偏極した$^{129}$xeおよび$^{131}$xe核における中性子複屈折の最初の測定

First Measurement of Neutron Birefringence in Polarized $^{129}$Xe and $^{131}$Xe Nuclei ( http://arxiv.org/abs/2301.00460v1 )

ライセンス: Link先を確認
H. Lu, M. J. Barlow, D. Basler, P. Gutfreund, O. Holderer, A. Ioffe, S. Pasini, P. Pistel, Z. Salhi, K. Zhernenkov, B. M. Goodson, W. M. Snow, E. Babcock(参考訳) 核分極された$^{129}$Xeおよび$^{131}$Xeガスによる透過における偏極中性子複屈折の最初の測定を行い、中性子の不整合散乱長を$b_i(^{129}Xe)=0.186\pm(0.021)_{stat とする。 }\pm(0.004)_{syst である。 }\space\text{ fm}$ および $b_i(^{131}xe)=2.09\pm(0.29)_{stat。 }\pm(0.12)_{syst である。 初めて、space\text{ fm}$ が与えられる。 これらの結果は、偏極キセノンアンサンブルに関するスピン依存中性子散乱研究の解釈に必要な必須パラメータを決定するとともに、時間反転違反試験から核偏極系におけるモード交絡中性子散乱実験まで、将来的な応用が期待できる。

We present the first measurements of polarized neutron birefringence in transmission through nuclear-polarized $^{129}$Xe and $^{131}$Xe gas and determine the neutron incoherent scattering lengths $b_i(^{129}Xe)=0.186\pm(0.021)_{stat.}\pm(0.004)_{syst.}\space\text{ fm}$ and $b_i(^{131}Xe)=2.09\pm(0.29)_{stat.}\pm(0.12)_{syst.}\space\text{ fm}$ for the first time. These results determine the essential parameter needed for interpretation of spin-dependent neutron-scattering studies on polarized xenon ensembles, with possible future applications ranging from tests of time-reversal violation to mode-entangled neutron scattering experiments on nuclear-polarized systems.
翻訳日:2023-01-09 01:39:41 公開日:2023-01-01
# 重力波検出器における熱・量子ノイズの統一

Unification of thermal and quantum noise in gravitational-wave detectors ( http://arxiv.org/abs/2301.00338v1 )

ライセンス: Link先を確認
Chris Whittle, Lee McCuller, Vivishek Sudhir, Matthew Evans(参考訳) 現代の重力波検出器は、試験質量の機械的要素の散逸と、試験質量の位置を調べるために使用される光学場の真空揺らぎによって、熱雑音によって基本的に制限される。 他の2つの基本ノイズは、基本的には、その機械モードの零点ゆらぎによるテスト質量量子化ノイズと、光学場の熱励起の感度を制限できる。 量子ゆらぎ散逸定理を用いて4つの雑音を統一する。 この統一画像は、テスト質量量子化ノイズと光熱ノイズを無視できるタイミングを正確に示す。

Contemporary gravitational-wave detectors are fundamentally limited by thermal noise -- due to dissipation in the mechanical elements of the test mass -- and quantum noise -- from the vacuum fluctuations of the optical field used to probe the test mass position. Two other fundamental noises can in principle also limit sensitivity: test-mass quantization noise due to the zero-point fluctuation of its mechanical modes, and thermal excitation of the optical field. We use the quantum fluctuation-dissipation theorem to unify all four noises. This unified picture shows precisely when test-mass quantization noise and optical thermal noise can be ignored.
翻訳日:2023-01-09 01:28:47 公開日:2023-01-01
# 多体集団ニュートリノ発振 : 最近の進歩

Many-body collective neutrino oscillations: recent developments ( http://arxiv.org/abs/2301.00342v1 )

ライセンス: Link先を確認
Amol V. Patwardhan, Michael J. Cervia, Ermal Rrapaj, Pooja Siwach, A. B. Balantekin(参考訳) 核融合超新星と二元中性子星の融合におけるニュートリノのフレーバー変換は、これらの環境におけるダイナミクスと核合成の理解に不可欠な複雑で未解決の問題である。 これらの環境に存在するニュートリノの多量の密度は、ニュートリノ-ニュートリノコヒーレント散乱によって駆動されるニュートリノのフレーバー変換における様々な集合的な影響を、衝突(不整合)相互作用によって引き起こすことができる。 互いにコヒーレントな散乱を受けるニュートリノのアンサンブルは相互作用する量子多体系であり、ニュートリノの間に量子の絡み合いが発展し、そのフレーバー進化の歴史にインプリントを残すことができる。 本稿では,この現象の理解に向けた最近の進歩を概説する。

Neutrino flavor transformations in core-collapse supernovae and binary neutron star mergers represent a complex and unsolved problem that is integral to our understanding of the dynamics and nucleosynthesis in these environments. The high number densities of neutrinos present in these environments can engender various collective effects in neutrino flavor transformations, driven either by neutrino-neutrino coherent scattering, or in some cases, through collisional (incoherent) interactions. An ensemble of neutrinos undergoing coherent scattering among themselves is an interacting quantum many-body system -- as such, there is a tantalising prospect of quantum entanglement developing between the neutrinos, which can leave imprints on their flavor evolution histories. Here, we seek to summarize recent progress that has been made towards understanding this phenomenon.
翻訳日:2023-01-09 01:28:37 公開日:2023-01-01
# リング分子における持続電子とホール電流の超高速スイッチング

Ultrafast switching of persistent electron and hole currents in ring molecules ( http://arxiv.org/abs/2301.00380v1 )

ライセンス: Link先を確認
Tennesse Joyce, Agnieszka Jaron(参考訳) 円偏光レーザーパルスは、励起分子またはイオン化分子によって分子内電流を持続的に誘導することができる。 これら2つのケースはそれぞれ電子電流とホール電流と同定され、これまでは別々に研究されてきた。 我々は、ベンゼンの共鳴強化2光子イオン化における電流の時間依存性密度汎関数理論(TDDFT)シミュレーションを報告し、電子とホールの電流が同時に同時に存在することを初めて明らかにした。 レーザパルスの強度を調整することにより、2種類の電流間のバランスを制御でき、電流の全体的な符号を切り替えることができる。 我々は、tddftシミュレーションと一致する複雑な分子軌道の観点から、この効果の物理的説明を提供する。

A circularly polarized laser pulse can induce persistent intra-molecular currents by either exciting or ionizing molecules. These two cases are identified as electron currents and hole currents, respectively, and up to now they have been studied only separately. We report \textit{ab initio} time-dependent density-functional theory (TDDFT) simulations of currents during resonance-enhanced two-photon ionization of benzene, which reveal for the first time that both electron and hole currents can be present simultaneously. By adjusting the intensity of the laser pulse, the balance between the two types of current can be controlled, and the overall sign of the current can be switched. We provide a physical explanation for the effect in terms of complex molecular orbitals which is consistent with the TDDFT simulations.
翻訳日:2023-01-09 01:28:21 公開日:2023-01-01
# 時間絡みqkd:秘密鍵レートと情報照合符号化

Time-Entanglement QKD: Secret Key Rates and Information Reconciliation Coding ( http://arxiv.org/abs/2301.00486v1 )

ライセンス: Link先を確認
Joseph J. Boutros and Emina Soljanin(参考訳) 時間的絡み合いに基づく量子鍵分布(QKD)では、アリスとボブは、絡み合った光子対の(同一の)到着時間から生の鍵ビットを時間的結合により抽出する。 それぞれが時間をビンに分割し、それらをフレームにグループ化する。 フレームのみを1つの占有ビンで保持する。 したがって、アリスとボブは、PPM変調のように、フレーム内の占有ビンの位置を利用してランダムな鍵ビットを生成することができる。 絡み合いのため、占有されたビンと鍵は同一である。 しかし、実用的な光子検出器は時間ジッタエラーに悩まされる。 これらの誤りはアリスとボブの鍵の相違を引き起こす。 アリスはボブに公開チャンネルを通じて情報を送り、鍵を調停する。 情報量によって秘密鍵レートが決定される。 本稿では,検出ジッタエラーで可能な秘密鍵レートを計算し,これらのレートにアプローチするための情報整合のためのコードを構築する。

In time entanglement-based quantum key distribution (QKD), Alice and Bob extract the raw key bits from the (identical) arrival times of entangled photon pairs by time-binning. Each of them individually discretizes time into bins and groups them into frames. They retain only the frames with a single occupied bin. Thus, Alice and Bob can use the position of the occupied bin within a frame to generate random key bits, as in PPM modulation. Because of entanglement, their occupied bins and their keys should be identical. However, practical photon detectors suffer from time jitter errors. These errors cause discrepancies between Alice's and Bob's keys. Alice sends information to Bob through the public channel to reconcile the keys. The amount of information determines the secret key rate. This paper computes the secret key rates possible with detector jitter errors and constructs codes for information reconciliation to approach these rates.
翻訳日:2023-01-09 01:28:09 公開日:2023-01-01
# 量子ヘアリーブラックホール形成と地平線量子力学

Quantum Hairy Black Hole Formation and Horizon Quantum Mechanics ( http://arxiv.org/abs/2301.00319v1 )

ライセンス: Link先を確認
R. T. Cavalcanti and J. M. Hoff da Silva(参考訳) 重力デカップリング法とそれに由来する毛むくじゃらのブラックホールを最近導入した後、地平線量子力学の定式化を適用して量子ヘアリーブラックホールの形成について検討した。 これにより、毛むくじゃらのパラメータによって特徴づけられる外部磁場が、球対称ブラックホール形成の確率と一般化された不確実性原理にどのように影響するかを決定することができる。

After introducing the gravitational decoupling method and the hairy black hole recently derived from it, we investigate the formation of quantum hairy black holes by applying the horizon quantum mechanics formalism. It enables us to determine how external fields, characterized by hairy parameters, affect the probability of spherically symmetric black hole formation and the generalized uncertainty principle.
翻訳日:2023-01-09 01:21:02 公開日:2023-01-01
# 量子通信複雑性における対称述語上界のマッチング

Matching upper bounds on symmetric predicates in quantum communication complexity ( http://arxiv.org/abs/2301.00370v1 )

ライセンス: Link先を確認
Daiki Suruga(参考訳) 本稿では、f \circ g = f(g(x_1, y_1), \ldots, g(x_n, y_n))$ where $f: \{0, 1\}^n \to \{0, 1\}$ is a symmetric function, $g: \{0, 1\}^j \times \{0, 1\}^k \to \{0, 1\}$ is any function and alice (resp. bob) は $(x_i)_{i \leq n}$ (resp.bob) を与える。 y_i)_{i \leq n}$)である。 最近、Chakrabortyら。 [STACS 2022] は、$f \circ G$の量子通信複雑性が$O(Q(f)\mathrm{QCC}_\mathrm{E}(G))$であることを示した。 本稿では、最初に、同じ文が、結果の一般化である \emph{without shared entanglement} を持つことを示す。 改良された結果に基づき、次に、任意の対称関数に対して$f \circ \mathrm{AND}_2$(ここで $\textrm{AND}_2 : \{0, 1\} \times \{0, 1\} \to \{0, 1\}$ は 2-bit AND を両モデルで表す:共有絡み付き、共有絡みなし)に対して、厳密な上界を示す。 これは、共有の絡み合いが許されているとき、razborov~[izv. math. 67(1) 145, 2003]でよく知られた下限と一致し、共有の絡み合いが許されていないときに、razborovの束縛を改善する。

In this paper, we focus on the quantum communication complexity of functions of the form $f \circ G = f(G(X_1, Y_1), \ldots, G(X_n, Y_n))$ where $f: \{0, 1\}^n \to \{0, 1\}$ is a symmetric function, $G: \{0, 1\}^j \times \{0, 1\}^k \to \{0, 1\}$ is any function and Alice (resp. Bob) is given $(X_i)_{i \leq n}$ (resp. $(Y_i)_{i \leq n}$). Recently, Chakraborty et al. [STACS 2022] showed that the quantum communication complexity of $f \circ G$ is $O(Q(f)\mathrm{QCC}_\mathrm{E}(G))$ when the parties are allowed to use shared entanglement, where $Q(f)$ is the query complexity of $f$ and $\mathrm{QCC}_\mathrm{E}(G)$ is the exact communication complexity of $G$. In this paper, we first show that the same statement holds \emph{without shared entanglement}, which generalizes their result. Based on the improved result, we next show tight upper bounds on $f \circ \mathrm{AND}_2$ for any symmetric function $f$ (where $\textrm{AND}_2 : \{0, 1\} \times \{0, 1\} \to \{0, 1\}$ denotes the 2-bit AND function) in both models: with shared entanglement and without shared entanglement. This matches the well-known lower bound by Razborov~[Izv. Math. 67(1) 145, 2003] when shared entanglement is allowed and improves Razborov's bound when shared entanglement is not allowed.
翻訳日:2023-01-09 01:20:54 公開日:2023-01-01
# 完全遺伝子多粒子エンタングルメントモノトン

Complete Genuine Multipartite Entanglement Monotone ( http://arxiv.org/abs/2301.00334v1 )

ライセンス: Link先を確認
Yu Guo(参考訳) エンタングルメント、特に多成分エンタングルメントの完全なキャラクタリゼーションと定量化は、量子情報理論における未完成の長期的な目標である。 多成分系が関係している限り、異なる分割や異なるサブシステムに含まれる絡み合いの関係を考慮する必要がある。 完全多部交絡測度と完全単体関係は、そのような問題にのみ対処するフレームワークである。 本稿では, マルチパート・エンタングルメント・モノトン (MEM) と真のマルチパート・エンタングルメント・モノトン (GMEM) が完全, 完全, 完全, 完全, 完全であるか否かを, 還元関数の特性に応じて正当化する条件を提示する。 特に,最大還元関数を用いて完全MEMのクラスと完全GMEMのクラスを初めて提案した。 比較すると、三部体の場合、このGMEMsのクラスは、完全なMEMと完全なモノガミー関係の枠組みの下で文学における最小二部体絡み合いから定義されるものよりも優れていることが示されている。 さらに, モノガミー, 完全モノガミー, 厳密な完全モノガミーの関係は, 異なる種類のMEM, GMEMによって明らかにされる。

A complete characterization and quantification of entanglement, particularly the multipartite entanglement, remains an unfinished long-term goal in quantum information theory. As long as the multipartite system is concerned, the relation between the entanglement contained in different partitions or different subsystems need to take into account. The complete multipartite entanglement measure and the complete monogamy relation is a framework that just deals with such a issue. In this paper, we put forward conditions to justify whether the multipartite entanglement monotone (MEM) and genuine multipartite entanglement monotone (GMEM) are complete, completely monogamous, and tightly complete monogamous according to the feature of the reduced function. Especially, we proposed a class of complete MEMs and a class of complete GMEMs via the maximal reduced function for the first time. By comparison, it is shown that, for the tripartite case, this class of GMEMs is better than the one defined from the minimal bipartite entanglement in literature under the framework of complete MEM and complete monogamy relation. In addition, the relation between monogamy, complete monogamy, and the tightly complete monogamy are revealed in light of different kinds of MEMs and GMEMs.
翻訳日:2023-01-09 01:10:50 公開日:2023-01-01
# 補助量子ビットによるハミルトンアンサンブルによる絡み合いの突然死

Sudden death of entanglement with Hamiltonian ensemble assisted by auxiliary qubits ( http://arxiv.org/abs/2301.00413v1 )

ライセンス: Link先を確認
Congwei Lu, Wanting He, Jun Wang, Haibo Wang and Qing Ai(参考訳) 本稿では,補助キュービットと結合することにより,単一のキュービットの縦緩和をシミュレートする手法を提案する。 有限温度緩和を模倣するために、ハミルトニアン・アンサンブルアプローチ(Kropf, Gneiting, and Buchleitner, Phys. X 6, 031023 (2016))を使い、各実現において補助量子ビットはランダムなレベル間隔を持つ。 連続的な緩和は、アンサンブル平均と作業キュービットと補助キュービットとの相互作用の結果生じる。 さらに, この手法を用いて, 2つの量子ビットのエンタングルメントダイナミクスに及ぼす縦緩和と横緩和の影響について検討した。 経時的緩和が存在する限り,絡み合いの突然の死亡は起こることが判明した。 横緩和は長手緩和を補助し、有限時間解離を加速させる。

In this paper, we theoretically propose a method to simulate the longitudinal relaxation of a single qubit by coupling it to an auxiliary qubit. In order to mimic the finite-temperature relaxation, we utilize the Hamiltonian-ensemble approach [Kropf, Gneiting, and Buchleitner, Phys. Rev. X 6, 031023 (2016)] and in each realization the auxiliary qubit possesses a random level spacing. The longitudinal relaxation arises as a consequence of the ensemble average and the interaction between the working qubit and the auxiliary qubit. Furthermore, we apply this approach to investigate the influence of the longitudinal relaxation and the transverse relaxation on the entanglement dynamics of two qubits. It is discovered that the sudden death of the entanglement will occur as long as the longitudinal relaxation is present. The transverse relaxation assists the longitudinal relaxation and thus accelerates the finite-time disentanglement.
翻訳日:2023-01-09 01:10:29 公開日:2023-01-01
# 2つの異なるスピノルとステアリングの体積単元をもつ純粋対称多量子状態の正準ステアリング楕円体

Canonical steering ellipsoids of pure symmetric multiqubit states with two distinct spinors and volume monogamy of steering ( http://arxiv.org/abs/2301.01714v1 )

ライセンス: Link先を確認
B G Divyamani, I Reena, Prasanta K Panigrahi, A R Usha Devi and Sudha(参考訳) 量子ステアリング楕円体形式は、全ての2ビット状態の忠実な表現を提供し、ステアリング楕円体を通して状態の相関特性を得るのに役立つ。 置換対称なn$-qubit状態の2量子ビットサブシステムに対応するステアリング楕円体をここで解析する。 2量子状態のステアリング楕円体は、両方のキュービット上で局所的な操作を行い、状態を正準形式にするために、いわゆる正準ステアリング楕円体(canonical steering ellipsoids)である。 2つの異なるスピノルを持つ純置換対称なn$-qubit状態に対応する正準ステアリング楕円体の幾何学的特徴を構築・解析する。 純粋な対称な$N$-qubit状態にある2つのスピノルの縮退に依存すると、確率的局所演算と古典通信(SLOCC)を通して互いに変換できないいくつかの族が生じる。 2つの異なるスピノルを持つ純粋な対称な$N$-qubit状態から引き出された2量子状態の正準ステアリング楕円体は、SLOCCと同値な状態の幾何学的視覚化を可能にする。 w-クラスに属する状態は、固定半軸の長さが 1/\sqrt{n-1}$ と 1/(n-1)$ の、$(0,0,1/(n-1))$ を中心とする oblate spheroid に対応する。 他の全てのSLOCC非等価族に属する状態は、ブロッホ球の起源を中心とする楕円体に対応する。 また、これらの家族に属する国家、主にWクラスの国家の体積独占関係についても検討する。

Quantum steering ellipsoid formalism provides a faithful representation of all two-qubit states and helps in obtaining correlation properties of the state through the steering ellipsoid. The steering ellipsoids corresponding to the two-qubit subsystems of permutation symmetric $N$-qubit states is analysed here. The steering ellipsoids of two-qubit states that have undergone local operations on both the qubits so as to bring the state to its canonical form are the so-called canonical steering ellipsoids. We construct and analyze the geometric features of the canonical steering ellipsoids corresponding to pure permutation symmetric $N$-qubit states with two distinct spinors. Depending on the degeneracy of the two spinors in the pure symmetric $N$-qubit state, there arise several families which cannot be converted into one another through Stochastic Local Operations and Classical Communications (SLOCC). The canonical steering ellipsoids of the two-qubit states drawn from the pure symmetric $N$-qubit states with two distinct spinors allow for a geometric visualization of the SLOCC-inequivalent class of states. We show that the states belonging to the W-class correspond to oblate spheroid centered at $(0,0,1/(N-1))$ with fixed semiaxes lengths $1/\sqrt{N-1}$ and $1/(N-1)$. The states belonging to all other SLOCC inequivalent families correspond to ellipsoids centered at the origin of the Bloch sphere. We also explore volume monogamy relations of states belonging to these families, mainly the W-class of states.
翻訳日:2023-01-09 01:09:35 公開日:2023-01-01
# 集団クラスタリングにおける半定義型プログラミング:グローバル分析

Semidefinite programming on population clustering: a global analysis ( http://arxiv.org/abs/2301.00344v1 )

ライセンス: Link先を確認
Shuheng Zhou(参考訳) 本稿では,2ドルのサブガウス分布の混合分布から抽出したサイズ$n$の小さなデータサンプルを分割する問題を考える。 本研究の動機は,両個体間のばらつきが小さい場合に,その起源の個体数に応じたクラスタリングを指標として行うことにある。 個々の機能が平均的な品質で$\gamma$である場合に興味があり、サンプルを正しく分割するためにできるだけ少数の機能を使用したいと思っています。 本質的には、カットのエッジ重みが2つのノード間の相似性スコアを表すグラフ上での最大カットを求めるものとして定式化された整数二次プログラムの半定緩和を考える。 Blum, Coja-Oghlan, Frieze and Zhou (2007, 2009) の小さなシミュレーション結果によると、サンプルサイズ$n$が小さい場合でも、$np= \Omega(1/\gamma^2)$ を$p$にすることで、スペクトル法を用いて2つの積の集団の混合物を分類することができ、'oracle' 曲線に達する成功率を持つ。 ここで ``oracle'' は分布が知られていると仮定して計算され、成功率は正しく分類された個人とサンプルサイズ $n$ の比率を意味する。 本研究では、この観測された測定現象の高次元濃度の理論的基盤を半定値最適化目標とスペクトル法で同時に示し、その入力は中心データから計算されたグラム行列に基づいている。 サンプルサイズとこれらの2つの製品が1/{\gamma^2}$で区切られるような特徴の数の間の完全なトレードオフを、$p$が1/\gamma$で区切られる限り許す。

In this paper, we consider the problem of partitioning a small data sample of size $n$ drawn from a mixture of $2$ sub-gaussian distributions. Our work is motivated by the application of clustering individuals according to their population of origin using markers, when the divergence between the two populations is small. We are interested in the case that individual features are of low average quality $\gamma$, and we want to use as few of them as possible to correctly partition the sample. We consider semidefinite relaxation of an integer quadratic program which is formulated essentially as finding the maximum cut on a graph where edge weights in the cut represent dissimilarity scores between two nodes based on their features. A small simulation result in Blum, Coja-Oghlan, Frieze and Zhou (2007, 2009) shows that even when the sample size $n$ is small, by increasing $p$ so that $np= \Omega(1/\gamma^2)$, one can classify a mixture of two product populations using the spectral method therein with success rate reaching an ``oracle'' curve. There the ``oracle'' was computed assuming that distributions were known, where success rate means the ratio between correctly classified individuals and the sample size $n$. In this work, we show the theoretical underpinning of this observed concentration of measure phenomenon in high dimensions, simultaneously for the semidefinite optimization goal and the spectral method, where the input is based on the gram matrix computed from centered data. We allow a full range of tradeoffs between the sample size and the number of features such that the product of these two is lower bounded by $1/{\gamma^2}$ so long as the number of features $p$ is lower bounded by $1/\gamma$.
翻訳日:2023-01-05 16:17:22 公開日:2023-01-01
# 情報認識グラフ表現学習によるマルチビューMOOC品質評価

Multi-View MOOC Quality Evaluation via Information-Aware Graph Representation Learning ( http://arxiv.org/abs/2301.01593v1 )

ライセンス: Link先を確認
Lu Jiang and Yibin Wang and Jianan Wang and Pengyang Wang and Minghao Yin(参考訳) 本稿では,授業教材の改善,学生の学習効率の向上,ユーザサービスの便益に欠かせないmooc品質評価の問題について検討する。 有望なパフォーマンスを達成する一方で、現在の作業はMOOCプラットフォームの複雑な相互作用とエンティティの関係に悩まされている。 課題に対処するため,コース表現学習タスクとして問題を定式化し,多視点MOOC品質評価のための情報認識グラフ表現学習(IaGRL)を開発した。 具体的には、まずmoocヘテロジニアスネットワーク(hin)を構築し、moocプラットフォームにおけるエンティティ間の相互作用と関係を表現します。 そして、MOOC HINをメタパスに基づいて複数の単一関係グラフに分解し、コースのマルチビューセマンティクスを記述する。 コース表現学習は、さらに多視点グラフ表現タスクに変換することができる。 従来のグラフ表現学習とは異なり,学習コース表現は,(1)生のコースポートフォリオと学習コース表現との表現性に関する合意,(2)各ビューにおける表現と統一された表現との整合性,(3)コースとMOOCプラットフォーム表現の整合性,という3つの妥当性に一致することが期待される。 そこで本稿では,コース表現の有効性を維持するために相互情報を活用することを提案する。 提案手法の有効性を実証するため,実世界のMOOCデータセットに対して広範な実験を行った。

In this paper, we study the problem of MOOC quality evaluation which is essential for improving the course materials, promoting students' learning efficiency, and benefiting user services. While achieving promising performances, current works still suffer from the complicated interactions and relationships of entities in MOOC platforms. To tackle the challenges, we formulate the problem as a course representation learning task-based and develop an Information-aware Graph Representation Learning(IaGRL) for multi-view MOOC quality evaluation. Specifically, We first build a MOOC Heterogeneous Network (HIN) to represent the interactions and relationships among entities in MOOC platforms. And then we decompose the MOOC HIN into multiple single-relation graphs based on meta-paths to depict the multi-view semantics of courses. The course representation learning can be further converted to a multi-view graph representation task. Different from traditional graph representation learning, the learned course representations are expected to match the following three types of validity: (1) the agreement on expressiveness between the raw course portfolio and the learned course representations; (2) the consistency between the representations in each view and the unified representations; (3) the alignment between the course and MOOC platform representations. Therefore, we propose to exploit mutual information for preserving the validity of course representations. We conduct extensive experiments over real-world MOOC datasets to demonstrate the effectiveness of our proposed method.
翻訳日:2023-01-05 15:23:57 公開日:2023-01-01
# 問題解決としてのチャットボット: 役割逆転による20の質問

Chatbots as Problem Solvers: Playing Twenty Questions with Role Reversals ( http://arxiv.org/abs/2301.01743v1 )

ライセンス: Link先を確認
David Noever, Forrest McKee(参考訳) ChatGPTのような新しいチャットAIアプリケーションは、複数のステップタスクにわたる質問コンテキストとメモリの高度な理解を提供する。 本稿では,チャットgptが従来の20問ゲームをプレイするが,イノベーティブに役割を質問者から回答者に切り替えるマルチロール・マルチステップチャレンジを提案する。 主な経験的結果は、この世代のチャットアプリケーションが、20問未満(平均12問)でランダムなオブジェクト名を推測し、16の実験的なセットアップで94%の時間を正確に推測できることである。 この研究は、チャットボットが質問を扱い、質問に答える役割の両方を持ち、最終的に適切な文脈的感情を推測しようとする4つの新しいケースを紹介している。 人間が一般的に失敗するが、訓練されたチャットアプリケーションは20の質問(スペイン語の質問に対する英語の回答)のバイリンガルゲームをプレイする。 将来のバリエーションは、特許可能な発明や組み合わせ思考など、新規な結果に導くために類似の問い合わせ形式を使用して直接的な問題解決に取り組む。 この対話形式の特色は、複雑なタンパク質設計、神経科学メタデータ、児童発達教育材料などである。

New chat AI applications like ChatGPT offer an advanced understanding of question context and memory across multi-step tasks, such that experiments can test its deductive reasoning. This paper proposes a multi-role and multi-step challenge, where ChatGPT plays the classic twenty-questions game but innovatively switches roles from the questioner to the answerer. The main empirical result establishes that this generation of chat applications can guess random object names in fewer than twenty questions (average, 12) and correctly guess 94% of the time across sixteen different experimental setups. The research introduces four novel cases where the chatbot fields the questions, asks the questions, both question-answer roles, and finally tries to guess appropriate contextual emotions. One task that humans typically fail but trained chat applications complete involves playing bilingual games of twenty questions (English answers to Spanish questions). Future variations address direct problem-solving using a similar inquisitive format to arrive at novel outcomes deductively, such as patentable inventions or combination thinking. Featured applications of this dialogue format include complex protein designs, neuroscience metadata, and child development educational materials.
翻訳日:2023-01-05 15:04:26 公開日:2023-01-01
# Airbnb価格予測のためのマルチソース情報学習フレームワーク

A Multi-Source Information Learning Framework for Airbnb Price Prediction ( http://arxiv.org/abs/2301.01222v1 )

ライセンス: Link先を確認
Lu Jiang and Yuanhan Li and Na Luo and Jianan Wang and Qiao Ning(参考訳) テクノロジーと共有経済の発展により、Airbnbは短期賃貸プラットフォームとして有名になり、多くの若者が最初に選ぶ選択肢となった。 Airbnbの価格設定の問題は常に研究に値する問題だった。 前回の研究では有望な結果が得られたが、解決すべき欠点は存在する。 例えば,(1)レンタルの特徴的属性が十分に満たされていないこと,(2)レンタルテキスト情報の研究が不十分であること,(3)住宅周辺の関心点(POI)と組み合わせてレンタル価格を予測する研究はほとんどない。 以上の課題に対処するため、Airbnbの賃貸価格を予測するため、マルチソース情報埋め込み(MSIE)モデルを提案する。 具体的には、まず、最初のレンタルデータを埋め込む統計機能を選択する。 次に、3つの異なるテキスト情報の単語特徴ベクトルと感情スコアの組み合わせを生成し、テキスト特徴埋め込みを形成する。 第3に,レンタルハウス情報に関する関心点(POI)を用いて様々な空間的ネットワークグラフを生成し,ネットワークの埋め込みを学習し,空間的特徴の埋め込みを得る。 最後に,これら3つのモジュールをマルチソースレンタル表現に組み合わせ,構築した完全接続ニューラルネットワークを用いて価格を予測する。 実験結果の解析により,提案モデルの有効性が示された。

With the development of technology and sharing economy, Airbnb as a famous short-term rental platform, has become the first choice for many young people to select. The issue of Airbnb's pricing has always been a problem worth studying. While the previous studies achieve promising results, there are exists deficiencies to solve. Such as, (1) the feature attributes of rental are not rich enough; (2) the research on rental text information is not deep enough; (3) there are few studies on predicting the rental price combined with the point of interest(POI) around the house. To address the above challenges, we proposes a multi-source information embedding(MSIE) model to predict the rental price of Airbnb. Specifically, we first selects the statistical feature to embed the original rental data. Secondly, we generates the word feature vector and emotional score combination of three different text information to form the text feature embedding. Thirdly, we uses the points of interest(POI) around the rental house information generates a variety of spatial network graphs, and learns the embedding of the network to obtain the spatial feature embedding. Finally, this paper combines the three modules into multi source rental representations, and uses the constructed fully connected neural network to predict the price. The analysis of the experimental results shows the effectiveness of our proposed model.
翻訳日:2023-01-04 15:25:19 公開日:2023-01-01
# ExploreADV: ニューラルネットワークの探索攻撃を目指して

ExploreADV: Towards exploratory attack for Neural Networks ( http://arxiv.org/abs/2301.01223v1 )

ライセンス: Link先を確認
Tianzuo Luo, Yuyi Zhong, Siaucheng Khoo(参考訳) ディープラーニングは、画像、テキスト、音声などの様々な種類のデータを処理する上で著しく進歩しているが、それらは逆の摂動に影響を受けやすいことが知られている: ターゲットモデルが誤った出力を生成するために、入力に特別に設計され追加される摂動。 対向摂動の生成に関する既存の研究のほとんどは、入力全体を無差別に摂動させようとしている。 本稿では,地域的および不可視的な攻撃をモデル化し,ユーザが必要に応じて様々な攻撃例を探索できる汎用的で柔軟な攻撃システムexploreadvを提案する。 我々は,DeepFool と Brendel\&Bethge の2つの既存の境界攻撃手法を適応・結合し,画素レベルの制約下で最小の対向的摂動,すなわち 'mask-constraint'' を生成するマスク拘束型対向攻撃システムを提案する。 我々は,入力特徴のばらつきと重要性を考慮したマスク制約の生成方法について検討し,我々の敵攻撃システムは,入力のサブリージョンに着目し,知覚不能な摂動を探索し,画素/領域の脆弱性を敵攻撃に理解するための柔軟性を提供することを示した。 本研究では,広範囲な実験とユーザスタディに基づいて,本システムの有効性を実証する。

Although deep learning has made remarkable progress in processing various types of data such as images, text and speech, they are known to be susceptible to adversarial perturbations: perturbations specifically designed and added to the input to make the target model produce erroneous output. Most of the existing studies on generating adversarial perturbations attempt to perturb the entire input indiscriminately. In this paper, we propose ExploreADV, a general and flexible adversarial attack system that is capable of modeling regional and imperceptible attacks, allowing users to explore various kinds of adversarial examples as needed. We adapt and combine two existing boundary attack methods, DeepFool and Brendel\&Bethge Attack, and propose a mask-constrained adversarial attack system, which generates minimal adversarial perturbations under the pixel-level constraints, namely ``mask-constraints''. We study different ways of generating such mask-constraints considering the variance and importance of the input features, and show that our adversarial attack system offers users good flexibility to focus on sub-regions of inputs, explore imperceptible perturbations and understand the vulnerability of pixels/regions to adversarial attacks. We demonstrate our system to be effective based on extensive experiments and user study.
翻訳日:2023-01-04 15:24:59 公開日:2023-01-01
# NeuroExplainer: 幼児の皮質発達パターンを明らかにするための微粒な注意デコーディング

NeuroExplainer: Fine-Grained Attention Decoding to Uncover Cortical Development Patterns of Preterm Infants ( http://arxiv.org/abs/2301.00815v1 )

ライセンス: Link先を確認
Chenyu Xue and Fan Wang and Yuanzhuo Zhu and Hui Li and Deyu Meng and Dinggang Shen and Chunfeng Lian(参考訳) 学際的なアプリケーションに信頼できるディープラーニング技術を展開するには、正確な(さらに重要な)説明可能な予測を出力する学習モデルが必要です。 既存のアプローチは通常、忠実な説明は正確な予測/分類に由来するという暗黙の仮定の下で、ポストホックな方法でネットワーク出力を明示する。 説明が分類を促進する(あるいは決定する)という反対の主張がある。 すなわち、識別的表現抽出を促進する説明因子のエンドツーエンド学習は、例えば、ノイズ、冗長、タスク非関連情報を含む高次元データを用いた神経画像および神経科学研究において、より直感的な方法である。 本稿では,ニューロエクスプランジャー(neuroexplainer)と呼ばれる,説明可能な幾何学的深層ネットワークを提案する。 ネットワーク入力としての基本的な皮質特性を考慮に入れると、神経外者では、細かな注意と各識別表現を学習するための階層的注意分離フレームワークを採用し、終末期乳児の終末期の年齢を正確に認識する。 neuroexplainerは、脳の発達に関するドメイン知識から導かれるターゲットの正規化と、主題レベルの弱い監督の下で階層的な注意喚起モジュールを学習する。 これらの事前誘導制約は、ネットワークトレーニングにおける説明可能性指標(すなわち、忠実度、疎度、安定性)を暗黙的に最大化し、学習したネットワークに詳細な説明と正確な分類を出力させる。 公開dHCPベンチマークの実験結果から、NeuroExplainerは、代表的な神経画像研究と定性的に一致した定量的に信頼性の高い説明結果をもたらすことが示唆された。

Deploying reliable deep learning techniques in interdisciplinary applications needs learned models to output accurate and ({even more importantly}) explainable predictions. Existing approaches typically explicate network outputs in a post-hoc fashion, under an implicit assumption that faithful explanations come from accurate predictions/classifications. We have an opposite claim that explanations boost (or even determine) classification. That is, end-to-end learning of explanation factors to augment discriminative representation extraction could be a more intuitive strategy to inversely assure fine-grained explainability, e.g., in those neuroimaging and neuroscience studies with high-dimensional data containing noisy, redundant, and task-irrelevant information. In this paper, we propose such an explainable geometric deep network dubbed as NeuroExplainer, with applications to uncover altered infant cortical development patterns associated with preterm birth. Given fundamental cortical attributes as network input, our NeuroExplainer adopts a hierarchical attention-decoding framework to learn fine-grained attentions and respective discriminative representations to accurately recognize preterm infants from term-born infants at term-equivalent age. NeuroExplainer learns the hierarchical attention-decoding modules under subject-level weak supervision coupled with targeted regularizers deduced from domain knowledge regarding brain development. These prior-guided constraints implicitly maximizes the explainability metrics (i.e., fidelity, sparsity, and stability) in network training, driving the learned network to output detailed explanations and accurate classifications. Experimental results on the public dHCP benchmark suggest that NeuroExplainer led to quantitatively reliable explanation results that are qualitatively consistent with representative neuroimaging studies.
翻訳日:2023-01-04 15:24:03 公開日:2023-01-01
# 垂直連合学習のための相互情報正規化

Mutual Information Regularization for Vertical Federated Learning ( http://arxiv.org/abs/2301.01142v1 )

ライセンス: Link先を確認
Tianyuan Zou, Yang Liu, Ya-Qin Zhang(参考訳) Vertical Federated Learning (VFL)は、データプライバシと安全性を保護しながら協調学習を可能にするために、現実世界のアプリケーションで広く利用されている。 しかしながら、以前の研究は、VFLのラベル(パッシブパーティ)を持たない当事者が、その当事者が所有する機密ラベル情報をラベル(アクティブパーティ)で推測したり、VFLに対するバックドアアタックを実行することができることを示している。 一方、アクティブパーティは受動的パーティから機密機能情報を推測することもできる。 これらすべてが、vflシステムに新たなプライバシとセキュリティ上の課題をもたらします。 本稿では,特徴とラベル,中間出力を含むプライベート生データ間の相互情報を制限し,モデルユーティリティとプライバシのトレードオフを改善するための汎用防衛手法を提案する。 この防衛をMID(Multual Information Regularization Defense)と呼ぶ。 提案手法の有効性を理論的,実験的に検証し,ラベル推論攻撃,バックドア攻撃,特徴再構成攻撃を含む既存のVFL攻撃を防御する。

Vertical Federated Learning (VFL) is widely utilized in real-world applications to enable collaborative learning while protecting data privacy and safety. However, previous works show that parties without labels (passive parties) in VFL can infer the sensitive label information owned by the party with labels (active party) or execute backdoor attacks to VFL. Meanwhile, active party can also infer sensitive feature information from passive party. All these pose new privacy and security challenges to VFL systems. We propose a new general defense method which limits the mutual information between private raw data, including both features and labels, and intermediate outputs to achieve a better trade-off between model utility and privacy. We term this defense Mutual Information Regularization Defense (MID). We theoretically and experimentally testify the effectiveness of our MID method in defending existing attacks in VFL, including label inference attacks, backdoor attacks and feature reconstruction attacks.
翻訳日:2023-01-04 14:57:59 公開日:2023-01-01
# 雑音ラベル学習のための多視点コンセンサスを用いた非対称共学習

Asymmetric Co-teaching with Multi-view Consensus for Noisy Label Learning ( http://arxiv.org/abs/2301.01143v1 )

ライセンス: Link先を確認
Fengbei Liu, Yuanhong Chen, Chong Wang, Yu Tain, Gustavo Carneiro(参考訳) ノイズラベルによる学習は、最先端技術(SOTA)が探求するコンピュータビジョンにおいて重要な研究トピックとなっている。 1)トレーニングサンプルの予測に同意しない2つのモデルを更新する共同学習戦略との予測の不一致,及び 2) トレーニングセットを小さなトレーニング損失に基づいてクリーンでノイズの多いセットに分割するサンプル選択を行った。 しかし、同一のクリーンサブセットを選択するためのコティーチングモデルの迅速な収束とノイズラベルの比較的高速なオーバーフィッティングは、ノイズラベルサンプルの間違った選択をクリーンとして引き起こし、精度を損なう必然的確実性バイアスを引き起こす可能性がある。 本稿では,Asymmetric Co-Teaching (AsyCo) と呼ばれるノイズラベル学習手法を紹介する。この手法は,共学習モデルのより一貫した相違点を生成する新しい予測不一致を導入し,従来の手法よりもバイアスの確認に頑健性を実現するために,小さな仮定を必要としない新しいサンプル選択手法を提案する。 より具体的には、新しい予測の不一致は、異なるトレーニング戦略を使用することで達成され、1つのモデルがマルチクラス学習で、もう1つのモデルはマルチラベル学習で訓練される。 また、新しいサンプル選択は、マルチビューのコンセンサスに基づいて、トレーニングラベルからのラベルビューとモデル予測を使用して、トレーニングセットをクリーンかつノイズに分割し、マルチクラスモデルのトレーニングのために複数の上位ラベルでトレーニングサンプルを再ラベルする。 合成および実世界のノイズラベルデータセットに関する大規模な実験は、AsyCoが現在のSOTA法よりも改善していることを示している。

Learning with noisy-labels has become an important research topic in computer vision where state-of-the-art (SOTA) methods explore: 1) prediction disagreement with co-teaching strategy that updates two models when they disagree on the prediction of training samples; and 2) sample selection to divide the training set into clean and noisy sets based on small training loss. However, the quick convergence of co-teaching models to select the same clean subsets combined with relatively fast overfitting of noisy labels may induce the wrong selection of noisy label samples as clean, leading to an inevitable confirmation bias that damages accuracy. In this paper, we introduce our noisy-label learning approach, called Asymmetric Co-teaching (AsyCo), which introduces novel prediction disagreement that produces more consistent divergent results of the co-teaching models, and a new sample selection approach that does not require small-loss assumption to enable a better robustness to confirmation bias than previous methods. More specifically, the new prediction disagreement is achieved with the use of different training strategies, where one model is trained with multi-class learning and the other with multi-label learning. Also, the new sample selection is based on multi-view consensus, which uses the label views from training labels and model predictions to divide the training set into clean and noisy for training the multi-class model and to re-label the training samples with multiple top-ranked labels for training the multi-label model. Extensive experiments on synthetic and real-world noisy-label datasets show that AsyCo improves over current SOTA methods.
翻訳日:2023-01-04 14:39:14 公開日:2023-01-01
# AmbieGen: 自律システムテストのための検索ベースのフレームワーク

AmbieGen: A Search-based Framework for Autonomous Systems Testing ( http://arxiv.org/abs/2301.01234v1 )

ライセンス: Link先を確認
Dmytro Humeniuk, Foutse Khomh and Giuliano Antoniol(参考訳) 自動運転車、自律ロボット、ドローンなどの安全クリティカルな自律システムの詳細なテストは、デプロイ前に潜在的な障害を検出するために不可欠である。 重要なテストステージのひとつがmodel-in-the-loopテストで、シミュレータでさまざまなシナリオを実行してシステムモデルを評価する。 しかし、これらのテストシナリオを定義する可能なパラメータの探索空間は膨大であり、すべての組み合わせをシミュレートすることは計算上不可能である。 この課題に対処するために,自律システムを対象とした検索ベースのテストケース生成フレームワークであるAmbieGenを紹介する。 AmbieGenは、あるシステムにおいて最も重要なシナリオを特定するために進化的検索を使用し、テスト、アルゴリズム、サーチ演算子による新しいシステムの追加を可能にするモジュラーアーキテクチャを備えている。 AmbieGenは現在、自律ロボットと自動車線維持支援システムのテストケース生成をサポートしている。 本稿では,フレームワークのアーキテクチャを高レベルに概観し,その実践的ユースケースを示す。

Thorough testing of safety-critical autonomous systems, such as self-driving cars, autonomous robots, and drones, is essential for detecting potential failures before deployment. One crucial testing stage is model-in-the-loop testing, where the system model is evaluated by executing various scenarios in a simulator. However, the search space of possible parameters defining these test scenarios is vast, and simulating all combinations is computationally infeasible. To address this challenge, we introduce AmbieGen, a search-based test case generation framework for autonomous systems. AmbieGen uses evolutionary search to identify the most critical scenarios for a given system, and has a modular architecture that allows for the addition of new systems under test, algorithms, and search operators. Currently, AmbieGen supports test case generation for autonomous robots and autonomous car lane keeping assist systems. In this paper, we provide a high-level overview of the framework's architecture and demonstrate its practical use cases.
翻訳日:2023-01-04 14:30:43 公開日:2023-01-01
# BCIにおける情報伝達速度 : 高度統合共生を目指して

Information Transfer Rate in BCIs: Towards Tightly Integrated Symbiosis ( http://arxiv.org/abs/2301.00488v1 )

ライセンス: Link先を確認
Suayb S. Arslan and Pawan Sinha(参考訳) 特にSSVEPベースのBrain-Computer (BCI) インタフェースで普及している。 速度と精度を単一値パラメータに組み合わせることで、このメトリックは、異なるbciコミュニティにわたる様々なターゲット識別アルゴリズムの評価と比較に役立つ。 未来的BCI設計のためのエンド・ツー・エンドの設計を正確に表現するためには、より徹底的な検討とITRの定義が必要である。 再生視覚経路によってホストされる共生通信媒体を離散的なメモリレスチャネルとしてモデル化し,改良されたキャパシティ表現を用いてITRを再定義する。 我々はグラフ理論を用いて、遷移統計学の非対称性とITRゲインの関係を新しい定義で特徴づけ、データレート性能に潜在的な限界をもたらす。 良く知られた2つのSSVEPデータセットにおいて、2つの最先端ターゲット識別法を比較した。 その結果, DMチャネルの非対称性は入力分布の変化よりも実知覚ITRに大きな影響を与えることがわかった。 さらに,新しい定義の下でのitr利得はチャネル遷移統計学における非対称性と逆相関することを示した。 さらに個々の入力のカスタマイズにより、ITRの性能改善が認められた。 本研究の成果は,高度にダイナミックなbciチャネル容量,性能閾値,bci刺激設計の改善に寄与し,人間の脳とコンピュータシステム間のより緊密な共生を実現するとともに,基礎となる通信資源の効率を向上させることを期待する。

and widely used information measurement metric, particularly popularized for SSVEP- based Brain-Computer (BCI) interfaces. By combining speed and accuracy into a single-valued parameter, this metric aids in the evaluation and comparison of various target identification algorithms across different BCI communities. To accurately depict performance and inspire an end-to-end design for futuristic BCI designs, a more thorough examination and definition of ITR is therefore required. We model the symbiotic communication medium, hosted by the retinogeniculate visual pathway, as a discrete memoryless channel and use the modified capacity expressions to redefine the ITR. We use graph theory to characterize the relationship between the asymmetry of the transition statistics and the ITR gain with the new definition, leading to potential bounds on data rate performance. On two well-known SSVEP datasets, we compared two cutting-edge target identification methods. Results indicate that the induced DM channel asymmetry has a greater impact on the actual perceived ITR than the change in input distribution. Moreover, it is demonstrated that the ITR gain under the new definition is inversely correlated with the asymmetry in the channel transition statistics. Individual input customizations are further shown to yield perceived ITR performance improvements. An algorithm is proposed to find the capacity of binary classification and further discussions are given to extend such results to ensemble techniques.We anticipate that the results of our study will contribute to the characterization of the highly dynamic BCI channel capacities, performance thresholds, and improved BCI stimulus designs for a tighter symbiosis between the human brain and computer systems while enhancing the efficiency of the underlying communication resources.
翻訳日:2023-01-03 16:24:13 公開日:2023-01-01
# 時系列における2次元化のための関数的アプローチ

A Functional approach for Two Way Dimension Reduction in Time Series ( http://arxiv.org/abs/2301.00357v1 )

ライセンス: Link先を確認
Aniruddha Rajendra Rao, Haiyan Wang, Chetan Gupta(参考訳) データの増加は、特に時系列、自然言語処理、コンピュータビジョンを含む非スカラー変数の領域において、次元削減技術の必要性を招いている。 本稿では,時系列の次元低減を機能的データ解析により検討する。 関数データの次元削減のための現在の手法は、関数主成分分析と機能的オートエンコーダであり、非効率な時系列の線形写像やスカラー表現に限られている。 実際のデータアプリケーションでは、データの性質はずっと複雑です。 本稿では,機能的エンコーダと機能的デコーダから構成される非線形関数オンファンクショナルアプローチを提案する。 提案手法は,関数が観測される時間点だけでなく,機能的特徴の数を減らし,低次元の潜在表現を与える。 提案モデルの有効性は,複数のシミュレーションと実データ例を用いて実証する。

The rise in data has led to the need for dimension reduction techniques, especially in the area of non-scalar variables, including time series, natural language processing, and computer vision. In this paper, we specifically investigate dimension reduction for time series through functional data analysis. Current methods for dimension reduction in functional data are functional principal component analysis and functional autoencoders, which are limited to linear mappings or scalar representations for the time series, which is inefficient. In real data applications, the nature of the data is much more complex. We propose a non-linear function-on-function approach, which consists of a functional encoder and a functional decoder, that uses continuous hidden layers consisting of continuous neurons to learn the structure inherent in functional data, which addresses the aforementioned concerns in the existing approaches. Our approach gives a low dimension latent representation by reducing the number of functional features as well as the timepoints at which the functions are observed. The effectiveness of the proposed model is demonstrated through multiple simulations and real data examples.
翻訳日:2023-01-03 16:22:46 公開日:2023-01-01
# 音響的特徴と次元的縮小に基づく教師なし音響シーンマッピング

Unsupervised Acoustic Scene Mapping Based on Acoustic Features and Dimensionality Reduction ( http://arxiv.org/abs/2301.00448v1 )

ライセンス: Link先を確認
Idan Cohen, Ofir Lindenbaum and Sharon Gannot(参考訳) 音響シーンマッピングの古典的手法は、マイク間の到着時間差(TDOA)を推定する必要がある。 残念ながら、TDOA推定は残響や付加音に非常に敏感である。 データの自然な構造を生かした教師なしのデータ駆動型アプローチを導入する。 この手法は,測定値から標準データ座標を学習するためのオフラインディープラーニングスキームであるlocal conformal autoencoder (loca) を基盤としている。 実験では,透過音源を音響エンクロージャ内の複数箇所で測定するマイクロホンアレイを試作した。 LOCAがマイクロホンの空間的位置と等尺性を持つ表現を学習していることを示す。 本手法の性能は, 実測シミュレーションを用いて評価し, 他の次元還元法との比較を行った。 さらに, 残響がLOCAの結果に及ぼす影響を評価し, かなりの堅牢性を示した。

Classical methods for acoustic scene mapping require the estimation of time difference of arrival (TDOA) between microphones. Unfortunately, TDOA estimation is very sensitive to reverberation and additive noise. We introduce an unsupervised data-driven approach that exploits the natural structure of the data. Our method builds upon local conformal autoencoders (LOCA) - an offline deep learning scheme for learning standardized data coordinates from measurements. Our experimental setup includes a microphone array that measures the transmitted sound source at multiple locations across the acoustic enclosure. We demonstrate that LOCA learns a representation that is isometric to the spatial locations of the microphones. The performance of our method is evaluated using a series of realistic simulations and compared with other dimensionality-reduction schemes. We further assess the influence of reverberation on the results of LOCA and show that it demonstrates considerable robustness.
翻訳日:2023-01-03 16:22:30 公開日:2023-01-01
# 離散グラフ構造に基づく分子グラフ生成のための条件拡散

Conditional Diffusion Based on Discrete Graph Structures for Molecular Graph Generation ( http://arxiv.org/abs/2301.00427v1 )

ライセンス: Link先を確認
Han Huang, Leilei Sun, Bowen Du, Weifeng Lv(参考訳) 分子グラフの基盤となる分布を学習し、高忠実度サンプルを生成することは、薬物発見と物質科学の基本的な研究課題である。 しかし、正確な分布のモデル化と急速な新規分子グラフの生成は依然として重要かつ困難な目標である。 これらの目的を達成するために,分子グラフ生成のための離散グラフ構造(CDGS)に基づく条件拡散モデルを提案する。 具体的には, 確率微分方程式 (sde) によるグラフ構造と固有特徴の両方に対する前方グラフ拡散過程を構築し, 離散グラフ構造を逆生成過程の条件として導出する。 本稿では,中間グラフ状態からグローバルコンテキストとローカルノードエッジ依存性を抽出する,ハイブリッドグラフ雑音予測モデルを提案する。 さらに,確率フローodeの半線形構造に基づいて,効率的なグラフサンプリングに常微分方程式 (ode) ソルバを用いる。 多様なデータセットの実験は、我々のフレームワークの有効性を検証する。 特に,提案手法は限られた数ステップで高品質な分子グラフを生成する。

Learning the underlying distribution of molecular graphs and generating high-fidelity samples is a fundamental research problem in drug discovery and material science. However, accurately modeling distribution and rapidly generating novel molecular graphs remain crucial and challenging goals. To accomplish these goals, we propose a novel Conditional Diffusion model based on discrete Graph Structures (CDGS) for molecular graph generation. Specifically, we construct a forward graph diffusion process on both graph structures and inherent features through stochastic differential equations (SDE) and derive discrete graph structures as the condition for reverse generative processes. We present a specialized hybrid graph noise prediction model that extracts the global context and the local node-edge dependency from intermediate graph states. We further utilize ordinary differential equation (ODE) solvers for efficient graph sampling, based on the semi-linear structure of the probability flow ODE. Experiments on diverse datasets validate the effectiveness of our framework. Particularly, the proposed method still generates high-quality molecular graphs in a limited number of steps.
翻訳日:2023-01-03 16:15:46 公開日:2023-01-01
# 物のインターネット:デジタルフットプリントはデバイスを識別する

Internet of Things: Digital Footprints Carry A Device Identity ( http://arxiv.org/abs/2301.00328v1 )

ライセンス: Link先を確認
Rajarshi Roy Chowdhury, Azam Che Idris and Pg Emeroylariffion Abas(参考訳) 技術的に先進的なデバイスの使用は、教育、自動化、医療など多くの領域でブームとなり、ほとんどのサービスはインターネット接続を必要としている。 ネットワークを確保するため、デバイス識別が重要な役割を果たす。 本稿では,モノのインターネット(IoT)と非IoTデバイスを識別し,個別のデバイスを識別するデバイスフィンガープリント(DFP)モデルを提案する。 連続する5つのパケットから4つの統計的特徴を抽出し、個々のデバイス指紋を生成する。 この手法はランダムフォレスト分類器と異なるデータセットを用いて評価されている。 実験の結果,iotデバイスと非iotデバイスの識別精度は最大99.8%,デバイス分類精度は97.6%であった。 これらのことから,提案手法は,セキュリティ侵害や不正アクセスに対して,ネットワークをより安全かつ堅牢にするためのオペレータ支援に有用であることが示唆された。

The usage of technologically advanced devices has seen a boom in many domains, including education, automation, and healthcare; with most of the services requiring Internet connectivity. To secure a network, device identification plays key role. In this paper, a device fingerprinting (DFP) model, which is able to distinguish between Internet of Things (IoT) and non-IoT devices, as well as uniquely identify individual devices, has been proposed. Four statistical features have been extracted from the consecutive five device-originated packets, to generate individual device fingerprints. The method has been evaluated using the Random Forest (RF) classifier and different datasets. Experimental results have shown that the proposed method achieves up to 99.8% accuracy in distinguishing between IoT and non-IoT devices and over 97.6% in classifying individual devices. These signify that the proposed method is useful in assisting operators in making their networks more secure and robust to security breaches and unauthorized access.
翻訳日:2023-01-03 16:04:57 公開日:2023-01-01
# 動的完全符号付きグラフに対する相関クラスタリングアルゴリズム : インデックスベースアプローチ

Correlation Clustering Algorithm for Dynamic Complete Signed Graphs: An Index-based Approach ( http://arxiv.org/abs/2301.00384v1 )

ライセンス: Link先を確認
Ali Shakiba(参考訳) 本稿では、相関クラスタリング問題を$O(m\times\left(2+ \alpha (G) \right)+n)$から$O(m+n)$に近似する複雑性を、$n$頂点と$m$正の辺を持つ完全符号グラフに対して$O(m+n)$に還元する。 提案手法は元のアルゴリズムと同じ出力を与え,エッジサインのフリップと頂点の加算/除去が許されるフルダイナミックな設定でアルゴリズムを実装できるようにする。 このインデックスの構築には、$o(m)$メモリと$o(m\times\alpha(g))$タイムがかかる。 また,近似アルゴリズムで用いられる非退化測度の構造的性質についても検討した。 理論的結果は、7つの実世界のグラフに関する完全な実験に付随する。 これらの結果は,インデックスベースアルゴリズムが非インデックス型アルゴリズムよりも平均で %34 の低下で優れていることを示している。

In this paper, we reduce the complexity of approximating the correlation clustering problem from $O(m\times\left( 2+ \alpha (G) \right)+n)$ to $O(m+n)$ for any given value of $\varepsilon$ for a complete signed graph with $n$ vertices and $m$ positive edges where $\alpha(G)$ is the arboricity of the graph. Our approach gives the same output as the original algorithm and makes it possible to implement the algorithm in a full dynamic setting where edge sign flipping and vertex addition/removal are allowed. Constructing this index costs $O(m)$ memory and $O(m\times\alpha(G))$ time. We also studied the structural properties of the non-agreement measure used in the approximation algorithm. The theoretical results are accompanied by a full set of experiments concerning seven real-world graphs. These results shows superiority of our index-based algorithm to the non-index one by a decrease of %34 in time on average.
翻訳日:2023-01-03 16:04:39 公開日:2023-01-01
# PiPAD: GPUによるパイプラインおよび並列動的GNNトレーニング

PiPAD: Pipelined and Parallel Dynamic GNN Training on GPUs ( http://arxiv.org/abs/2301.00391v1 )

ライセンス: Link先を確認
Chunyang Wang, Desen Sun, Yuebin Bai(参考訳) 動的グラフニューラルネットワーク(dgnn)はリンク予測やパンデミック予測といった様々な現実のアプリケーションに適用され、静的構造情報と動的グラフからの時間特性の両方を捉える。 時間に依存しないコンポーネントと非依存のコンポーネントを組み合わせることで、DGNNは相当な並列計算とデータ再利用の可能性を示すが、標準的なワングラフ・アット・タイムトレーニングパターンの下では、メモリアクセスの非効率性とデータ転送オーバーヘッドに悩まされる。 この課題に対処するために、GPUのエンドツーエンドパフォーマンス最適化のためのトレーニングフレームワークであるPiPAD、$\underline{\textbf{Pi}}pelined$と$\underline{\textb{PA}}rallel$$\underline{\textbf{D}}GNNを提案する。 アルゴリズムとランタイムレベルの両方から、PiPADはデータ組織から計算方法まで、全体的なトレーニングパラダイムを一様に再構築します。 複数のグラフスナップショットを並列に処理できるため、PiPADは不要なデータ転送を排除し、メモリアクセスの非効率を軽減し、全体的なパフォーマンスを改善する。 さまざまなデータセットに対する評価では、PiPADが3つの代表モデル上で最先端のDGNNフレームワークよりも1.22\times$-9.57\times$スピードアップを達成したことが示されている。

Dynamic Graph Neural Networks (DGNNs) have been broadly applied in various real-life applications, such as link prediction and pandemic forecast, to capture both static structural information and temporal characteristics from dynamic graphs. Combining both time-dependent and -independent components, DGNNs manifest substantial parallel computation and data reuse potentials, but suffer from severe memory access inefficiency and data transfer overhead under the canonical one-graph-at-a-time training pattern. To tackle the challenges, we propose PiPAD, a $\underline{\textbf{Pi}}pelined$ and $\underline{\textbf{PA}}rallel$ $\underline{\textbf{D}}GNN$ training framework for the end-to-end performance optimization on GPUs. From both the algorithm and runtime level, PiPAD holistically reconstructs the overall training paradigm from the data organization to computation manner. Capable of processing multiple graph snapshots in parallel, PiPAD eliminates the unnecessary data transmission and alleviates memory access inefficiency to improve the overall performance. Our evaluation across various datasets shows PiPAD achieves $1.22\times$-$9.57\times$ speedup over the state-of-the-art DGNN frameworks on three representative models.
翻訳日:2023-01-03 16:04:23 公開日:2023-01-01
# MIGPerf: マルチインスタンスGPU上でのディープラーニングトレーニングと推論ワークロードのための総合ベンチマーク

MIGPerf: A Comprehensive Benchmark for Deep Learning Training and Inference Workloads on Multi-Instance GPUs ( http://arxiv.org/abs/2301.00407v1 )

ライセンス: Link先を確認
Huaizheng Zhang, Yuanming Li, Wencong Xiao, Yizheng Huang, Xing Di, Jianxiong Yin, Simon See, Yong Luo, Chiew Tong Lau and Yang You(参考訳) A100のような新しいアーキテクチャGPUは、マルチインスタンスGPU(MIG)技術を備えており、GPUを複数の小さな独立したインスタンスに分割することができる。 この技術は、ディープラーニングトレーニングと推論ワークロードの両方をサポートするための柔軟性を提供するが、それを効率的に活用することは依然として難しい。 本研究の目的は,手作業によるベンチマークやチューニングの手間を省くため,MIGのより包括的で実用的なベンチマーク研究を行うことである。 このビジョンを達成するために,MIGPのベンチマーク研究を効率化するオープンソースツールであるMIGPerfを提案する。 著者らはMIGPerfを用いて、MIGのディープラーニングトレーニングと推論特性、GPU共有特性、MIGとのフレームワーク互換性など、一連の実験を行った。 これらの実験の結果は、ユーザがMIGを効果的に活用するための新たな洞察とガイダンスを提供し、MIG上でのハイブリッドトレーニングと推論ワークロードのオーケストレーションに関するさらなる研究の基礎を築いた。 コードと結果はhttps://github.com/MLSysOps/MIGProfilerで公開されている。 この作業はまだ進行中であり、さらなる結果が近く公開される予定である。

New architecture GPUs like A100 are now equipped with multi-instance GPU (MIG) technology, which allows the GPU to be partitioned into multiple small, isolated instances. This technology provides more flexibility for users to support both deep learning training and inference workloads, but efficiently utilizing it can still be challenging. The vision of this paper is to provide a more comprehensive and practical benchmark study for MIG in order to eliminate the need for tedious manual benchmarking and tuning efforts. To achieve this vision, the paper presents MIGPerf, an open-source tool that streamlines the benchmark study for MIG. Using MIGPerf, the authors conduct a series of experiments, including deep learning training and inference characterization on MIG, GPU sharing characterization, and framework compatibility with MIG. The results of these experiments provide new insights and guidance for users to effectively employ MIG, and lay the foundation for further research on the orchestration of hybrid training and inference workloads on MIGs. The code and results are released on https://github.com/MLSysOps/MIGProfiler. This work is still in progress and more results will be published soon.
翻訳日:2023-01-03 16:03:50 公開日:2023-01-01
# 熱進化による対流による多項式の流れと大域的最小化

Yuille-Poggio's Flow and Global Minimizer of polynomials through convexification by Heat Evolution ( http://arxiv.org/abs/2301.00326v1 )

ライセンス: Link先を確認
Qiao Wang(参考訳) 本稿では,多項式の凸化最小バージョンから開始する逆微分フロー様アルゴリズムの可能性について検討する。 我々は、実際にステクロフの正則化の累積版であるガウスフィルターを用いて熱進化凸化手法を適用する。 我々は1980年代にA.L. Yuille と T. Poggio によってコンピュータビジョン理論において提案された指紋理論、特にその指紋軌跡方程式を一般化し、スケールをまたいだ最小値の進化を特徴づける。 一方、seesaw 多項式 $p(x|s)$ を提案し、seesaw 微分方程式 $\frac{\partial p(x|s)}{\,ds}=-\frac{1}{p''(x)}$ を見つけ、大域最小化 $x^*(s)$ of $p(x|s)$ を特徴付ける。 基本的に、指紋 $\mathcal{FP}_2$ と $\mathcal{FP}_3$ of $p(x)$ は、それぞれ$\frac{\partial^2 p(x,t)}{\partial x^2}$ と $\frac{\partial^3 p(x,t)}{\partial x^3}$ の零点から成り立つ。 一方、様々な$s$は、大域最小化器の位置を$p(x|s)$で単調に条件付け、これらすべての位置はアセナブルゾーンを形成する。 これらの概念に基づいて、大域的最小化子 $x^*$ of $p(x)$ が、その凸化多項式 $p(x,t_0)$ の大域的最小化子から逆進化できることを証明する。 特に、クォート多項式と6次多項式について詳細な解析を行う。

In this paper, we investigate the possibility of the backward-differential-flow-like algorithm which starts from the minimum of convexification version of the polynomial. We apply the heat evolution convexification approach through Gaussian filtering, which is actually an accumulation version of Steklov's regularization. We generalize the fingerprint theory which was proposed in the theory of computer vision by A.L. Yuille and T. Poggio in 1980s, in particular their fingerprint trajectory equation, to characterize the evolution of minimizers across the scale. On the other hand, we propose the "seesaw" polynomials $p(x|s)$ and we find a seesaw differential equation $\frac{\partial p(x|s)}{\,ds}=-\frac{1}{p''(x)}$ to characterize the evolution of global minimizer $x^*(s)$ of $p(x|s)$ while varying $s$. Essentially, both the fingerprints $\mathcal{FP}_2$ and $\mathcal{FP}_3$ of $p(x)$, consisting of the zeros of $\frac{\partial^2 p(x,t)}{\partial x^2}$ and $\frac{\partial^3 p(x,t)}{\partial x^3}$, respectively, are independent of seesaw coefficient $s$, upon which we define the Confinement Zone and Escape Zone. Meanwhile, varying $s$ will monotonically condition the location of global minimizer of $p(x|s)$, and all these location form the Attainable Zone. Based on these concepts, we prove that the global minimizer $x^*$ of $p(x)$ can be inversely evolved from the global minimizer of its convexification polynomial $p(x,t_0)$ if and only if $x^*$ is included in the Escape Zone. In particular, we give detailed analysis for quartic and six degree polynomials.
翻訳日:2023-01-03 15:58:17 公開日:2023-01-01
# EvidenceCap: 明白なアイデンティティキャップによる信頼できる医療画像セグメンテーションを目指して

EvidenceCap: Towards trustworthy medical image segmentation via evidential identity cap ( http://arxiv.org/abs/2301.00349v1 )

ライセンス: Link先を確認
Ke Zou and Xuedong Yuan and Xiaojing Shen and Yidi Chen and Meng Wang and Rick Siow Mong Goh and Yong Liu and Huazhu Fu(参考訳) 医療イメージセグメンテーション(MIS)は、疾患の診断と治療効果評価を支援するために不可欠である。 MISの人工知能(AI)の進歩にもかかわらず、臨床医はその実用性に懐疑的であり、そのようなブラックボックスシステムの信頼性は低いが、この問題はアウト・オブ・ディストリビューション(OOD)データの低一般化によって悪化している。 有効な臨床利用に向けて,不確実性推定によりボックスを定量的に透明化するEvidenceCapという基礎モデルを提案する。 EvidenceCapは、不確実性とOODデータの領域でAIを可視化するだけでなく、MISの信頼性、堅牢性、計算効率を高める。 不確かさは主観論理理論を通じて明確にモデル化され、特徴から強い証拠を集める。 3つのセグメンテーションデータセットでEvidenceCapの有効性を示し,それを臨床に応用した。 私たちの研究は、臨床安全応用と説明可能なaiに光を当て、医療領域の信頼性に寄与します。

Medical image segmentation (MIS) is essential for supporting disease diagnosis and treatment effect assessment. Despite considerable advances in artificial intelligence (AI) for MIS, clinicians remain skeptical of its utility, maintaining low confidence in such black box systems, with this problem being exacerbated by low generalization for out-of-distribution (OOD) data. To move towards effective clinical utilization, we propose a foundation model named EvidenceCap, which makes the box transparent in a quantifiable way by uncertainty estimation. EvidenceCap not only makes AI visible in regions of uncertainty and OOD data, but also enhances the reliability, robustness, and computational efficiency of MIS. Uncertainty is modeled explicitly through subjective logic theory to gather strong evidence from features. We show the effectiveness of EvidenceCap in three segmentation datasets and apply it to the clinic. Our work sheds light on clinical safe applications and explainable AI, and can contribute towards trustworthiness in the medical domain.
翻訳日:2023-01-03 15:57:32 公開日:2023-01-01
# アンダーサンプルデータからの非視線イメージングのための曲率正規化

Curvature regularization for Non-line-of-sight Imaging from Under-sampled Data ( http://arxiv.org/abs/2301.00406v1 )

ライセンス: Link先を確認
Rui Ding, Juntian Ye, Qifeng Gao, Feihu Xu, Yuping Duan(参考訳) 非視線画像(NLOS)は、複数の回折反射の後に光で符号化された光子時間情報を用いて、視線で測定されたデータから3次元の隠れたシーンを再構築することを目的としている。 サンプリング済みの走査データは、高速な撮像を容易にすることができる。 しかし, 結果として生じる復元問題は, ノイズや歪みにより劣化する可能性が高く, 深刻な逆問題となる。 本稿では,曲率正規化に基づく2つの新しいnlos再構成モデル,すなわち,オブジェクト領域曲率正規化モデルと,デュアル(信号およびオブジェクト)領域曲率正規化モデルを提案する。 gpu実装によりさらに加速されるバックトラックステップ化規則(backtracking stepsize rule)を伴う乗算器の交互方向法(admm)に基づいて高速数値最適化アルゴリズムを開発した。 提案したアルゴリズムは, 合成データセットと実データセットの両方で評価し, 特に圧縮センシング環境で, 最先端性能を実現する。 私たちのコードとデータは、https://github.com/Duanlab123/CurvNLOSで利用可能です。

Non-line-of-sight (NLOS) imaging aims to reconstruct the three-dimensional hidden scenes from the data measured in the line-of-sight, which uses photon time-of-flight information encoded in light after multiple diffuse reflections. The under-sampled scanning data can facilitate fast imaging. However, the resulting reconstruction problem becomes a serious ill-posed inverse problem, the solution of which is of high possibility to be degraded due to noises and distortions. In this paper, we propose two novel NLOS reconstruction models based on curvature regularization, i.e., the object-domain curvature regularization model and the dual (i.e., signal and object)-domain curvature regularization model. Fast numerical optimization algorithms are developed relying on the alternating direction method of multipliers (ADMM) with the backtracking stepsize rule, which are further accelerated by GPU implementation. We evaluate the proposed algorithms on both synthetic and real datasets, which achieve state-of-the-art performance, especially in the compressed sensing setting. All our codes and data are available at https://github.com/Duanlab123/CurvNLOS.
翻訳日:2023-01-03 15:57:15 公開日:2023-01-01
# イサカ unityにおけるファジィ論理の統合ツール

Ithaca. A Tool for Integrating Fuzzy Logic in Unity ( http://arxiv.org/abs/2301.00377v1 )

ライセンス: Link先を確認
Alfonso Tejedor Moreno, Jose A. Piedra-Fernandez, Juan Jesus Ojeda-Castelo, Luis Iribarne(参考訳) Ithacaは、Unityゲームエンジン内で人工知能システムを開発するためのFzzy Logic (FL)プラグインである。 その目標は、高度な人工知能システムを構築するための直感的で自然な方法を提供することである。 このソフトウェアは、c\#フレームワークと推論システムを書くためのアプリケーションプログラミングインタフェース(api)とグラフィック開発とデバッグのための一連のツールによって構成されている。 さらに、ファジィ制御言語(fcl)パーサは、この標準で以前に定義されたシステムをインポートするために提供される。

Ithaca is a Fuzzy Logic (FL) plugin for developing artificial intelligence systems within the Unity game engine. Its goal is to provide an intuitive and natural way to build advanced artificial intelligence systems, making the implementation of such a system faster and more affordable. The software is made up by a C\# framework and an Application Programming Interface (API) for writing inference systems, as well as a set of tools for graphic development and debugging. Additionally, a Fuzzy Control Language (FCL) parser is provided in order to import systems previously defined using this standard.
翻訳日:2023-01-03 15:48:21 公開日:2023-01-01
# 非線形等式制約確率最適化のための高確率複素境界をもつ逐次準計画法

A Sequential Quadratic Programming Method with High Probability Complexity Bounds for Nonlinear Equality Constrained Stochastic Optimization ( http://arxiv.org/abs/2301.00477v1 )

ライセンス: Link先を確認
Albert S. Berahas, Miaolan Xie and Baoyu Zhou(参考訳) 非線形等式制約確率最適化問題の解法としてステップ探索逐次2次計画法を提案する。 制約関数の値と微分は可能であると仮定されるが、目的関数とその関連する微分の確率近似のみは、確率的ゼロ次および一階のオラクルによって計算できる。 合理的な仮定の下では、一階定常性に近似するアルゴリズムの反復複雑性に縛られる高い確率が導かれる。 標準非線形最適化試験問題の数値計算結果は,提案手法の利点と限界を示している。

A step-search sequential quadratic programming method is proposed for solving nonlinear equality constrained stochastic optimization problems. It is assumed that constraint function values and derivatives are available, but only stochastic approximations of the objective function and its associated derivatives can be computed via inexact probabilistic zeroth- and first-order oracles. Under reasonable assumptions, a high-probability bound on the iteration complexity of the algorithm to approximate first-order stationarity is derived. Numerical results on standard nonlinear optimization test problems illustrate the advantages and limitations of our proposed method.
翻訳日:2023-01-03 15:46:38 公開日:2023-01-01
# ニューラルネットワークのプルーニングが一般化に与える影響に関する理論的評価

Theoretical Characterization of How Neural Network Pruning Affects its Generalization ( http://arxiv.org/abs/2301.00335v1 )

ライセンス: Link先を確認
Hongru Yang, Yingbin Liang, Xiaojie Guo, Lingfei Wu, Zhangyang Wang(参考訳) ニューラルネットワークにプルーニング・アット・初期化法を適用し、スパシファイドネットワークを訓練することで、元の高密度モデルの試験性能を維持するだけでなく、時として一般化性能をわずかに向上させることができる。 このような実験的な観測の理論的理解はまだ開発されていない。 この研究は、異なるプルーニング分数がモデルの勾配降下ダイナミクスと一般化にどのように影響するかを研究する最初の試みである。 具体的には,初期化の速度によってネットワークがランダムに刈り取られる過パラメータ2層ニューラルネットワークの分類タスクについて検討する。 プルーニング率が一定のしきい値以下であれば,勾配降下がトレーニング損失をゼロに誘導し,ネットワークの一般化性能が向上することが示された。 より驚くべきことに、プルーニング分数が大きくなるにつれて、一般化境界はより良くなる。 この正の結果を補完するために、この研究はさらに負の結果を示す: 勾配降下が(ノイズを暗記することで)トレーニング損失をゼロに導くことができるような大きなプルーニング率が存在するが、一般化性能はランダムな推測よりも優れていない。 このことは、プルーニングが特徴学習プロセスを変え、プルーニングニューラルネットワークの性能低下につながることを示唆している。 我々の知る限り、これはプルーニングニューラルネットワークの‘textbf{first}一般化結果であり、プルーニングがニューラルネットワークの一般化を改善することを示唆している。

It has been observed in practice that applying pruning-at-initialization methods to neural networks and training the sparsified networks can not only retain the testing performance of the original dense models, but also sometimes even slightly boost the generalization performance. Theoretical understanding for such experimental observations are yet to be developed. This work makes the first attempt to study how different pruning fractions affect the model's gradient descent dynamics and generalization. Specifically, this work considers a classification task for overparameterized two-layer neural networks, where the network is randomly pruned according to different rates at the initialization. It is shown that as long as the pruning fraction is below a certain threshold, gradient descent can drive the training loss toward zero and the network exhibits good generalization performance. More surprisingly, the generalization bound gets better as the pruning fraction gets larger. To complement this positive result, this work further shows a negative result: there exists a large pruning fraction such that while gradient descent is still able to drive the training loss toward zero (by memorizing noise), the generalization performance is no better than random guessing. This further suggests that pruning can change the feature learning process, which leads to the performance drop of the pruned neural network. Up to our knowledge, this is the \textbf{first} generalization result for pruned neural networks, suggesting that pruning can improve the neural network's generalization.
翻訳日:2023-01-03 15:40:15 公開日:2023-01-01
# 未知のシーングラフ生成のためのスキュークラスバランス再重み付け

Skew Class-balanced Re-weighting for Unbiased Scene Graph Generation ( http://arxiv.org/abs/2301.00351v1 )

ライセンス: Link先を確認
Haeyong Kang and Chang D. Yoo(参考訳) スキュークラスバランス再重み付け (SCR) と呼ばれる非バイアス付きシーングラフ生成 (SGG) アルゴリズムを提案し, 長期分布による非バイアス付き述語予測について検討した。 以前の研究は主に少数派述語予測の劣化するパフォーマンスを緩和することに焦点を当てており、劇的なリコールスコア、すなわち大多数述語予測のパフォーマンスを失う。 限られたSGGデータセットにおける多数派と少数派の述語のパフォーマンスのトレードオフを、まだ正しく分析していない。 本稿では、この問題を緩和するために、非バイアスSGGモデルに対してスキュークラスバランス再重み付け(SCR)損失関数を検討する。 バイアスド述語予測のゆがみを利用して、scrは目標述語重み係数を推定し、バイアスド述語にさらに重み付けし、多数派述語と少数派述語との間のより良いトレードオフを図る。 標準のVisual GenomeデータセットとOpen Image V4 \&V6で実施された大規模な実験は、従来のSGGモデルによるSCRの性能と一般性を示している。

An unbiased scene graph generation (SGG) algorithm referred to as Skew Class-balanced Re-weighting (SCR) is proposed for considering the unbiased predicate prediction caused by the long-tailed distribution. The prior works focus mainly on alleviating the deteriorating performances of the minority predicate predictions, showing drastic dropping recall scores, i.e., losing the majority predicate performances. It has not yet correctly analyzed the trade-off between majority and minority predicate performances in the limited SGG datasets. In this paper, to alleviate the issue, the Skew Class-balanced Re-weighting (SCR) loss function is considered for the unbiased SGG models. Leveraged by the skewness of biased predicate predictions, the SCR estimates the target predicate weight coefficient and then re-weights more to the biased predicates for better trading-off between the majority predicates and the minority ones. Extensive experiments conducted on the standard Visual Genome dataset and Open Image V4 \& V6 show the performances and generality of the SCR with the traditional SGG models.
翻訳日:2023-01-03 15:39:49 公開日:2023-01-01
# FedICT: マルチアクセスエッジコンピューティングのためのフェデレーションマルチタスク蒸留

FedICT: Federated Multi-task Distillation for Multi-access Edge Computing ( http://arxiv.org/abs/2301.00389v1 )

ライセンス: Link先を確認
Zhiyuan Wu, Sheng Sun, Yuwei Wang, Min Liu, Xuefeng Jiang, Bo Gao(参考訳) モバイルデバイスのインテリジェントサービスとプライバシ保護に対する関心が高まり、マルチアクセスエッジコンピューティング(MEC)におけるフェデレーション学習の広範な適用がもたらされた。 多様なユーザー行動は、異なるデバイス上で異種機械学習(ml)モデルを持つパーソナライズされたサービスを呼び出す。 FMTL(Federated Multi-task Learning)は、異なるデバイスに対して、関連するがパーソナライズされたMLモデルをトレーニングするために提案されている。 fmtlに知識蒸留を導入することで、クライアント間の効率的なコミュニケーションとモデルの不均一性を同時に実現することができる。 このジレンマに対処するため,FedICT (Federated MultI-task Distillation for Multi- Access Edge CompuTing) を提案する。 クライアントとサーバ間の双方向蒸留プロセスにおいて,FedICTは,クライアント側ローカルモデルの分岐最適化方向からクライアントのドリフトを緩和しつつ,マルチタスククライアントの実現を目指す。 具体的には、Federated Prior Knowledge Distillation (FPKD)とLocal Knowledge Adjustment (LKA)が含まれる。 FPKDは、ローカルデータ配信の事前知識を導入して、クライアントのローカルデータの適合性を強化するために提案されている。 さらに、LKAはサーバの蒸留損失を補正するために提案され、転送されたローカル知識は一般化された表現とよりよく一致する。 3つのデータセットの実験により、FedICTはさまざまなデータおよびモデルアーキテクチャ設定のベンチマークを著しく上回り、FedAvgと比較して1.2%以下のトレーニング通信オーバーヘッドで精度を向上し、FedGKTと比較して75%以下のトレーニング通信ラウンドを実現している。

The growing interest in intelligent services and privacy protection for mobile devices has given rise to the widespread application of federated learning in Multi-access Edge Computing (MEC). Diverse user behaviors call for personalized services with heterogeneous Machine Learning (ML) models on different devices. Federated Multi-task Learning (FMTL) is proposed to train related but personalized ML models for different devices, whereas previous works suffer from excessive communication overhead during training and neglect the model heterogeneity among devices in MEC. Introducing knowledge distillation into FMTL can simultaneously enable efficient communication and model heterogeneity among clients, whereas existing methods rely on a public dataset, which is impractical in reality. To tackle this dilemma, Federated MultI-task Distillation for Multi-access Edge CompuTing (FedICT) is proposed. FedICT direct local-global knowledge aloof during bi-directional distillation processes between clients and the server, aiming to enable multi-task clients while alleviating client drift derived from divergent optimization directions of client-side local models. Specifically, FedICT includes Federated Prior Knowledge Distillation (FPKD) and Local Knowledge Adjustment (LKA). FPKD is proposed to reinforce the clients' fitting of local data by introducing prior knowledge of local data distributions. Moreover, LKA is proposed to correct the distillation loss of the server, making the transferred local knowledge better match the generalized representation. Experiments on three datasets show that FedICT significantly outperforms all compared benchmarks in various data heterogeneous and model architecture settings, achieving improved accuracy with less than 1.2% training communication overhead compared with FedAvg and no more than 75% training communication round compared with FedGKT.
翻訳日:2023-01-03 15:39:27 公開日:2023-01-01
# 軌道類似度測定の原理的分布的アプローチ

A principled distributional approach to trajectory similarity measurement ( http://arxiv.org/abs/2301.00393v1 )

ライセンス: Link先を確認
Yufan Wang, Kai Ming Ting, Yuanyi Shang(参考訳) 既存のトラジェクトリの測度と表現は、2つの長年の根本的な欠点、すなわち、それらは計算的に高価であり、距離関数の「特異性」の性質を保証できない:dist(X,Y) = 0 if and only if X=Y, where $X$ and $Y$ are two trajectories。 本稿では,2つのトラジェクトリ間の類似度を分布カーネルを用いて測定し,これらの欠点に対処する手法を提案する。 カーネル平均埋め込みに基づく原理的なアプローチであり、強力な理論的基盤を持つ。 既存のアプローチと比較して3つの特徴がある。 1) 分布カーネルは, 軌道表現および類似度測定において, 初めて用いられる。 2)既存の軌道のほとんどの距離で使われている点間距離に依存しない。 3)既存の学習法や深層学習法とは異なり、学習は不要である。 この新しいアプローチの一般性を3つの応用例で示す。 a)軌道異常検出。 (b)異常なサブトラジェリー検出、及び (c)軌道パターンマイニング。 我々は分布カーネルが持つものを特定する。 (i)一意なデータ依存特性と上記の一意性は、その優れたタスク固有の性能をもたらす重要な要因である。 (ii)既存の距離測度よりはるかに高速な実行順序。

Existing measures and representations for trajectories have two longstanding fundamental shortcomings, i.e., they are computationally expensive and they can not guarantee the `uniqueness' property of a distance function: dist(X,Y) = 0 if and only if X=Y, where $X$ and $Y$ are two trajectories. This paper proposes a simple yet powerful way to represent trajectories and measure the similarity between two trajectories using a distributional kernel to address these shortcomings. It is a principled approach based on kernel mean embedding which has a strong theoretical underpinning. It has three distinctive features in comparison with existing approaches. (1) A distributional kernel is used for the very first time for trajectory representation and similarity measurement. (2) It does not rely on point-to-point distances which are used in most existing distances for trajectories. (3) It requires no learning, unlike existing learning and deep learning approaches. We show the generality of this new approach in three applications: (a) trajectory anomaly detection, (b) anomalous sub-trajectory detection, and (c) trajectory pattern mining. We identify that the distributional kernel has (i) a unique data-dependent property and the above uniqueness property which are the key factors that lead to its superior task-specific performance; and (ii) runtime orders of magnitude faster than existing distance measures.
翻訳日:2023-01-03 15:38:56 公開日:2023-01-01
# サイバーセキュリティにおける異常検出のためのdeep correlation-aware kernelized autoencoder

Deep Correlation-Aware Kernelized Autoencoders for Anomaly Detection in Cybersecurity ( http://arxiv.org/abs/2301.00462v1 )

ライセンス: Link先を確認
Padmaksha Roy(参考訳) 潜在空間における教師なし学習に基づく異常検出は、正規データからの異常の判別が高次元空間では困難になるため、重要になっている。 潜在空間における異常を検出するための密度推定法と距離法の両方が過去に研究されてきた。 これらの手法は、入力データの貴重な特性を潜在空間に保持することが、テストデータのより良い再構築に役立つことを証明している。 さらに、現実のセンサーデータは自然界において歪んで非ガウス的であり、平均に基づく推定器は歪んだデータには信頼できない。 また、再構成誤差に基づく異常検出手法は、特徴空間における有用な相関情報を考慮せず、トレーニング分布から逸脱した場合に正確にデータを再構成することができないユークリッド距離に依存する。 本研究では,レコンストラクション誤りに基づくオートエンコーダの限界に対処し,マハラノビス距離(md)の頑健な形式を利用して潜在次元相関を計測し,近値と遠値の両方の異常を効果的に検出するカーネル化オートエンコーダを提案する。 このハイブリッド損失は、低次元潜在空間における原データの有用な相関情報を保持しつつ、潜伏空間のエントロピーを最大化することにより、潜伏次元と高次元先行データ空間との間の相互情報ゲインを最大化する原理によって支援される。 多目的関数は2つの目標を持つ - 頑健なMD距離の形で潜在特徴空間内の相関情報を計測し、先行空間と潜時空間間の相互情報を最大化することにより、潜時空間内の原データ空間からの有用な相関情報を同時に保持しようとする。

Unsupervised learning-based anomaly detection in latent space has gained importance since discriminating anomalies from normal data becomes difficult in high-dimensional space. Both density estimation and distance-based methods to detect anomalies in latent space have been explored in the past. These methods prove that retaining valuable properties of input data in latent space helps in the better reconstruction of test data. Moreover, real-world sensor data is skewed and non-Gaussian in nature, making mean-based estimators unreliable for skewed data. Again, anomaly detection methods based on reconstruction error rely on Euclidean distance, which does not consider useful correlation information in the feature space and also fails to accurately reconstruct the data when it deviates from the training distribution. In this work, we address the limitations of reconstruction error-based autoencoders and propose a kernelized autoencoder that leverages a robust form of Mahalanobis distance (MD) to measure latent dimension correlation to effectively detect both near and far anomalies. This hybrid loss is aided by the principle of maximizing the mutual information gain between the latent dimension and the high-dimensional prior data space by maximizing the entropy of the latent space while preserving useful correlation information of the original data in the low-dimensional latent space. The multi-objective function has two goals -- it measures correlation information in the latent feature space in the form of robust MD distance and simultaneously tries to preserve useful correlation information from the original data space in the latent space by maximizing mutual information between the prior and latent space.
翻訳日:2023-01-03 15:38:38 公開日:2023-01-01
# クライアント専用クラスによるフェデレーション学習

Federated Learning with Client-Exclusive Classes ( http://arxiv.org/abs/2301.00489v1 )

ライセンス: Link先を確認
Jiayun Zhang, Xiyuan Zhang, Xinyang Zhang, Dezhi Hong, Rajesh K. Gupta, Jingbo Shang(参考訳) 既存のフェデレーション分類アルゴリズムは、通常、各クライアントのローカルアノテーションが同じクラスのセットをカバーすると仮定する。 本稿では,このような仮定を解き明かし,より汎用的で実用的な非iid設定に焦点をあて,各クライアントが非識別的かつ無関係なクラス集合(すなわち,クライアント排他的クラス)で作業できるようにし,クライアントがそれらの統合を識別するためのグローバル分類モデルを構築することを目的とする。 集約後のドリフトを回避するために、異なるクライアントが同じ潜在空間で動作していることを保証するには、どうすればよいのか? クラスは自然言語(すなわちクラス名)で記述可能であり、これらの名称は一般的にすべての関係者と共有することが安全である。 そこで,データ表現とクラス表現のマッチングプロセスとして分類問題を定式化し,分類モデルをデータエンコーダとラベルエンコーダに分解する。 自然言語クラス名を共通基盤として利用し,ラベルエンコーダのクラス表現をアンカーする。 各イテレーションでは、ラベルエンコーダがクラス表現を更新し、マッチングを通じてデータ表現を規制する。 さらに,各ラウンドで更新されたクラス表現を用いて,類似性に応じてデータサンプルをアノテートし,局所モデルに対する知識を抽出する。 4つの実世界のデータセットに対する大規模な実験により、提案手法は、非IIDデータを用いて学習するために設計された様々な古典的および最先端のフェデレーション学習手法より優れていることが示された。

Existing federated classification algorithms typically assume the local annotations at every client cover the same set of classes. In this paper, we aim to lift such an assumption and focus on a more general yet practical non-IID setting where every client can work on non-identical and even disjoint sets of classes (i.e., client-exclusive classes), and the clients have a common goal which is to build a global classification model to identify the union of these classes. Such heterogeneity in client class sets poses a new challenge: how to ensure different clients are operating in the same latent space so as to avoid the drift after aggregation? We observe that the classes can be described in natural languages (i.e., class names) and these names are typically safe to share with all parties. Thus, we formulate the classification problem as a matching process between data representations and class representations and break the classification model into a data encoder and a label encoder. We leverage the natural-language class names as the common ground to anchor the class representations in the label encoder. In each iteration, the label encoder updates the class representations and regulates the data representations through matching. We further use the updated class representations at each round to annotate data samples for locally-unaware classes according to similarity and distill knowledge to local models. Extensive experiments on four real-world datasets show that the proposed method can outperform various classical and state-of-the-art federated learning methods designed for learning with non-IID data.
翻訳日:2023-01-03 15:38:10 公開日:2023-01-01
# 学習可能なバイアスを有する疎活性化広帯域ニューラルネットワークのシャープ解析

Sharper analysis of sparsely activated wide neural networks with trainable biases ( http://arxiv.org/abs/2301.00327v1 )

ライセンス: Link先を確認
Hongru Yang, Ziyu Jiang, Ruizhe Zhang, Zhangyang Wang, Yingbin Liang(参考訳) 本研究は,ニューラルタンジェントカーネル(NTK)の勾配勾配による一層超過パラメータ化ReLUネットワークのトレーニング研究であり,ネットワークのバイアスは以前の研究と異なり,ゼロではなく定数に初期化される。 この研究の最初の成果は、ネットワークの勾配降下ダイナミクスの収束を特徴付けるものである。 驚くべきことに、スパーシフィケーション後のネットワークは、元のネットワークと同じくらい高速に収束できることが示されている。 先行研究に対する貢献は,我々の設定下での勾配降下によってバイアスが更新されるだけでなく,ネットワークのntkとの密接性を確保するために必要な幅が向上するように,より詳細な解析が行われることである。 第2に、トレーニング後のネットワークの一般化が提供される。 スパルシリティ依存局所ラデマッハ複雑性と(対数因子まで)先行分析に合致する一般化を生じさせる幅スパーシティ依存性が提示される。 副産物として、バイアス初期化がゼロであると選択された場合、幅要求は浅層ネットワークの一般化に対する以前の境界を改善する。 最後に、一般化境界は極限 NTK の最小固有値と以前の研究の限界値に依存するため、この研究は制限 NTK の最小固有値をさらに研究する。 驚くべきことに、トレーニング可能なバイアスが必要とされることは示されていないが、トレーニング可能なバイアスは、NTKの最小固有値のより詳細な分析を行うことができる優れたデータ依存領域を特定するのに役立つ。

This work studies training one-hidden-layer overparameterized ReLU networks via gradient descent in the neural tangent kernel (NTK) regime, where, differently from the previous works, the networks' biases are trainable and are initialized to some constant rather than zero. The first set of results of this work characterize the convergence of the network's gradient descent dynamics. Surprisingly, it is shown that the network after sparsification can achieve as fast convergence as the original network. The contribution over previous work is that not only the bias is allowed to be updated by gradient descent under our setting but also a finer analysis is given such that the required width to ensure the network's closeness to its NTK is improved. Secondly, the networks' generalization bound after training is provided. A width-sparsity dependence is presented which yields sparsity-dependent localized Rademacher complexity and a generalization bound matching previous analysis (up to logarithmic factors). As a by-product, if the bias initialization is chosen to be zero, the width requirement improves the previous bound for the shallow networks' generalization. Lastly, since the generalization bound has dependence on the smallest eigenvalue of the limiting NTK and the bounds from previous works yield vacuous generalization, this work further studies the least eigenvalue of the limiting NTK. Surprisingly, while it is not shown that trainable biases are necessary, trainable bias helps to identify a nice data-dependent region where a much finer analysis of the NTK's smallest eigenvalue can be conducted, which leads to a much sharper lower bound than the previously known worst-case bound and, consequently, a non-vacuous generalization bound.
翻訳日:2023-01-03 15:28:12 公開日:2023-01-01
# 統一多粒度アライメントを用いたロバスト領域適応オブジェクト検出

Robust Domain Adaptive Object Detection with Unified Multi-Granularity Alignment ( http://arxiv.org/abs/2301.00371v1 )

ライセンス: Link先を確認
Libo Zhang, Wenzhang Zhou, Heng Fan, Tiejian Luo, and Haibin Ling(参考訳) ドメイン適応検出は、ターゲットドメイン上の検出器の一般化を改善することを目的としている。 2つのドメイン間の特徴分布の差を減らすために、近年のアプローチでは、逆学習によって異なる粒度で特徴のアライメントを通してドメイン適応を実現する。 しかし、複数の粒度と異なる特徴の関係を並べて無視し、検出を劣化させる。 これに対処するため,ドメイン不変な特徴学習のためのMGA(Multiple-granularity alignment)に基づく検出フレームワークを導入する。 鍵となるのは、ピクセルレベル、インスタンスレベル、カテゴリレベルなど、さまざまな粒度の依存関係を同時にエンコードして、2つのドメインをアライメントすることだ。 具体的には,画素レベルの特徴をベースとして,まずOmni-scale gated fusion (OSGF) モジュールを開発し,大規模コンボリューションを持つインスタンスの識別表現を集約し,堅牢なマルチスケール検出を実現する。 さらに、複数の粒度判別器を導入し、ソースまたはターゲットドメイン、サンプルの粒度が異なる場所を特定する。 注意すべき点として、MGAは異なるカテゴリのインスタンス識別性を利用するだけでなく、2つのドメイン間のカテゴリ整合性を利用して検出する。 さらに,モデル更新のためのモデルアセスメントを探索し,擬似ラベルを改善し,局所的不一致を緩和し,検出ロバスト性を高める適応型指数的移動平均(aema)戦略を提案する。 複数のドメイン適応シナリオに関する大規模な実験は、FCOSやFaster R-CNN検出器の他のアプローチよりもMGAの方が優れていることを検証している。 コードはhttps://github.com/tiankongzhang/MGAでリリースされる。

Domain adaptive detection aims to improve the generalization of detectors on target domain. To reduce discrepancy in feature distributions between two domains, recent approaches achieve domain adaption through feature alignment in different granularities via adversarial learning. However, they neglect the relationship between multiple granularities and different features in alignment, degrading detection. Addressing this, we introduce a unified multi-granularity alignment (MGA)-based detection framework for domain-invariant feature learning. The key is to encode the dependencies across different granularities including pixel-, instance-, and category-levels simultaneously to align two domains. Specifically, based on pixel-level features, we first develop an omni-scale gated fusion (OSGF) module to aggregate discriminative representations of instances with scale-aware convolutions, leading to robust multi-scale detection. Besides, we introduce multi-granularity discriminators to identify where, either source or target domains, different granularities of samples come from. Note that, MGA not only leverages instance discriminability in different categories but also exploits category consistency between two domains for detection. Furthermore, we present an adaptive exponential moving average (AEMA) strategy that explores model assessments for model update to improve pseudo labels and alleviate local misalignment problem, boosting detection robustness. Extensive experiments on multiple domain adaption scenarios validate the superiority of MGA over other approaches on FCOS and Faster R-CNN detectors. Code will be released at https://github.com/tiankongzhang/MGA.
翻訳日:2023-01-03 15:11:25 公開日:2023-01-01
# 人間の解析のためのディープラーニング技術:調査と展望

Deep Learning Technique for Human Parsing: A Survey and Outlook ( http://arxiv.org/abs/2301.00394v1 )

ライセンス: Link先を確認
Lu Yang, Wenhe Jia, Shan Li, Qing Song(参考訳) human parseは、人間を画像やビデオで複数のピクセルレベルのセマンティックな部分に分割することを目的としている。 過去10年間で、コンピュータビジョンコミュニティの関心が大幅に高まり、セキュリティ監視からソーシャルメディア、ビジュアル特殊効果に至るまで、さまざまな実用的なアプリケーションで利用されている。 ディープラーニングに基づく人間解析ソリューションは目覚ましい成果を上げてきたが、多くの重要な概念、既存の課題、そして潜在的研究の方向性はいまだに混乱している。 本稿では,それぞれのタスク設定,背景概念,関連する問題とアプリケーション,代表文献,データセットを紹介することにより,3つのコアサブタスクを包括的にレビューする。 また,ベンチマークデータセットにおけるレビュー法の性能比較を行った。 さらに,コミュニティの持続可能な発展を促進するために,トランスフォーマティブベースのヒューマンパースフレームワークを策定し,ユニバーサル,簡潔,拡張可能なソリューションを通じたフォローアップ研究のための高性能ベースラインを提供する。 最後に,この分野における未調査の課題を指摘し,今後の研究に向けた新たな方向性を提案する。 また、定期的に更新されたプロジェクトページも提供し、この高速開発分野における最近の開発を継続的に追跡しています。

Human parsing aims to partition humans in image or video into multiple pixel-level semantic parts. In the last decade, it has gained significantly increased interest in the computer vision community and has been utilized in a broad range of practical applications, from security monitoring, to social media, to visual special effects, just to name a few. Although deep learning-based human parsing solutions have made remarkable achievements, many important concepts, existing challenges, and potential research directions are still confusing. In this survey, we comprehensively review three core sub-tasks: single human parsing, multiple human parsing, and video human parsing, by introducing their respective task settings, background concepts, relevant problems and applications, representative literature, and datasets. We also present quantitative performance comparisons of the reviewed methods on benchmark datasets. Additionally, to promote sustainable development of the community, we put forward a transformer-based human parsing framework, providing a high-performance baseline for follow-up research through universal, concise, and extensible solutions. Finally, we point out a set of under-investigated open issues in this field and suggest new directions for future study. We also provide a regularly updated project page, to continuously track recent developments in this fast-advancing field: https://github.com/soeaver/awesome-human-parsing.
翻訳日:2023-01-03 15:10:57 公開日:2023-01-01
# 分布駆動型ニューラルラミアンスフィールドによる動的シーンの切り離し可能な新規ビュー合成

Detachable Novel Views Synthesis of Dynamic Scenes Using Distribution-Driven Neural Radiance Fields ( http://arxiv.org/abs/2301.00411v1 )

ライセンス: Link先を確認
Boyu Zhang, Wenbo Xu, Zheng Zhu, Guan Huang(参考訳) カジュアルなモノクラービデオから現実のダイナミックなシーンを表現し、合成することは、長年の課題である。 既存の解は通常動的シーンにアプローチし、幾何技法を適用したり、シーン全体の背景分布や光線次元上の透過性を考慮せずに隣り合う複数のフレーム間の時間情報を利用する。 我々のアプローチでは、$\textbf{D}$istribution-$\textbf{D}$riven neural radiance fieldsは高品質なビュー合成を提供し、$\textbf{D}$etach the background from the whole $\textbf{D}$ynamic scene, which is $\text{D}^4$NeRF。 具体的には、静的な背景のシーン分布をキャプチャする神経表現と、動的オブジェクトを表現するために6D入力のNeRFを用いる。 各光線サンプルには、静的および動的成分にある透過率を示す追加の咬合重みが与えられる。 我々は、公共のダイナミックシーンと、自動運転データセットから取得した都市運転シーンについて、$\text{D}^4$NeRFを評価した。 広範な実験により,我々のアプローチは,テクスチャの詳細と動き領域をレンダリングする従来の手法を上回り,クリーンな静的背景を生成する。 私たちのコードはhttps://github.com/luciferbobo/d4nerfでリリースします。

Representing and synthesizing novel views in real-world dynamic scenes from casual monocular videos is a long-standing problem. Existing solutions typically approach dynamic scenes by applying geometry techniques or utilizing temporal information between several adjacent frames without considering the underlying background distribution in the entire scene or the transmittance over the ray dimension, limiting their performance on static and occlusion areas. Our approach $\textbf{D}$istribution-$\textbf{D}$riven neural radiance fields offers high-quality view synthesis and a 3D solution to $\textbf{D}$etach the background from the entire $\textbf{D}$ynamic scene, which is called $\text{D}^4$NeRF. Specifically, it employs a neural representation to capture the scene distribution in the static background and a 6D-input NeRF to represent dynamic objects, respectively. Each ray sample is given an additional occlusion weight to indicate the transmittance lying in the static and dynamic components. We evaluate $\text{D}^4$NeRF on public dynamic scenes and our urban driving scenes acquired from an autonomous-driving dataset. Extensive experiments demonstrate that our approach outperforms previous methods in rendering texture details and motion areas while also producing a clean static background. Our code will be released at https://github.com/Luciferbobo/D4NeRF.
翻訳日:2023-01-03 15:10:34 公開日:2023-01-01
# GoogLe2Net: 畳み込みによるトランスバース

GoogLe2Net: Going Transverse with Convolutions ( http://arxiv.org/abs/2301.00424v1 )

ライセンス: Link先を確認
Yuanpeng He(参考訳) 特徴情報の効果的取得は視覚タスクにおいて非常に重要である。 畳み込みニューラルネットワーク(CNN)の開発により、残差接続や多重スケールといった概念は、多様なディープラーニングビジョンタスクにおける連続的なパフォーマンス向上を促進する。 しかし、既存の手法はこれらの有効なアイデアを有機的に組み合わせるものではない。 本稿では,新しいcnnアーキテクチャであるgoogle2netを提案する。resfri(resfri)またはsplit-resfri(split-resfri)を使用して,隣接する畳み込み層群間の横断通路を作成し,後者の処理部への機能フローを可能にし,プロセス情報を改善するための残留接続を持つ。 我々のGoogLe2Netは、畳み込みレイヤのグループによってキャプチャされた情報を再利用し、きめ細かいレベルでマルチスケールの機能を表現し、画像分類の性能を向上させる。 そして、私たちが提案したインセプションは、移行コストなしでインセプションライクなネットワークに直接埋め込むことができます。 さらに、CIFAR10 (97.94%)、CIFAR100 (85.91%)、Tiny Imagenet (70.54%)といった一般的な視覚データセットに基づく実験では、他の近代モデルと比較して画像分類タスクのより良い結果が得られる。

Capturing feature information effectively is of great importance in vision tasks. With the development of convolutional neural networks (CNNs), concepts like residual connection and multiple scales promote continual performance gains on diverse deep learning vision tasks. However, the existing methods do not organically combined advantages of these valid ideas. In this paper, we propose a novel CNN architecture called GoogLe2Net, it consists of residual feature-reutilization inceptions (ResFRI) or split residual feature-reutilization inceptions (Split-ResFRI) which create transverse passages between adjacent groups of convolutional layers to enable features flow to latter processing branches and possess residual connections to better process information. Our GoogLe2Net is able to reutilize information captured by foregoing groups of convolutional layers and express multi-scale features at a fine-grained level, which improves performances in image classification. And the inception we proposed could be embedded into inception-like networks directly without any migration costs. Moreover, in experiments based on popular vision datasets, such as CIFAR10 (97.94%), CIFAR100 (85.91%) and Tiny Imagenet (70.54%), we obtain better results on image classification task compared with other modern models.
翻訳日:2023-01-03 15:10:06 公開日:2023-01-01
# 質問生成モデルにおける入力フォームの冗長性

Inflected Forms Are Redundant in Question Generation Models ( http://arxiv.org/abs/2301.00397v1 )

ライセンス: Link先を確認
Xingwu Sun, Hongyin Tang, chengzhong Xu(参考訳) エンコーダ-デコーダフレームワークを備えたニューラルモデルは、質問生成(QG)の実現可能なソリューションを提供する。 しかし、モデル語彙を解析した結果、現在のモデル(rnnベースとプレトレーニングベースの両方)は23\%以上の屈折形式を持つことがわかった。 その結果、エンコーダは入力されたフォームに対して別の埋め込みを生成し、トレーニングデータとパラメータの浪費につながる。 さらに悪いことに、復号化においてこれらのモデルは無関係な雑音に弱いため、計算コストが高い。 本稿では,単語変換を融合させることによりQGの性能を向上させる手法を提案する。 まず、エンコーダの入力から入力された単語を識別し、それを根語に置き換えることで、エンコーダは繰り返し根語にもっと注意を払うことができる。 次に、qgをエンコード・デコーダフレームワークにおける以下の動作の組み合わせとして適用することを提案する。 質問語の生成、ソースシーケンスからの単語のコピー、あるいはワード変換型の生成。 このような拡張は、デコーダ内の予測語のサイズとノイズを大幅に減らすことができる。 改良版を得るために、典型的なRNNベースモデルと \textsc{UniLM} にアプローチを適用する。 我々は、SQuADおよびMS MARCOデータセットに関する広範な実験を行う。 実験の結果,改良版はBLEU,ROUGE-L,METEOR,時間的コストにおいて,対応するベースラインを著しく上回ることがわかった。

Neural models with an encoder-decoder framework provide a feasible solution to Question Generation (QG). However, after analyzing the model vocabulary we find that current models (both RNN-based and pre-training based) have more than 23\% inflected forms. As a result, the encoder will generate separate embeddings for the inflected forms, leading to a waste of training data and parameters. Even worse, in decoding these models are vulnerable to irrelevant noise and they suffer from high computational costs. In this paper, we propose an approach to enhance the performance of QG by fusing word transformation. Firstly, we identify the inflected forms of words from the input of encoder, and replace them with the root words, letting the encoder pay more attention to the repetitive root words. Secondly, we propose to adapt QG as a combination of the following actions in the encode-decoder framework: generating a question word, copying a word from the source sequence or generating a word transformation type. Such extension can greatly decrease the size of predicted words in the decoder as well as noise. We apply our approach to a typical RNN-based model and \textsc{UniLM} to get the improved versions. We conduct extensive experiments on SQuAD and MS MARCO datasets. The experimental results show that the improved versions can significantly outperform the corresponding baselines in terms of BLEU, ROUGE-L and METEOR as well as time cost.
翻訳日:2023-01-03 14:54:47 公開日:2023-01-01
# 意味演算子予測とその応用

Semantic Operator Prediction and Applications ( http://arxiv.org/abs/2301.00399v1 )

ライセンス: Link先を確認
Farshad Noravesh(参考訳) 本稿では,意味解析の課題を簡潔に紹介し,意味解析におけるQDMRの形式化を注意を伴うシーケンスモデルを用いて実施するが,文の単語の表現として音声(POS)の一部しか使用せず,訓練を可能な限りシンプルかつ迅速にし,次元の呪いや過剰適合を回避する。 意味演算子予測が、コピーネットモデルや再帰ニューラルネットモデルといった他のモデルでどのように拡張されるかを示す。

In the present paper, semantic parsing challenges are briefly introduced and QDMR formalism in semantic parsing is implemented using sequence to sequence model with attention but uses only part of speech(POS) as a representation of words of a sentence to make the training as simple and as fast as possible and also avoiding curse of dimensionality as well as overfitting. It is shown how semantic operator prediction could be augmented with other models like the CopyNet model or the recursive neural net model.
翻訳日:2023-01-03 14:54:25 公開日:2023-01-01
# ベトナムの感情分類に単語セグメンテーションは必要か?

Is word segmentation necessary for Vietnamese sentiment classification? ( http://arxiv.org/abs/2301.00418v1 )

ライセンス: Link先を確認
Duc-Vu Nguyen, Ngan Luu-Thuy Nguyen(参考訳) 本研究は,ベトナムの感情分類において,単語の区分けが不可欠であるかどうかを問う最初の試みである。 そこで本研究では,ベトナム語用単言語s4ベースの言語モデルとして,単語セグメンテーションのない1つのモデル,rdrsegmenter, uitnlp, pyvi, underthesea toolkitsを用いた4つのモデルを提示した。 学術論文レビューのvlsp2016-saコーパスと教育調査のuit-vsfcコーパスを含む2つのコーパスの総合的な実験結果から,2つの提案がある。 まず、Naive BayesやSupport Vector Machinesのような伝統的な分類器を使って、単語のセグメンテーションは、ソーシャルドメインから派生したベトナムの感情分類コーパスには必要ないかもしれない。 第2に,BPE法を用いて深層学習モデルに入力する前に,単語セグメンテーションを使用する場合,ベトナムの感情分類において単語セグメンテーションが必要である。 このように、rdrsegmenterはuitnlp、pyvi、undertheseaツールキット間のワードセグメンテーションのための安定したツールキットである。

To the best of our knowledge, this paper made the first attempt to answer whether word segmentation is necessary for Vietnamese sentiment classification. To do this, we presented five pre-trained monolingual S4- based language models for Vietnamese, including one model without word segmentation, and four models using RDRsegmenter, uitnlp, pyvi, or underthesea toolkits in the pre-processing data phase. According to comprehensive experimental results on two corpora, including the VLSP2016-SA corpus of technical article reviews from the news and social media and the UIT-VSFC corpus of the educational survey, we have two suggestions. Firstly, using traditional classifiers like Naive Bayes or Support Vector Machines, word segmentation maybe not be necessary for the Vietnamese sentiment classification corpus, which comes from the social domain. Secondly, word segmentation is necessary for Vietnamese sentiment classification when word segmentation is used before using the BPE method and feeding into the deep learning model. In this way, the RDRsegmenter is the stable toolkit for word segmentation among the uitnlp, pyvi, and underthesea toolkits.
翻訳日:2023-01-03 14:54:12 公開日:2023-01-01
# ベトナムにおける意味表現と文脈表現を組み合わせた意味表現の活用

Leveraging Semantic Representations Combined with Contextual Word Representations for Recognizing Textual Entailment in Vietnamese ( http://arxiv.org/abs/2301.00422v1 )

ライセンス: Link先を確認
Quoc-Loc Duong, Duc-Vu Nguyen, Ngan Luu-Thuy Nguyen(参考訳) RTEは重要な問題であり、合理的に活発な研究コミュニティである。 この問題に対するアプローチに関する提案された研究は、様々な方向でかなり多様である。 ベトナムでは、RTE問題は適度に新しいが、この問題は自然言語理解システムにおいて重要な役割を果たす。 現在,文脈表現学習モデルに基づくこの問題の解法に優れた結果が得られた。 しかしベトナム語は意味的に豊かな言語である。 そこで本稿では,RTE 問題に対する BERT 相対モデルのコンテキスト表現とSRL タスクによる意味語表現を組み合わせた実験を提案する。 実験結果から,ベトナム語理解における意味表現の影響と役割について結論が得られた。 実験の結果,意味認識型文脈表現モデルは意味表現を含まないモデルよりも約1%高い性能を示した。 さらに、ベトナムにおけるデータドメインへの影響は、英語よりも高い。 この結果は、ベトナムにおけるRTE問題に対するSRLの肯定的な影響を示す。

RTE is a significant problem and is a reasonably active research community. The proposed research works on the approach to this problem are pretty diverse with many different directions. For Vietnamese, the RTE problem is moderately new, but this problem plays a vital role in natural language understanding systems. Currently, methods to solve this problem based on contextual word representation learning models have given outstanding results. However, Vietnamese is a semantically rich language. Therefore, in this paper, we want to present an experiment combining semantic word representation through the SRL task with context representation of BERT relative models for the RTE problem. The experimental results give conclusions about the influence and role of semantic representation on Vietnamese in understanding natural language. The experimental results show that the semantic-aware contextual representation model has about 1% higher performance than the model that does not incorporate semantic representation. In addition, the effects on the data domain in Vietnamese are also higher than those in English. This result also shows the positive influence of SRL on RTE problem in Vietnamese.
翻訳日:2023-01-03 14:53:49 公開日:2023-01-01
# ベトナム語機械読解用レトロリーダのスケッチ読解モジュールへの意味情報の統合

Integrating Semantic Information into Sketchy Reading Module of Retro-Reader for Vietnamese Machine Reading Comprehension ( http://arxiv.org/abs/2301.00429v1 )

ライセンス: Link先を確認
Hang Thi-Thu Le, Viet-Duc Ho, Duc-Vu Nguyen, Ngan Luu-Thuy Nguyen(参考訳) 機械読解 理解は近年,自然言語処理分野において最も先進的でポピュラーな研究トピックの1つとなっている。 回答可能な質問の分類は機械読解において比較的重要なサブタスクであるが、多くの研究がなされていない。 Retro-Readerはこの問題を効果的に解決した研究の1つだ。 しかし、ほとんどの伝統的な機械読解モデルのエンコーダは一般的なものであり、特にRetro-Readerは文脈の文脈意味情報を完全に活用することができていない。 SemBERTに触発されて、SRLタスクのセマンティックロールラベルを使用して、mBERT、XLM-R、PhoBERTといった事前学習言語モデルにセマンティックスを追加する。 本実験は,ベトナム語機械読解の解答性の分類における意味論の影響を比較検討した。 さらに、この実験がレトロリーダーモデルのsketchy readingモジュールのエンコーダを強化することを期待している。 改良されたRetro-Readerモデルエンコーダのセマンティクスはベトナムの機械読解タスクに適用され、肯定的な結果を得た。

Machine Reading Comprehension has become one of the most advanced and popular research topics in the fields of Natural Language Processing in recent years. The classification of answerability questions is a relatively significant sub-task in machine reading comprehension; however, there haven't been many studies. Retro-Reader is one of the studies that has solved this problem effectively. However, the encoders of most traditional machine reading comprehension models in general and Retro-Reader, in particular, have not been able to exploit the contextual semantic information of the context completely. Inspired by SemBERT, we use semantic role labels from the SRL task to add semantics to pre-trained language models such as mBERT, XLM-R, PhoBERT. This experiment was conducted to compare the influence of semantics on the classification of answerability for the Vietnamese machine reading comprehension. Additionally, we hope this experiment will enhance the encoder for the Retro-Reader model's Sketchy Reading Module. The improved Retro-Reader model's encoder with semantics was first applied to the Vietnamese Machine Reading Comprehension task and obtained positive results.
翻訳日:2023-01-03 14:53:37 公開日:2023-01-01
# カシュープランテーションのマッピングによるベニンの持続的木作拡大

Mapping smallholder cashew plantations to inform sustainable tree crop expansion in Benin ( http://arxiv.org/abs/2301.00363v1 )

ライセンス: Link先を確認
Leikun Yin, Rahul Ghosh, Chenxi Lin, David Hale, Christoph Weigl, James Obarowski, Junxiong Zhou, Jessica Till, Xiaowei Jia, Troy Mao, Vipin Kumar, Zhenong Jin(参考訳) カシューは世界40カ国以上で300万人以上の中小企業が主要な収入源として成長している。 アフリカで第3位のカシュー生産国であるベニンには20万人近い小株主カシュー生産者がおり、国内の輸出収入の15%を占めている。 しかし、全国のカシューの木がどこでどのように成長するかに関する情報が不足していることは、カシュー生産の増加と貧困緩和を支える決定を妨げている。 2.4mのプラネット・ベースマップと0.5mの空中画像,新たに開発された深層学習アルゴリズム,大規模地上真実データセットを活用して,ベニンで初めてカシューの全国地図を作成し,2015年から2021年の間にカシュープランテーションの拡大を特徴とした。 特に,カシュープランテーションの分布を地図化するためのstcaモデルを開発し,成長期における判別時間ステップからテクスチャ情報を完全把握した。 さらに,自動抽出と最適化クラスタリングにより,高密度と低密度のカシュープランテーションを識別するクラスタリング自己監督型時間分類(CASTC)モデルを開発した。 その結果,STCAモデル全体の精度は80%,CASTCモデル全体の精度は77.9%であった。 ベニンのカシュー地区は2015年から2021年にかけて2倍になり、新しいプランテーションの開発の60%が農地や低木地から来ているのに対し、カシュープランテーションの保護地域への侵入は70%増加した。 2021年にはカシューのプランテーションの半分が高密度であり、強度を高める可能性が高かった。 本研究では,高分解能リモートセンシング画像と最先端のディープラーニングアルゴリズムを組み合わせることで,異種スモールホルダーランドスケープにおける樹木作物をよりよく理解する能力を示す。

Cashews are grown by over 3 million smallholders in more than 40 countries worldwide as a principal source of income. As the third largest cashew producer in Africa, Benin has nearly 200,000 smallholder cashew growers contributing 15% of the country's national export earnings. However, a lack of information on where and how cashew trees grow across the country hinders decision-making that could support increased cashew production and poverty alleviation. By leveraging 2.4-m Planet Basemaps and 0.5-m aerial imagery, newly developed deep learning algorithms, and large-scale ground truth datasets, we successfully produced the first national map of cashew in Benin and characterized the expansion of cashew plantations between 2015 and 2021. In particular, we developed a SpatioTemporal Classification with Attention (STCA) model to map the distribution of cashew plantations, which can fully capture texture information from discriminative time steps during a growing season. We further developed a Clustering Augmented Self-supervised Temporal Classification (CASTC) model to distinguish high-density versus low-density cashew plantations by automatic feature extraction and optimized clustering. Results show that the STCA model has an overall accuracy of 80% and the CASTC model achieved an overall accuracy of 77.9%. We found that the cashew area in Benin has doubled from 2015 to 2021 with 60% of new plantation development coming from cropland or fallow land, while encroachment of cashew plantations into protected areas has increased by 70%. Only half of cashew plantations were high-density in 2021, suggesting high potential for intensification. Our study illustrates the power of combining high-resolution remote sensing imagery and state-of-the-art deep learning algorithms to better understand tree crops in the heterogeneous smallholder landscape.
翻訳日:2023-01-03 14:46:33 公開日:2023-01-01
# メタラーニングによるブラックボックス攻撃の一般化

Generalizable Black-Box Adversarial Attack with Meta Learning ( http://arxiv.org/abs/2301.00364v1 )

ライセンス: Link先を確認
Fei Yin and Yong Zhang and Baoyuan Wu and Yan Feng and Jingyi Zhang and Yanbo Fan and Yujiu Yang(参考訳) black-box adversarial attackのシナリオでは、ターゲットモデルのパラメータが不明であり、攻撃者はクエリ予算の下でクエリフィードバックに基づいて、敵の摂動を成功させることを目指している。 フィードバック情報に制限があるため、既存のクエリベースのブラックボックス攻撃方法は、各良質な例を攻撃するために多くのクエリを必要とすることが多い。 クエリコストを削減するために,事例レベルの逆転送可能性と呼ばれる過去の攻撃に対するフィードバック情報を活用することを提案する。 具体的には,各良質な例に対する攻撃をひとつのタスクとして扱うことで,良質な例に基づく摂動を生成するためのメタ生成者を訓練することで,メタラーニングフレームワークを開発する。 新たな良質な例を攻撃する場合、メタジェネレータは、新しいタスクのフィードバック情報と、効果的な摂動を生成するためのいくつかの歴史的な攻撃に基づいて、迅速に微調整することができる。 さらに,メタトレイン法は多くのクエリを消費して一般化可能なジェネレータを学習するため,ホワイトボックスサロゲートモデルでメタジェネレータをトレーニングし,ターゲットモデルに対する攻撃を支援するために転送する。 この2種類の逆転送性を持つフレームワークは,市販のクエリベースのアタック手法と自然に組み合わせて性能を向上し,広範囲な実験により検証することができる。

In the scenario of black-box adversarial attack, the target model's parameters are unknown, and the attacker aims to find a successful adversarial perturbation based on query feedback under a query budget. Due to the limited feedback information, existing query-based black-box attack methods often require many queries for attacking each benign example. To reduce query cost, we propose to utilize the feedback information across historical attacks, dubbed example-level adversarial transferability. Specifically, by treating the attack on each benign example as one task, we develop a meta-learning framework by training a meta-generator to produce perturbations conditioned on benign examples. When attacking a new benign example, the meta generator can be quickly fine-tuned based on the feedback information of the new task as well as a few historical attacks to produce effective perturbations. Moreover, since the meta-train procedure consumes many queries to learn a generalizable generator, we utilize model-level adversarial transferability to train the meta-generator on a white-box surrogate model, then transfer it to help the attack against the target model. The proposed framework with the two types of adversarial transferability can be naturally combined with any off-the-shelf query-based attack methods to boost their performance, which is verified by extensive experiments.
翻訳日:2023-01-03 14:46:03 公開日:2023-01-01
# ReSQueing並列とプライベート確率凸最適化

ReSQueing Parallel and Private Stochastic Convex Optimization ( http://arxiv.org/abs/2301.00457v1 )

ライセンス: Link先を確認
Yair Carmon, Arun Jambulapati, Yujia Jin, Yin Tat Lee, Daogao Liu, Aaron Sidford, Kevin Tian(参考訳) 確率凸最適化(SCO)のための新しいツール:(ガウス)確率密度と関連する関数の勾配に対するReweighted Stochastic Query (ReSQue) 推定器を提案する。 ReSQueと最近のボールオラクル加速技術 [CJJJLST20, ACJJS21] を組み合わせることで, SCOの並列およびプライベート設定における最先端の複雑さを実現するアルゴリズムを開発した。 $\mathbb{R}^d$ の単位球に制約されたSCO対象に対して、以下の結果が得られる(多対数因子まで)。 最適化誤差を$d^{1/3}\epsilon_{\text{opt}}$ with $d^{1/3}\epsilon_{\text{opt}}^{-2/3}$gradient oracle query depth and $d^{1/3}\epsilon_{\text{opt}}^{-2/3} + \epsilon_{\text{opt}}^{-2}$gradient queryを合計で得る並列アルゴリズムを与える。 in [d^{-1}, d^{-1/4}]$\epsilon_{\text{opt}} \in [d^{-1}, d^{-1/4}]$ では、アルゴリズムは[bjlls19]の最先端のオラクル深さと一致し、確率的勾配降下の最適な総作業を維持する。 我々は、$(\epsilon_{\text{dp}}, \delta)$-differentially privateアルゴリズムを与える。$n$のリプシッツ損失関数のサンプルが与えられると、至近最適化誤差が得られ、$\min(n, n^2\epsilon_{\text{dp}}^2 d^{-1}) + \min(n^{4/3}\epsilon_{\text{dp}}^{1/3}, (nd)^{2/3}\epsilon_{\text{dp}}^{-1})$クエリがこれらの関数の勾配に与えられる。 d \le n \epsilon_{\text{dp}}^{2}$ では、プライバシは最大定数の最適損失の点で何のコストもかからず、アルゴリズムは$n + (nd)^{2/3}\epsilon_{\text{dp}}^{-1}$クエリを使用し、[kll21, afkt21]の最近の進歩を改善する。 適度に低次元の$d \le \sqrt n \epsilon_{\text{dp}}^{3/2}$では、クエリの複雑さはほぼ直線である。

We introduce a new tool for stochastic convex optimization (SCO): a Reweighted Stochastic Query (ReSQue) estimator for the gradient of a function convolved with a (Gaussian) probability density. Combining ReSQue with recent advances in ball oracle acceleration [CJJJLST20, ACJJS21], we develop algorithms achieving state-of-the-art complexities for SCO in parallel and private settings. For a SCO objective constrained to the unit ball in $\mathbb{R}^d$, we obtain the following results (up to polylogarithmic factors). We give a parallel algorithm obtaining optimization error $\epsilon_{\text{opt}}$ with $d^{1/3}\epsilon_{\text{opt}}^{-2/3}$ gradient oracle query depth and $d^{1/3}\epsilon_{\text{opt}}^{-2/3} + \epsilon_{\text{opt}}^{-2}$ gradient queries in total, assuming access to a bounded-variance stochastic gradient estimator. For $\epsilon_{\text{opt}} \in [d^{-1}, d^{-1/4}]$, our algorithm matches the state-of-the-art oracle depth of [BJLLS19] while maintaining the optimal total work of stochastic gradient descent. We give an $(\epsilon_{\text{dp}}, \delta)$-differentially private algorithm which, given $n$ samples of Lipschitz loss functions, obtains near-optimal optimization error and makes $\min(n, n^2\epsilon_{\text{dp}}^2 d^{-1}) + \min(n^{4/3}\epsilon_{\text{dp}}^{1/3}, (nd)^{2/3}\epsilon_{\text{dp}}^{-1})$ queries to the gradients of these functions. In the regime $d \le n \epsilon_{\text{dp}}^{2}$, where privacy comes at no cost in terms of the optimal loss up to constants, our algorithm uses $n + (nd)^{2/3}\epsilon_{\text{dp}}^{-1}$ queries and improves recent advancements of [KLL21, AFKT21]. In the moderately low-dimensional setting $d \le \sqrt n \epsilon_{\text{dp}}^{3/2}$, our query complexity is near-linear.
翻訳日:2023-01-03 14:44:21 公開日:2023-01-01
# 複数変圧器を用いた洪水関連Twitter投稿の関連分類

Relevance Classification of Flood-related Twitter Posts via Multiple Transformers ( http://arxiv.org/abs/2301.00320v1 )

ライセンス: Link先を確認
Wisal Mukhtiar, Waliiya Rizwan, Aneela Habib, Yasir Saleem Afridi, Laiq Hasan, Kashif Ahmad(参考訳) 近年,災害や緊急事態時のコミュニケーションや情報発信源として,ソーシャルメディアが広く研究されている。 自然災害のさまざまな側面を探求する災害分析に関するいくつかの興味深い研究や事例研究がすでに行われている。 大きな可能性に加えて、災害分析には、主にソーシャルメディアコンテンツの性質によるいくつかの課題が伴う。 本稿では,このような課題について検討し,Twitterのノイズデータを扱うためのテキスト分類フレームワークを提案する。 具体的には、関連するTwitter投稿と非関連Twitter投稿を区別するために、個人と組み合わせて複数のトランスフォーマーを使用し、F1スコアの0.87を達成しました。

In recent years, social media has been widely explored as a potential source of communication and information in disasters and emergency situations. Several interesting works and case studies of disaster analytics exploring different aspects of natural disasters have been already conducted. Along with the great potential, disaster analytics comes with several challenges mainly due to the nature of social media content. In this paper, we explore one such challenge and propose a text classification framework to deal with Twitter noisy data. More specifically, we employed several transformers both individually and in combination, so as to differentiate between relevant and non-relevant Twitter posts, achieving the highest F1-score of 0.87.
翻訳日:2023-01-03 14:42:57 公開日:2023-01-01
# NLP手法を用いたTwitter投稿からの洪水関連性と位置同定

Floods Relevancy and Identification of Location from Twitter Posts using NLP Techniques ( http://arxiv.org/abs/2301.00321v1 )

ライセンス: Link先を確認
Muhammad Suleman, Muhammad Asif, Tayyab Zamir, Ayaz Mehmood, Jebran Khan, Nasir Ahmad, Kashif Ahmad(参考訳) 本稿では,災害MMにおけるMediaEval 2022タスクの解決策について述べる。 タスクは2つのサブタスクで構成される。 (i)Twitter Posts(RCTP)の関連分類 (ii) Twitter Texts (LETT) からの位置情報抽出 RCTPサブタスクは洪水に関連するソーシャルポストと非関連ソーシャルポストを区別することを目的としており、LETTは名前付きエンティティ認識(NER)タスクであり、テキストから位置情報を抽出することを目的としている。 RCTPでは,BERT,RoBERTa,Distil BERT,ALBERTの4つの異なる解を提案し,それぞれ0.7934,0.7970,0.7613,0.7924のF1スコアを得た。 LETTではBERT,RoBERTa,Distil BERTAの3モデルを用いてそれぞれ0.6256,0.6744,0.6723のF1スコアを得た。

This paper presents our solutions for the MediaEval 2022 task on DisasterMM. The task is composed of two subtasks, namely (i) Relevance Classification of Twitter Posts (RCTP), and (ii) Location Extraction from Twitter Texts (LETT). The RCTP subtask aims at differentiating flood-related and non-relevant social posts while LETT is a Named Entity Recognition (NER) task and aims at the extraction of location information from the text. For RCTP, we proposed four different solutions based on BERT, RoBERTa, Distil BERT, and ALBERT obtaining an F1-score of 0.7934, 0.7970, 0.7613, and 0.7924, respectively. For LETT, we used three models namely BERT, RoBERTa, and Distil BERTA obtaining an F1-score of 0.6256, 0.6744, and 0.6723, respectively.
翻訳日:2023-01-03 14:42:47 公開日:2023-01-01
# 協調意味コミュニケーションネットワークにおける画像伝送の最適化

Optimization of Image Transmission in a Cooperative Semantic Communication Networks ( http://arxiv.org/abs/2301.00433v1 )

ライセンス: Link先を確認
Wenjing Zhang, Yining Wang, Mingzhe Chen, Tao Luo, Dusit Niyato(参考訳) 本稿では,画像伝送のための意味コミュニケーションフレームワークを開発した。 本研究フレームワークでは,セマンティック通信技術を用いて,複数のサーバが協調して画像を送信する。 研究対象のセマンティックコミュニケーションシステムの性能を評価するために,抽出したセマンティック情報と原画像との相関を計測するマルチモーダルメトリックを提案する。 各サーバは、各ユーザのISS要件を満たすために、送信すべきセマンティック情報と、セマンティック情報送信に使用されるリソースブロック(RB)を共同で決定する必要がある。 ISSの要件に到達しつつ各サーバの送信遅延を最小限に抑えるため,この問題を最適化問題として定式化する。 この問題を解決するために、サーバが分散してrb割り当てを調整し実行し、より少ないトレーニングイテレーションでグローバルに最適なパフォーマンスにアプローチできる、値分解型エントロピー最大化マルチエージェント強化学習(rl)を提案する。 従来のマルチエージェントRLと比較して、提案RLはサーバの貴重なアクション探索を改善し、局所観測に基づくグローバルに最適なRB割り当てポリシーを見つける確率を向上する。 シミュレーションの結果,提案アルゴリズムは従来のマルチエージェントRLと比較して伝送遅延を最大16.1%低減できることがわかった。

In this paper, a semantic communication framework for image transmission is developed. In the investigated framework, a set of servers cooperatively transmit images to a set of users utilizing semantic communication techniques. To evaluate the performance of studied semantic communication system, a multimodal metric is proposed to measure the correlation between the extracted semantic information and the original image. To meet the ISS requirement of each user, each server must jointly determine the semantic information to be transmitted and the resource blocks (RBs) used for semantic information transmission. We formulate this problem as an optimization problem aiming to minimize each server's transmission latency while reaching the ISS requirement. To solve this problem, a value decomposition based entropy-maximized multi-agent reinforcement learning (RL) is proposed, which enables servers to coordinate for training and execute RB allocation in a distributed manner to approach to a globally optimal performance with less training iterations. Compared to traditional multi-agent RL, the proposed RL improves the valuable action exploration of servers and the probability of finding a globally optimal RB allocation policy based on local observation. Simulation results show that the proposed algorithm can reduce the transmission delay by up to 16.1% compared to traditional multi-agent RL.
翻訳日:2023-01-03 14:27:52 公開日:2023-01-01
# 自律ナビゲーションのための目標誘導変圧器を用いた強化学習

Goal-guided Transformer-enabled Reinforcement Learning for Efficient Autonomous Navigation ( http://arxiv.org/abs/2301.00362v1 )

ライセンス: Link先を確認
Wenhui Huang, Yanxin Zhou, Xiangkun He, and Chen Lv(参考訳) 目標駆動ナビゲーションが成功したにもかかわらず、既存の深層強化学習ベースのアプローチは、データ効率の問題で悪名高い。 理由の1つは、目標情報が認識モジュールから切り離され、意思決定の条件として直接導入されるため、学習プロセス中に相手役を演じるシーン表現のゴール関連の特徴が生じることである。 そこで,本稿では,シーン表現を目標情報に結合し,効率的な自律ナビゲーションを実現するシーンエンコーダの入力として,物理的目標状態を考慮し,新たな目標誘導型トランスフォーマブル強化学習(gtrl)手法を提案する。 より具体的には、視覚トランスフォーマーを知覚システムのバックボーンとして、すなわち目標誘導トランスフォーマー(got)として提案する。 その後、意思決定システムのために強化学習アルゴリズムをインスタンス化し、gotから目標指向のシーン表現を入力とし、決定コマンドを生成する。 その結果,本手法は,DRL学習プロセスのデータ効率を大幅に向上させ,より優れたナビゲーション性能を実現するために,主にゴール関連機能に焦点を当てたシーン表現を動機付けている。 データ効率, 性能, 堅牢性, および sim-to-real の一般化の観点から, 他の最先端のベースラインと比較して, シミュレーションおよび実世界の実験結果が優れていることを示す。 デモビデオは \colorb{https://youtu.be/93LGlGvaN0c で公開されている。

Despite some successful applications of goal-driven navigation, existing deep reinforcement learning-based approaches notoriously suffers from poor data efficiency issue. One of the reasons is that the goal information is decoupled from the perception module and directly introduced as a condition of decision-making, resulting in the goal-irrelevant features of the scene representation playing an adversary role during the learning process. In light of this, we present a novel Goal-guided Transformer-enabled reinforcement learning (GTRL) approach by considering the physical goal states as an input of the scene encoder for guiding the scene representation to couple with the goal information and realizing efficient autonomous navigation. More specifically, we propose a novel variant of the Vision Transformer as the backbone of the perception system, namely Goal-guided Transformer (GoT), and pre-train it with expert priors to boost the data efficiency. Subsequently, a reinforcement learning algorithm is instantiated for the decision-making system, taking the goal-oriented scene representation from the GoT as the input and generating decision commands. As a result, our approach motivates the scene representation to concentrate mainly on goal-relevant features, which substantially enhances the data efficiency of the DRL learning process, leading to superior navigation performance. Both simulation and real-world experimental results manifest the superiority of our approach in terms of data efficiency, performance, robustness, and sim-to-real generalization, compared with other state-of-art baselines. Demonstration videos are available at \colorb{https://youtu.be/93LGlGvaN0c.
翻訳日:2023-01-03 14:25:33 公開日:2023-01-01
# 因果ディープラーニング:因果カプセルとテンソルトランスフォーマー

Causal Deep Learning: Causal Capsules and Tensor Transformers ( http://arxiv.org/abs/2301.00314v1 )

ライセンス: Link先を確認
M. Alex O. Vasilescu(参考訳) アーキテクチャがテンソル(多重線形)因子分析の結果である因果深いニューラルネットワークの集合を導出する。 前方因果問題には因果カプセルとテンソルトランスフォーマーで構成されるニューラルネットワークアーキテクチャが対応している。 前者は因果因子を表す潜在変数の集合を推定し、後者はそれらの相互作用を支配する。 因果カプセルとテンソルトランスフォーマーは浅いオートエンコーダを使って実装できるが、スケーラブルなアーキテクチャではブロック代数を採用し、オートエンコーダの階層からなるディープニューラルネットワークを導出する。 インターリーブされたカーネル階層は、カーネルテンソル因子モデルの階層となるデータを前処理する。 逆因果質問は、マルチ線形射影を実装し、効果の原因を推定するニューラルネットワークで対処される。 本質的に不確定な逆問題をカモフラージュする攻撃的ボトルネック次元縮小や正規化回帰の代替として,多重線形射影が十分に定義され,複数の候補解を生成する区分テンソルモデルを用いて,データ形成機構の異なる側面のモデリングを規定する。 我々の前方および逆ニューラルネットワークアーキテクチャは非同期並列計算に適している。

We derive a set of causal deep neural networks whose architectures are a consequence of tensor (multilinear) factor analysis. Forward causal questions are addressed with a neural network architecture composed of causal capsules and a tensor transformer. The former estimate a set of latent variables that represent the causal factors, and the latter governs their interaction. Causal capsules and tensor transformers may be implemented using shallow autoencoders, but for a scalable architecture we employ block algebra and derive a deep neural network composed of a hierarchy of autoencoders. An interleaved kernel hierarchy preprocesses the data resulting in a hierarchy of kernel tensor factor models. Inverse causal questions are addressed with a neural network that implements multilinear projection and estimates the causes of effects. As an alternative to aggressive bottleneck dimension reduction or regularized regression that may camouflage an inherently underdetermined inverse problem, we prescribe modeling different aspects of the mechanism of data formation with piecewise tensor models whose multilinear projections are well-defined and produce multiple candidate solutions. Our forward and inverse neural network architectures are suitable for asynchronous parallel computation.
翻訳日:2023-01-03 14:18:29 公開日:2023-01-01
# MTNeuro: 複数の抽象化レベルにわたる脳構造の表現評価ベンチマーク

MTNeuro: A Benchmark for Evaluating Representations of Brain Structure Across Multiple Levels of Abstraction ( http://arxiv.org/abs/2301.00345v1 )

ライセンス: Link先を確認
Jorge Quesada (1), Lakshmi Sathidevi (1), Ran Liu (1), Nauman Ahad (1), Joy M. Jackson (1), Mehdi Azabou (1), Jingyun Xiao (1), Christopher Liding (1), Matthew Jin (1), Carolina Urzay (1), William Gray-Roncal (2), Erik C. Johnson (2), Eva L. Dyer (1) ((1) Georgia Institute of Technology, (2) Johns Hopkins University Applied Physics Laboratory)(参考訳) 同じイメージを記述できる抽象化には、細かな詳細やよりグローバルなイメージ属性に注目しているかどうかによって、複数のスケールがあります。 脳マッピングでは、画像を自動的に解析して小さな特徴(細胞や血管の存在など)と画像のグローバルな特性(脳のどの領域から来ているかなど)の両方の表現を構築することが重要でオープンな課題である。 しかしながら、ほとんどの既存の神経解剖学のデータセットとベンチマークは、一度に1つの下流タスクしか考慮していない。 このギャップを埋めるために、我々は新しいデータセット、アノテーション、複数の下流タスクを導入し、同じ画像から脳の構造とアーキテクチャに関する情報を読み取る様々な方法を提供する。 我々のマルチタスク・ニューロイメージング・ベンチマーク(MTNeuro)は、マウス大脳の視床皮質領域と皮質下領域にまたがる容積分解能X線マイクロトモグラフィー画像上に構築されている。 様々な予測課題を発生させ,脳領域予測のための教師付きモデルと自己教師付きモデル,および微細構造のピクセルレベルセマンティクスセグメンテーションを評価した。 私たちの実験は、このデータセットの豊富な多様性を強調するだけでなく、単一のイメージの複数の属性をキャプチャし、さまざまな下流タスクでうまく機能する表現を学習するために、自己教師付きアプローチをどのように利用できるかに関する洞察を提供します。 データセット、コード、および事前訓練されたベースラインモデルは以下の通りである。

There are multiple scales of abstraction from which we can describe the same image, depending on whether we are focusing on fine-grained details or a more global attribute of the image. In brain mapping, learning to automatically parse images to build representations of both small-scale features (e.g., the presence of cells or blood vessels) and global properties of an image (e.g., which brain region the image comes from) is a crucial and open challenge. However, most existing datasets and benchmarks for neuroanatomy consider only a single downstream task at a time. To bridge this gap, we introduce a new dataset, annotations, and multiple downstream tasks that provide diverse ways to readout information about brain structure and architecture from the same image. Our multi-task neuroimaging benchmark (MTNeuro) is built on volumetric, micrometer-resolution X-ray microtomography images spanning a large thalamocortical section of mouse brain, encompassing multiple cortical and subcortical regions. We generated a number of different prediction challenges and evaluated several supervised and self-supervised models for brain-region prediction and pixel-level semantic segmentation of microstructures. Our experiments not only highlight the rich heterogeneity of this dataset, but also provide insights into how self-supervised approaches can be used to learn representations that capture multiple attributes of a single image and perform well on a variety of downstream tasks. Datasets, code, and pre-trained baseline models are provided at: https://mtneuro.github.io/ .
翻訳日:2023-01-03 14:18:08 公開日:2023-01-01
# カット・アンド・パスング GAN を用いた自己監督型オブジェクトセグメンテーション

Self-Supervised Object Segmentation with a Cut-and-Pasting GAN ( http://arxiv.org/abs/2301.00366v1 )

ライセンス: Link先を確認
Kunal Chaturvedi, Ali Braytee, Jun Li, Mukesh Prasad(参考訳) 本稿では,手動のアノテーションを使わずに,前景オブジェクトのセグメンテーションを行い,リアルな合成画像を生成するための,自己監督型カット・アンド・ペーストGANを提案する。 我々は、U-Netベースの識別器と組み合わせて、シンプルながら効果的な自己教師型アプローチによって、この目標を達成する。 提案手法は,グローバルなデータ表現を分類(リアル/フェイク)によって学習するだけでなく,自己管理タスクを用いて作成した擬似ラベルを用いて意味や構造情報を学習する。 提案手法では,各画素ごとの情報学習や,識別器からのグローバルイメージフィードバックを強制することで,意味のあるマスクを作成することができる。 実験により,提案手法が標準ベンチマークデータセットの最先端手法を大幅に上回ることを示した。

This paper proposes a novel self-supervised based Cut-and-Paste GAN to perform foreground object segmentation and generate realistic composite images without manual annotations. We accomplish this goal by a simple yet effective self-supervised approach coupled with the U-Net based discriminator. The proposed method extends the ability of the standard discriminators to learn not only the global data representations via classification (real/fake) but also learn semantic and structural information through pseudo labels created using the self-supervised task. The proposed method empowers the generator to create meaningful masks by forcing it to learn informative per-pixel as well as global image feedback from the discriminator. Our experiments demonstrate that our proposed method significantly outperforms the state-of-the-art methods on the standard benchmark datasets.
翻訳日:2023-01-03 14:17:40 公開日:2023-01-01
# 識別的ラジアルドメイン適応

Discriminative Radial Domain Adaptation ( http://arxiv.org/abs/2301.00383v1 )

ライセンス: Link先を確認
Zenan Huang, Jun Wen, Siheng Chen, Linchao Zhu, Nenggan Zheng(参考訳) ドメイン適応法は一般的にドメイン不変な特徴を学習することでドメインシフトを減らす。 既存のメソッドのほとんどは、例えば、特徴の識別性を損なう傾向がある逆ドメイン適応のような、分散マッチングに基づいて構築されている。 本稿では、ソースとターゲットドメインを共有ラジアル構造を介してブリッジする差別的ラジアルドメイン適応(DRDR)を提案する。 モデルが徐々に差別的になるように訓練されるにつれて、異なるカテゴリの特徴が異なる方向に展開し、ラジアル構造を形成するのがモチベーションである。 このような固有識別構造を変換することで特徴伝達性と識別性を同時に向上できることを示す。 具体的には、各領域を大域アンカーで表現し、各カテゴリを局所アンカーで表し、ラジアル構造を形成し、構造マッチングによるドメインシフトを低減する。 すなわち、構造をグローバルに整合させる等尺変換と、各カテゴリに合わせて局所的な洗練という2つの部分から構成される。 構造物の識別性を高めるため、最適な輸送割り当てに基づいて、サンプルを対応する局所アンカーに近づけるように促す。 提案手法は,マルチソースドメイン適応,ドメインに依存しない学習,ドメイン一般化など,様々なタスクにおける最先端のアプローチを常に上回ることを示す。

Domain adaptation methods reduce domain shift typically by learning domain-invariant features. Most existing methods are built on distribution matching, e.g., adversarial domain adaptation, which tends to corrupt feature discriminability. In this paper, we propose Discriminative Radial Domain Adaptation (DRDR) which bridges source and target domains via a shared radial structure. It's motivated by the observation that as the model is trained to be progressively discriminative, features of different categories expand outwards in different directions, forming a radial structure. We show that transferring such an inherently discriminative structure would enable to enhance feature transferability and discriminability simultaneously. Specifically, we represent each domain with a global anchor and each category a local anchor to form a radial structure and reduce domain shift via structure matching. It consists of two parts, namely isometric transformation to align the structure globally and local refinement to match each category. To enhance the discriminability of the structure, we further encourage samples to cluster close to the corresponding local anchors based on optimal-transport assignment. Extensively experimenting on multiple benchmarks, our method is shown to consistently outperforms state-of-the-art approaches on varied tasks, including the typical unsupervised domain adaptation, multi-source domain adaptation, domain-agnostic learning, and domain generalization.
翻訳日:2023-01-03 14:17:25 公開日:2023-01-01
# 再帰的プロンプトによる木へのイメージ

Image To Tree with Recursive Prompting ( http://arxiv.org/abs/2301.00447v1 )

ライセンス: Link先を確認
James Batten, Matthew Sinclair, Ben Glocker, Michiel Schaap(参考訳) グリッドベースのデータから複雑な構造を抽出することは、自動化された医療画像解析における一般的なステップである。 従来の木構造ジオメトリの回収には、セグメンテーションマスクから派生した中間表現を通して最小コストパスを計算することが一般的である。 しかし,2次元射影には重複する枝が多いため,冠状動脈などの3次元解剖学的データの投影的画像化の文脈において,この手法は大きな制限がある。 本研究では,再帰的プロセスの個々のステップに対する最適化問題としてタスクを再構成する,ツリー接続構造を予測する新しい手法を提案する。 UNetとTransformerアーキテクチャを活用する2段階モデルの設計と訓練を行い、画像ベースのプロンプト技術を導入する。 提案手法は,一対の合成データセット上で有意な結果が得られ,最短パスベースラインよりも優れる。

Extracting complex structures from grid-based data is a common key step in automated medical image analysis. The conventional solution to recovering tree-structured geometries typically involves computing the minimal cost path through intermediate representations derived from segmentation masks. However, this methodology has significant limitations in the context of projective imaging of tree-structured 3D anatomical data such as coronary arteries, since there are often overlapping branches in the 2D projection. In this work, we propose a novel approach to predicting tree connectivity structure which reformulates the task as an optimization problem over individual steps of a recursive process. We design and train a two-stage model which leverages the UNet and Transformer architectures and introduces an image-based prompting technique. Our proposed method achieves compelling results on a pair of synthetic datasets, and outperforms a shortest-path baseline.
翻訳日:2023-01-03 14:17:03 公開日:2023-01-01
# ディープリニアネットワークにおけるニューラル崩壊:バランスデータから不均衡データへ

Neural Collapse in Deep Linear Network: From Balanced to Imbalanced Data ( http://arxiv.org/abs/2301.00437v1 )

ライセンス: Link先を確認
Hien Dang and Tan Nguyen and Tho Tran and Hung Tran and Nhat Ho(参考訳) 現代のディープニューラルネットワークは、画像分類からゲームプレイまでのタスクで超人的なパフォーマンスを達成している。 驚くべきことに、大量のパラメータを持つこれらの複雑なシステムは、最終層の特徴と標準データセット全体にわたる分類器において、同じ顕著な構造特性を示す。 この現象は"Neural Collapse"と呼ばれ、パパヤンらによって実験的に発見された。 通称「Papyan20」。 近年の論文は、この現象を示す単純化された「制約なし特徴モデル」の下で、トレーニングネットワーク問題に対するグローバルな解決策を理論的に示している。 一般の平均二乗誤差 (MSE) とクロスエントロピー (CE) の損失に対して, ディープ線形ネットワークにおけるニューラル・コラプス発生の証明を更に進める。 さらに,MSE損失のための不均衡データに研究を拡張し,この条件下でのニューラル崩壊の幾何学的解析を行った。

Modern deep neural networks have achieved superhuman performance in tasks from image classification to game play. Surprisingly, these various complex systems with massive amounts of parameters exhibit the same remarkable structural properties in their last-layer features and classifiers across canonical datasets. This phenomenon is known as "Neural Collapse," and it was discovered empirically by Papyan et al. \cite{Papyan20}. Recent papers have theoretically shown the global solutions to the training network problem under a simplified "unconstrained feature model" exhibiting this phenomenon. We take a step further and prove the Neural Collapse occurrence for deep linear network for the popular mean squared error (MSE) and cross entropy (CE) loss. Furthermore, we extend our research to imbalanced data for MSE loss and present the first geometric analysis for Neural Collapse under this setting.
翻訳日:2023-01-03 14:07:44 公開日:2023-01-01
# 拡散モデルに基づく脳出血画像の半教師付き学習による高効率中線シフト定量化

Diffusion Model based Semi-supervised Learning on Brain Hemorrhage Images for Efficient Midline Shift Quantification ( http://arxiv.org/abs/2301.00409v1 )

ライセンス: Link先を確認
Shizhan Gong, Cheng Chen, Yuqi Gong, Nga Yan Chan, Wenao Ma, Calvin Hoi-Kwan Mak, Jill Abrigo, Qi Dou(参考訳) 脳ミドルラインシフト(MLS)は、頭蓋内出血の臨床的診断と治療決定のために考慮すべき最も重要な要因の1つである。 mls定量化における既存の計算手法は、ミリメートルレベルの計測において集中的なラベル付けを必要とするだけでなく、特定のランドマークや単純な解剖学的仮定に依存するため、性能が低下する。 本稿では,頭部CTスキャンからMLSのスケールを正確に測定する,新しい半教師付きフレームワークを提案する。 変形推定問題としてMLS測定タスクを定式化し, スパースラベル付きMLSスライスを用いて解決する。 一方、拡散モデルの助けを借りて、多数のラベルのないMLSデータと2793の非MLSケースを表現学習や正規化に利用することができる。 抽出された表現は、画像が非MLS画像とどのように異なるのかを反映し、非MLS画像の正規化は、変形場のスパース・トゥ・デンス精細化において重要な役割を果たす。 実際の脳出血データセットを用いた実験は最先端のパフォーマンスを達成し, 解釈可能な変形場を生成できる。

Brain midline shift (MLS) is one of the most critical factors to be considered for clinical diagnosis and treatment decision-making for intracranial hemorrhage. Existing computational methods on MLS quantification not only require intensive labeling in millimeter-level measurement but also suffer from poor performance due to their dependence on specific landmarks or simplified anatomical assumptions. In this paper, we propose a novel semi-supervised framework to accurately measure the scale of MLS from head CT scans. We formulate the MLS measurement task as a deformation estimation problem and solve it using a few MLS slices with sparse labels. Meanwhile, with the help of diffusion models, we are able to use a great number of unlabeled MLS data and 2793 non-MLS cases for representation learning and regularization. The extracted representation reflects how the image is different from a non-MLS image and regularization serves an important role in the sparse-to-dense refinement of the deformation field. Our experiment on a real clinical brain hemorrhage dataset has achieved state-of-the-art performance and can generate interpretable deformation fields.
翻訳日:2023-01-03 13:59:43 公開日:2023-01-01
# 第2の考え:テキスト編集から人間の価値を再調整する学習

Second Thoughts are Best: Learning to Re-Align With Human Values from Text Edits ( http://arxiv.org/abs/2301.00355v1 )

ライセンス: Link先を確認
Ruibo Liu, Chenyan Jia, Ge Zhang, Ziyu Zhuang, Tony X Liu, and Soroush Vosoughi(参考訳) 言語モデル(LM)が人間の価値観に適応することを可能にする新しい学習パラダイムであるSecond Thoughtを提案する。 lm微調整と強化学習による追加改良により,バリューアライメントとバリューアライメントテキストのチェーンオブエディットをモデル化することで,3つの値アライメントベンチマークデータセットにおいて優れたパフォーマンスを実現するだけでなく,少数のシナリオにおいて強力なヒューマンバリュートランスファー学習能力を発揮する。 生成した編集ステップは、解釈性も向上し、インタラクティブなエラー訂正も容易になる。 広範な評価は、その効果をさらに確認する。

We present Second Thought, a new learning paradigm that enables language models (LMs) to re-align with human values. By modeling the chain-of-edits between value-unaligned and value-aligned text, with LM fine-tuning and additional refinement through reinforcement learning, Second Thought not only achieves superior performance in three value alignment benchmark datasets but also shows strong human-value transfer learning ability in few-shot scenarios. The generated editing steps also offer better interpretability and ease for interactive error correction. Extensive human evaluations further confirm its effectiveness.
翻訳日:2023-01-03 13:58:34 公開日:2023-01-01
# eVAE:進化的変分オートエンコーダ

eVAE: Evolutionary Variational Autoencoder ( http://arxiv.org/abs/2301.00011v1 )

ライセンス: Link先を確認
Zhangkai Wu and Longbing Cao and Lei Qi(参考訳) 可変オートエンコーダ(VAE)のサロゲート損失は、タスクフィッティングと表現推論の不均衡を誘発し、トレーニングに様々な課題をもたらす。 これを回避するために、vaesの既存の戦略は、ハイパーパラメータの導入、いくつかの穏やかな仮定の下でのより厳密なバウンドの導出、あるいは特定の神経設定における損失コンポーネントの分解によるトレードオフの調整に焦点を当てている。 VAEはいまだ不確実なトレードオフ学習に悩まされており、変動情報ボトルネック(VIB)理論と統合進化的ニューラルラーニングに基づく進化的変分オートエンコーダ(eVAE)の構築を提案する。 eVAEは変異遺伝的アルゴリズムを、変異突然変異、交叉、進化を含む変異進化演算子とVAEに統合する。 その内外結合学習機構は、追加の制約なしに、エビデンスローバウンド(ELBO)における不確実なトレードオフ学習を相乗的かつ動的に生成し、更新する。 vib仮定の下でデータの損失圧縮と表現を学ぶこととは別に、evaeはvaesとディープニューラルネットワークの重要な要素をチューニングする進化的パラダイムを示し、進化的最適化をディープラーニングに統合することで、未熟な収束とランダム探索問題に対処する。 実験の結果,eVAEは低再構成損失のテキスト生成におけるKL-vanishing問題に対処し,シャープな画像を含むすべての不整合因子を生成し,画像の質を向上させる。 evaeは、コンストラクションの損失、絡み合い、世代間バランスを競合相手よりも向上させる。

The surrogate loss of variational autoencoders (VAEs) poses various challenges to their training, inducing the imbalance between task fitting and representation inference. To avert this, the existing strategies for VAEs focus on adjusting the tradeoff by introducing hyperparameters, deriving a tighter bound under some mild assumptions, or decomposing the loss components per certain neural settings. VAEs still suffer from uncertain tradeoff learning.We propose a novel evolutionary variational autoencoder (eVAE) building on the variational information bottleneck (VIB) theory and integrative evolutionary neural learning. eVAE integrates a variational genetic algorithm into VAE with variational evolutionary operators including variational mutation, crossover, and evolution. Its inner-outer-joint training mechanism synergistically and dynamically generates and updates the uncertain tradeoff learning in the evidence lower bound (ELBO) without additional constraints. Apart from learning a lossy compression and representation of data under the VIB assumption, eVAE presents an evolutionary paradigm to tune critical factors of VAEs and deep neural networks and addresses the premature convergence and random search problem by integrating evolutionary optimization into deep learning. Experiments show that eVAE addresses the KL-vanishing problem for text generation with low reconstruction loss, generates all disentangled factors with sharp images, and improves the image generation quality,respectively. eVAE achieves better reconstruction loss, disentanglement, and generation-inference balance than its competitors.
翻訳日:2023-01-03 13:51:05 公開日:2023-01-01
# 遺伝的アルゴリズムを用いた可読性最適化

Optimizing Readability Using Genetic Algorithms ( http://arxiv.org/abs/2301.00374v1 )

ライセンス: Link先を確認
Jorge Martinez-Gil(参考訳) 本研究は,英語の任意のテキストの読みやすさを自動的に最適化する手法であるORUGAを提案する。 この方法の背後にある基本的な考え方は、ある要素がテキストの可読性に影響することであり、そのいくつかは定量化可能である(単語数、音節数、副詞の有無など)。 これらの要因の性質により、既存の単語を最適化を容易にするために最も適した同義語に置き換えるための遺伝的学習戦略を実装できる。 さらに本研究は,多目的最適化手法を用いて,原文の内容と形態の両方を保存しようとするものである。 このように、テキストの構文構造も、元のメッセージの意味的内容も著しく歪んでいない。 テキストのかなりの数と多様性に関する徹底的な研究により,本手法は,その形態や意味を著しく変えることなく,すべてのケースで可読性の程度を最適化できることを確認した。 このアプローチのソースコードはhttps://github.com/jorge-martinez-gil/orugaで入手できる。

This research presents ORUGA, a method that tries to automatically optimize the readability of any text in English. The core idea behind the method is that certain factors affect the readability of a text, some of which are quantifiable (number of words, syllables, presence or absence of adverbs, and so on). The nature of these factors allows us to implement a genetic learning strategy to replace some existing words with their most suitable synonyms to facilitate optimization. In addition, this research seeks to preserve both the original text's content and form through multi-objective optimization techniques. In this way, neither the text's syntactic structure nor the semantic content of the original message is significantly distorted. An exhaustive study on a substantial number and diversity of texts confirms that our method was able to optimize the degree of readability in all cases without significantly altering their form or meaning. The source code of this approach is available at https://github.com/jorge-martinez-gil/oruga.
翻訳日:2023-01-03 13:49:01 公開日:2023-01-01
# 不均一因果効果のフェデレーション学習のための適応カーネルアプローチ

An Adaptive Kernel Approach to Federated Learning of Heterogeneous Causal Effects ( http://arxiv.org/abs/2301.00346v1 )

ライセンス: Link先を確認
Thanh Vinh Vo, Arnab Bhattacharyya, Young Lee, Tze-Yun Leong(参考訳) 本研究では,複数の分散データソースから因果効果をフェデレーション環境で学習するための新しい因果推論フレームワークを提案する。 本稿では、ランダムフーリエ特徴を用いてデータソース間の類似性を学習し、損失関数を複数のコンポーネントに切り離し、それぞれがデータソースに関連付ける適応転送アルゴリズムを提案する。 データソースは異なる分布を持ち、因果効果は独立して体系的に組み込まれている。 提案手法は移動係数を用いてソース間の類似度を推定し,その類似度に関する事前情報を必要としない。 ソース間で生のトレーニングデータを共有せずに異種因果効果を推定できるため、プライバシー漏洩のリスクを最小限に抑えることができる。 また,異なる情報源から学習したパラメータの質を評価するために,ミニマックス下限を提供する。 提案手法は,異なる分布を持つ分散化されたデータソースのベースラインよりも優れていることを示す。

We propose a new causal inference framework to learn causal effects from multiple, decentralized data sources in a federated setting. We introduce an adaptive transfer algorithm that learns the similarities among the data sources by utilizing Random Fourier Features to disentangle the loss function into multiple components, each of which is associated with a data source. The data sources may have different distributions; the causal effects are independently and systematically incorporated. The proposed method estimates the similarities among the sources through transfer coefficients, and hence requiring no prior information about the similarity measures. The heterogeneous causal effects can be estimated with no sharing of the raw training data among the sources, thus minimizing the risk of privacy leak. We also provide minimax lower bounds to assess the quality of the parameters learned from the disparate sources. The proposed method is empirically shown to outperform the baselines on decentralized data sources with dissimilar distributions.
翻訳日:2023-01-03 13:42:56 公開日:2023-01-01
# グラディエントフィルタによるデバイス教育の効率化

Efficient On-device Training via Gradient Filtering ( http://arxiv.org/abs/2301.00330v1 )

ライセンス: Link先を確認
Yuedong Yang, Guihong Li, Radu Marculescu(参考訳) フェデレーション学習、継続的学習、その他多くのアプリケーションにおいて重要であるにもかかわらず、デバイス上でのトレーニングはEdgeAIにとってオープンな問題である。 この問題は、大量の演算(浮動小数点乗算や加算など)と、バックプロパゲーションアルゴリズムによるトレーニングに必要なメモリ消費に起因している。 そこで本研究では,デバイス上でのDNNモデルトレーニングを可能にする勾配フィルタリング手法を提案する。 より正確には,本手法は勾配マップの特異な要素が少なく,学習中のバック伝搬の計算複雑性とメモリ消費を著しく低減する特別な構造を生成する。 複数のDNNモデル(MobileNet、DeepLabV3、UPerNetなど)とデバイス(Raspberry PiやJetson Nanoなど)による画像分類とセマンティックセグメンテーションに関する広範な実験は、このアプローチの有効性と幅広い適用性を示している。 例えば、SOTAと比較して、ImageNet分類で最大19$\times$スピードアップと77.1%のメモリ節約を達成でき、精度はわずか0.1%である。 NVIDIA Jetson Nano上でのMKLDNNとCUDNNの高度に最適化されたベースラインと比較して,20ドル以上のスピードアップと90%の省エネが観測されている。 その結果,本手法はデバイス上でのトレーニングに大きな可能性を持つ新たな研究の方向性を開く。

Despite its importance for federated learning, continuous learning and many other applications, on-device training remains an open problem for EdgeAI. The problem stems from the large number of operations (e.g., floating point multiplications and additions) and memory consumption required during training by the back-propagation algorithm. Consequently, in this paper, we propose a new gradient filtering approach which enables on-device DNN model training. More precisely, our approach creates a special structure with fewer unique elements in the gradient map, thus significantly reducing the computational complexity and memory consumption of back propagation during training. Extensive experiments on image classification and semantic segmentation with multiple DNN models (e.g., MobileNet, DeepLabV3, UPerNet) and devices (e.g., Raspberry Pi and Jetson Nano) demonstrate the effectiveness and wide applicability of our approach. For example, compared to SOTA, we achieve up to 19$\times$ speedup and 77.1% memory savings on ImageNet classification with only 0.1% accuracy loss. Finally, our method is easy to implement and deploy; over 20$\times$ speedup and 90% energy savings have been observed compared to highly optimized baselines in MKLDNN and CUDNN on NVIDIA Jetson Nano. Consequently, our approach opens up a new direction of research with a huge potential for on-device training.
翻訳日:2023-01-03 13:41:36 公開日:2023-01-01
# 映像動作認識のための階層的説明

Hierarchical Explanations for Video Action Recognition ( http://arxiv.org/abs/2301.00436v1 )

ライセンス: Link先を確認
Sadaf Gulshad, Teng Long, Nanne van Noord(参考訳) 階層型 ProtoPNet:クラス間の階層的関係を考慮し,その推論過程を説明する解釈可能なネットワークを提案する。 入力画像の解剖と分類の原型的部分の検索による推論過程を説明する従来の方法と異なり,入力された映像フレームをクラス階層の多レベルに分類することにより,ビデオアクション分類の推論過程を説明することを提案する。 水と人間の活動を観察する時、決定的な行動は起こらないが、水スポーツの親クラスとして認識することができる。 水泳を観察した後だけ、私たちはそれを水泳行動に精練することができる。 ActivityNetとUCF-101の実験では、マルチレベルな説明を提供しながら、パフォーマンスが改善された。

We propose Hierarchical ProtoPNet: an interpretable network that explains its reasoning process by considering the hierarchical relationship between classes. Different from previous methods that explain their reasoning process by dissecting the input image and finding the prototypical parts responsible for the classification, we propose to explain the reasoning process for video action classification by dissecting the input video frames on multiple levels of the class hierarchy. The explanations leverage the hierarchy to deal with uncertainty, akin to human reasoning: When we observe water and human activity, but no definitive action it can be recognized as the water sports parent class. Only after observing a person swimming can we definitively refine it to the swimming action. Experiments on ActivityNet and UCF-101 show performance improvements while providing multi-level explanations.
翻訳日:2023-01-03 13:41:11 公開日:2023-01-01
# 手術ロボット学習のための対話型シミュレーション環境を用いたヒューマン・イン・ザ・ループ・エンボディド・インテリジェンス

Human-in-the-loop Embodied Intelligence with Interactive Simulation Environment for Surgical Robot Learning ( http://arxiv.org/abs/2301.00452v1 )

ライセンス: Link先を確認
Yonghao Long, Wang Wei, Tao Huang, Yuehao Wang, Qi Dou(参考訳) 外科ロボットの自動化は、過去10年間で研究の関心が高まり、外科医、看護師、そして患者に利益をもたらす大きな可能性を期待している。 近年,組込みAIの学習パラダイムは,様々な複雑なタスクに対する優れた制御ポリシーを学習する有望な能力を示している。 しかし、既存の手術ロボット用のシミュレーターは、物理的な入力デバイスを介して人間のインタラクションを十分にサポートしていないため、人間のデモがポリシー学習にどのように影響するかについての効果的な調査がさらに制限されている。 本稿では,手術ロボット学習のための対話型シミュレーションプラットフォームを用いて,人間の身体内知性について検討する。 具体的には、前回リリースしたsurrolシミュレータに基づいて、入力デバイスによる高品質なヒューマンインタラクションを可能にするために、いくつかの新機能を共同開発したプラットフォームを構築します。 これらのことから,より効果的な政策学習を実現するために,人間の実演を収集し,行動パターンを模倣することを提案する。 本稿では,新機能とタスクをデザインしたシミュレーション環境の改善と,インタラクティブ環境を用いた最先端強化学習アルゴリズムの検証について紹介する。 有望な結果が得られ、今後の外科的具体的知能研究への道を開くことを願っている。 私たちのプラットフォームはリリースされ、Webサイトで継続的に更新されます。

Surgical robot automation has attracted increasing research interest over the past decade, expecting its huge potential to benefit surgeons, nurses and patients. Recently, the learning paradigm of embodied AI has demonstrated promising ability to learn good control policies for various complex tasks, where embodied AI simulators play an essential role to facilitate relevant researchers. However, existing open-sourced simulators for surgical robot are still not sufficiently supporting human interactions through physical input devices, which further limits effective investigations on how human demonstrations would affect policy learning. In this paper, we study human-in-the-loop embodied intelligence with a new interactive simulation platform for surgical robot learning. Specifically, we establish our platform based on our previously released SurRoL simulator with several new features co-developed to allow high-quality human interaction via an input device. With these, we further propose to collect human demonstrations and imitate the action patterns to achieve more effective policy learning. We showcase the improvement of our simulation environment with the designed new features and tasks, and validate state-of-the-art reinforcement learning algorithms using the interactive environment. Promising results are obtained, with which we hope to pave the way for future research on surgical embodied intelligence. Our platform is released and will be continuously updated in the website: https://med-air.github.io/SurRoL/
翻訳日:2023-01-03 13:40:58 公開日:2023-01-01
# ブロックチェーンの設計原則: SoK の SoK のイニシアティブ

The Design Principle of Blockchain: An Initiative for the SoK of SoKs ( http://arxiv.org/abs/2301.00479v1 )

ライセンス: Link先を確認
Sunshine Zhang(参考訳) ブロックチェーンは、分散AIとも呼ばれ、プライバシ、セキュリティ、聴覚の分散信頼を生み出すことによって、AIをより信頼できるものにする可能性を秘めている。 しかし,Cyber-Physical-Socia-System (CPSS) 統合社会のための信頼エンジンとしてのブロックチェーンの設計原理に関する体系的研究はいまだにない。 本稿では,より優れたディジタル世界を実現するために,ブロックチェーンの設計原則を求めるイニシアティブを提供する。 定性的および定量的研究のハイブリッド手法を用いて,ブロックチェーン設計原則の過去の起源,現況,今後の方向性について検討する。 3つの発見がある 第一に、ブロックチェーンが分散データベースとして独自の設計原則に従っているかどうかについては議論の余地がある。 第2に、ブロックチェーンコミュニティの現在の開発は、プライバシとセキュリティ、スケーラビリティ、分散化、適用性、ガバナンスと規制、システム設計、クロスチェーン相互運用性を含む7つのカテゴリの分類である。 研究と実践は、プライバシとセキュリティの第1カテゴリと、適用可能性の第4カテゴリに重点を置いている。 将来の学者、実践家、政策立案者は、様々な面のインターフェースにおける、はるかに利用されていないファセットや合成において、大きな機会を持っている。 最後に,ブロックチェーンの現在の設計と,真にインテリジェントな世界のためのトラストエンジンの設計原理とのギャップを埋めるためには,規律境界を越える合成ソリューションが必要であると結論づける。

Blockchain, also coined as decentralized AI, has the potential to empower AI to be more trustworthy by creating a decentralized trust of privacy, security, and audibility. However, systematic studies on the design principle of Blockchain as a trust engine for an integrated society of Cyber-Physical-Socia-System (CPSS) are still absent. In this article, we provide an initiative for seeking the design principle of Blockchain for a better digital world. Using a hybrid method of qualitative and quantitative studies, we examine the past origin, the current development, and the future directions of Blockchain design principles. We have three findings. First, the answers to whether Blockchain lives up to its original design principle as a distributed database are controversial. Second, the current development of Blockchain community reveals a taxonomy of 7 categories, including privacy and security, scalability, decentralization, applicability, governance and regulation, system design, and cross-chain interoperability. Both research and practice are more centered around the first category of privacy and security and the fourth category of applicability. Future scholars, practitioners, and policy-makers have vast opportunities in other, much less exploited facets and the synthesis at the interface of multiple aspects. Finally, in counter-examples, we conclude that a synthetic solution that crosses discipline boundaries is necessary to close the gaps between the current design of Blockchain and the design principle of a trust engine for a truly intelligent world.
翻訳日:2023-01-03 13:33:13 公開日:2023-01-01
# CORGI-PM:中国のジェンダーバイアス調査と緩和のための企業

CORGI-PM: A Chinese Corpus For Gender Bias Probing and Mitigation ( http://arxiv.org/abs/2301.00395v1 )

ライセンス: Link先を確認
Ge Zhang, Yizhi Li, Yaoyao Wu, Linyuan Zhang, Chenghua Lin, Jiayi Geng, Shi Wang, Jie Fu(参考訳) ジェンダーバイアスに対する自然言語処理(NLP)が重要な学際的トピックとなるにつれ、大規模言語モデルのような一般的なデータ駆動技術は、特に中国語のような不十分な資源を持つ言語では、データ不足や偏りのあるコーパスに悩まされる。 そこで本研究では,中国におけるジェンダーバイアス専用に開発されたアノテーション・スキームに従って,高品質のラベル付き32.9k文を含む,性バイアスの探索と緩和のための中国語コーパスを提案する。 さらに,テキスト性バイアスの検出,分類,緩和をモデルに要求する,テキスト性バイアス自動軽減のための3つの課題に対処した。 また,最先端言語モデルを用いて実験を行い,ベースラインを提供する。 我々の知る限りでは、CORGI-PMは性偏見と緩和のための最初の文レベルの中国語コーパスである。

As natural language processing (NLP) for gender bias becomes a significant interdisciplinary topic, the prevalent data-driven techniques such as large-scale language models suffer from data inadequacy and biased corpus, especially for languages with insufficient resources such as Chinese. To this end, we propose a Chinese cOrpus foR Gender bIas Probing and Mitigation CORGI-PM, which contains 32.9k sentences with high-quality labels derived by following an annotation scheme specifically developed for gender bias in the Chinese context. Moreover, we address three challenges for automatic textual gender bias mitigation, which requires the models to detect, classify, and mitigate textual gender bias. We also conduct experiments with state-of-the-art language models to provide baselines. To our best knowledge, CORGI-PM is the first sentence-level Chinese corpus for gender bias probing and mitigation.
翻訳日:2023-01-03 13:31:20 公開日:2023-01-01