このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220416となっている論文です。

PDF登録状況(公開日: 20220416)

TitleAuthorsAbstract論文公表日・翻訳日
# 量子計測がパリティ時間対称性に及ぼす影響の検討

Investigation of the Effect of Quantum Measurement on Parity-Time Symmetry ( http://arxiv.org/abs/2110.13359v4 )

ライセンス: Link先を確認
Wei-Chen Wang, Yi Xie, Man-Chao Zhang, Jie Zhang, Chun-Wang Wu, Ting Chen, Bao-Quan Ou, Wei Wu, Ping-Xing Chen(参考訳) パリティ時間(\mathcal{PT}$)対称性を含む対称性は、多くの分野で広く議論され、採用されている顕著なトピックである。 量子測定は量子システムを破壊または妨害することが知られている。 しかし、量子計測は計測システムの対称性を破壊するのか? 関連する質問に答えるために、量子測定とフロケット $\mathcal{pt}$-対称性の相関関係を確立し、測定周波数と測定強度が測定系の$\mathcal{pt}$-対称性に、$^{40}\mathrm{ca}^{+}$イオンを用いてどのように影響するかを初めて検討する。 既に、高周波数での計測が$\mathcal{PT}$対称性を破ることが示されている。 特に、測定周波数が不十分に速い場合でも、測定強度が十分強ければ、$\mathcal{pt}$対称性の破れが起こる。 現在の研究は、量子測定と対称性の知識を高め、量子測定が対称性に与える影響についてさらなる研究を促す可能性がある。

Symmetry, including the parity-time ($\mathcal{PT}$)-symmetry, is a striking topic, widely discussed and employed in many fields. It is well-known that quantum measurement can destroy or disturb quantum systems. However, can and how does quantum measurement destroy the symmetry of the measured system? To answer the pertinent question, we establish the correlation between the quantum measurement and Floquet $\mathcal{PT}$-symmetry and investigate for the first time how the measurement frequency and measurement strength affect the $\mathcal{PT}$-symmetry of the measured system using the $^{40}\mathrm{Ca}^{+}$ ion. It is already shown that the measurement at high frequencies would break the $\mathcal{PT}$ symmetry. Notably, even for an inadequately fast measurement frequency, if the measurement strength is sufficiently strong, the $\mathcal{PT}$ symmetry breaking can occur. The current work can enhance our knowledge of quantum measurement and symmetry and may inspire further research on the effect of quantum measurement on symmetry.
翻訳日:2023-03-10 05:50:45 公開日:2022-04-16
# 深部サーロゲートを用いたハートストーン自動造成用マップイーライト

Deep Surrogate Assisted MAP-Elites for Automated Hearthstone Deckbuilding ( http://arxiv.org/abs/2112.03534v4 )

ライセンス: Link先を確認
Yulun Zhang, Matthew C. Fontaine, Amy K. Hoover and Stefanos Nikolaidis(参考訳) ゲームにおける高品質で多様なコンテンツを効率よく生成する問題について検討する。 Hearthstoneにおける自動デッキ構築に関する以前の研究によると、MAP-Elitesは多様な戦略ゲームプレイを備えた高性能デッキのコレクションを生成することができる。 しかしMAP-Elitesは、様々なデッキのコレクションを見つけるために、多くの高価な評価を必要とする。 提案手法は,オンライン上で訓練された深い代理モデルを用いてMAP-Elitesを支援することで,候補デッキに対するゲーム結果を予測する。 MAP-Elitesはサロゲートモデルの精度を改善するために多様なデータセットを発見し、サロゲートモデルはMAP-Elitesを新しいコンテンツへと導くのに役立つ。 Hearthstoneのデッキビルディングケーススタディにおいて、我々の手法はMAP-Elitesのサンプル効率を改善し、ランダムデッキでオフラインで訓練されたモデルと線形サロゲートモデルベースラインを上回り、自動Hearthstoneデッキビルディングにおける品質多様性の新たなアプローチを実現する。 実験のソースコードはhttps://github.com/icaros-usc/evostone2。

We study the problem of efficiently generating high-quality and diverse content in games. Previous work on automated deckbuilding in Hearthstone shows that the quality diversity algorithm MAP-Elites can generate a collection of high-performing decks with diverse strategic gameplay. However, MAP-Elites requires a large number of expensive evaluations to discover a diverse collection of decks. We propose assisting MAP-Elites with a deep surrogate model trained online to predict game outcomes with respect to candidate decks. MAP-Elites discovers a diverse dataset to improve the surrogate model accuracy, while the surrogate model helps guide MAP-Elites towards promising new content. In a Hearthstone deckbuilding case study, we show that our approach improves the sample efficiency of MAP-Elites and outperforms a model trained offline with random decks, as well as a linear surrogate model baseline, setting a new state-of-the-art for quality diversity approaches in automated Hearthstone deckbuilding. We include the source code for all the experiments at: https://github.com/icaros-usc/EvoStone2.
翻訳日:2023-03-05 07:59:13 公開日:2022-04-16
# パリティ検出に基づくMach-Zehnder量子干渉法における実数非ガウス演算方式

Realistic non-Gaussian operations scheme in parity detection based Mach-Zehnder quantum interferometry ( http://arxiv.org/abs/2202.09849v2 )

ライセンス: Link先を確認
Chandan Kumar, Rishabh, and Shikhar Arora(参考訳) パリティ検出に基づくマッハツェンダー干渉計(MZI)を用いて位相感度を理論的に解析し,非ガウス演算,ビズ演算,光子サブトラクション,光子付加,光子触媒を2モード圧縮真空(TMSV)状態で行うことにより発生する入力状態を用いて解析する。 これらの非ガウス演算は確率的であるため、成功確率を考慮することが最も重要である。 この目的のために、光子減算、付加、触媒反応の現実的なモデルを検討し、光子減算、付加、触媒化tmsv状態に対するウィグナー関数の単一表現を導出する。 ウィグナー関数は、MZIにおける量子クレーマー・ラオ境界とパリティ検出に基づく位相感度による位相感度の低い境界を評価するために用いられる。 我々は,非ガウス状態がTMSV状態よりも優れた位相感度を与える,スクイーズパラメータと透過率パラメータの範囲を同定する。 成功確率を定性的に考慮すると、光子付加は最も有利な非ガウス演算であることが分かる。 この研究で導かれた一般化ウィグナー関数は、様々な量子情報プロトコルや状態特徴づけに有用であることを期待する。

We theoretically analyze phase sensitivity using parity detection based Mach Zehnder interferometer (MZI) with the input states generated by performing non-Gaussian operations, viz., photon subtraction, photon addition, and photon catalysis on a two-mode squeezed vacuum (TMSV) state. Since these non-Gaussian operations are probabilistic, it is of utmost importance to take the success probability into account. To this end, we consider the realistic model of photon subtraction, addition, and catalysis and derive a single expression of the Wigner function for photon subtracted, added, and catalyzed TMSV state. The Wigner function is used to evaluate the lower bound on the phase sensitivity via quantum Cramer-Rao bound and parity detection based phase sensitivity in MZI. We identify the ranges of squeezing and transmissivity parameters where the non-Gaussian states provide better phase sensitivity than the TMSV state. On qualitatively taking the success probability into account, it turns out that the photon addition is the most advantageous non-Gaussian operation. We hope that the generalized Wigner function derived in this work will be useful in various quantum information protocols and state characterization.
翻訳日:2023-02-24 10:04:52 公開日:2022-04-16
# 医療用インターネットのブロックチェーンは、COVID-19パンデミックのパナセアか?

Is Blockchain for Internet of Medical Things a Panacea for COVID-19 Pandemic? ( http://arxiv.org/abs/2204.07725v1 )

ライセンス: Link先を確認
Xuran Li and Bishenghui Tao and Hong-Ning Dai and Muhammad Imran and Dehuan Wan and Dengwang Li(参考訳) 新型コロナウイルス(covid-19)パンデミックの流行は、一般市民の生活様式や社会の医療制度に大きな影響を与えている。 新型コロナウイルス(COVID-19)による感染症の流行に対処するため、病院、診療所、医療センターに配備されたIoMT(Internet of Medical Things)は診断時間を節約し、医療資源の効率を向上させることができるが、IoMTのプライバシーとセキュリティの懸念は広く採用を妨げている。 IoMTのプライバシ、セキュリティ、相互運用性の問題に対処するため、既存のIoMTシステムにブロックチェーンを導入してブロックチェーン対応のIoMTのフレームワークを提案する。 本稿では、このアーキテクチャの利点を概観し、ブロックチェーン対応IoMTがもたらす可能性を説明する。 また、感染症の予防、位置情報の共有と接触追跡、注射可能な医薬品のサプライチェーンなど、新型コロナウイルスのパンデミックと戦うブロックチェーン対応IoMTのユースケースも提供する。 この分野での今後の作業についても概説する。

The outbreak of the COVID-19 pandemic has deeply influenced the lifestyle of the general public and the healthcare system of the society. As a promising approach to address the emerging challenges caused by the epidemic of infectious diseases like COVID-19, Internet of Medical Things (IoMT) deployed in hospitals, clinics, and healthcare centers can save the diagnosis time and improve the efficiency of medical resources though privacy and security concerns of IoMT stall the wide adoption. In order to tackle the privacy, security, and interoperability issues of IoMT, we propose a framework of blockchain-enabled IoMT by introducing blockchain to incumbent IoMT systems. In this paper, we review the benefits of this architecture and illustrate the opportunities brought by blockchain-enabled IoMT. We also provide use cases of blockchain-enabled IoMT on fighting against the COVID-19 pandemic, including the prevention of infectious diseases, location sharing and contact tracing, and the supply chain of injectable medicines. We also outline future work in this area.
翻訳日:2023-02-19 16:18:34 公開日:2022-04-16
# 離散ヒルベルト空間と超決定論

Discretised Hilbert Space and Superdeterminism ( http://arxiv.org/abs/2204.05763v2 )

ライセンス: Link先を確認
T.N. Palmer(参考訳) 計算物理学では、離散表現を持つ連続系を近似するのが標準である。 ここでは、量子力学の連続複素ヒルベルト空間の特定の離散化を考える - 平方振幅と複素位相が有理数である離散化。 この離散化の細部は有限(素数)パラメータ $p$ によって決定される。 p \rightarrow \infty$ として、計算物理学における標準離散表現とは異なり、このモデルは連続体極限まで滑らかに進まない。 その代わり、量子力学の状態空間は、離散化されたモデルの特異極限 p =infty$ である。 三角関数の数論的な性質を用いて、十分大きな値である p$ に対して、離散ヒルベルト空間は本質的に超決定論的枠組みの中で量子系のアンサンブル表現を正確に記述し、ベルの定理における統計的独立性仮定が形式的に違反していることを示した。 この意味で、離散モデルは、非局所性や不定現実性に訴えることなく、ベルの不等式違反を説明することができる。 この離散化された枠組みは、自然の状態空間 $p$-adic 計量に関して、微調整されていない(従って共謀的ではない)ことが示されている。 マイケル・ベリーが述べたように、物理学の古い理論は一般に新しい理論の特異な極限であり、新しい理論のパラメータはゼロまたは無限大に等しい。 これを使用すれば、スーパーダーミニズムを批判するスコット・アーロンソン(Scott Aaronson)による挑戦に答えることができる:物理学の偉大な理論(以下、量子力学)が、その候補の後継者理論(以下、ヒルベルト空間を離散化した量子物理学の超決定論的理論)によって「大々的に説明」されるよりもむしろ「急激に受け入れられた」ときを説明することができる。

In computational physics it is standard to approximate continuum systems with discretised representations. Here we consider a specific discretisation of the continuum complex Hilbert space of quantum mechanics - a discretisation where squared amplitudes and complex phases are rational numbers. The fineness of this discretisation is determined by a finite (prime-number) parameter $p$. As $p \rightarrow \infty$, unlike standard discretised representations in computational physics, this model does not tend smoothly to the continuum limit. Instead, the state space of quantum mechanics is a singular limit of the discretised model at $p=\infty$. Using number theoretic properties of trigonometric functions, it is shown that for large enough values of $p$, discretised Hilbert space accurately describes ensemble representations of quantum systems within an inherently superdeterministic framework, one where the Statistical Independence assumption in Bell's theorem is formally violated. In this sense, the discretised model can explain the violation of Bell inequalities without appealing to nonlocality or indefinite reality. It is shown that this discretised framework is not fine tuned (and hence not conspiratorial) with respect to its natural state-space $p$-adic metric. As described by Michael Berry, old theories of physics are typically the singular limits of new theories as a parameter of the new theory is set equal to zero or infinity. Using this, we can answer the challenge posed by Scott Aaronson, critic of superderminism: to explain when a great theory in physics (here quantum mechanics) has ever been `grudgingly accommodated' rather than `gloriously explained' by its candidate successor theory (here a superdeterministic theory of quantum physics based on discretised Hilbert space).
翻訳日:2023-02-17 23:49:33 公開日:2022-04-16
# 二層グラフェン量子ドットと環のトライビアルおよび位相境界状態

Trivial and topological bound states in bilayer graphene quantum dots and rings ( http://arxiv.org/abs/2204.07737v1 )

ライセンス: Link先を確認
Nassima Benchtaber, David S\'anchez, Lloren\c{c} Serra(参考訳) 両層グラフェンの2種類の閉じ込めについて, 上面および下面のゲーティングと対称マイクロ電極による検討を行った。 トライヴィアル閉じ込めは、すべての最上ゲートの極性に対応しており、全ての最下ゲートの極性とは対照的である。 位相閉じ込めは、トップボトム対のゲートの一部を反転させる極性を必要とする。 自明な境界状態と位相的境界状態の主な定性的差が磁場依存性に現れることを示す。 量子ドットとリングのエネルギースペクトルの明示的な計算により、我々の発見を説明する。 トライビアル閉じ込めは、非中心ギャップを持つ退化したランダウバンドにレベルを束ねる一方、トポロジカル閉じ込めは磁場誘起ギャップを示さず、状態枝の列は常にゼロエネルギーを横断する。

We discuss and compare two different types of confinement in bilayer graphene by top and bottom gating with symmetrical microelectrodes. Trivial confinement corresponds to the same polarity of all top gates, which is opposed to that of all bottom ones. Topological confinement requires the polarity of part of the top-bottom pairs of gates to be reversed. We show that the main qualitative difference between trivial and topological bound states manifests itself in the magnetic field dependence. We illustrate our finding with an explicit calculation of the energy spectrum for quantum dots and rings. Trivial confinement shows bunching of levels into degenerate Landau bands, with a non-centered gap, while topological confinement shows no field-induced gap and a sequence of state branches always crossing zero-energy.
翻訳日:2023-02-16 19:19:55 公開日:2022-04-16
# 二次元系に対するフランク・ゴリーニ・コサコフスキー・リンドブラッド・スダルシャン方程式

The Franke-Gorini-Kossakowski-Lindblad-Sudarshan (FGKLS) Equation for Two-Dimensional Systems ( http://arxiv.org/abs/2204.07734v1 )

ライセンス: Link先を確認
Alexander A. Andrianov, Mikhail V. Ioffe, Ekaterina A. Izotova, Oleg O. Novikov(参考訳) 開量子系は一般に、動的半群に属する変換の下で進化している密度行列によって記述される。 fgkls(franke-gorini-kossakowski-lindblad-sudarshan)方程式に従うことができる。 ヒルベルト空間の次元が 2$ である場合について徹底的に研究する。 まず、開系の進化の最終的な固定状態(ポインタと呼ばれる)を見つけ、次にFGKLS方程式の一般解を取得し、それがポインタに収束することを確認する。 その後、解が物理的意味を持つこと、すなわち、正のエルミートであり、1ドルに等しいトレースを持つことを確認し、FGKLS方程式が使える時間モーメント(半群対称性の適用範囲)を求める。 次に,環境との弱い相互作用に対する解の挙動を調べ,相互作用事例と非相互作用事例を区別する。 最後に、閉量子系の挙動に類似するFGKLS方程式の振動解は存在しないことを証明した。

Open quantum systems are, in general, described by a density matrix that is evolving under transformations belonging to a dynamical semigroup. They can obey the Franke-Gorini-Kossakowski-Lindblad-Sudarshan (FGKLS) equation. We exhaustively study the case of a Hilbert space of dimension $2$. First, we find final fixed states (called pointers) of an evolution of an open system, and we then obtain a general solution to the FGKLS equation and confirm that it converges to a pointer. After this, we check that the solution has physical meaning, i.e., it is Hermitian, positive and has trace equal to $1$, and find a moment of time starting from which the FGKLS equation can be used - the range of applicability of the semigroup symmetry. Next, we study the behavior of a solution for a weak interaction with an environment and make a distinction between interacting and non-interacting cases. Finally, we prove that there cannot exist oscillating solutions to the FGKLS equation, which would resemble the behavior of a closed quantum system.
翻訳日:2023-02-16 19:19:40 公開日:2022-04-16
# キャビティを介する長距離相互作用を有する格子ボソンにおける絡み合いの量子臨界挙動

Quantum critical behavior of entanglement in lattice bosons with cavity-mediated long-range interactions ( http://arxiv.org/abs/2204.07712v1 )

ライセンス: Link先を確認
Shraddha Sharma, Simon B. Jaeger, Rebecca Kraus, Tommaso Roscilde, Giovanna Morigi(参考訳) 無限距離相互作用による拡張Bose-Hubbardモデルの基底状態絡みエントロピーを解析する。 このモデルは、光格子に強く結合し、キャビティモードに分散結合した超低温ボソンの低エネルギーダイナミクスを記述する。 オンサイト反発と大域的なキャビティ誘起相互作用の競合は、超流動、超固体、絶縁(mottおよびチェッカーボード)相を示す豊富な位相図をもたらす。 平均場溶液の周囲の高調波量子ゆらぎのスレーブ・ボソン処理と相転移の絡み合いのエントロピーを計算する。 コンメンシュレート充填では、絶縁体-超流動遷移は、標準ボース-ハッバードモデルで報告されたものと類似したエンタングルメントエントロピーの領域-法則スケーリング係数の特異性によって信号される。 驚くべきことに、連続的な$\mathbb{z}_2$ superfluid-to-supersolid 遷移では、充填に関係なく臨界対数項が見つかる。 この挙動は励起と絡み合いスペクトルにおけるロートンモードの出現に起因し、臨界点において隙間のない状態となり、集合モデルの特徴である。

We analyze the ground-state entanglement entropy of the extended Bose-Hubbard model with infinite-range interactions. This model describes the low-energy dynamics of ultracold bosons tightly bound to an optical lattice and dispersively coupled to a cavity mode. The competition between onsite repulsion and global cavity-induced interactions leads to a rich phase diagram, which exhibits superfluid, supersolid, and insulating (Mott and checkerboard) phases. We use a slave-boson treatment of harmonic quantum fluctuations around the mean-field solution and calculate the entanglement entropy across the phase transitions. At commensurate filling, the insulator-superfluid transition is signalled by a singularity in the area-law scaling coefficient of the entanglement entropy, that is similar to the one reported for the standard Bose-Hubbard model. Remarkably, at the continuous $\mathbb{Z}_2$ superfluid-to-supersolid transition we find a critical logarithmic term, regardless of the filling. This behavior originates from the appearance of a roton mode in the excitation and entanglement spectrum, becoming gapless at the critical point, and it is characteristic of collective models.
翻訳日:2023-02-16 19:19:22 公開日:2022-04-16
# 深層強化学習による加速マグネニック運動冷却

Accelerated Magnonic Motional Cooling with Deep Reinforcement Learning ( http://arxiv.org/abs/2204.07710v1 )

ライセンス: Link先を確認
Bijita Sarma, Sangkha Borah, A Kani, Jason Twamley(参考訳) 運動モードの高速冷却は、そのようなボゾン量子を高速な量子情報処理に活用するための前提条件である。 本研究は,従来のサイドバンド冷却技術に制約された冷却の時間制限を減らし,これを実現するために深部強化学習(DRL)を適用する手法を提案する。 特に,このスキームをマクロなマグノニック球面の動的運動冷却の促進に効果的に利用し,より複雑なシステム,例えば,コヒーレント冷却の時間領域以下の運動モードの冷却を得るための三分光学-マグノメカニカルシステムに対して均一に拡張できることを示した。 従来のサイドバンド冷却法は、よく知られた回転波近似(rwa)レジームを超えては機能しないが、提案手法は、rwa内外で動作するレジームに一様に適用できるため、量子技術におけるマクロ量子状態の迅速な制御と生成のための新しい完全なツールキットを提供する。

Achieving fast cooling of motional modes is a prerequisite for leveraging such bosonic quanta for high-speed quantum information processing. In this work, we address the aspect of reducing the time limit for cooling below that constrained by the conventional sideband cooling techniques; and propose a scheme to apply deep reinforcement learning (DRL) to achieve this. In particular, we have shown how the scheme can be used effectively to accelerate the dynamic motional cooling of a macroscopic magnonic sphere, and how it can be uniformly extended for more complex systems, for example, a tripartite opto-magno-mechanical system to obtain cooling of the motional mode below the time bound of coherent cooling. While conventional sideband cooling methods do not work beyond the well-known rotating wave approximation (RWA) regimes, our proposed DRL scheme can be applied uniformly to regimes operating within and beyond the RWA, and thus this offers a new and complete toolkit for rapid control and generation of macroscopic quantum states for application in quantum technologies.
翻訳日:2023-02-16 19:18:58 公開日:2022-04-16
# 運動と放射の量子ラビ干渉計

Quantum Rabi interferometry of motion and radiation ( http://arxiv.org/abs/2204.07699v1 )

ライセンス: Link先を確認
Kimin Park, Jacob Hastrup, Petr Marek, Ulrik L. Andersen, and Radim Filip(参考訳) 発振器とアンシラキュービットを結合することにより、位相空間内の所定の方向における機械的発振器またはマイクロ波場の変位の正確な決定をそれぞれ捕捉イオンまたは超伝導回路で行うことができる。 この結合を通じて、変位情報はキュービットに転送され、その後読み出される。 しかし、そのような振動子量子ビット系では、位相空間における未知方向の変位の明らかな推定は試みられていない。 本稿では,回転波近似以上のラビ相互作用に基づく位相空間変位を任意方向に不明瞭に推定するためのハイブリッドオシレータ量子ビット干渉法を提案する。 このようなハイブリッド型Rabi干渉計を量子センシングに用いて, 単一モード推定法とJaynes-Cummings相互作用に基づく従来の干渉計により得られたものよりも優れた性能を示す。 さらに,Rabi干渉計の感度は発振器モードの熱的占有とは無関係であり,センサが不要になる前に冷却することがわかった。 また,量子ビットデファスメントと発振器の熱化の影響について徹底的に検討する。 干渉計はかなりロバストで、大きなデファスメントや熱化であっても、異なるベンチマーク推定スキームよりも優れています。

The precise determination of a displacement of a mechanical oscillator or a microwave field in a predetermined direction in phase space can be carried out with trapped ions or superconducting circuits, respectively, by coupling the oscillator with ancilla qubits. Through that coupling, the displacement information is transferred to the qubits which are then subsequently read out. However, unambiguous estimation of displacement in an unknown direction in the phase space has not been attempted in such oscillator-qubit systems. Here, we propose a hybrid oscillator-qubit interferometric setup for the unambiguous estimation of phase space displacements in an arbitrary direction, based on feasible Rabi interactions beyond the rotating-wave approximation. Using such a hybrid Rabi interferometer for quantum sensing, we show that the performance is superior to the ones attained by single-mode estimation schemes and a conventional interferometer based on Jaynes-Cummings interactions. Moreover, we find that the sensitivity of the Rabi interferometer is independent of the thermal occupation of the oscillator mode, and thus cooling it to the ground state before sensing is not required. We also perform a thorough investigation of the effect of qubit dephasing and oscillator thermalization. We find the interferometer to be fairly robust, outperforming different benchmark estimation schemes even for large dephasing and thermalization.
翻訳日:2023-02-16 19:18:34 公開日:2022-04-16
# AdS/CFTにおけるサンドウィッチレニー相対エントロピー

Sandwiched Renyi Relative Entropy in AdS/CFT ( http://arxiv.org/abs/2204.07694v1 )

ライセンス: Link先を確認
Reginald J. Caginalp(参考訳) 本稿では,ads/cftおよびホログラフィック量子誤差補正の有限次元モデルにおけるrenyi相対エントロピーのサンドイッチ化について検討する。 特に、作用素代数の量子誤差補正の文脈において、有限次元フォン・ノイマン代数上のサンドイッチされたレーニー相対エントロピーの適切な一般化について論じる。 すると、バルクおよび境界付き相対レニイエントロピーの等式は、バルクおよび境界状態の代数的符号化、リュウ・タカヤヤギ公式、バルクおよび境界付き相対エントロピーの等式、亜地域双対性と等価であることが示される。 これはarxiv:1607.03901で確立された最後の4項目の間の同値定理に別の項目を追加する。 次に、モジュラー作用素の項で定義されるサンドイッチされたrenyi相対エントロピーを議論し、ホログラフィック量子誤差補正の有限次元モデルに自然に適合する定義となることを示す。 最後に、単純なホログラフィックランダムテンソルネットワークに対するサンドイッチ付きレニイ相対エントロピーの数値計算を行い、バルクおよび境界付きレニイ相対エントロピーの正確な等式に対する補正をよりよく理解する。

We explore the role of sandwiched Renyi relative entropy in AdS/CFT and in finite-dimensional models of holographic quantum error correction. In particular, in the context of operator algebra quantum error correction, we discuss a suitable generalization of sandwiched Renyi relative entropy over finite-dimensional von Neumann algebras. It is then shown that the equality of bulk and boundary sandwiched relative Renyi entropies is equivalent to algebraic encoding of bulk and boundary states, the Ryu-Takayanagi formula, the equality of bulk and boundary relative entropy, and subregion duality. This adds another item to an equivalence theorem between the last four items established in arxiv:1607.03901. We then discuss the sandwiched Renyi relative entropy defined in terms of modular operators, and show that this becomes the definition naturally suited to the finite-dimensional models of holographic quantum error correction. Finally, we explore some numerical calculations of sandwiched Renyi relative entropies for a simple holographic random tensor network in order to obtain a better understanding of corrections to the exact equality of bulk and boundary sandwiched relative Renyi entropy.
翻訳日:2023-02-16 19:18:17 公開日:2022-04-16
# Jシンクロナイズドエコー検出による同核J結合分光

Homonuclear J-Coupling Spectroscopy using J-Synchronized Echo Detection ( http://arxiv.org/abs/2204.07686v1 )

ライセンス: Link先を確認
Stephen J. DeVience and Matthew S. Rosen(参考訳) 化学シフトの差よりはるかに大きいj結合を持つ強いカップリング構造において、j結合分光法は従来のnmrが失敗しても分子のスペクトル識別を可能にする。 これは古典的にはヘテロ核の存在を必要とするが、最近、スピンロック誘導交差(SLIC)を用いてJカップリングスペクトルを多くのホモ核系で得ることを示した。 本稿では,スピン同期スライスパルスの代わりにスピンエコートレインを用いた代替方式を提案する。 特に、パルス列内のスピンエコー取得は、時間と周波数データの同時収集を可能にする。 得られた2次元スペクトルは、動的スピン発展の研究に使用され、時間領域データは平均化され、信号対雑音比が増加する1次元j結合スペクトルを生成することができる。

In the strong coupling regime with J-coupling much larger than chemical shift differences, J-coupling spectroscopy enables spectral identification of molecules even when conventional NMR fails. While this classically required the presence of a heteronucleus, we recently showed that J-coupling spectra can be acquired in many homonuclear systems using spin-lock induced crossing (SLIC). Here, we present an alternative method using a spin echo train in lieu of a spin-locking SLIC pulse, which has a number of advantages. In particular, spin echo acquisition within the pulse train enables simultaneous collection of time and frequency data. The resulting 2D spectrum can be used to study dynamic spin evolution, and the time domain data can be averaged to create a 1D J-coupling spectrum with increased signal-to-noise ratio.
翻訳日:2023-02-16 19:17:29 公開日:2022-04-16
# 量子FLTインバージョン回路の深さ低減

Reducing the Depth of Quantum FLT-Based Inversion Circuit ( http://arxiv.org/abs/2204.08940v1 )

ライセンス: Link先を確認
Harashta Tatimma Larasati, Dedy Septono Catur Putranto, Rini Wisnu Wardhani, Howon Kim(参考訳) 量子コンピューティングと暗号解析の研究は、ここ数年で大幅に増加している。 場の必須成分の一つである量子算術回路の様々な構成も提案されている。 しかし、量子アルゴリズムの実現に必須であるにもかかわらず、楕円曲線離散対数問題(ECDLP)に対するショアのアルゴリズムのような有限場反転の研究はわずかにしか行われていない。 本研究では,Fermat's Little Theorem(FLT)をベースとした2元有限場インバージョン回路の深さを削減することを提案する。 特に,Itoh-Tsujii 変種 FLT を対応する量子回路に変換し,Banegas らによる以前の研究で採用した逆赤道演算を取り除き,CNOT ゲート数(CNOT カウント)を減らし,全体の深さとゲート数を減らすことに寄与する完全なウォーターフォール手法を提案する。 さらに,Qiskit量子コンピュータシミュレータにおいて,まず本手法と過去の作業のコストを比較し,資源分析を行う。 我々のアプローチは、時間効率の良い実装の代替として機能する。

Works on quantum computing and cryptanalysis has increased significantly in the past few years. Various constructions of quantum arithmetic circuits, as one of the essential components in the field, has also been proposed. However, there has only been a few studies on finite field inversion despite its essential use in realizing quantum algorithms, such as in Shor's algorithm for Elliptic Curve Discrete Logarith Problem (ECDLP). In this study, we propose to reduce the depth of the existing quantum Fermat's Little Theorem (FLT)-based inversion circuit for binary finite field. In particular, we propose follow a complete waterfall approach to translate the Itoh-Tsujii's variant of FLT to the corresponding quantum circuit and remove the inverse squaring operations employed in the previous work by Banegas et al., lowering the number of CNOT gates (CNOT count), which contributes to reduced overall depth and gate count. Furthermore, compare the cost by firstly constructing our method and previous work's in Qiskit quantum computer simulator and perform the resource analysis. Our approach can serve as an alternative for a time-efficient implementation.
翻訳日:2023-02-16 19:11:42 公開日:2022-04-16
# ノイズ型レーダの共分散行列推定

Structured Covariance Matrix Estimation for Noise-Type Radars ( http://arxiv.org/abs/2204.07882v1 )

ライセンス: Link先を確認
David Luong, Bhashyam Balaji, Sreeraman Rajan(参考訳) 標準ノイズレーダと量子2モードスキーズレーダのようなノイズ型レーダは、非常に特異な構造を持つ共分散行列によって特徴付けられる。 この行列は、受信信号の振幅、マッチングフィルタリングに用いられる内部信号の振幅、2つの信号間の相関、それらの間の相対位相の4つの独立したパラメータを持つ。 本稿では,これら4つのパラメータの推定器を2つの手法で導出する。 1つは、構造化共分散行列とサンプル共分散行列の間のフロベニウスノルムを最小化することに基づいており、もう1つは最大極大パラメータ推定である。 2つの手法は同じ推定値が得られる。 そして、4つの推定値すべてに確率密度関数(pdf)を与える。 これらのPDFのいくつかは非常に複雑であるため、近似PDFも提供します。 最後に,2種類のノイズレーダ検出器の特性曲線を演算する受信機の目標検出および導出式の問題に対して,本結果を適用した。

Standard noise radars, as well as noise-type radars such as quantum two-mode squeezing radar, are characterized by a covariance matrix with a very specific structure. This matrix has four independent parameters: the amplitude of the received signal, the amplitude of the internal signal used for matched filtering, the correlation between the two signals, and the relative phase between them. In this paper, we derive estimators for these four parameters using two techniques. The first is based on minimizing the Frobenius norm between the structured covariance matrix and the sample covariance matrix; the second is maximum likelihood parameter estimation. The two techniques yield the same estimators. We then give probability density functions (PDFs) for all four estimators. Because some of these PDFs are quite complicated, we also provide approximate PDFs. Finally, we apply our results to the problem of target detection and derive expressions for the receiver operating characteristic curves of two different noise radar detectors.
翻訳日:2023-02-16 19:11:22 公開日:2022-04-16
# Neyman-Pearson を用いたノイズ型レーダ検出装置の一家系

A Family of Neyman-Pearson-Based Detectors for Noise-Type Radars ( http://arxiv.org/abs/2204.07881v1 )

ライセンス: Link先を確認
David Luong, Bhashyam Balaji, Sreeraman Rajan(参考訳) 単一入力単一出力ノイズレーダの目標検出性能を最適化する検出器を導出し、ガウスノイズを送信し、マッチングフィルタリングのための内部参照信号を保持し、外部ノイズはすべて白色ガウスノイズであり、全ての信号はヘテロダイン受信機を用いて測定される。 ノイズ型レーダーと呼ばれるこの種類のレーダーには、多くの種類の標準ノイズレーダだけでなく、量子二モードスクイーズレーダーと呼ばれる量子レーダーも含まれる。 ニーマン・ピアソン補題を用いて導出する検出器は、事前に知ることができない目標依存相関係数の事前認識を必要とするため、実用的ではない。 (ただし、他の検出器との比較の自然な基準である。) これは、相関係数をパラメータとして扱うと生じるニーマン・ピアソン系検出器の族を研究する動機となる。 我々は,事前チョンパラメータ値と真の相関係数のミスマッチがある場合,ニーマン・ピアソン系検出器の確率分布を導出する。 次に、この結果を用いて受信特性曲線を生成する。 最後に,相関係数が小さい場合に結果を適用する。 結果として得られた検出器は、良いものだけでなく、量子レーダーの文献に以前に現れたものであることが判明した。

We derive a detector that optimizes the target detection performance of any single-input single-output noise radar satisfying the following properties: it transmits Gaussian noise, it retains an internal reference signal for matched filtering, all external noise is additive white Gaussian noise, and all signals are measured using heterodyne receivers. This class of radars, which we call noise-type radars, includes not only many types of standard noise radars, but also a type of quantum radar known as quantum two-mode squeezing radar. The detector, which we derive using the Neyman-Pearson lemma, is not practical because it requires foreknowledge of a target-dependent correlation coefficient that cannot be known beforehand. (It is, however, a natural standard of comparison for other detectors.) This motivates us to study the family of Neyman-Pearson-based detectors that result when the correlation coefficient is treated as a parameter. We derive the probability distribution of the Neyman-Pearson-based detectors when there is a mismatch between the pre-chosen parameter value and the true correlation coefficient. We then use this result to generate receiver operating characteristic curves. Finally, we apply our results to the case where the correlation coefficient is small. It turns out that the resulting detector is not only a good one, but that it has appeared previously in the quantum radar literature.
翻訳日:2023-02-16 19:11:06 公開日:2022-04-16
# 吸収性ファインマンチェッカー

Feynman Checkers with Absorption ( http://arxiv.org/abs/2204.07861v1 )

ライセンス: Link先を確認
Mikhail Dmitriev(参考訳) 我々は、Ambainisらによる定理の新たな基本的な証明を与える。量子ウォークでは、4nステップ後の初期点における吸収の確率振幅は、カタルーニャ数に比例する。 また,最初の点に近い点における吸収確率を初めて計算する。

We give a new elementary proof of the theorem by Ambainis et al. that for a quantum walk, the probability amplitudes of absorption at the initial point after 4n steps are proportional to the Catalan numbers. We also calculate the absorption probabilities at points close to the initial one for the first time.
翻訳日:2023-02-16 19:10:43 公開日:2022-04-16
# 2^{1296}$ 拡張的深層学習法による指数複雑量子多体シミュレーション

$2^{1296}$ Exponentially Complex Quantum Many-Body Simulation via Scalable Deep Learning Method ( http://arxiv.org/abs/2204.07816v1 )

ライセンス: Link先を確認
Xiao Liang, Mingfan Li, Qian Xiao, Hong An, Lixin He, Xuncheng Zhao, Junshi Chen, Chao Yang, Fei Wang, Hong Qian, Li Shen, Dongning Jia, Yongjian Gu, Xin Liu and Zhiqiang Wei(参考訳) 何十年もの間、ヒルベルト空間が問題の大きさで指数関数的に増加する量子多体問題を解くための効率的な数値解法が開発されてきた。 しかし、以前の方法にはすべて深刻な制限があるため、この旅は終わらない。 最近開発されたディープラーニング手法は、長年続く量子多体問題の解決に非常に有望な新しい経路を提供する。 我々は,新しいSunwayスーパーコンピュータ上でHPC-AIハイブリッドフレームワークを用いて,スピン系は2^{1296}$,フェルミオン系は3^{144}$のHilbert空間における最先端の精度で,ディープラーニングに基づくシミュレーションプロトコルが実現可能であることを報告した。 高スケーラビリティを最大4000万のヘテロジニアスコアで実現することで、当社のアプリケーションは94%の弱いスケーリング効率と72%の強いスケーリング効率を測定しました。 この研究の成果は、極端に高精度な前例のない格子サイズでスピンモデルとフェルミオンモデルをシミュレートする扉を開く。

For decades, people are developing efficient numerical methods for solving the challenging quantum many-body problem, whose Hilbert space grows exponentially with the size of the problem. However, this journey is far from over, as previous methods all have serious limitations. The recently developed deep learning methods provide a very promising new route to solve the long-standing quantum many-body problems. We report that a deep learning based simulation protocol can achieve the solution with state-of-the-art precision in the Hilbert space as large as $2^{1296}$ for spin system and $3^{144}$ for fermion system , using a HPC-AI hybrid framework on the new Sunway supercomputer. With highly scalability up to 40 million heterogeneous cores, our applications have measured 94% weak scaling efficiency and 72% strong scaling efficiency. The accomplishment of this work opens the door to simulate spin models and Fermion models on unprecedented lattice size with extreme high precision.
翻訳日:2023-02-16 19:10:37 公開日:2022-04-16
# ボソンサンプリングは低次マルチボソン干渉だけでは忠実にシミュレーションできない

Boson sampling cannot be faithfully simulated by only the lower-order multi-boson interferences ( http://arxiv.org/abs/2204.07792v1 )

ライセンス: Link先を確認
Valery Shchesnovich(参考訳) 低次マルチボソン干渉(例えば、より少ない数の干渉ボソンと古典粒子)のみによって近似したノイズボソンサンプリングをシミュレートする。 このような古典的シミュレーションの出力データは、後者の有限ノイズであっても、シミュレーションしようとする量子デバイスの出力と効率的に区別できることを示します。 区別可能なデータセットは、いくつかの大きな確率の実験的な推定であり、その幅広いクラスが提示される。 これは \textit{quantum} \textbf{5}, 423 (2021) の後継で、ノイズの存在下での高次マルチボゾン干渉の寄与に関する追加の洞察によって強化された主結果のよりアクセスしやすい説明を示す。

To simulate noisy boson sampling approximating it by only the lower-order multi-boson interferences (e.g., by a smaller number of interfering bosons and classical particles) is very popular idea. I show that the output data from any such classical simulations can be efficiently distinguished from that of the quantum device they try to simulate, even with finite noise in the latter. The distinguishing datasets can be the experimental estimates of some large probabilities, a wide class of such is presented. This is a sequel of \textit{Quantum} \textbf{5}, 423 (2021), where I present more accessible account of the main result enhanced by additional insight on the contribution from the higher-order multi-boson interferences in presence of noise.
翻訳日:2023-02-16 19:10:15 公開日:2022-04-16
# シングルスピンシステムによるLeggett-Garg不平等の実験的検討

Experimental violation of the Leggett-Garg inequality with a single-spin system ( http://arxiv.org/abs/2204.07765v1 )

ライセンス: Link先を確認
Maimaitiyiming Tusun, Wei Cheng, Zihua Chai, Yang Wu, Ya Wang, Xing Rong, Jiangfeng Du(参考訳) 量子力学的記述と古典的現実的視点の境界は、基本的に重要である。 Leggett-Gargの不等式は、量子系と古典系を区別するための基準を提供し、マクロな重ね合わせ状態を証明するために使用できる。 lg関数のより大きな上限は、多レベルシステムにおいて得ることができる。 本稿では,ダイヤモンド中の窒素空孔中心を用いた3レベルシステムにおけるLegget-Garg不等式の実験的検討を行った。 Leggett-Garg 関数の実験的な最大値は $K_{3}^{exp}=1.625\pm0.022$ であり、信頼度は 5 である。

Investigation the boundary between quantum mechanical description and classical realistic view is of fundamental importance. The Leggett-Garg inequality provides a criterion to distinguish between quantum systems and classical systems, and can be used to prove the macroscopic superposition state. A larger upper bound of the LG function can be obtained in a multi-level system. Here, we present an experimental violation of the Leggett-Garg inequality in a three-level system using nitrogen-vacancy center in diamond by ideal negative result measurement. The experimental maximum value of Leggett-Garg function is $K_{3}^{exp}=1.625\pm0.022$ which exceeds the L\"uders bound with a $5\sigma$ level of confidence.
翻訳日:2023-02-16 19:09:44 公開日:2022-04-16
# MHSA-Net:Occluded Person Redentificationのためのマルチヘッドセルフアテンションネットワーク

MHSA-Net: Multi-Head Self-Attention Network for Occluded Person Re-Identification ( http://arxiv.org/abs/2008.04015v4 )

ライセンス: Link先を確認
Hongchen Tan, Xiuping Liu, Baocai Yin and Xin Li(参考訳) 本稿では、重要でない情報を盗み出し、人物画像から重要な局所情報をキャプチャするマルチヘッドセルフアテンションネットワーク(mhsa-net)と呼ばれる新しい人物再同定モデルを提案する。 MHSA-Netには、MHSAB(Multi-Head Self-Attention Branch)とACM(Attention Competition Mechanism)の2つの新しいコンポーネントが含まれている。 MHSABは、鍵となるローカルな人物情報を適応的に捕捉し、マッチングした人物に対する画像の効果的な多様性埋め込みを生成する。 acmはさらに注意ノイズやキーでない情報をフィルタリングするのに役立つ。 広範囲にわたるアブレーション研究を通じて,MHSAB(Multi-Head Self-Attention Branch)とACM(Attention Competition Mechanism)がMHSA-Netの性能向上に寄与することが確認された。 我々のMHSA-Netは、標準的かつ排他的なRe-IDタスクにおいて競争性能を達成する。

This paper presents a novel person re-identification model, named Multi-Head Self-Attention Network (MHSA-Net), to prune unimportant information and capture key local information from person images. MHSA-Net contains two main novel components: Multi-Head Self-Attention Branch (MHSAB) and Attention Competition Mechanism (ACM). The MHSAB adaptively captures key local person information, and then produces effective diversity embeddings of an image for the person matching. The ACM further helps filter out attention noise and non-key information. Through extensive ablation studies, we verified that the Multi-Head Self-Attention Branch (MHSAB) and Attention Competition Mechanism (ACM) both contribute to the performance improvement of the MHSA-Net. Our MHSA-Net achieves competitive performance in the standard and occluded person Re-ID tasks.
翻訳日:2022-10-31 23:06:11 公開日:2022-04-16
# (参考訳) マルチエージェントQLearningを用いたLTEのための認知無線リソーススケジューリング

Cognitive Radio Resource Scheduling using Multi agent QLearning for LTE ( http://arxiv.org/abs/2205.02765v1 )

ライセンス: CC BY 4.0
Najem N Sirhan and Manel Martinez Ramon(参考訳) 本稿では,2つの新しいダウンリンクLTEスケジューリングアルゴリズムを提案し,実装し,テストする。 これらのアルゴリズムの実装とテストはMatlabで行われ、強化学習(Reinforcement Learning)、より具体的には、2種類のユーザーをスケジューリングするQ Learning技術に基づいている。 第1のアルゴリズムは協調スケジューリングアルゴリズムと呼ばれ、第2のアルゴリズムは競合スケジューリングアルゴリズムと呼ばれる。 スケジュールされたユーザの最初のタイプはプライマリユーザであり、サービスに対して課金するライセンス契約者である。 予定される第2のタイプはセカンダリ・ユーザーであり、サービスやデバイスからデバイスへの通信、センサーへの料金を支払わない無許可の加入者になる可能性がある。 プライマリかセカンダリかに関わらず、各ユーザはエージェントと見なされる。 コラボレーティブスケジューリングアルゴリズムでは、プライマリユーザエージェントが協調して、それぞれのリソースブロックを割り当てる共同スケジューリング決定を行い、その後、セカンダリユーザエージェントが競合して残りのリソースブロックを使用する。 競合スケジューリングアルゴリズムでは、プライマリユーザエージェントが利用可能なリソースを競い合い、セカンダリユーザエージェントが残りのリソースを競う。 実験の結果,どちらのスケジューリングアルゴリズムも90%近いスペクトル利用率に収束し,ユーザ間のスペクトルの公平な共有が得られた。

In this paper, we propose, implement, and test two novel downlink LTE scheduling algorithms. The implementation and testing of these algorithms were in Matlab, and they are based on the use of Reinforcement Learning, more specifically, the Qlearning technique for scheduling two types of users. The first algorithm is called a Collaborative scheduling algorithm, and the second algorithm is called a Competitive scheduling algorithm. The first type of the scheduled users is the Primary Users, and they are the licensed subscribers that pay for their service. The second type of the scheduled users is the Secondary Users, and they could be unlicensed subscribers that dont pay for their service, device to device communications, or sensors. Each user whether it is a primary or secondary is considered as an agent. In the Collaborative scheduling algorithm, the primary user agents will collaborate in order to make a joint scheduling decision about allocating the resource blocks to each one of them, then the secondary user agents will compete among themselves to use the remaining resource blocks. In the Competitive scheduling algorithm, the primary user agents will compete among themselves over the available resources, then the secondary user agents will compete among themselves over the remaining resources. Experimental results show that both scheduling algorithms converged to almost ninety percent utilization of the spectrum, and provided fair shares of the spectrum among users.
翻訳日:2022-05-09 05:25:59 公開日:2022-04-16
# (参考訳) 事前学習モデルからのスクリプト知識の探索

Probing Script Knowledge from Pre-Trained Models ( http://arxiv.org/abs/2204.10176v1 )

ライセンス: CC BY 4.0
Zijian Jin, Xingyu Zhang, Mo Yu, Lifu Huang(参考訳) 人間にとってスクリプト知識は、世界の幅広い日々のタスクや日常的な活動を理解する上で重要である。 近年,大規模事前学習型言語モデル(PLM)を探索し,物語生成やイベントの時間的順序付け,将来のイベント予測など,様々なスクリプト関連タスクを遂行している。 しかし、plmがスクリプトの知識をいかにうまく捉えているかという点では、まだ十分に研究されていない。 この疑問に答えるために,我々は,包括的サブイベント選択,サブイベント選択開始,時間順序付けという3つの探索タスクを設計し,微調整なしでPLMの能力を調べる。 3つのプローブタスクは、可能なすべてのサブイベントから、メインイベントごとにスクリプトを自動的に誘導するために、さらに使用できる。 BERTをケーススタディとして、スクリプトインジェクションと個々の探索タスクのパフォーマンスを解析することにより、サブイベント間のステレオタイプ的時間的知識はBERTでよく捉えられているが、包括的あるいは開始的サブイベント知識はほとんどコード化されていないと結論付ける。

Script knowledge is critical for humans to understand the broad daily tasks and routine activities in the world. Recently researchers have explored the large-scale pre-trained language models (PLMs) to perform various script related tasks, such as story generation, temporal ordering of event, future event prediction and so on. However, it's still not well studied in terms of how well the PLMs capture the script knowledge. To answer this question, we design three probing tasks: inclusive sub-event selection, starting sub-event selection and temporal ordering to investigate the capabilities of PLMs with and without fine-tuning. The three probing tasks can be further used to automatically induce a script for each main event given all the possible sub-events. Taking BERT as a case study, by analyzing its performance on script induction as well as each individual probing task, we conclude that the stereotypical temporal knowledge among the sub-events is well captured in BERT, however the inclusive or starting sub-event knowledge is barely encoded.
翻訳日:2022-04-24 15:43:00 公開日:2022-04-16
# wordalchemy: トランスフォーマーベースの逆辞書

WordAlchemy: A transformer-based Reverse Dictionary ( http://arxiv.org/abs/2204.10181v1 )

ライセンス: Link先を確認
Dr. Sunil B. Mane, Harshal Patil, Kanhaiya Madaswar and Pranav Sadavarte(参考訳) 逆辞書は、対象語の記述を入力として取り、その記述に適した単語を返す。 逆辞書は、新しい言語学習者、アノミア患者、および共通語源問題(lethologica)を解決するのに有用である。 現在、インド語をサポートする逆辞書プロバイダは存在しない。 インド語をサポートするオープンソースのクロスランガル逆辞書システムを提案する。 本稿では,mt5モデルを用いた既存のシステムで直面する制約に取り組むために,トランスフォーマティブに基づくディープラーニング手法を提案する。 このアーキテクチャは、従来の BERT の Masked Language Modeling (MLM) 技術ではなく、Translation Language Modeling (TLM) 技術を使用している。

A reverse dictionary takes a target word's description as input and returns the words that fit the description. Reverse Dictionaries are useful for new language learners, anomia patients, and for solving common tip-of-the-tongue problems (lethologica). Currently, there does not exist any Reverse Dictionary provider with support for any Indian Language. We present a novel open-source cross-lingual reverse dictionary system with support for Indian languages. In this paper, we propose a transformer-based deep learning approach to tackle the limitations faced by the existing systems using the mT5 model. This architecture uses the Translation Language Modeling (TLM) technique, rather than the conventional BERT's Masked Language Modeling (MLM) technique.
翻訳日:2022-04-24 15:30:02 公開日:2022-04-16
# ゼロショットリンク予測のための階層的N-Gramフレームワーク

A Hierarchical N-Gram Framework for Zero-Shot Link Prediction ( http://arxiv.org/abs/2204.10293v1 )

ライセンス: Link先を確認
Mingchen Li and Junfan Chen and Samuel Mensah and Nikolaos Aletras and Xiulong Yang and Yang Ye(参考訳) 知識グラフ(KGs)の不完全性のため、KGsにおける観測されていない関係の予測を目的としたゼロショットリンク予測(ZSLP)が研究者の関心を集めている。 一般的な解決策は、見えている関係と見えない関係の間のギャップを埋める補助情報として、関係のテクスト的特徴(例えば、表層名やテクスト的記述)を使用することである。 現在のアプローチでは、テキスト内の各ワードトークンの埋め込みを学ぶ。 これらの手法は、語彙外問題(OOV)に悩まされるため、堅牢性に欠ける。 一方、文字n-gram上に構築されたモデルには、OOVワードの表現表現を生成する能力がある。 そこで本稿では,zslpにおける関係面名の文字n-gram間の依存関係を考慮した,ゼロショットリンク予測(hnzslp)のための階層型n-gramフレームワークを提案する。 本手法は,まず表層名に階層的n-gramグラフを構築し,表層名につながるn-gramの組織構造をモデル化する。 変換器をベースとしたGramTransformerは階層的なn-gramグラフをモデル化してZSLPの関係埋め込みを構築する。 実験の結果,提案したHNZSLPは2つのZSLPデータセット上で最先端の性能を達成した。

Due to the incompleteness of knowledge graphs (KGs), zero-shot link prediction (ZSLP) which aims to predict unobserved relations in KGs has attracted recent interest from researchers. A common solution is to use textual features of relations (e.g., surface name or textual descriptions) as auxiliary information to bridge the gap between seen and unseen relations. Current approaches learn an embedding for each word token in the text. These methods lack robustness as they suffer from the out-of-vocabulary (OOV) problem. Meanwhile, models built on character n-grams have the capability of generating expressive representations for OOV words. Thus, in this paper, we propose a Hierarchical N-Gram framework for Zero-Shot Link Prediction (HNZSLP), which considers the dependencies among character n-grams of the relation surface name for ZSLP. Our approach works by first constructing a hierarchical n-gram graph on the surface name to model the organizational structure of n-grams that leads to the surface name. A GramTransformer, based on the Transformer is then presented to model the hierarchical n-gram graph to construct the relation embedding for ZSLP. Experimental results show the proposed HNZSLP achieved state-of-the-art performance on two ZSLP datasets.
翻訳日:2022-04-24 15:29:49 公開日:2022-04-16
# ユーザラジカル化の調査: 意見の微粒化時間変化を識別するための新しいデータセット

Investigating User Radicalization: A Novel Dataset for Identifying Fine-Grained Temporal Shifts in Opinion ( http://arxiv.org/abs/2204.10190v1 )

ライセンス: Link先を確認
Flora Sakketou, Allison Lahnala, Liane Vogel, Lucie Flek(参考訳) ソーシャルメディア利用者の微妙な意見変化をモデル化する能力の必要性が高まっている。 しかし、タスクに適した公開データセットがないことが大きな課題となっている。 本稿では,微妙な意見変動をモデル化し,きめ細かい姿勢を検出するための,革新的な注釈付きデータセットを提案する。 データセットは、時間的および会話スレッド全体で、ユーザ毎の十分なスタンスポラリティと強度ラベルを含むため、長期と短期の両方で微妙な意見変動を検出することができる。 すべての投稿は非専門家によって注釈付けされ、データの大部分は専門家によって注釈付けされる。 適切な非専門家を募集するための戦略を提供する。 アノテーション間契約の分析により,非専門家の多数決で得られたアノテーションは,専門家のアノテーションと同等の品質を有することが示された。 本研究では,短期・長期レベルでの姿勢変化の分析,空想的態度と絶対的態度によるユーザ間の言語使用状況の比較,微粒な姿勢検出ベースラインについて述べる。

There is an increasing need for the ability to model fine-grained opinion shifts of social media users, as concerns about the potential polarizing social effects increase. However, the lack of publicly available datasets that are suitable for the task presents a major challenge. In this paper, we introduce an innovative annotated dataset for modeling subtle opinion fluctuations and detecting fine-grained stances. The dataset includes a sufficient amount of stance polarity and intensity labels per user over time and within entire conversational threads, thus making subtle opinion fluctuations detectable both in long term and in short term. All posts are annotated by non-experts and a significant portion of the data is also annotated by experts. We provide a strategy for recruiting suitable non-experts. Our analysis of the inter-annotator agreements shows that the resulting annotations obtained from the majority vote of the non-experts are of comparable quality to the annotations of the experts. We provide analyses of the stance evolution in short term and long term levels, a comparison of language usage between users with vacillating and resolute attitudes, and fine-grained stance detection baselines.
翻訳日:2022-04-24 15:29:31 公開日:2022-04-16
# 電気流体力学高分子ジェット印刷ダイナミクスの物理インフォームドベイズ学習

Physics-Informed Bayesian Learning of Electrohydrodynamic Polymer Jet Printing Dynamics ( http://arxiv.org/abs/2204.09513v1 )

ライセンス: Link先を確認
Athanasios Oikonomou (1 and 4 and 7), Theodoros Loutas (1), Dixia Fan (2), Alysia Garmulewicz (3), George Nounesis (4), Santanu Chaudhuri (5 and 6) and Filippos Tourlomousis (4 and 7 and 8) ((1) Mechanical Engineering, University of Patras, Patras, Greece, (2) Westlake University, Hangzhou, China, (3) Faculty of Economics and Administration, University of Santiago, Chile, (4) National Centre for Scientific Research Demokritos, Agia Paraskevi, Attica, Greece, (5) Civil, Materials, and Environmental Engineering Department, University of Illinois at Chicago, IL, United States, (6) Argonne National Laboratory, Lemont, IL, United States, (7) Superlabs AMKE, Marousi, Attica, Greece, (8) Biological Lattice Industries Corp., Boston, MA, United States)(参考訳) 電気流体力学に基づく添加物製造(am)技術(e-jet printing)などの高ダイナミックなマルチフィジカル製造プロセスのキャリブレーションは、依然として労働集約的な試行とエラーのプラクティスによって行われている。 これらのプラクティスはこれらの技術の普及を妨げ、自己校正型Eジェット印刷機の新たなパラダイムを必要とした。 このニーズに対処するため、我々はエンドツーエンドの物理インフォームドベイズ学習フレームワークであるGPJetを開発し、プロセス内ジェット監視機能を備えた仮想Eジェット印刷機でテストした。 GPJetは3つのモジュールから構成される。 a) Machine Visionモジュール b)物理ベースのモデリングモジュール、及び c) 機械学習(ML)モジュール。 我々は,自動並列化コンピュータビジョンワークフローを用いて,映像データから高忠実度ジェット機能をリアルタイムに抽出できることを実証する。 さらに,Machine Visionモジュールと物理に基づくモデリングモジュールが組み合わさって,高・低忠実なデータの機械学習モジュールに対する閉ループ感覚フィードバックとして機能することを示す。 データ中心のアプローチによって、オンラインMLプランナーは、最小実験コストでビデオと物理を用いてジェットプロセスのダイナミクスを積極的に学習できることを示した。 GPJetは、複雑なプロセス-構造-プロパティのランドスケープを効率的に探索し、幅広いアプリケーションのための最適化されたマテリアルソリューションをコストとスピードのごく一部で作成できるインテリジェントAMマシンのビジョンの実現に一歩近づきます。

Calibration of highly dynamic multi-physics manufacturing processes such as electro-hydrodynamics-based additive manufacturing (AM) technologies (E-jet printing) is still performed by labor-intensive trial-and-error practices. These practices have hindered the broad adoption of these technologies, demanding a new paradigm of self-calibrating E-jet printing machines. To address this need, we developed GPJet, an end-to-end physics-informed Bayesian learning framework, and tested it on a virtual E-jet printing machine with in-process jet monitoring capabilities. GPJet consists of three modules: a) the Machine Vision module, b) the Physics-Based Modeling Module, and c) the Machine Learning (ML) module. We demonstrate that the Machine Vision module can extract high-fidelity jet features in real-time from video data using an automated parallelized computer vision workflow. In addition, we show that the Machine Vision module, combined with the Physics-based modeling module, can act as closed-loop sensory feedback to the Machine Learning module of high- and low-fidelity data. Powered by our data-centric approach, we demonstrate that the online ML planner can actively learn the jet process dynamics using video and physics with minimum experimental cost. GPJet brings us one step closer to realizing the vision of intelligent AM machines that can efficiently search complex process-structure-property landscapes and create optimized material solutions for a wide range of applications at a fraction of the cost and speed.
翻訳日:2022-04-21 15:40:20 公開日:2022-04-16
# VAEを用いた脱バイアス顔検出システム

De-biasing facial detection system using VAE ( http://arxiv.org/abs/2204.09556v1 )

ライセンス: Link先を確認
Vedant V. Kandge, Siddhant V. Kandge, Kajal Kumbharkar, Prof. Tanuja Pattanshetti(参考訳) AI/MLベースのシステムのバイアスはユビキタスな問題であり、AI/MLシステムのバイアスは社会に悪影響を及ぼす可能性がある。 システムのバイアスには多くの理由があります。 バイアスは、私たちが問題に使用しているアルゴリズムによるものかもしれませんし、使用しているデータセットによるものかも知れません。 顔検出システムでは、データセットによるバイアスが主に見られる。 モデルでは、データで過剰に表現された機能のみを学習し、過剰に表現された機能に偏った結果、データから稀な機能を無視します。 現実では、これらの偏りのあるシステムは社会にとって危険です。 提案手法は、データセットから基礎となる特徴(遅延変数)を学習するのに最適な生成モデルを使用し、これらの学習された特徴モデルを使用することで、システムのバイアスによる脅威を減らす。 アルゴリズムの助けを借りて、データセットに存在するバイアスを取り除くことができる。 そして、2つのデータセットでモデルをトレーニングし、結果を比較します。

Bias in AI/ML-based systems is a ubiquitous problem and bias in AI/ML systems may negatively impact society. There are many reasons behind a system being biased. The bias can be due to the algorithm we are using for our problem or may be due to the dataset we are using, having some features over-represented in it. In the face detection system bias due to the dataset is majorly seen. Sometimes models learn only features that are over-represented in data and ignore rare features from data which results in being biased toward those over-represented features. In real life, these biased systems are dangerous to society. The proposed approach uses generative models which are best suited for learning underlying features(latent variables) from the dataset and by using these learned features models try to reduce the threats which are there due to bias in the system. With the help of an algorithm, the bias present in the dataset can be removed. And then we train models on two datasets and compare the results.
翻訳日:2022-04-21 13:10:29 公開日:2022-04-16
# MLP分類器を用いた手形状認識

Hand Geometry Based Recognition with a MLP Classifier ( http://arxiv.org/abs/2204.08469v1 )

ライセンス: Link先を確認
Marcos Faundez-Zanuy, Miguel A. Ferrer-Ballester, Carlos M. Travieso-Gonz\'alez, Virginia Espinosa-Duro(参考訳) 本稿では手形状に基づく生体認証システムを提案する。 本稿では,研究目的に特化して収集したデータベースについて述べる。 このデータベースは無料でダウンロードできる。 さらに,特徴抽出手法について述べるとともに,MLP(Multi Layer Perceptrons)に基づく異なる分類手法を用いて実験結果を得る。 検証アプリケーションに対する識別率と検出コスト関数(DCF)の値を評価した。 100%の識別と0%のDCFが得られた実験結果

This paper presents a biometric recognition system based on hand geometry. We describe a database specially collected for research purposes, which consists of 50 people and 10 different acquisitions of the right hand. This database can be freely downloaded. In addition, we describe a feature extraction procedure and we obtain experimental results using different classification strategies based on Multi Layer Perceptrons (MLP). We have evaluated identification rates and Detection Cost Function (DCF) values for verification applications. Experimental results reveal up to 100% identification and 0% DCF
翻訳日:2022-04-20 14:44:43 公開日:2022-04-16
# 小型・大規模データベースによる顔認識

Face recognition with small and large size databases ( http://arxiv.org/abs/2204.08468v1 )

ライセンス: Link先を確認
Josep roure-Alcob\'e, Marcos Faundez-Zanuy(参考訳) 本稿では,ORL (40人) とFERET (994人) のデータベースを用いた実験結果について述べる。 ORLデータベースは、アクセスしようとするユーザがほとんどいないアプリケーションを保護するのに役立つ。 これは例えば、パスワードがユーザの顔であるPDAやPCのケースである。 一方、FERETデータベースは、認証ユーザ数が約1000人である状況を研究する上で有用である。

This paper presents experimental results using the ORL (40 people) and FERET (994 people) databases. The ORL database can be useful for securing applications where few users attempting to access are expected. This is the case, for instance, of a PDA or PC where the password is the face of the user. On the other hand, the FERET database is useful for studying those situations where the number of authorized users is around a thousand people.
翻訳日:2022-04-20 14:32:32 公開日:2022-04-16
# X線冠動脈造影における高分解能血管抽出のためのロバストPCAアンロリングネットワーク

Robust PCA Unrolling Network for Super-resolution Vessel Extraction in X-ray Coronary Angiography ( http://arxiv.org/abs/2204.08466v1 )

ライセンス: Link先を確認
Binjie Qin, Haohao Mao, Yiming Liu, Jun Zhao, Yisong Lv, Yueqi Zhu, Song Ding, Xu Chen(参考訳) x-ray coronary angiography (xca) 画像からの血管抽出にはロバストなpcaが採用されているが、非効率的な血管分離モデリング、ノイズとダイナミックな背景アーティファクト、高い計算コストといった課題は未解決のままである。 そこで本研究では,超高分解能XCA血管イメージングのためのスパース特徴選択によるロバストPCAアンローリングネットワークを提案する。 プール層と畳み込み長短期記憶ネットワーク上に構築されたパッチワイド時空間超解像フレームワークに組込み,ネットワークトレーニング中のXCAの複雑な容器状アーチファクトやノイズ背景を徐々に引き起こすだけでなく,XCAに流れる移動コントラストエージェントの高レベル時空間意味情報を反復的に学習し,選択することができる。 実験の結果, 提案手法は, 複雑な背景や動的背景に対して異種血管の強度と形状を復元することにより, 特に血管ネットワークとその遠位血管のイメージングにおいて, 最先端の手法よりも優れていた。

Although robust PCA has been increasingly adopted to extract vessels from X-ray coronary angiography (XCA) images, challenging problems such as inefficient vessel-sparsity modelling, noisy and dynamic background artefacts, and high computational cost still remain unsolved. Therefore, we propose a novel robust PCA unrolling network with sparse feature selection for super-resolution XCA vessel imaging. Being embedded within a patch-wise spatiotemporal super-resolution framework that is built upon a pooling layer and a convolutional long short-term memory network, the proposed network can not only gradually prune complex vessel-like artefacts and noisy backgrounds in XCA during network training but also iteratively learn and select the high-level spatiotemporal semantic information of moving contrast agents flowing in the XCA-imaged vessels. The experimental results show that the proposed method significantly outperforms state-of-the-art methods, especially in the imaging of the vessel network and its distal vessels, by restoring the intensity and geometry profiles of heterogeneous vessels against complex and dynamic backgrounds.
翻訳日:2022-04-20 13:30:10 公開日:2022-04-16
# IOP-FL:Federated Medical Image Segmentationの内面パーソナライゼーション

IOP-FL: Inside-Outside Personalization for Federated Medical Image Segmentation ( http://arxiv.org/abs/2204.08467v1 )

ライセンス: Link先を確認
Meirui Jiang, Hongzheng Yang, Chen Cheng, Qi Dou(参考訳) フェデレーション学習(fl)は、複数の医療機関が、すべてのクライアントデータを集中化することなく、協調的にグローバルモデルを学ぶことができる。 このようなグローバルモデルが、様々なスキャナーや患者人口の医療データの異質性から、各クライアントに対して一般的に最適なパフォーマンスを達成することは、可能な限り困難である。 この問題は、フェデレーショントレーニング中に提示されない新しいディストリビューションを使用して、fl外のクライアントにグローバルモデルをデプロイする場合、さらに重要になります。 重篤な医療業務において,各クライアントの予測精度を最適化するために,FL(IOP-FL)における内外モデルパーソナライゼーションのための統合フレームワークを提案する。 私たちの内部パーソナライゼーションは、共通知識のためのグローバル勾配と、クライアント固有の最適化のためのローカル勾配の両方を蓄積することで、各クライアントにローカル適応モデルを活用する軽量な勾配ベースアプローチによって実現されます。 さらに、得られたローカルパーソナライズされたモデルとグローバルモデルが多様な情報ルーティング空間を形成し、外部FLクライアントの新しいモデルをパーソナライズする。 そこで,実験データによって伝達される分布情報を考慮して,形状制約付き一貫性損失に触発された新しいテストタイムルーティングスキームを設計し,モデルを動的に組み込む。 2つの医用画像分割作業における広範囲な実験結果から,SOTA法よりも内面および外面のパーソナライゼーションが向上し,臨床実習におけるIOP-FL法の有効性が示された。 コードはhttps://github.com/med-air/iop-flでリリースされる。

Federated learning (FL) allows multiple medical institutions to collaboratively learn a global model without centralizing all clients data. It is difficult, if possible at all, for such a global model to commonly achieve optimal performance for each individual client, due to the heterogeneity of medical data from various scanners and patient demographics. This problem becomes even more significant when deploying the global model to unseen clients outside the FL with new distributions not presented during federated training. To optimize the prediction accuracy of each individual client for critical medical tasks, we propose a novel unified framework for both Inside and Outside model Personalization in FL (IOP-FL). Our inside personalization is achieved by a lightweight gradient-based approach that exploits the local adapted model for each client, by accumulating both the global gradients for common knowledge and local gradients for client-specific optimization. Moreover, and importantly, the obtained local personalized models and the global model can form a diverse and informative routing space to personalize a new model for outside FL clients. Hence, we design a new test-time routing scheme inspired by the consistency loss with a shape constraint to dynamically incorporate the models, given the distribution information conveyed by the test data. Our extensive experimental results on two medical image segmentation tasks present significant improvements over SOTA methods on both inside and outside personalization, demonstrating the great potential of our IOP-FL scheme for clinical practice. Code will be released at https://github.com/med-air/IOP-FL.
翻訳日:2022-04-20 13:13:13 公開日:2022-04-16
# (参考訳) 未熟なマルチタスク学習者に対するSparsely Activated Mixture-of-Experts

Sparsely Activated Mixture-of-Experts are Robust Multi-Task Learners ( http://arxiv.org/abs/2204.07689v1 )

ライセンス: CC BY 4.0
Shashank Gupta, Subhabrata Mukherjee, Krishan Subudhi, Eduardo Gonzalez, Damien Jose, Ahmed H. Awadallah, Jianfeng Gao(参考訳) 従来のマルチタスク学習(MTL)手法は、複数の異なるタスクで同じ共有重みのセットを使用する高密度ネットワークを使用する。 これはしばしば、2つ以上のタスクが異なる方向にモデルパラメータを引き出すために競合する干渉を引き起こす。 本研究では,共有表現の学習やタスク固有情報の学習に用いた重みを特化して,多タスク学習の改善を図る。 この目的のために,タスクに規定されたネットワーク重みのサブセットを共有する専門専門家に,異なるタスクからサンプルをルーティングするタスク認識ゲーティング関数を考案した。 これにより、多数のパラメータを持つが、密集したモデルと同じ計算コストを持つ、スパースにアクティベートされたマルチタスクモデルが得られる。 3つの重要な側面に沿ってマルチタスク学習を改善するための疎ネットワークを実証する。 (i)訓練混合物の関連タスクから低リソースタスクに移行すること。 2 関連課題からのタスク認識ルーティングを利用することにより、トレーニング中に見えないタスクに対するサンプル効率の一般化 (iii)既存のタスクの破滅的な忘れ去らないことによる無関係なタスクの追加に対する堅牢性。

Traditional multi-task learning (MTL) methods use dense networks that use the same set of shared weights across several different tasks. This often creates interference where two or more tasks compete to pull model parameters in different directions. In this work, we study whether sparsely activated Mixture-of-Experts (MoE) improve multi-task learning by specializing some weights for learning shared representations and using the others for learning task-specific information. To this end, we devise task-aware gating functions to route examples from different tasks to specialized experts which share subsets of network weights conditioned on the task. This results in a sparsely activated multi-task model with a large number of parameters, but with the same computational cost as that of a dense model. We demonstrate such sparse networks to improve multi-task learning along three key dimensions: (i) transfer to low-resource tasks from related tasks in the training mixture; (ii) sample-efficient generalization to tasks not seen during training by making use of task-aware routing from seen related tasks; (iii) robustness to the addition of unrelated tasks by avoiding catastrophic forgetting of existing tasks.
翻訳日:2022-04-20 13:09:02 公開日:2022-04-16
# (参考訳) 教師なしテキスト生成のための効率的強化学習

Efficient Reinforcement Learning for Unsupervised Controlled Text Generation ( http://arxiv.org/abs/2204.07696v1 )

ライセンス: CC BY 4.0
Bhargav Upadhyay, Akhilesh Sudhakar, Arjun Maheswaran(参考訳) 教師なしテキストスタイル転送などの制御済みテキスト生成タスクでは,強化学習(rl)が採用されている。 このようなタスクにRLを適用する上で大きな課題はスパース報酬であり、完全なテキストが生成されるとのみ利用可能である。 スパース報酬と大きなアクション空間を組み合わせることで、RLトレーニングのサンプル非効率性と収束が困難になる。 近年、この問題に対処する報酬形成戦略は無視できる利得しか示していない。 対照的に、この研究はそれぞれの生成されたトークンに深い報酬を与える新しいアプローチを提案する。 本手法は,教師なしテキスト転送における使用法によって評価する。 データセット全体で平均すると、現在の最先端のシステムでは、人間評価で21対%、自動評価で12対%改善しています。 従来の報酬形成手法(「ロールアウト戦略」)と比較すると,人的評価に基づいて,報酬の高密度化により全体の転送品質が22%向上する。 さらにRLトレーニングは、サンプル効率の2.5倍、そして7倍高速である。

Controlled text generation tasks such as unsupervised text style transfer have increasingly adopted the use of Reinforcement Learning (RL). A major challenge in applying RL to such tasks is the sparse reward, which is available only after the full text is generated. Sparse rewards, combined with a large action space make RL training sample-inefficient and difficult to converge. Recently proposed reward-shaping strategies to address this issue have shown only negligible gains. In contrast, this work proposes a novel approach that provides dense rewards to each generated token. We evaluate our approach by its usage in unsupervised text style transfer. Averaged across datasets, our style transfer system improves upon current state-of-art systems by 21\% on human evaluation and 12\% on automatic evaluation. Upon ablated comparison with the current reward shaping approach (the `roll-out strategy'), using dense rewards improves the overall style transfer quality by 22\% based on human evaluation. Further the RL training is 2.5 times as sample efficient, and 7 times faster.
翻訳日:2022-04-20 12:49:09 公開日:2022-04-16
# (参考訳) BLCU-ICALL at SemEval-2022 Task 1: Cross-Attention Multitasking Framework for Definition Modeling

BLCU-ICALL at SemEval-2022 Task 1: Cross-Attention Multitasking Framework for Definition Modeling ( http://arxiv.org/abs/2204.07701v1 )

ライセンス: CC BY 4.0
Cunliang Kong, Yujie Wang, Ruining Chong, Liner Yang, Hengyuan Zhang, Erhong Yang, Yaping Huang(参考訳) 本稿では,SemEval-2022 Task 1で使用されるBLCU-ICALLシステム,辞書と単語の埋め込み,定義モデリングサブトラック,イタリア語で1位,スペイン語とロシア語で2位,英語とフランス語で3位,について述べる。 タスクを探索するトランスフォーマーベースのマルチタスクフレームワークを提案する。 このフレームワークは、クロスアテンション機構を通じて複数の埋め込みアーキテクチャを統合し、マスキング言語モデルの目的を通じてグロスの構造をキャプチャする。 さらに,ロバスト性をさらに向上させるための,単純かつ効果的なモデルセンシング戦略についても検討した。 その結果,提案手法の有効性が示された。 コードはhttps://github.com/blcuicall/semeval2022-task1-dm。

This paper describes the BLCU-ICALL system used in the SemEval-2022 Task 1 Comparing Dictionaries and Word Embeddings, the Definition Modeling subtrack, achieving 1st on Italian, 2nd on Spanish and Russian, and 3rd on English and French. We propose a transformer-based multitasking framework to explore the task. The framework integrates multiple embedding architectures through the cross-attention mechanism, and captures the structure of glosses through a masking language model objective. Additionally, we also investigate a simple but effective model ensembling strategy to further improve the robustness. The evaluation results show the effectiveness of our solution. We release our code at: https://github.com/blcuicall/SemEval2022-Task1-DM.
翻訳日:2022-04-20 12:36:59 公開日:2022-04-16
# (参考訳) 局所多項式回帰を用いた勾配に基づく経験的リスク最小化の加速について

On Acceleration of Gradient-Based Empirical Risk Minimization using Local Polynomial Regression ( http://arxiv.org/abs/2204.07702v1 )

ライセンス: CC BY 4.0
Ekaterina Trimbach, Edward Duc Hien Nguyen, and C\'esar A. Uribe(参考訳) 我々は最近, 経験的リスク最小化問題 (ERM) の近似解法として, 局所多項式補間法 (LPI-GD) の高速化について検討した。 我々は、条件番号$\sigma$ の強い凸かつ滑らかな損失関数に焦点を当てる。 さらに、損失関数はデータに関して$\eta$-h\"older連続であると仮定する。 LPI-GD のオラクル複雑性は $\tilde{O}\left(\sigma m^d \log(1/\varepsilon)\right)$ for a desired accuracy $\varepsilon$, where $d$ はパラメータ空間の次元、$m$ は近似格子の濃度である。 因子 $m^d$ は $O((1/\varepsilon)^{d/2\eta})$ とスケールできる。 LPI-GDは,特定のパラメータ状態において,勾配降下 (GD) や確率勾配降下 (SGD) よりもオラクルの複雑さが高いことが示されている。 LPI-GDに基づくERM問題の2つの高速化手法を提案し、$\tilde{O}\left(\sqrt{\sigma} m^d \log(1/\varepsilon)\right)$のオラクル複雑性を示す。 さらに,LPI-GD が GD や SGD よりも優れた性能を持つことを示す,局所多項式補間に基づく勾配法に関する最初の実証的研究を行い,提案手法を加速させる。

We study the acceleration of the Local Polynomial Interpolation-based Gradient Descent method (LPI-GD) recently proposed for the approximate solution of empirical risk minimization problems (ERM). We focus on loss functions that are strongly convex and smooth with condition number $\sigma$. We additionally assume the loss function is $\eta$-H\"older continuous with respect to the data. The oracle complexity of LPI-GD is $\tilde{O}\left(\sigma m^d \log(1/\varepsilon)\right)$ for a desired accuracy $\varepsilon$, where $d$ is the dimension of the parameter space, and $m$ is the cardinality of an approximation grid. The factor $m^d$ can be shown to scale as $O((1/\varepsilon)^{d/2\eta})$. LPI-GD has been shown to have better oracle complexity than gradient descent (GD) and stochastic gradient descent (SGD) for certain parameter regimes. We propose two accelerated methods for the ERM problem based on LPI-GD and show an oracle complexity of $\tilde{O}\left(\sqrt{\sigma} m^d \log(1/\varepsilon)\right)$. Moreover, we provide the first empirical study on local polynomial interpolation-based gradient methods and corroborate that LPI-GD has better performance than GD and SGD in some scenarios, and the proposed methods achieve acceleration.
翻訳日:2022-04-20 12:29:53 公開日:2022-04-16
# (参考訳) 1,600以上の言語タスクのインコンテキスト命令によるベンチマーク一般化

Benchmarking Generalization via In-Context Instructions on 1,600+ Language Tasks ( http://arxiv.org/abs/2204.07705v1 )

ライセンス: CC BY 4.0
Yizhong Wang, Swaroop Mishra, Pegah Alipoormolabashi, Yeganeh Kordi, Amirreza Mirzaei, Anjana Arunkumar, Arjun Ashok, Arut Selvan Dhanasekaran, Atharva Naik, David Stap, Eshaan Pathak, Giannis Karamanolakis, Haizhi Gary Lai, Ishan Purohit, Ishani Mondal, Jacob Anderson, Kirby Kuznia, Krima Doshi, Maitreya Patel, Kuntal Kumar Pal, Mehrad Moradshahi, Mihir Parmar, Mirali Purohit, Neeraj Varshney, Phani Rohitha Kaza, Pulkit Verma, Ravsehaj Singh Puri, Rushang Karia, Shailaja Keyur Sampat, Savan Doshi, Siddhartha Mishra, Sujan Reddy, Sumanta Patro, Tanay Dixit, Xudong Shen, Chitta Baral, Yejin Choi, Hannaneh Hajishirzi, Noah A. Smith, Daniel Khashabi(参考訳) 言語命令が与えられたとき、モデルの一般化を様々な目に見えないタスクにどのように測定するか。 この目標の進展を促進するために,1,600以上の多種多様な言語タスクのコレクションであるNatural-Instructions v2を導入する。 さらに重要なのは、タグ付け、インフィル、書き換えなど、70以上の異なるタスクタイプをカバーすることだ。 このベンチマークは、コミュニティ内のNLP実践者のコントリビューションと、彼らの品質を保証するための反復的なピアレビュープロセスによって収集される。 このベンチマークは、タスクのサブセットをトレーニングし、残りの未確認タスクを評価する、モデルのクロスタスク一般化の大規模な評価を可能にする。 例えば、観測されたタスクの数、インスタンス数、モデルサイズなど、さまざまなスケーリングパラメータの関数としての一般化を厳密に定量化することが可能です。 これらの実験の副産物として。 我々は、様々なコンテキスト内命令(プレーン言語タスク定義やkショット例)に従うように訓練されたエンコーダ-デコーダトランスフォーマであるtk-instructを導入する。 このベンチマークにより、より汎用的な言語理解モデルへの今後の進歩が期待できる。

How can we measure the generalization of models to a variety of unseen tasks when provided with their language instructions? To facilitate progress in this goal, we introduce Natural-Instructions v2, a collection of 1,600+ diverse language tasks and their expert written instructions. More importantly, the benchmark covers 70+ distinct task types, such as tagging, in-filling, and rewriting. This benchmark is collected with contributions of NLP practitioners in the community and through an iterative peer review process to ensure their quality. This benchmark enables large-scale evaluation of cross-task generalization of the models -- training on a subset of tasks and evaluating on the remaining unseen ones. For instance, we are able to rigorously quantify generalization as a function of various scaling parameters, such as the number of observed tasks, the number of instances, and model sizes. As a by-product of these experiments. we introduce Tk-Instruct, an encoder-decoder Transformer that is trained to follow a variety of in-context instructions (plain language task definitions or k-shot examples) which outperforms existing larger models on our benchmark. We hope this benchmark facilitates future progress toward more general-purpose language understanding models.
翻訳日:2022-04-20 11:38:23 公開日:2022-04-16
# (参考訳) GAUSS:ハイパースペクトルアンミックスと空間平滑性のためのガイドエンコーダデコーダアーキテクチャ

GAUSS: Guided Encoder-Decoder Architecture for Hyperspectral Unmixing with Spatial Smoothness ( http://arxiv.org/abs/2204.07713v1 )

ライセンス: CC BY 4.0
Yasiru Ranasinghe, Kavinga Weerasooriya, Roshan Godaliyadda, Vijitha Herath, Parakrama Ekanayake, Dhananjaya Jayasundara, Lakshitha Ramanayake, Neranjan Senarath and Dulantha Wickramasinghe(参考訳) 近年のハイパースペクトルアンミキシング (HU) 文学において、特にオートエンコーダ (AE) アーキテクチャでは、ディープラーニング (DL) の適用が顕著になっている。 分割アーキテクチャを提案し、擬似地下真理を用いて「混合ネットワーク」最適化(UN)を導出する。 国連に先立ち、中心画素とその近傍との間の関係を改善する「近似ネットワーク」 (an) が提案されている。 したがって、その出力がunへの入力であり、 'mixing network' (mn) の参照であるので、豊富な空間的相関を強調する。 空間的平滑度(gauss)を伴う超スペクトルアンミキシングのための誘導エンコーダ・デコーダアーキテクチャにおいて、一ホットエンコード量(英語版)を国連を導く擬似基底真理として用いることを提案し、k-meansアルゴリズムを用いて以前のhu法の使用を除外した。 さらに,huの標準aeとは対照的に,un生成量を導入することでmnの単層制約を解除する。 第2に,GAUSS法による事前学習ネットワークの2つの改良実験を行った。 GAUSS$_\textit{blind}$ では、UN と MN を結合して、エンコーダへの再構成エラー勾配をバックプロパレートする。 次に,gauss$_\textit{prime}$において,gaussアーキテクチャを用いた疑似基底真理として信頼性の高い信号処理(sp)法の存在量結果を用いた。 4つの実験データセットの定量的およびグラフィカルな結果によると、3つのアーキテクチャはdlとspドメインの両方の既存のhuアルゴリズムのパフォーマンスを超越または同等にしていた。

In recent hyperspectral unmixing (HU) literature, the application of deep learning (DL) has become more prominent, especially with the autoencoder (AE) architecture. We propose a split architecture and use a pseudo-ground truth for abundances to guide the `unmixing network' (UN) optimization. Preceding the UN, an `approximation network' (AN) is proposed, which will improve the association between the centre pixel and its neighbourhood. Hence, it will accentuate spatial correlation in the abundances as its output is the input to the UN and the reference for the `mixing network' (MN). In the Guided Encoder-Decoder Architecture for Hyperspectral Unmixing with Spatial Smoothness (GAUSS), we proposed using one-hot encoded abundances as the pseudo-ground truth to guide the UN; computed using the k-means algorithm to exclude the use of prior HU methods. Furthermore, we release the single-layer constraint on MN by introducing the UN generated abundances in contrast to the standard AE for HU. Secondly, we experimented with two modifications on the pre-trained network using the GAUSS method. In GAUSS$_\textit{blind}$, we have concatenated the UN and the MN to back-propagate the reconstruction error gradients to the encoder. Then, in the GAUSS$_\textit{prime}$, abundance results of a signal processing (SP) method with reliable abundance results were used as the pseudo-ground truth with the GAUSS architecture. According to quantitative and graphical results for four experimental datasets, the three architectures either transcended or equated the performance of existing HU algorithms from both DL and SP domains.
翻訳日:2022-04-20 11:13:43 公開日:2022-04-16
# (参考訳) 人間アノテーションのないシーンテキスト認識装置の性能限界を押し上げる

Pushing the Performance Limit of Scene Text Recognizer without Human Annotation ( http://arxiv.org/abs/2204.07714v1 )

ライセンス: CC BY 4.0
Caiyuan Zheng, Hui Li, Seon-Min Rhee, Seungju Han, Jae-Joon Han, Peng Wang(参考訳) シーンテキスト認識(STR)は、広く応用されているため、長年にわたって注目を集めてきた。 ほとんどのメソッドは、大量のラベル付きデータを必要とする完全に教師された方法でSTRモデルを訓練する。 合成データはSTRに大きく貢献するが、モデルの性能を制限する実際の合成ドメインギャップに悩まされる。 本研究では,合成データと多数の実際の未ラベル画像を活用することでSTRモデルを強化することを目的とした。 合成画像と実画像のドメイン不整合による不安定性を効果的に解決できる、堅牢な一貫性規則化に基づく半教師付きフレームワークSTRを提案する。 文字レベルの整合性規則化は、シーケンス認識における文字間の不一致を軽減するように設計されている。 標準テキスト認識ベンチマークの大規模な実験により,提案手法の有効性が示された。 既存のSTRモデルを着実に改善し、STRモデルを強化して、新しい最先端の結果を達成することができる。 私たちの知る限りでは、STRにうまく適用できる最初の一貫性の規則化ベースのフレームワークです。

Scene text recognition (STR) attracts much attention over the years because of its wide application. Most methods train STR model in a fully supervised manner which requires large amounts of labeled data. Although synthetic data contributes a lot to STR, it suffers from the real-tosynthetic domain gap that restricts model performance. In this work, we aim to boost STR models by leveraging both synthetic data and the numerous real unlabeled images, exempting human annotation cost thoroughly. A robust consistency regularization based semi-supervised framework is proposed for STR, which can effectively solve the instability issue due to domain inconsistency between synthetic and real images. A character-level consistency regularization is designed to mitigate the misalignment between characters in sequence recognition. Extensive experiments on standard text recognition benchmarks demonstrate the effectiveness of the proposed method. It can steadily improve existing STR models, and boost an STR model to achieve new state-of-the-art results. To our best knowledge, this is the first consistency regularization based framework that applies successfully to STR.
翻訳日:2022-04-20 10:39:37 公開日:2022-04-16
# (参考訳) 高速かつ高精度なキーポイントマッチングのための効率的な線形注意

Efficient Linear Attention for Fast and Accurate Keypoint Matching ( http://arxiv.org/abs/2204.07731v1 )

ライセンス: CC BY 4.0
Suwichaya Suwanwimolkul and Satoshi Komorita(参考訳) 近年、トランスフォーマーはスパースマッチングにおける最先端の性能を提供し、高性能な3Dビジョンアプリケーションの実現に不可欠である。 しかし、これらの変換器は注意機構の2次計算の複雑さのために効率を欠いている。 この問題を解決するために,線形計算の複雑性に対して効率的な線形注意力を用いる。 そこで本研究では,グローバル情報とローカル情報の両方をスパースキーポイントから集約することで,高精度なアグリゲーションを実現する。 さらに効率を向上させるために,特徴マッチングと記述の協調学習を提案する。 我々の学習はシンクホーンよりもシンプルで高速なマッチングを可能にし、しばしばトランスフォーマーから学んだ記述子をマッチングするのに使われる。 提案手法は,HPatch,ETH,Aachen Day-Nightの3つのベンチマークにおいて,SOTA,SuperGlue(12Mパラメータ),SGMNet(30Mパラメータ)に対して0.84Mの学習可能なパラメータで競合性能を実現する。

Recently Transformers have provided state-of-the-art performance in sparse matching, crucial to realize high-performance 3D vision applications. Yet, these Transformers lack efficiency due to the quadratic computational complexity of their attention mechanism. To solve this problem, we employ an efficient linear attention for the linear computational complexity. Then, we propose a new attentional aggregation that achieves high accuracy by aggregating both the global and local information from sparse keypoints. To further improve the efficiency, we propose the joint learning of feature matching and description. Our learning enables simpler and faster matching than Sinkhorn, often used in matching the learned descriptors from Transformers. Our method achieves competitive performance with only 0.84M learnable parameters against the bigger SOTAs, SuperGlue (12M parameters) and SGMNet (30M parameters), on three benchmarks, HPatch, ETH, and Aachen Day-Night.
翻訳日:2022-04-20 10:23:30 公開日:2022-04-16
# (参考訳) gitnet: 鳥眼視セグメンテーションのための幾何学的事前ベース変換

GitNet: Geometric Prior-based Transformation for Birds-Eye-View Segmentation ( http://arxiv.org/abs/2204.07733v1 )

ライセンス: CC BY 4.0
Shi Gong, Xiaoqing Ye, Xiao Tan, Jingdong Wang, Errui Ding, Yu Zhou, Xiang Bai(参考訳) Birds-eye-view (BEV)セマンティックセマンティックセグメンテーションは、その強力な空間表現能力のために自律運転に不可欠である。 BEV変換とセグメンテーションの両方を実現するために暗黙的に要求されるため、空間的ギャップにより単眼画像からBEV意味マップを推定することは困難である。 本稿では,gitnetという2段階の事前変換フレームワークを提案する。 (i)幾何学的指導による事前調整と (II)レイベースの変圧器。 第1段階では、BEVセグメンテーションを視点画像のセグメンテーションと幾何学的事前マッピングに分離し、BEVセグメンテーションラベルを画像平面に投影し、可視性を考慮した特徴と学習可能な幾何学を学習して、BEV空間に変換する。 第2に、予め整列された粗いbevの特徴は、視認性の知識を考慮して、レイベースのトランスフォーマによってさらに変形する。 GitNetは、挑戦的なnuScenesとArgoverse Datasetsで主要なパフォーマンスを達成する。 コードは公開される予定だ。

Birds-eye-view (BEV) semantic segmentation is critical for autonomous driving for its powerful spatial representation ability. It is challenging to estimate the BEV semantic maps from monocular images due to the spatial gap, since it is implicitly required to realize both the perspective-to-BEV transformation and segmentation. We present a novel two-stage Geometry Prior-based Transformation framework named GitNet, consisting of (i) the geometry-guided pre-alignment and (ii) ray-based transformer. In the first stage, we decouple the BEV segmentation into the perspective image segmentation and geometric prior-based mapping, with explicit supervision by projecting the BEV semantic labels onto the image plane to learn visibility-aware features and learnable geometry to translate into BEV space. Second, the pre-aligned coarse BEV features are further deformed by ray-based transformers to take visibility knowledge into account. GitNet achieves the leading performance on the challenging nuScenes and Argoverse Datasets. The code will be publicly available.
翻訳日:2022-04-20 09:56:00 公開日:2022-04-16
# (参考訳) 文脈言語モデルからの教師なし注意に基づく文レベルメタ埋め込み

Unsupervised Attention-based Sentence-Level Meta-Embeddings from Contextualised Language Models ( http://arxiv.org/abs/2204.07746v1 )

ライセンス: CC BY 4.0
Keigo Takahashi and Danushka Bollegala(参考訳) nlpコミュニティでは様々な文脈化された言語モデルが提案されており、様々なコーパスで訓練され、多数のニューラル言語モデル(nlms)を生産している。 しかし、異なるNLMは、テキスト表現として使用する場合、下流のNLPアプリケーションで異なるレベルのパフォーマンスを報告している。 本稿では,個別に学習した文脈付き単語埋め込みモデルを用いて,入力元nlmの補完的強みを保った文埋め込み学習手法を提案する。 提案手法は教師なしであり,特定の下流タスクとは無関係であり,学習したメタエンベディングは文表現を必要とする異なるタスクに適用できる。 具体的には、まず、個々のNLMが獲得したトークンレベルの埋め込みを計画し、トークンレベルのメタ埋め込みへのソース埋め込みの貢献を示す注意重みを学習する。 次に,トークンレベルのメタエンベディングから文レベルのメタエンベディングを生成するために,平均および最大プールを適用する。 セマンティックテキスト類似性ベンチマーク実験の結果,提案手法は従来提案した文レベルのメタ埋め込み法や教師付きベースラインよりも優れていた。

A variety of contextualised language models have been proposed in the NLP community, which are trained on diverse corpora to produce numerous Neural Language Models (NLMs). However, different NLMs have reported different levels of performances in downstream NLP applications when used as text representations. We propose a sentence-level meta-embedding learning method that takes independently trained contextualised word embedding models and learns a sentence embedding that preserves the complementary strengths of the input source NLMs. Our proposed method is unsupervised and is not tied to a particular downstream task, which makes the learnt meta-embeddings in principle applicable to different tasks that require sentence representations. Specifically, we first project the token-level embeddings obtained by the individual NLMs and learn attention weights that indicate the contributions of source embeddings towards their token-level meta-embeddings. Next, we apply mean and max pooling to produce sentence-level meta-embeddings from token-level meta-embeddings. Experimental results on semantic textual similarity benchmarks show that our proposed unsupervised sentence-level meta-embedding method outperforms previously proposed sentence-level meta-embedding methods as well as a supervised baseline.
翻訳日:2022-04-20 09:41:48 公開日:2022-04-16
# (参考訳) ベイズ型系統推論への変分的アプローチ

A Variational Approach to Bayesian Phylogenetic Inference ( http://arxiv.org/abs/2204.07747v1 )

ライセンス: CC BY 4.0
Cheng Zhang, Frederick A. Matsen IV(参考訳) ベイズ系統推定は現在、マルコフ連鎖モンテカルロ(MCMC)と単純な提案機構によって行われている。 これにより探索の効率が損なわれ、しばしば正確な後方推定を行うのに長い時間を要する。 本稿では,ベイズ型系統解析のための変分フレームワークを提案する。 本稿では,木トポロジ分布の表現型グラフィカルモデルであるサブスプリットベイズネットワークと,木トポロジー上の枝長の構造化アモルティゼーションを組み合わせた分布の変分系を提案する。 確率勾配法による変分近似を訓練し、連続的および離散的な変分パラメータに勾配推定器を適用し、系統モデルの複合潜時空間に対処する。 我々は, 変分推論によりより効率的な探索機構を実現するため, MCMCに対する競争性能が向上する一方で, 計算量が少なくなることを示した。 本手法の有効性と有効性を示す実データベイズ型系統推定問題のベンチマーク実験を行った。

Bayesian phylogenetic inference is currently done via Markov chain Monte Carlo (MCMC) with simple proposal mechanisms. This hinders exploration efficiency and often requires long runs to deliver accurate posterior estimates. In this paper, we present an alternative approach: a variational framework for Bayesian phylogenetic analysis. We propose combining subsplit Bayesian networks, an expressive graphical model for tree topology distributions, and a structured amortization of the branch lengths over tree topologies for a suitable variational family of distributions. We train the variational approximation via stochastic gradient ascent and adopt gradient estimators for continuous and discrete variational parameters separately to deal with the composite latent space of phylogenetic models. We show that our variational approach provides competitive performance to MCMC, while requiring much less computation due to a more efficient exploration mechanism enabled by variational inference. Experiments on a benchmark of challenging real data Bayesian phylogenetic inference problems demonstrate the effectiveness and efficiency of our methods.
翻訳日:2022-04-20 09:21:26 公開日:2022-04-16
# (参考訳) 深層学習における視覚的注意方法:深部調査

Visual Attention Methods in Deep Learning: An In-Depth Survey ( http://arxiv.org/abs/2204.07756v1 )

ライセンス: CC BY 4.0
Mohammed Hassanin, Saeed Anwar, Ibrahim Radwan, Fahad S Khan and Ajmal Mian(参考訳) 人間の認知システムにインスパイアされた注意は、特定の情報に対する人間の認知認識を模倣し、重要な詳細を増幅し、データの本質的な側面にフォーカスするメカニズムである。 ディープラーニングは多くのアプリケーションのパフォーマンス向上に注意を払っています。 興味深いことに、同じ注意設計は異なるデータモダリティを処理するのに適しており、簡単に大きなネットワークに組み込むことができる。 さらに、複数の補完的注意機構を1つのネットワークに組み込むことができる。 そのため、注目の技は極めて魅力的になってきている。 しかし、この文献は、深層モデルに注意を向ける研究者を導くための注意技法に特化した総合的な調査を欠いている。 トレーニングデータと計算リソースの面での要求に加えて、トランスフォーマーは利用可能な多くのカテゴリのうち、単一のカテゴリのみをカバーすることに注意してください。 このギャップを埋めて、最も顕著な特徴を分類した50の注意技法の詳細な調査を行う。 我々は注意機構の成功の背後にある基本的な概念を導入することで議論を開始する。 次に,各注目カテゴリーの強みと限界,基本構成要素の説明,初等使用に関する基本的な定式化,特にコンピュータビジョンへの応用など,いくつかの必須事項を提示する。 また,注意機構に関する課題とオープン質問についても概説する。 最後に,今後の研究の方向性を深く検討することを推奨する。

Inspired by the human cognitive system, attention is a mechanism that imitates the human cognitive awareness about specific information, amplifying critical details to focus more on the essential aspects of data. Deep learning has employed attention to boost performance for many applications. Interestingly, the same attention design can suit processing different data modalities and can easily be incorporated into large networks. Furthermore, multiple complementary attention mechanisms can be incorporated in one network. Hence, attention techniques have become extremely attractive. However, the literature lacks a comprehensive survey specific to attention techniques to guide researchers in employing attention in their deep models. Note that, besides being demanding in terms of training data and computational resources, transformers only cover a single category in self-attention out of the many categories available. We fill this gap and provide an in-depth survey of 50 attention techniques categorizing them by their most prominent features. We initiate our discussion by introducing the fundamental concepts behind the success of attention mechanism. Next, we furnish some essentials such as the strengths and limitations of each attention category, describe their fundamental building blocks, basic formulations with primary usage, and applications specifically for computer vision. We also discuss the challenges and open questions related to attention mechanism in general. Finally, we recommend possible future research directions for deep attention.
翻訳日:2022-04-20 09:20:23 公開日:2022-04-16
# (参考訳) UniGDD: 目標指向ドキュメント群対話のための統一生成フレームワーク

UniGDD: A Unified Generative Framework for Goal-Oriented Document-Grounded Dialogue ( http://arxiv.org/abs/2204.07770v1 )

ライセンス: CC BY 4.0
Chang Gao, Wenxuan Zhang, Wai Lam(参考訳) 目標指向の文書接地対話は,対話コンテキストと支援文書に基づいてユーザクエリに応答することを目的としている。 既存の研究では、知識識別と応答生成という2つのサブタスクに分解することでこの問題に取り組んでいる。 しかし、そのようなパイプラインメソッドは、必然的にエラー伝搬の問題に悩まされる。 本稿では,これら2つのサブタスクを,基礎知識と応答を逐次生成することで統一することを提案する。 さらに,異なるタスクの特性と接続をモデル化するプロンプト接続型マルチタスク学習戦略を開発し,無関係な文書情報の悪影響を低減するために線形温度スケジューリングを導入する。 実験の結果,提案手法の有効性が示された。

The goal-oriented document-grounded dialogue aims at responding to the user query based on the dialogue context and supporting document. Existing studies tackle this problem by decomposing it into two sub-tasks: knowledge identification and response generation. However, such pipeline methods would unavoidably suffer from the error propagation issue. This paper proposes to unify these two sub-tasks via sequentially generating the grounding knowledge and the response. We further develop a prompt-connected multi-task learning strategy to model the characteristics and connections of different tasks and introduce linear temperature scheduling to reduce the negative effect of irrelevant document information. Experimental results demonstrate the effectiveness of our framework.
翻訳日:2022-04-20 08:37:07 公開日:2022-04-16
# (参考訳) SimpleBERT: 単純な単語を生成するための事前学習モデル

SimpleBERT: A Pre-trained Model That Learns to Generate Simple Words ( http://arxiv.org/abs/2204.07779v1 )

ライセンス: CC BY 4.0
Renliang Sun and Xiaojun Wan(参考訳) 事前学習モデルは現在、自然言語処理のタスクで広く使われている。 しかし、テキスト単純化の特定の分野において、事前学習されたモデルを改善する研究はいまだに空白である。 本研究では,テキストの簡易化を継続する事前学習手法を提案する。 具体的には、ランダムに単語をマスキングするのではなく、単純な単語をマスキングする新しいマスキング言語モデリング(MLM)機構を提案する。 新しいメカニズムにより、モデルは単純な単語を生成することを学ぶことができる。 そこで本研究では,テキストから簡単な単語を識別する2つの手法を用いて,事前学習を行う。 代表的な事前学習モデルであるbertを選択し,提案手法による事前学習を継続する。 最後に,語彙の単純化と文の単純化の両作業においてBERTを上回り,複数のデータセットで最先端の結果を得たSimpleBERTを得る。 さらにSimpleBERTは、既存の単純化モデルでBERTを変更せずに置き換えることができる。

Pre-trained models are widely used in the tasks of natural language processing nowadays. However, in the specific field of text simplification, the research on improving pre-trained models is still blank. In this work, we propose a continued pre-training method for text simplification. Specifically, we propose a new masked language modeling (MLM) mechanism, which does not randomly mask words but only masks simple words. The new mechanism can make the model learn to generate simple words. We use a small-scale simple text dataset for continued pre-training and employ two methods to identify simple words from the texts. We choose BERT, a representative pre-trained model, and continue pre-training it using our proposed method. Finally, we obtain SimpleBERT, which surpasses BERT in both lexical simplification and sentence simplification tasks and has achieved state-of-the-art results on multiple datasets. What's more, SimpleBERT can replace BERT in existing simplification models without modification.
翻訳日:2022-04-20 08:27:48 公開日:2022-04-16
# (参考訳) 談話アノテーションフレームワークの統一に向けて

Towards Unification of Discourse Annotation Frameworks ( http://arxiv.org/abs/2204.07781v1 )

ライセンス: CC BY 4.0
Yingxue Fu(参考訳) 談話情報は表現や注釈が難しい。 談話情報を注釈付けするための主要なフレームワークとして、RTT、PDTB、SDRTが広く議論され、それぞれに理論の基礎と焦点がある。 異なるフレームワークで注釈付けされたコーパスは、かなり異なる。 既存の談話コーパスをよりよく利用し、異なるフレームワークのシナジーを実現するためには、異なるフレームワーク間の系統的関係を調査し、フレームワークを統合する方法を考案する価値がある。 フレームワーク統一の問題は長い間議論の対象となっているが、現在、言論構造と言論関係の両方を統一し、内在的および外在的に統一フレームワークを評価する包括的アプローチは存在していない。 我々は、統合タスクに自動手段を使用し、構造的な複雑さと下流タスクで結果を評価する計画である。 マルチタスク学習とグラフィカルモデルにおける統一フレームワークの適用についても検討する。

Discourse information is difficult to represent and annotate. Among the major frameworks for annotating discourse information, RST, PDTB and SDRT are widely discussed and used, each having its own theoretical foundation and focus. Corpora annotated under different frameworks vary considerably. To make better use of the existing discourse corpora and achieve the possible synergy of different frameworks, it is worthwhile to investigate the systematic relations between different frameworks and devise methods of unifying the frameworks. Although the issue of framework unification has been a topic of discussion for a long time, there is currently no comprehensive approach which considers unifying both discourse structure and discourse relations and evaluates the unified framework intrinsically and extrinsically. We plan to use automatic means for the unification task and evaluate the result with structural complexity and downstream tasks. We will also explore the application of the unified framework in multi-task learning and graphical models.
翻訳日:2022-04-20 08:18:22 公開日:2022-04-16
# (参考訳) リカレントニューラルネットワークとトランスフォーマによる販売予測へのアプローチ

Approaching sales forecasting using recurrent neural networks and transformers ( http://arxiv.org/abs/2204.07786v1 )

ライセンス: CC0 1.0
Iv\'an Vall\'es-P\'erez, Emilio Soria-Olivas, Marcelino Mart\'inez-Sober, Antonio J. Serrano-L\'opez, Juan G\'omez-Sanch\'is, Fernando Mateo(参考訳) 正確な需要予測は、対応する下流プロセス(インバウンドおよびアウトバウンド計画、在庫配置、ネットワーク計画など)の正確な実行を可能にするサプライチェーンにおけるホットトピックの1つである。 我々は,kaggleコンペティションの一環として,ディープラーニング技術とコーポラシ・オン・マヨリタデータセットを用いて,日・店・項目レベルでの顧客販売予測問題に対処するための3つの代替案を開発した。 実験結果から,データ前処理を最小限に抑えた単純なシーケンスアーキテクチャを用いて,優れた性能が得られることを示す。 さらに、モデルをより独立にし、時間とともに一般化を改善するためのトレーニングトリックについて述べる。 提案した解は約0.54の RMSLE を達成し、Kaggle コンペティションで提案された問題に対する他のより具体的な解と競合する。

Accurate and fast demand forecast is one of the hot topics in supply chain for enabling the precise execution of the corresponding downstream processes (inbound and outbound planning, inventory placement, network planning, etc). We develop three alternatives to tackle the problem of forecasting the customer sales at day/store/item level using deep learning techniques and the Corporaci\'on Favorita data set, published as part of a Kaggle competition. Our empirical results show how good performance can be achieved by using a simple sequence to sequence architecture with minimal data preprocessing effort. Additionally, we describe a training trick for making the model more time independent and hence improving generalization over time. The proposed solution achieves a RMSLE of around 0.54, which is competitive with other more specific solutions to the problem proposed in the Kaggle competition.
翻訳日:2022-04-20 08:04:24 公開日:2022-04-16
# (参考訳) UAMD-Net:Dense Depth Completionのための統一適応型マルチモーダルニューラルネットワーク

UAMD-Net: A Unified Adaptive Multimodal Neural Network for Dense Depth Completion ( http://arxiv.org/abs/2204.07791v1 )

ライセンス: CC BY 4.0
Guancheng Chen, Junli Lin and Huabiao Qin(参考訳) 深度予測はロボット応用、特に自律運転において重要な問題である。 一般に、両眼ステレオマッチングと単眼画像とレーザー点雲の融合に基づく深度予測は2つの主流手法である。 しかし、通常、前者はコストボリュームを構築する際に過剰にフィットし、後者は幾何学的制約の欠如により限定的な一般化を持つ。 これらの問題を解決するために,両眼ステレオマッチングの融合とスパース点雲からの弱い制約に基づく深度補完のための新しいマルチモーダルニューラルネットワークUAMD-Netを提案する。 具体的には、スパース点雲をスパース深度マップに変換し、双眼鏡画像付きマルチモーダル特徴エンコーダ(MFE)に送信し、クロスモーダルコストボリュームを構築する。 その後、マルチモーダル特徴集約(mfa)と深さ回帰層によってさらに処理される。 さらに、既存のマルチモーダル手法は、特定のモーダル入力に問題がある場合にネットワークが機能しないという、モーダル依存の問題を無視している。 そこで本研究では,複数のモーダル入力と特定のモーダル入力による推論により,ネットワークを適応的にトレーニングできるModal-dropoutという新たなトレーニング戦略を提案する。 フレキシブルなネットワーク構造と適応的なトレーニング手法を利用して,様々なモード入力条件下での統一トレーニングを実現する。 kitti depth completionベンチマークで行った包括的な実験により,本手法が頑健な結果をもたらし,他の最先端手法よりも優れていることが証明された。

Depth prediction is a critical problem in robotics applications especially autonomous driving. Generally, depth prediction based on binocular stereo matching and fusion of monocular image and laser point cloud are two mainstream methods. However, the former usually suffers from overfitting while building cost volume, and the latter has a limited generalization due to the lack of geometric constraint. To solve these problems, we propose a novel multimodal neural network, namely UAMD-Net, for dense depth completion based on fusion of binocular stereo matching and the weak constrain from the sparse point clouds. Specifically, the sparse point clouds are converted to sparse depth map and sent to the multimodal feature encoder (MFE) with binocular image, constructing a cross-modal cost volume. Then, it will be further processed by the multimodal feature aggregator (MFA) and the depth regression layer. Furthermore, the existing multimodal methods ignore the problem of modal dependence, that is, the network will not work when a certain modal input has a problem. Therefore, we propose a new training strategy called Modal-dropout which enables the network to be adaptively trained with multiple modal inputs and inference with specific modal inputs. Benefiting from the flexible network structure and adaptive training method, our proposed network can realize unified training under various modal input conditions. Comprehensive experiments conducted on KITTI depth completion benchmark demonstrate that our method produces robust results and outperforms other state-of-the-art methods.
翻訳日:2022-04-20 07:50:40 公開日:2022-04-16
# (参考訳) スケール不変ロバスト密度認識距離(RDAD)フィルタによる小孔の検出

Detection of Small Holes by the Scale-Invariant Robust Density-Aware Distance (RDAD) Filtration ( http://arxiv.org/abs/2204.07821v1 )

ライセンス: CC BY 4.0
Chunyin (Alex) Siu, Gennady Samorodnitsky, Christina Yu, and Andrey Yao(参考訳) 高次元ユークリッド空間に埋め込まれた多様体(またはより一般的にはCW錯体)の近くに質量が集中している確率密度関数の高密度領域に囲まれた小さな穴をノイズと区別するために、新しい位相データ解析法(TDA)を提案する。 提案手法は付加雑音や異常値に対して頑健である。 特に、サンプル点を多様体から引き離すことが許される。 距離フィルターに基づいた従来のtdaツールは、短い持続性のため、小さな特徴とノイズを区別するのに苦労することが多い。 ロバスト密度認識距離 (RDAD) フィルターと呼ばれる別の濾過法が提案され、高密度領域に囲まれた小さな穴の持続性を延長する。 これはベル等における密度による距離関数の重み付けによって達成される。 遠距離測定は、密度推定による安定性の向上とノイズの軽減のために組み込まれている。 小孔の同定におけるフィルタの有用性と,その騒音に対する頑健性は,解析的な例と広範囲な数値実験によって説明できる。 提案した濾過の数学的性質が証明されている。

A novel topological-data-analytical (TDA) method is proposed to distinguish, from noise, small holes surrounded by high-density regions of a probability density function whose mass is concentrated near a manifold (or more generally, a CW complex) embedded in a high-dimensional Euclidean space. The proposed method is robust against additive noise and outliers. In particular, sample points are allowed to be perturbed away from the manifold. Traditional TDA tools, like those based on the distance filtration, often struggle to distinguish small features from noise, because of their short persistence. An alternative filtration, called Robust Density-Aware Distance (RDAD) filtration, is proposed to prolong the persistence of small holes surrounded by high-density regions. This is achieved by weighting the distance function by the density in the sense of Bell et al. Distance-to-measure is incorporated to enhance stability and mitigate noise due to the density estimation. The utility of the proposed filtration in identifying small holes, as well as its robustness against noise, are illustrated through an analytical example and extensive numerical experiments. Basic mathematical properties of the proposed filtration are proven.
翻訳日:2022-04-20 07:38:03 公開日:2022-04-16
# (参考訳) 限られた三重項を用いた胸部x線病理診断法の改良

Few-Shot Transfer Learning to improve Chest X-Ray pathology detection using limited triplets ( http://arxiv.org/abs/2204.07824v1 )

ライセンス: CC BY 4.0
Ananth Reddy Bhimireddy, John Lee Burns, Saptarshi Purkayastha, Judy Wawira Gichoya(参考訳) 医学画像に適用されるディープラーニングのアプローチは、多くの診断タスクにおいて、人間に近い、あるいは人間より優れたパフォーマンスに達している。 例えば、胸部X線診断におけるCheXpertコンペティションは、優れた多クラス分類性能を示している。 しかし、ディープラーニングモデルのトレーニングと検証には、人間のループによって特定されるような、広範な画像収集と偽推論が必要である。 本稿では,Few-Shot Learning(FSL)による事前学習モデルの予測を改善するための実践的アプローチを提案する。 モデルのトレーニングと検証の後、少数の偽推論画像が収集され、 \textbf{\textit{image triplets}} - 偽陽性または偽陰性、真陽性、真陰性を用いてモデルを再訓練する。 再訓練されたfslモデルは、わずかなエポックと少ない画像で性能が大幅に向上する。 さらに、FSLは、放射線学者が偽の推論を許容し、モデルが迅速に再訓練される、ループ内システムに対する迅速な再訓練の機会を開放する。 再訓練されたモデル性能と既存の医用画像のFSLアプローチを比較して,モデルを一度に訓練し評価する。

Deep learning approaches applied to medical imaging have reached near-human or better-than-human performance on many diagnostic tasks. For instance, the CheXpert competition on detecting pathologies in chest x-rays has shown excellent multi-class classification performance. However, training and validating deep learning models require extensive collections of images and still produce false inferences, as identified by a human-in-the-loop. In this paper, we introduce a practical approach to improve the predictions of a pre-trained model through Few-Shot Learning (FSL). After training and validating a model, a small number of false inference images are collected to retrain the model using \textbf{\textit{Image Triplets}} - a false positive or false negative, a true positive, and a true negative. The retrained FSL model produces considerable gains in performance with only a few epochs and few images. In addition, FSL opens rapid retraining opportunities for human-in-the-loop systems, where a radiologist can relabel false inferences, and the model can be quickly retrained. We compare our retrained model performance with existing FSL approaches in medical imaging that train and evaluate models at once.
翻訳日:2022-04-20 07:36:58 公開日:2022-04-16
# (参考訳) アスペクトベース感性分析のためのコントラスト型クロスチャネルデータ拡張フレームワーク

A Contrastive Cross-Channel Data Augmentation Framework for Aspect-based Sentiment Analysis ( http://arxiv.org/abs/2204.07832v1 )

ライセンス: CC0 1.0
Bing Wang, Liang Ding, Qihuang Zhong, Ximing Li, Dacheng Tao(参考訳) アスペクトベース感情分析(Aspect-Based Sentiment Analysis)は、文の側面に対する感情極性を検出することに焦点を当てた、きめ細かい感情分析タスクである。 しかし、文中の複数の側面の特徴が互いに影響を及ぼすマルチアスペクトチャレンジには、常に敏感である。 この問題を軽減するために、Contrastive Cross-Channel Data Augmentation (C3DA)と呼ばれる新しいトレーニングフレームワークを設計する。 ソース文は、いくつかの合成文を得るためにドメイン固有生成子を供給し、これらの生成文と結合して教師付きトレーニングとコントラストトレーニングを行う。 具体的には、限られたABSAラベル付きデータを考えると、完全文生成のためのパラメータ効率の高いアプローチも導入する。 アスペクト特異的文を生成するアスペクト拡張チャネル(aac)と、極性反転文を生成する極性増強(pac)とからなる新規生成方法。 我々の大規模な実験によると、我々のC3DAフレームワークは、精度とマクロF1の約1\%の精度で、これらのベースラインを上回ります。

Aspect-Based Sentiment Analysis is a fine-grained sentiment analysis task, which focuses on detecting the sentiment polarity towards the aspect in a sentence. However, it is always sensitive to the multi-aspect challenge, where features of multiple aspects in a sentence will affect each other. To mitigate this issue, we design a novel training framework, called Contrastive Cross-Channel Data Augmentation (C3DA). A source sentence will be fed a domain-specific generator to obtain some synthetic sentences and is concatenated with these generated sentences to conduct supervised training and proposed contrastive training. To be specific, considering the limited ABSA labeled data, we also introduce some parameter-efficient approaches to complete sentences generation. This novel generation method consists of an Aspect Augmentation Channel (AAC) to generate aspect-specific sentences and a Polarity Augmentation (PAC) to generate polarity-inverted sentences. According to our extensive experiments, our C3DA framework can outperform those baselines without any augmentations by about 1\% on accuracy and Macro-F1.
翻訳日:2022-04-20 07:27:43 公開日:2022-04-16
# (参考訳) テキスト生成のための多言語シーケンスからシーケンスへの事前学習による言語間ギャップのブリッジ化

Bridging Cross-Lingual Gaps During Leveraging the Multilingual Sequence-to-Sequence Pretraining for Text Generation ( http://arxiv.org/abs/2204.07834v1 )

ライセンス: CC0 1.0
Changtong Zan, Liang Ding, Li Shen, Yu Cao, Weifeng Liu, Dacheng Tao(参考訳) For multilingual sequence-to-sequence pretrained language models (multilingual Seq2Seq PLMs), e.g. mBART, the self-supervised pretraining task is trained on a wide range of monolingual languages, e.g. 25 languages from commoncrawl, while the downstream cross-lingual tasks generally progress on a bilingual language subset, e.g. English-German, making there exists the cross-lingual data discrepancy, namely \textit{domain discrepancy}, and cross-lingual learning objective discrepancy, namely \textit{task discrepancy}, between the pretrain and finetune stages. 上記の言語間ドメインとタスクギャップを橋渡しするために、バニラプリトレイン-フィニチューンパイプラインをコード切り換え復元タスクで拡張する。 特に、第1段階では、自己教師付きコードスイッチング復元タスクをプリテキストタスクとして使用し、多言語Seq2Seq PLMがいくつかのドメイン内アライメント情報を取得する。 そして、第2段階では、ラベル付きデータに定期的にモデルを微調整します。 12のバイリンガル翻訳タスク、36のゼロショット翻訳タスク、およびクロスリンガル要約タスクを含む、多種多様な言語間NLGタスクの実験は、我々のモデルが強いベースラインmBARTを一貫して上回ることを示す。 包括的分析により, 言語間の文表現距離を狭くし, 低頻度の単語翻訳を簡易な計算コストで改善できることが示された。

For multilingual sequence-to-sequence pretrained language models (multilingual Seq2Seq PLMs), e.g. mBART, the self-supervised pretraining task is trained on a wide range of monolingual languages, e.g. 25 languages from commoncrawl, while the downstream cross-lingual tasks generally progress on a bilingual language subset, e.g. English-German, making there exists the cross-lingual data discrepancy, namely \textit{domain discrepancy}, and cross-lingual learning objective discrepancy, namely \textit{task discrepancy}, between the pretrain and finetune stages. To bridge the above cross-lingual domain and task gaps, we extend the vanilla pretrain-finetune pipeline with extra code-switching restore task. Specifically, the first stage employs the self-supervised code-switching restore task as a pretext task, allowing the multilingual Seq2Seq PLM to acquire some in-domain alignment information. And for the second stage, we continuously fine-tune the model on labeled data normally. Experiments on a variety of cross-lingual NLG tasks, including 12 bilingual translation tasks, 36 zero-shot translation tasks, and cross-lingual summarization tasks show our model outperforms the strong baseline mBART consistently. Comprehensive analyses indicate our approach could narrow the cross-lingual sentence representation distance and improve low-frequency word translation with trivial computational cost.
翻訳日:2022-04-20 07:03:46 公開日:2022-04-16
# (参考訳) if: シミュレーションの質問に答えるコードを生成する

What If: Generating Code to Answer Simulation Questions ( http://arxiv.org/abs/2204.07835v1 )

ライセンス: CC BY 4.0
Gal Peretz, Kira Radinsky(参考訳) 多くのテキスト、特に化学と生物学は複雑な過程を記述している。 化学反応過程を記述したテキストと、異なる環境条件下でのプロセスの結果について質問する質問に焦点を当てる。 このようなプロセスに関する質問に答えるためには、プロセスに関わる異なるエンティティ間の相互作用を理解し、異なる条件下でプロセスの実行中に状態遷移をシミュレートする必要がある。 状態遷移は、プログラムが実行中に変数に対して行うメモリ変更として定義される。 コードを生成し、それを実行してプロセスをシミュレートすると、そのような質問に答えることができる、という仮説を立てています。 したがって、プロセスを表現するためにドメイン固有言語(DSL)を定義します。 我々は,化学者が収集し,コンピュータ科学者が注釈を付したユニークなデータセットをコミュニティに寄贈する。 本データセットは,DSLで表されるプロセステキスト,シミュレーション質問,およびそれに対応するコンピュータコードで構成され,新しい状態遷移セマンティック報酬を用いた強化学習に基づくニューラルプログラム合成手法を提案する。 新たな報酬は、予測コードと参照コードとの実行時のセマンティックな類似性に基づいている。 これにより複雑なプロセス遷移をシミュレートし、シミュレーションの質問に答えることができる。 本手法は,最先端のニューラルプログラム合成手法の83\%精度と最先端のテキストベースアプローチの54\%精度とは対照的に,シミュレーション質問の精度を88\%向上させる。

Many texts, especially in chemistry and biology, describe complex processes. We focus on texts that describe a chemical reaction process and questions that ask about the process's outcome under different environmental conditions. To answer questions about such processes, one needs to understand the interactions between the different entities involved in the process and to simulate their state transitions during the process execution under different conditions. A state transition is defined as the memory modification the program does to the variables during the execution. We hypothesize that generating code and executing it to simulate the process will allow answering such questions. We, therefore, define a domain-specific language (DSL) to represent processes. We contribute to the community a unique dataset curated by chemists and annotated by computer scientists. The dataset is composed of process texts, simulation questions, and their corresponding computer codes represented by the DSL.We propose a neural program synthesis approach based on reinforcement learning with a novel state-transition semantic reward. The novel reward is based on the run-time semantic similarity between the predicted code and the reference code. This allows simulating complex process transitions and thus answering simulation questions. Our approach yields a significant boost in accuracy for simulation questions: 88\% accuracy as opposed to 83\% accuracy of the state-of-the-art neural program synthesis approaches and 54\% accuracy of state-of-the-art end-to-end text-based approaches.
翻訳日:2022-04-20 06:48:24 公開日:2022-04-16
# (参考訳) bliss: 自己教師付き入力表現によるロバストシーケンスからシーケンスへの学習

BLISS: Robust Sequence-to-Sequence Learning via Self-Supervised Input Representation ( http://arxiv.org/abs/2204.07837v1 )

ライセンス: CC0 1.0
Zheng Zhang, Liang Ding, Dazhao Cheng, Xuebo Liu, Min Zhang, Dacheng Tao(参考訳) データ拡張(da)は、様々な自然言語処理(nlp)タスクでロバストなシーケンス間学習を実現するためのコアである。 しかし、ほとんどのDAアプローチは、デコーダに摂動入力表現に条件付けされた予測を強制し、摂動入力によって提供される教師付き情報を活用する。 本研究では,データレベルの拡張アプローチを補完する大きな可能性を持つ自己教師型入力表現を用いて,フレームワークレベルの堅牢なシーケンス・ツー・シーケンス学習手法BLISSを提案する。 鍵となるアイデアは、sequence-to-sequenceフレームワークを \textit{supervised} ("input$\rightarrow$output") と \textit{self-supervised} ("perturbed input$\rightarrow$input") の両方の情報で監視することである。 我々は,機械翻訳,文法的誤り訂正,テキスト要約など,BLISSの様々なタスクにおける有効性を検証するための総合的な実験を行った。 その結果、BLISSはバニラトランスフォーマーよりも優れており、他の5つのコントラストベースラインよりも一貫してタスク間でうまく機能していることがわかった。 包括的な分析の結果、BLISSは堅牢な表現と豊かな言語知識を学び、我々の主張を裏付けている。 ソースコードは公開時に公開される。

Data augmentations (DA) are the cores to achieving robust sequence-to-sequence learning on various natural language processing (NLP) tasks. However, most of the DA approaches force the decoder to make predictions conditioned on the perturbed input representation, underutilizing supervised information provided by perturbed input. In this work, we propose a framework-level robust sequence-to-sequence learning approach, named BLISS, via self-supervised input representation, which has the great potential to complement the data-level augmentation approaches. The key idea is to supervise the sequence-to-sequence framework with both the \textit{supervised} ("input$\rightarrow$output") and \textit{self-supervised} ("perturbed input$\rightarrow$input") information. We conduct comprehensive experiments to validate the effectiveness of BLISS on various tasks, including machine translation, grammatical error correction, and text summarization. The results show that BLISS outperforms significantly the vanilla Transformer and consistently works well across tasks than the other five contrastive baselines. Extensive analyses reveal that BLISS learns robust representations and rich linguistic knowledge, confirming our claim. Source code will be released upon publication.
翻訳日:2022-04-20 06:29:54 公開日:2022-04-16
# (参考訳) 形状誘導型物体塗装

Shape-guided Object Inpainting ( http://arxiv.org/abs/2204.07845v1 )

ライセンス: CC BY 4.0
Yu Zeng, Zhe Lin, Vishal M. Patel(参考訳) 画像の塗り絵は、主に背景の塗り絵や、部分的に欠落した物体の塗り絵に焦点が当てられている。 本研究は,新しい画像インペインティングタスク,すなわち形状誘導オブジェクトインペインティングについて研究する。 不完全な入力画像が与えられると、目標は穴形状によって与えられるコンテキストと暗黙のガイダンスに基づいてオブジェクトを生成して穴を埋めることである。 画像インペインティングの従来の手法は主に背景インペインティング用に設計されているため、このタスクには適さない。 そこで本研究では,オブジェクトの塗装作業のための新しいデータ作成法と新しいコンテキストオブジェクト生成法(CogNet)を提案する。 データ側では、オブジェクトインスタンスを穴として使用して、トレーニングデータにオブジェクトプライオリティを組み込む。 CogNetは、標準的なボトムアップ画像補完プロセスとトップダウンオブジェクト生成プロセスを組み合わせた2ストリームアーキテクチャを備えている。 予測クラス埋め込みモジュールは、トップダウンストリームの入力としてセマンティックオブジェクトマップが導出されるボトムアップ機能から、行方不明なオブジェクトのクラスを予測することによって、2つのストリームをブリッジする。 実験により,提案手法は視覚的外観と意味的意味の両方の観点からコンテキストに適合する現実的なオブジェクトを生成することができることが示された。 コードはプロジェクトページ \url{https://zengxianyu.github.io/objpaint} で見ることができる。

Previous works on image inpainting mainly focus on inpainting background or partially missing objects, while the problem of inpainting an entire missing object remains unexplored. This work studies a new image inpainting task, i.e. shape-guided object inpainting. Given an incomplete input image, the goal is to fill in the hole by generating an object based on the context and implicit guidance given by the hole shape. Since previous methods for image inpainting are mainly designed for background inpainting, they are not suitable for this task. Therefore, we propose a new data preparation method and a novel Contextual Object Generator (CogNet) for the object inpainting task. On the data side, we incorporate object priors into training data by using object instances as holes. The CogNet has a two-stream architecture that combines the standard bottom-up image completion process with a top-down object generation process. A predictive class embedding module bridges the two streams by predicting the class of the missing object from the bottom-up features, from which a semantic object map is derived as the input of the top-down stream. Experiments demonstrate that the proposed method can generate realistic objects that fit the context in terms of both visual appearance and semantic meanings. Code can be found at the project page \url{https://zengxianyu.github.io/objpaint}
翻訳日:2022-04-20 06:09:52 公開日:2022-04-16
# (参考訳) covibot:covid-19パンデミック時の支援とe-awarenessのためのスマートチャットボット

COVIBOT: A Smart Chatbot for Assistance and E-Awareness during COVID-19 Pandemic ( http://arxiv.org/abs/2204.07851v1 )

ライセンス: CC BY 4.0
Maha Driss, Iman Almomani, Leen Alahmadi, Linah Alhajjam, Raghad Alharbi, Shahad Alanazi(参考訳) 新型コロナウイルスのパンデミックは過去2年間で、高度につながり、情報に満ちた社会に広がった。 それでも、パンデミックの広がりに関する正確かつ最新の情報を広めることは課題である。 この文脈では、チャットボットの名前で知られている会話型人工知能に基づくソリューションを選択することは、特にいくつかの国で新型コロナウイルスの危機と戦う効果をすでに示しているため、避けられないソリューションであることが証明されている。 この研究は、サウジアラビアのコンテキストで役立つcovibotと呼ばれるcovid-19をテーマとしたスマートチャットボットの設計と実装を提案する。 COVIBOTは生成ベースのコンテキストチャットボットで、クラウドベースのAzure Cognitive Servicesによって提供される機械学習APIを使用して構築されている。 COVIBOTは英語とアラビア語の2種類がある。 COVIBOTのユースケースはシナリオベースのアプローチで検証・検証される。

The coronavirus pandemic has spread over the past two years in our highly connected and information-dense society. Nonetheless, disseminating accurate and up-to-date information on the spread of this pandemic remains a challenge. In this context, opting for a solution based on conversational artificial intelligence, also known under the name of the chatbot, is proving to be an unavoidable solution, especially since it has already shown its effectiveness in fighting the coronavirus crisis in several countries. This work proposes to design and implement a smart chatbot on the theme of COVID-19, called COVIBOT, which will be useful in the context of Saudi Arabia. COVIBOT is a generative-based contextual chatbot, which is built using machine learning APIs that are offered by the cloud-based Azure Cognitive Services. Two versions of COVIBOT are offered: English and Arabic versions. Use cases of COVIBOT are tested and validated using a scenario-based approach.
翻訳日:2022-04-20 05:54:11 公開日:2022-04-16
# (参考訳) nigam@COLIEE-22:Lexical and Semantic-based modelのカスケードを用いた法的事例検索と追加

nigam@COLIEE-22: Legal Case Retrieval and Entailment using Cascading of Lexical and Semantic-based models ( http://arxiv.org/abs/2204.07853v1 )

ライセンス: CC BY 4.0
Shubham Kumar Nigam and Navansh Goel(参考訳) 本稿では,タスク1と2のケースロー・コンペティションに関するCOLIEE-2022(COLIEE-2022)ワークショップへの参加について述べる。 タスク1は、新たなケースを読み取って、提供されたケース法コーパスから支援ケースを抽出して、決定を支援する法的ケース検索タスクである。 第2条は,関連事例において決定を下す既存事例から段落を識別することを含む訴訟細分化作業である。 意味理解にはニューラルモデルsend-bertとsend2vec,両タスクの正確なマッチングには従来の検索モデルbm25を用いた。 その結果、私たちのチームはタスク1と2の全チームの中で5位にランクインしました。 実験の結果,従来型検索モデルbm25はニューラルネットワークモデルよりも優れていた。

This paper describes our submission to the Competition on Legal Information Extraction/Entailment 2022 (COLIEE-2022) workshop on case law competition for tasks 1 and 2. Task 1 is a legal case retrieval task, which involves reading a new case and extracting supporting cases from the provided case law corpus to support the decision. Task 2 is the legal case entailment task, which involves the identification of a paragraph from existing cases that entails the decision in a relevant case. We employed the neural models Sentence-BERT and Sent2Vec for semantic understanding and the traditional retrieval model BM25 for exact matching in both tasks. As a result, our team ("nigam") ranked 5th among all the teams in Tasks 1 and 2. Experimental results indicate that the traditional retrieval model BM25 still outperforms neural network-based models.
翻訳日:2022-04-20 05:44:50 公開日:2022-04-16
# (参考訳) PAC-Bayesianによる正規化学習適応

PAC-Bayesian Based Adaptation for Regularized Learning ( http://arxiv.org/abs/2204.07856v1 )

ライセンス: CC BY 4.0
Prem Talwai, David Simchi-Levi(参考訳) 本稿では,一般の未知情報源条件下でのヒルベルトスケールにおける適応正規化回帰に対するpac-bayesian \textit{a posteriori}パラメータ選択スキームを提案する。 提案手法は誤特定に適応し, サブガウス雑音下での最適学習率を実現する。 既存のパラメータ選択方式とは異なり,提案手法の計算複雑性はサンプルサイズに依存しない。 我々は,Tikhonov-regularized learningの新たなクラスに対して,カーネル固有デカイに関する従来の前提前提を特に必要としない,不特定ソース条件下での最小値適応率を導出する。 補間理論を用いて、メルサー作用素のスペクトルが適切なヒルベルトスケールの埋め込みとして "tight" $L^{\infty}$の存在下で推論可能であることを示す。 最後に、滑らか性指数関数上の$\delta_2$条件の下では、pac-ベイズスキームが実際にミニマックスレートを達成できることを証明します。 統計的逆問題とoracle効率のよいコンテクストバンディットアルゴリズムへのアプローチの適用について論じる。

In this paper, we propose a PAC-Bayesian \textit{a posteriori} parameter selection scheme for adaptive regularized regression in Hilbert scales under general, unknown source conditions. We demonstrate that our approach is adaptive to misspecification, and achieves the optimal learning rate under subgaussian noise. Unlike existing parameter selection schemes, the computational complexity of our approach is independent of sample size. We derive minimax adaptive rates for a new, broad class of Tikhonov-regularized learning problems under general, misspecified source conditions, that notably do not require any conventional a priori assumptions on kernel eigendecay. Using the theory of interpolation, we demonstrate that the spectrum of the Mercer operator can be inferred in the presence of "tight" $L^{\infty}$ embeddings of suitable Hilbert scales. Finally, we prove, that under a $\Delta_2$ condition on the smoothness index functions, our PAC-Bayesian scheme can indeed achieve minimax rates. We discuss applications of our approach to statistical inverse problems and oracle-efficient contextual bandit algorithms.
翻訳日:2022-04-20 05:34:56 公開日:2022-04-16
# (参考訳) チャネル老化を伴う無細胞mMIMOのチャネル推定と予測:ディープラーニングに基づく手法

Alternating Channel Estimation and Prediction for Cell-Free mMIMO with Channel Aging: A Deep Learning Based Scheme ( http://arxiv.org/abs/2204.07868v1 )

ライセンス: CC BY 4.0
Mohanad Obeed, Yasser Al-Eryani, and Anas Chaaban(参考訳) 大規模動的無線ネットワークでは,チャネル推定(ce)によるオーバヘッドの量がパフォーマンスボトルネックの1つとなっている。 これは、チャネルを推定すべきユーザ数が多いこと、ユーザモビリティ、高周波スペクトル(ミリ波など)の使用によるチャネル変化が原因である。 本研究では,時間分割重複(TDD)無線セルレスマルチインプット・マルチプル・アウトプット(mMIMO)システムのオーバヘッドを低減するために,新しいハイブリッドチャネル推定・予測手法を提案する。 本方式では、各ユーザからのパイロット信号をコヒーレンス間隔(cis)の所定の数(ウィンドウ)に一度だけ送信することを提案する。 次に、このCIのチャネルを推定するために最小平均二乗誤差(MMSE)推定を使用し、ウィンドウ内の残りのCIのチャネルを予測するためにディープニューラルネットワーク(DNN)を使用する。 DNNは、連続したCIと受信したパイロット信号の時間的相関を利用して、チャネル予測精度を向上させる。 これにより、実用的なユーザモビリティ設定のための無視可能なCEエラーを犠牲にして、CEオーバーヘッドを少なくとも50%削減できる。 その結果,提案手法は従来のMMSE CE手法と比較してスペクトル効率を向上し,特にユーザ数が大きい場合,数値的に示される。

In large scale dynamic wireless networks, the amount of overhead caused by channel estimation (CE) is becoming one of the main performance bottlenecks. This is due to the large number users whose channels should be estimated, the user mobility, and the rapid channel change caused by the usage of the high-frequency spectrum (e.g. millimeter wave). In this work, we propose a new hybrid channel estimation/prediction (CEP) scheme to reduce overhead in time-division duplex (TDD) wireless cell-free massive multiple-input-multiple-output (mMIMO) systems. The scheme proposes sending a pilot signal from each user only once in a given number (window) of coherence intervals (CIs). Then minimum mean-square error (MMSE) estimation is used to estimate the channel of this CI, while a deep neural network (DNN) is used to predict the channels of the remaining CIs in the window. The DNN exploits the temporal correlation between the consecutive CIs and the received pilot signals to improve the channel prediction accuracy. By doing so, CE overhead is reduced by at least 50 percent at the expense of negligible CE error for practical user mobility settings. Consequently, the proposed CEP scheme improves the spectral efficiency compared to the conventional MMSE CE approach, especially when the number of users is large, which is demonstrated numerically.
翻訳日:2022-04-20 05:03:37 公開日:2022-04-16
# データの適合と結果予測のための微分方程式の最適化

Optimizing differential equations to fit data and predict outcomes ( http://arxiv.org/abs/2204.07833v1 )

ライセンス: Link先を確認
Steven A. Frank(参考訳) 多くの科学的問題は、観察された変化のパターンや、特定のダイナミクスを達成するシステムを設計する方法に焦点を当てている。 これらの問題は、しばしば軌道をターゲットとする微分方程式モデルを必要とする。 このようなモデルの適合は、各評価において、軌道に沿った多数の点において、モデルと対象パターン間の距離を計算する必要があるため困難である。 モデルパラメータに対する適合度の勾配は困難である。 数値微分方程式解法による自動微分の最近の技術進歩は、フィッティングプロセスを比較的簡単な問題に変える可能性があり、ダイナミクスを研究する新たな可能性を開く。 しかし、新しいツールの実際のデータへの応用は、うまく適合しないかもしれない。 本稿では,ハレ個体群とリンクス個体群における古典的な生態データを用いて,様々な課題を克服する方法について述べる。 モデルは単純な常微分方程式 (ODE) とニューラル常微分方程式 (NODE) を含み、人工知能を用いて微分方程式系の微分を推定する。 ODEとNODEの適合性を比較し、小さいパラメータ空間と大きなパラメータ空間を表現し、可変次元の数を変更すれば、観測された軌跡やモデル軌跡の幾何学に関する洞察が得られる。 将来の観測予測のためのモデルの品質を解析するために、予測モデル軌道の後方分布のベイズ条件付き確率的勾配ランジュバンダイナミクス(psgld)計算は、様々なモデルがデータに不適合または過剰に適合する傾向を明確にする。 pSGLDサンプリングと適合した微分方程式系を結合させることは、最適化面の性質を研究する強力な方法となり、フィットネスランドスケープにおける突然変異選択ダイナミクスと類似する。

Many scientific problems focus on observed patterns of change or on how to design a system to achieve particular dynamics. Those problems often require fitting differential equation models to target trajectories. Fitting such models can be difficult because each evaluation of the fit must calculate the distance between the model and target patterns at numerous points along a trajectory. The gradient of the fit with respect to the model parameters can be challenging. Recent technical advances in automatic differentiation through numerical differential equation solvers potentially change the fitting process into a relatively easy problem, opening up new possibilities to study dynamics. However, application of the new tools to real data may fail to achieve a good fit. This article illustrates how to overcome a variety of common challenges, using the classic ecological data for oscillations in hare and lynx populations. Models include simple ordinary differential equations (ODEs) and neural ordinary differential equations (NODEs), which use artificial neural networks to estimate the derivatives of differential equation systems. Comparing the fits obtained with ODEs versus NODEs, representing small and large parameter spaces, and changing the number of variable dimensions provide insight into the geometry of the observed and model trajectories. To analyze the quality of the models for predicting future observations, a Bayesian-inspired preconditioned stochastic gradient Langevin dynamics (pSGLD) calculation of the posterior distribution of predicted model trajectories clarifies the tendency for various models to underfit or overfit the data. Coupling fitted differential equation systems with pSGLD sampling provides a powerful way to study the properties of optimization surfaces, raising an analogy with mutation-selection dynamics on fitness landscapes.
翻訳日:2022-04-19 17:08:36 公開日:2022-04-16
# ergo, smirk is safe: 歩行者自動緊急ブレーキシステムにおける機械学習コンポーネントの安全ケース

Ergo, SMIRK is Safe: A Safety Case for a Machine Learning Component in a Pedestrian Automatic Emergency Brake System ( http://arxiv.org/abs/2204.07874v1 )

ライセンス: Link先を確認
Markus Borg, Jens Henriksson, Kasper Socha, Olof Lennartsson, Elias Sonnsj\"o L\"onegren, Thanh Bui, Piotr Tomaszewski, Sankar Raman Sathyamoorthy, Sebastian Brink, Mahshid Helali Moghadam(参考訳) 重要なアプリケーションにおける機械学習(ML)コンポーネントの統合は、ソフトウェア認証と検証に新たな課題をもたらす。 新しい安全基準と技術ガイドラインは、例えば自動車分野におけるISO 21448 SOTIFや自律システム(AMLAS)フレームワークにおける機械学習の保証など、MLベースのシステムの安全性をサポートするために開発中である。 SOTIFとAMLASは高レベルなガイダンスを提供するが、詳細は特定のケースごとに精査する必要がある。 本稿では,MLをベースとした自動緊急ブレーキデモ機SMIRKの安全保証に関する産学連携の結果について報告する。 本稿では,SMIRK に AMLAS を適用した最小限の操作設計領域,すなわち ML ベースコンポーネントの完全安全ケースについて述べる。 最後に,学習した教訓を報告し,研究コミュニティが再利用するためのオープンソースライセンスの下で,smirkとsafety caseの両方を提供する。

Integration of Machine Learning (ML) components in critical applications introduces novel challenges for software certification and verification. New safety standards and technical guidelines are under development to support the safety of ML-based systems, e.g., ISO 21448 SOTIF for the automotive domain and the Assurance of Machine Learning for use in Autonomous Systems (AMLAS) framework. SOTIF and AMLAS provide high-level guidance but the details must be chiseled out for each specific case. We report results from an industry-academia collaboration on safety assurance of SMIRK, an ML-based pedestrian automatic emergency braking demonstrator running in an industry-grade simulator. We present the outcome of applying AMLAS on SMIRK for a minimalistic operational design domain, i.e., a complete safety case for its integrated ML-based component. Finally, we report lessons learned and provide both SMIRK and the safety case under an open-source licence for the research community to reuse.
翻訳日:2022-04-19 17:08:08 公開日:2022-04-16
# 会員推測に基づく個人別変分オートエンコーダの評価

Assessing Differentially Private Variational Autoencoders under Membership Inference ( http://arxiv.org/abs/2204.07877v1 )

ライセンス: Link先を確認
Daniel Bernau, Jonas Robl, Florian Kerschbaum(参考訳) 本稿では,差分プライベートな変分オートエンコーダのプライバシーと精度のトレードオフを定量化し比較する手法を提案する。 私たちの仕事は以前の仕事を2つの側面で補完する。 まず,差分プライバシー下での可変オートエンコーダに対する強力なリコンストラクションmi攻撃を評価する。 次に,プライバシパラメータepsilonの設定というデータサイエンティストの課題に対処する。 実験では,画像および時系列データ,および3つの局所的および中心的差分プライバシー機構について検討した。 プライバシと正確性のトレードオフは、データセットとモデルアーキテクチャに強く依存しています。 変分オートエンコーダのプライバシーと精度のトレードオフを良好に観察することはめったになく,LCPがCDPを上回った事例を特定する。

We present an approach to quantify and compare the privacy-accuracy trade-off for differentially private Variational Autoencoders. Our work complements previous work in two aspects. First, we evaluate the the strong reconstruction MI attack against Variational Autoencoders under differential privacy. Second, we address the data scientist's challenge of setting privacy parameter epsilon, which steers the differential privacy strength and thus also the privacy-accuracy trade-off. In our experimental study we consider image and time series data, and three local and central differential privacy mechanisms. We find that the privacy-accuracy trade-offs strongly depend on the dataset and model architecture. We do rarely observe favorable privacy-accuracy trade-off for Variational Autoencoders, and identify a case where LDP outperforms CDP.
翻訳日:2022-04-19 17:07:50 公開日:2022-04-16
# FKreg: 高速多変量カーネル回帰のためのMATLABツールボックス

FKreg: A MATLAB toolbox for fast Multivariate Kernel Regression ( http://arxiv.org/abs/2204.07716v1 )

ライセンス: Link先を確認
Ying Wang, Min Li, Deirel Paz-Linares, Maria L. Bringas Vega, Pedro A. Vald\'es-Sosa(参考訳) カーネルスムーズはデータ密度と回帰推定の最も基本的な手法である。 しかし、n$のサンプルに対してカーネルを直接スムースに評価するには${o}\left( {{n}^{2}} \right)$演算が必要である。 fftによるバイナリ化というアイデアを駆使して,高速スムースアルゴリズムを開発した。 残念ながら、精度は制御不可能であり、マルチ変数の実装と高速メソッドの帯域幅選択は利用できない。 したがって、高速多変量カーネルレグレッションのための新しいMATLABツールボックス(NUFFT)を導入し、${O}\left(N+M\log M \right)$複雑性と精度制御性を備えた$M$グリッドポイントのアルゴリズムを実装した。 帯域幅選択問題は、Fast Monte-Carloアルゴリズムを用いて自由度(DF)を推定し、データが複数の回帰のために同じグリッド空間を共有する場合、膨大なクロスバリデーション時間を節約する。 これまでのところ、これは高次元カーネル回帰を高速にバイナリ化するための最初のツールボックスである。 さらに, このツールボックスでは, 局所多項式回帰の推定, ヘテロシドスティックモデルの条件分散, 複素値データセットも実装されている。 その性能はシミュレーションと定量脳波の応用によって実証される。

Kernel smooth is the most fundamental technique for data density and regression estimation. However, time-consuming is the biggest obstacle for the application that the direct evaluation of kernel smooth for $N$ samples needs ${O}\left( {{N}^{2}} \right)$ operations. People have developed fast smooth algorithms using the idea of binning with FFT. Unfortunately, the accuracy is not controllable, and the implementation for multivariable and its bandwidth selection for the fast method is not available. Hence, we introduce a new MATLAB toolbox for fast multivariate kernel regression with the idea of non-uniform FFT (NUFFT), which implemented the algorithm for $M$ gridding points with ${O}\left( N+M\log M \right)$ complexity and accuracy controllability. The bandwidth selection problem utilizes the Fast Monte-Carlo algorithm to estimate the degree of freedom (DF), saving enormous cross-validation time even better when data share the same grid space for multiple regression. Up to now, this is the first toolbox for fast-binning high-dimensional kernel regression. Moreover, the estimation for local polynomial regression, the conditional variance for the heteroscedastic model, and the complex-valued datasets are also implemented in this toolbox. The performance is demonstrated with simulations and an application on the quantitive EEG.
翻訳日:2022-04-19 17:05:06 公開日:2022-04-16
# テンソルモデリングにおけるcannikinの法則:テンソルの複雑性とモデルの容量における絡み合いと分離性に関するランク研究

Cannikin's Law in Tensor Modeling: A Rank Study for Entanglement and Separability in Tensor Complexity and Model Capacity ( http://arxiv.org/abs/2204.07760v1 )

ライセンス: Link先を確認
Tong Yang(参考訳) 本研究は、一般テンソルモデルのモデリング能力を評価するための適切な基準を明らかにする。 この研究はテンソル階数の研究に基づいて問題を解析し、これは高次テンソルの明確な量ではない。 そこで筆者は, 分離可能性問題を取り上げ, カンニキンのテンソルモデリングの法則について論じる。 興味深いことに、情報理論とテンソル解析における絡み合いの関連が確立され、モデリング能力問題に対する理論的理解に新たな光を当てる。

This study clarifies the proper criteria to assess the modeling capacity of a general tensor model. The work analyze the problem based on the study of tensor ranks, which is not a well-defined quantity for higher order tensors. To process, the author introduces the separability issue to discuss the Cannikin's law of tensor modeling. Interestingly, a connection between entanglement studied in information theory and tensor analysis is established, shedding new light on the theoretical understanding for modeling capacity problems.
翻訳日:2022-04-19 17:04:39 公開日:2022-04-16
# ufrc:クラウドソーシングによるcovid-19検出のための統一フレームワーク

UFRC: A Unified Framework for Reliable COVID-19 Detection on Crowdsourced Cough Audio ( http://arxiv.org/abs/2204.07763v1 )

ライセンス: Link先を確認
Jiangeng Chang, Yucheng Ruan, Cui Shaoze, John Soong Tshon Yit, Mengling Feng(参考訳) 本研究では,データ拡張のコアコンポーネントであるimagenet-pretrained resnet-50,コストに敏感な損失,深層アンサンブル学習,不確実性推定を用いた統合システムを提案する。 マイノリティクラスを識別するモデルの能力を高めるために、データ拡張とコストに敏感な損失が組み込まれている(感染サンプル)。 COVID-19検出チャレンジでは、ImageNet-pretrained ResNet-50が有効であることが判明した。 統合フレームワークはまた、深層アンサンブル学習と不確実性推定を統合し、一般化と信頼性のための様々な基底分類器からの予測を統合する。 dicova2021チャレンジデータセットを用いて,提案手法の有効性評価を行った結果,auc-rocは85.43%であり,covid-19検出に有望な方法であることが判明した。 この統一フレームワークは、異なる呼吸器疾患を迅速に診断するためにオーディオが使用されることも示している。

We suggested a unified system with core components of data augmentation, ImageNet-pretrained ResNet-50, cost-sensitive loss, deep ensemble learning, and uncertainty estimation to quickly and consistently detect COVID-19 using acoustic evidence. To increase the model's capacity to identify a minority class, data augmentation and cost-sensitive loss are incorporated (infected samples). In the COVID-19 detection challenge, ImageNet-pretrained ResNet-50 has been found to be effective. The unified framework also integrates deep ensemble learning and uncertainty estimation to integrate predictions from various base classifiers for generalisation and reliability. We ran a series of tests using the DiCOVA2021 challenge dataset to assess the efficacy of our proposed method, and the results show that our method has an AUC-ROC of 85.43 percent, making it a promising method for COVID-19 detection. The unified framework also demonstrates that audio may be used to quickly diagnose different respiratory disorders.
翻訳日:2022-04-19 17:04:27 公開日:2022-04-16
# 逆学習による複数の脳波データ領域のエクスプロイト

Exploiting Multiple EEG Data Domains with Adversarial Learning ( http://arxiv.org/abs/2204.07777v1 )

ライセンス: Link先を確認
David Bethge, Philipp Hallgarten, Ozan \"Ozdenizci, Ralf Mikut, Albrecht Schmidt, Tobias Grosse-Puppendahl(参考訳) 脳波検査(EEG)は、被験者の精神状態を評価する上で貴重なデータ源であることが示されている。 しかし、マルチモーダル脳波信号の解釈は、信号対雑音比の低さに悩まされ、非常に主観的に依存し、使用する機器や実験装置(ドメイン)に縛られるため、困難である。 これにより、機械学習モデルは、しばしば一般化能力の低下に悩まされ、悪用されたトレーニングデータよりも現実世界のデータで大幅にパフォーマンスが低下する。 最近の研究は、脳波信号の領域校正作業を減らすために、クロスサブジェクトおよびクロスセッション転送学習フレームワークに重点を置いている。 私たちは、複数のデータソースからドメイン不変表現を学習するマルチソース学習は、さまざまなeegデータソースドメイン(例えば、主題、セッション、実験的なセットアップ)からの利用可能なデータが大きく成長するため、有効な代替手段であると主張する。 この文脈でデータソース不変表現を学習するための逆推論手法を提案し,脳波を用いた脳-コンピュータインタフェースのマルチソース学習を可能にする。 我々は、異なるソースドメイン(SEED、SEED-IV、DEAP、DREAMER)からの脳波記録を統一し、安定した脳波に基づく感情分類性能を保ちながら、データソース関連情報漏洩を35%抑制する不変表現学習アプローチの有効性を実証する。

Electroencephalography (EEG) is shown to be a valuable data source for evaluating subjects' mental states. However, the interpretation of multi-modal EEG signals is challenging, as they suffer from poor signal-to-noise-ratio, are highly subject-dependent, and are bound to the equipment and experimental setup used, (i.e. domain). This leads to machine learning models often suffer from poor generalization ability, where they perform significantly worse on real-world data than on the exploited training data. Recent research heavily focuses on cross-subject and cross-session transfer learning frameworks to reduce domain calibration efforts for EEG signals. We argue that multi-source learning via learning domain-invariant representations from multiple data-sources is a viable alternative, as the available data from different EEG data-source domains (e.g., subjects, sessions, experimental setups) grow massively. We propose an adversarial inference approach to learn data-source invariant representations in this context, enabling multi-source learning for EEG-based brain-computer interfaces. We unify EEG recordings from different source domains (i.e., emotion recognition datasets SEED, SEED-IV, DEAP, DREAMER), and demonstrate the feasibility of our invariant representation learning approach in suppressing data-source-relevant information leakage by 35% while still achieving stable EEG-based emotion classification performance.
翻訳日:2022-04-19 17:04:09 公開日:2022-04-16
# iifnet:6gのノイズプレアンブル検出のためのfusionベースのインテリジェントサービス

IIFNet: A Fusion based Intelligent Service for Noisy Preamble Detection in 6G ( http://arxiv.org/abs/2204.07854v1 )

ライセンス: Link先を確認
Sunder Ali Khowaja, Kapal Dev, Parus Khuwaja, Quoc-Viet Pham, Nawab Muhammad Faseeh Qureshi, Paolo Bellavista, Maurizio Magarini(参考訳) 本稿では,機械学習技術を用いた次世代(Next-G)ネットワークのための物理ランダムアクセスチャネルにおいて,プリアンブル検出のビジョンを示す。 プリアンブル検出は、Internet of Everything(IoE)と次世代ノードのデバイス間の通信と同期を維持するために実行される。 スケーラビリティとトラフィック密度を考慮すると、Next-Gネットワークはチャネル特性や環境制約によるノイズによるプリアンブルに対処しなければならない。 15%のランダムノイズを注入すると,検出性能は48%に低下することがわかった。 ランダムノイズに対処し,同時に検出性能を向上させるために,情報型インスタンスベース融合ネットワーク(IIFNet)を提案する。 特徴空間から情報的インスタンスを選択するための新しいサンプリング戦略も検討され,検出性能が向上した。 提案したIIFNetは、信頼できる企業(AZCOM Technology)の助けを借りて収集されたプリアンブル検出のための実際のデータセットでテストされている。

In this article, we present our vision of preamble detection in a physical random access channel for next-generation (Next-G) networks using machine learning techniques. Preamble detection is performed to maintain communication and synchronization between devices of the Internet of Everything (IoE) and next-generation nodes. Considering the scalability and traffic density, Next-G networks have to deal with preambles corrupted by noise due to channel characteristics or environmental constraints. We show that when injecting 15% random noise, the detection performance degrades to 48%. We propose an informative instance-based fusion network (IIFNet) to cope with random noise and to improve detection performance, simultaneously. A novel sampling strategy for selecting informative instances from feature spaces has also been explored to improve detection performance. The proposed IIFNet is tested on a real dataset for preamble detection that was collected with the help of a reputable company (AZCOM Technology).
翻訳日:2022-04-19 17:03:40 公開日:2022-04-16
# 高次多項式近似のためのテンソルネット:多体物理の視点から

Tensor-networks for High-order Polynomial Approximation: A Many-body Physics Perspective ( http://arxiv.org/abs/2204.07743v1 )

ライセンス: Link先を確認
Tong Yang(参考訳) 多体物理学的な観点から高次多項式近似の問題を解析し、モデル容量とタスク複雑性の把握における絡み合いエントロピーの記述力を示す。 高次非線形ダイナミクスモデリング問題によってインスタンス化され、テンソルネットワークモデルが研究され、有望なモデリングの利点を示す。 この新しい視点は、量子情報と機能近似の関連性を確立し、将来の研究でさらなる研究に価値がある。

We analyze the problem of high-order polynomial approximation from a many-body physics perspective, and demonstrate the descriptive power of entanglement entropy in capturing model capacity and task complexity. Instantiated with a high-order nonlinear dynamics modeling problem, tensor-network models are investigated and exhibit promising modeling advantages. This novel perspective establish a connection between quantum information and functional approximation, which worth further exploration in future research.
翻訳日:2022-04-19 17:01:14 公開日:2022-04-16
# 等方性ネットワークを用いたプライバシー保護画像分類

Privacy-Preserving Image Classification Using Isotropic Network ( http://arxiv.org/abs/2204.07707v1 )

ライセンス: Link先を確認
AprilPyone MaungMaung and Hitoshi Kiya(参考訳) 本稿では,暗号化画像と視覚トランスフォーマなどの等方性ネットワークを用いたプライバシー保全型画像分類手法を提案する。 提案手法により,深層ニューラルネットワーク(dnn)に視覚情報のない画像を適用するだけでなく,高い分類精度を維持することが可能となった。 さらに、暗号化列圧縮(EtC)画像と呼ばれる圧縮可能な暗号化画像は、適応ネットワークを使わずにトレーニングとテストの両方に使用できる。 従来,etc画像の分類には,分類ネットワークに先立って適応ネットワークが必要であったため,適応ネットワークを用いた手法は小画像でのみテストされてきた。 我々の知る限り、従来のプライバシ保存画像分類法は画像圧縮性やパッチ埋め込みによる等方性ネットワークを考慮していない。 実験では,視覚トランスフォーマーとconvmixerという2つの等方性ネットワークを用いて,様々な攻撃に対する分類精度と頑健性の観点から,etc画像を用いた場合においても,プライバシ保存画像分類が最先端手法よりも優れることを示した。

In this paper, we propose a privacy-preserving image classification method that uses encrypted images and an isotropic network such as the vision transformer. The proposed method allows us not only to apply images without visual information to deep neural networks (DNNs) for both training and testing but also to maintain a high classification accuracy. In addition, compressible encrypted images, called encryption-then-compression (EtC) images, can be used for both training and testing without any adaptation network. Previously, to classify EtC images, an adaptation network was required before a classification network, so methods with an adaptation network have been only tested on small images. To the best of our knowledge, previous privacy-preserving image classification methods have never considered image compressibility and patch embedding-based isotropic networks. In an experiment, the proposed privacy-preserving image classification was demonstrated to outperform state-of-the-art methods even when EtC images were used in terms of classification accuracy and robustness against various attacks under the use of two isotropic networks: vision transformer and ConvMixer.
翻訳日:2022-04-19 16:40:40 公開日:2022-04-16
# ハンドジオメトリによる人体の生体認証

Biometric verification of humans by means of hand geometry ( http://arxiv.org/abs/2204.07764v1 )

ライセンス: Link先を確認
Marcos Faundez-Zanuy(参考訳) 本稿では,手指形状生体認証システムについて述べる。 従来の文書スキャナーを用いて,1人当たり22人10件のデータベースを取得した。 特徴抽出と分類器を提案する。 実験の結果, 最大同定率は93.64%であり, 検出コスト関数の最小値はマルチ層パーセプトロン分類器を用いて2.92%であった。

This paper describes a hand geometry biometric identification system. We have acquired a database of 22 people, 10 acquisitions per person, using a conventional document scanner. We propose a feature extraction and classifier. The experimental results reveal a maximum identification rate equal to 93.64%, and a minimum value of the detection cost function equal to 2.92% using a multi layer perceptron classifier.
翻訳日:2022-04-19 16:40:24 公開日:2022-04-16
# 逆性能検証器を用いたマルチオルガンセグメンテーションネットワーク

Multi-organ Segmentation Network with Adversarial Performance Validator ( http://arxiv.org/abs/2204.07850v1 )

ライセンス: Link先を確認
Haoyu Fang, Yi Fang, Xiaofeng Yang(参考訳) ctct画像上のct臓器分割は、現代の医療画像解析において重要なレンガとなり、複数の領域におけるクリニックワークフローをサポートする。 従来のセグメンテーション手法には、2D畳み込みニューラルネットワーク(CNN)ベースのアプローチがあり、軸方向ビューにおける構造的知識を欠いたCT画像スライスと、マルチ組織セグメンテーションアプリケーションにおいて高価な計算コストを持つ3D CNNベースの手法がある。 本稿では,2次元から3次元のセグメンテーションフレームワークに逆性能検証ネットワークを導入する。 分類器と性能検証器の競合は、バックプロパゲーションによる正確なセグメンテーション結果に寄与する。 提案するネットワークは,2d-coarse結果から3d高品位セグメンテーションマスクへの粗い変換を行い,協調最適化によりセグメンテーション精度が向上する。 さらに、ある特定の臓器の構造情報を統計学的に有意な事前境界ボックスで表現し、3次元微細セグメント化における学習プロセスを活用するグローバルな特徴に変換する。 NIH膵分節データセットの実験は、提案したネットワークが小臓器分節における最先端の精度を達成し、過去の最高性能を上回ることを実証している。 自分自身が収集したデータセットの多臓器セグメンテーションにおいても高い精度が報告されている。

CT organ segmentation on computed tomography (CT) images becomes a significant brick for modern medical image analysis, supporting clinic workflows in multiple domains. Previous segmentation methods include 2D convolution neural networks (CNN) based approaches, fed by CT image slices that lack the structural knowledge in axial view, and 3D CNN-based methods with the expensive computation cost in multi-organ segmentation applications. This paper introduces an adversarial performance validation network into a 2D-to-3D segmentation framework. The classifier and performance validator competition contribute to accurate segmentation results via back-propagation. The proposed network organically converts the 2D-coarse result to 3D high-quality segmentation masks in a coarse-to-fine manner, allowing joint optimization to improve segmentation accuracy. Besides, the structural information of one specific organ is depicted by a statistics-meaningful prior bounding box, which is transformed into a global feature leveraging the learning process in 3D fine segmentation. The experiments on the NIH pancreas segmentation dataset demonstrate the proposed network achieves state-of-the-art accuracy on small organ segmentation and outperforms the previous best. High accuracy is also reported on multi-organ segmentation in a dataset collected by ourselves.
翻訳日:2022-04-19 16:40:17 公開日:2022-04-16
# 深部画像超解像のためのGHMウェーブレット変換

GHM Wavelet Transform for Deep Image Super Resolution ( http://arxiv.org/abs/2204.07862v1 )

ライセンス: Link先を確認
Ben Lowe, Hadi Salman, Justin Zhan(参考訳) GHM多重レベル離散ウェーブレット変換は畳み込みニューラルネットワークを用いた画像超解像の前処理として提案される。 以前の作品はハールウェーブレットのみを用いて分析を行う。 本研究では,37種類の単一レベルウェーブレットを,haar, daubechies, biorthogonal, reverse biorthogonal, coiflets, symlets wavelet familyから実験的に解析した。 すべての単一レベルウェーブレットは、畳み込みニューラルネットワークが単一レベルフィルタアプローチにおいてウェーブレットの選択に不変であることを示す同様の結果を示す。 しかし、GHMマルチレベルウェーブレットはシングルレベルウェーブレットよりも高品質なリコンストラクションを実現する。 実験にはdiv2k、テクスチャのデータセット、衛星画像のデータセットという3つの大きなデータセットが使用されている。 近似高解像度画像は、7つの客観的誤差測定を用いて比較する。 ウェーブレット変換画像を用いた畳み込みニューラルネットワークによるアプローチは、文献によい結果をもたらす。

The GHM multi-level discrete wavelet transform is proposed as preprocessing for image super resolution with convolutional neural networks. Previous works perform analysis with the Haar wavelet only. In this work, 37 single-level wavelets are experimentally analyzed from Haar, Daubechies, Biorthogonal, Reverse Biorthogonal, Coiflets, and Symlets wavelet families. All single-level wavelets report similar results indicating that the convolutional neural network is invariant to choice of wavelet in a single-level filter approach. However, the GHM multi-level wavelet achieves higher quality reconstructions than the single-level wavelets. Three large data sets are used for the experiments: DIV2K, a dataset of textures, and a dataset of satellite images. The approximate high resolution images are compared using seven objective error measurements. A convolutional neural network based approach using wavelet transformed images has good results in the literature.
翻訳日:2022-04-19 16:39:53 公開日:2022-04-16
# WiFiを用いた自由移動活動のための3次元人物位置推定

3D Human Pose Estimation for Free-from and Moving Activities Using WiFi ( http://arxiv.org/abs/2204.07878v1 )

ライセンス: Link先を確認
Yili Ren and Jie Yang(参考訳) 本稿では,家庭におけるWiFiデバイスを用いた3Dスケルトンを用いた人体ポーズ推定システムであるGoPoseについて述べる。 本システムは人体から反射するWiFi信号を利用して3次元ポーズ推定を行う。 特殊なハードウェアや専用センサーを必要とする従来のシステムとは対照的に、センサを装着したり携帯したりする必要はなく、家庭環境にすでに存在するWiFiデバイスを大量採用するために再利用することができる。 このようなシステムを実現するために,人体から反射される信号の2次元AoAスペクトルと深層学習技術を利用する。 特に、2次元aoaスペクトルは、人体の異なる部分の特定と、環境に依存しないポーズ推定を可能にするために提案されている。 深層学習は、ポーズ追跡のために2d aoaスペクトルと人体の3d骨格の間の複雑な関係をモデル化するために組み込まれている。 評価の結果、GoPoseは、見えないアクティビティやNLoSシナリオの追跡など、さまざまなシナリオで約4.7cmの精度を達成した。

This paper presents GoPose, a 3D skeleton-based human pose estimation system that uses WiFi devices at home. Our system leverages the WiFi signals reflected off the human body for 3D pose estimation. In contrast to prior systems that need specialized hardware or dedicated sensors, our system does not require a user to wear or carry any sensors and can reuse the WiFi devices that already exist in a home environment for mass adoption. To realize such a system, we leverage the 2D AoA spectrum of the signals reflected from the human body and the deep learning techniques. In particular, the 2D AoA spectrum is proposed to locate different parts of the human body as well as to enable environment-independent pose estimation. Deep learning is incorporated to model the complex relationship between the 2D AoA spectrums and the 3D skeletons of the human body for pose tracking. Our evaluation results show GoPose achieves around 4.7cm of accuracy under various scenarios including tracking unseen activities and under NLoS scenarios.
翻訳日:2022-04-19 16:37:42 公開日:2022-04-16
# ネットワークトラフィック分析に基づく階層型端末認識手法

A Hierarchical Terminal Recognition Approach based on Network Traffic Analysis ( http://arxiv.org/abs/2204.07726v1 )

ライセンス: Link先を確認
Lingzi Kong, Daoqi Han, Junmei Ding, Mingrui Fan and Yueming Lu(参考訳) ネットワークに接続されたデバイスの種類を認識することは、セキュリティポリシーの実行に役立つ。 スマートグリッドでは,ネットワークトラフィック分析に基づく大量のグリッド計測端末の同定はほとんど空白であり,既存の研究では,フロー分類問題を解決するためのエンド・ツー・エンド・モデルを提案していない。 そこで我々は,グリッドデータの詳細を適用する階層型端末認識手法を提案する。 ネットワークトラフィックの統計特性とグリッド計測端末の具体的な挙動特性を用いて,グリッドデータをセグメント化して2段階のモデル構造を構築した。 さらに,特徴の選択と再構築により,ネットワークトラフィックを伝達する端末タイプを正確に識別する3つのアルゴリズムを組み合わせる。 本研究では,3種類のグリッド計測端末を含む実データ集合について広範な実験を行い,一般的な認識モデルと比較して性能が向上したことを示す。 オートエンコーダとk-meansとgradientboostアルゴリズムの組み合わせは、f1値98.3%の最高の認識率を達成した。

Recognizing the type of connected devices to a network helps to perform security policies. In smart grids, identifying massive number of grid metering terminals based on network traffic analysis is almost blank and existing research has not proposed a targeted end-to-end model to solve the flow classification problem. Therefore, we proposed a hierarchical terminal recognition approach that applies the details of grid data. We have formed a two-level model structure by segmenting the grid data, which uses the statistical characteristics of network traffic and the specific behavior characteristics of grid metering terminals. Moreover, through the selection and reconstruction of features, we combine three algorithms to achieve accurate identification of terminal types that transmit network traffic. We conduct extensive experiments on a real dataset containing three types of grid metering terminals, and the results show that our research has improved performance compared to common recognition models. The combination of an autoencoder, K-Means and GradientBoost algorithm achieved the best recognition rate with F1 value of 98.3%.
翻訳日:2022-04-19 16:33:35 公開日:2022-04-16
# 均一暗号化とフェデレート学習に基づくプライバシ保護CNNトレーニング:COVID-19検出ユースケース

Homomorphic Encryption and Federated Learning based Privacy-Preserving CNN Training: COVID-19 Detection Use-Case ( http://arxiv.org/abs/2204.07752v1 )

ライセンス: Link先を確認
Febrianti Wibawa and Ferhat Ozgur Catak and Salih Sarp and Murat Kuzlu and Umit Cali(参考訳) 医療データは、データプライバシやセキュリティ上の問題に関して非常に敏感であることが多い。 機械学習技術の1つである連合学習(federated learning)は、医療データのプライバシとセキュリティの改善に利用され始めている。 連合学習では、トレーニングデータを複数のマシンに分散し、協調的に学習プロセスを実行する。 攻撃者による機密情報を取得するために、ディープラーニング(DL)モデルに対するいくつかのプライバシ攻撃がある。 したがって、DLモデルは、特に医療データを用いたアプリケーションにおいて、敵攻撃から保護されるべきである。 この問題の解の1つは、準同型暗号に基づくモデル保護である。 本稿では、同相暗号を用いた医療データのためのプライバシー保護フェデレーション学習アルゴリズムを提案する。 提案アルゴリズムはセキュアなマルチパーティ計算プロトコルを用いて,ディープラーニングモデルを敵から保護する。 本研究では,実世界の医療データを用いた提案アルゴリズムをモデル性能の観点から評価した。

Medical data is often highly sensitive in terms of data privacy and security concerns. Federated learning, one type of machine learning techniques, has been started to use for the improvement of the privacy and security of medical data. In the federated learning, the training data is distributed across multiple machines, and the learning process is performed in a collaborative manner. There are several privacy attacks on deep learning (DL) models to get the sensitive information by attackers. Therefore, the DL model itself should be protected from the adversarial attack, especially for applications using medical data. One of the solutions for this problem is homomorphic encryption-based model protection from the adversary collaborator. This paper proposes a privacy-preserving federated learning algorithm for medical data using homomorphic encryption. The proposed algorithm uses a secure multi-party computation protocol to protect the deep learning model from the adversaries. In this study, the proposed algorithm using a real-world medical dataset is evaluated in terms of the model performance.
翻訳日:2022-04-19 16:33:20 公開日:2022-04-16
# スケーラブルなフェデレーション学習システムのための分散および弾性アグリゲーションサービス

A Distributed and Elastic Aggregation Service for Scalable Federated Learning Systems ( http://arxiv.org/abs/2204.07767v1 )

ライセンス: Link先を確認
Ahmad Khan, Yuze Li, Ali Anwar, Yue Cheng, Thang Hoang, Nathalie Baracaldo and Ali Butt(参考訳) Federated Learningは、データに計算を導入して機械学習の課題を解決するための新しいアプローチを約束した。 このアプローチの人気は、アルゴリズム的な側面の急速な進歩と、フェデレート学習をシミュレートできるシステムの出現につながった。 state of art systems in federated learningは,大規模なデバイスコーパスのトレーニングや大規模モデルのトレーニングに不十分な,単一のノードアグリゲータをサポートする。 モデルサイズやデバイス数が増えると、単一のノードアグリゲータはメモリと計算負荷を発生させ、融合タスクを実行する。 多数のモデル更新が単一ノードに送信される場合、通信のボトルネックにも直面する。 我々は,アグリゲータのワークロードをカテゴリに分類し,各負荷を処理するための新しいアグリゲータサービスを提案する。 私たちのアグリゲーションサービスは、モデル更新サイズとクライアント数に応じて最適なソリューションを選択する包括的なアプローチに基づいています。 既存の並列分散フレームワークを活用したフォールトトレラントでロバストで効率的な集約ソリューションを提供する。 評価を通じて,最先端のアプローチの欠点と,単一ソリューションがすべての集約要件にどのように適合しないかを示す。 広範な実験を通じて、現在のフレームワークとシステムの比較も行っています。

Federated Learning has promised a new approach to resolve the challenges in machine learning by bringing computation to the data. The popularity of the approach has led to rapid progress in the algorithmic aspects and the emergence of systems capable of simulating Federated Learning. State of art systems in Federated Learning support a single node aggregator that is insufficient to train a large corpus of devices or train larger-sized models. As the model size or the number of devices increase the single node aggregator incurs memory and computation burden while performing fusion tasks. It also faces communication bottlenecks when a large number of model updates are sent to a single node. We classify the workload for the aggregator into categories and propose a new aggregation service for handling each load. Our aggregation service is based on a holistic approach that chooses the best solution depending on the model update size and the number of clients. Our system provides a fault-tolerant, robust and efficient aggregation solution utilizing existing parallel and distributed frameworks. Through evaluation, we show the shortcomings of the state of art approaches and how a single solution is not suitable for all aggregation requirements. We also provide a comparison of current frameworks with our system through extensive experiments.
翻訳日:2022-04-19 16:33:08 公開日:2022-04-16
# SETTI: IoT環境における自己管理型対向マルウェア検出アーキテクチャ

SETTI: A Self-supervised Adversarial Malware Detection Architecture in an IoT Environment ( http://arxiv.org/abs/2204.07772v1 )

ライセンス: Link先を確認
Marjan Golmaryami, Rahim Taheri, Zahra Pooranian, Mohammad Shojafar, Pei Xiao(参考訳) 近年,IoT(Internet of Things)セキュリティ分野において,マルウェア検出が活発に研究されている。 原則は、連続的に生成される大量のマルウェアから知識を活用することである。 既存のアルゴリズムはIoTデバイスで利用可能なマルウェア機能を実践しており、リアルタイムの予測動作がない。 したがって、入力されたIoTデータのリアルタイムな誤分類に対処するためには、マルウェア検出に関するさらなる研究が必要である。 そこで本稿では,ラベル付けされていないIoTネットワークトラフィックのサンプルを考慮し,IoTネットワーク,SETTIにおけるマルウェアを検出するための,逆向きの自己管理アーキテクチャを提案する。 SETTIアーキテクチャでは,Self-MDS,GSelf-MDS,ASelf-MDSの3つの自己監視攻撃手法を設計する。 Self-MDS法は,IoT入力データと逆サンプル生成をリアルタイムに検討する。 gself-mdsは、自己教師構造において逆サンプルを生成するための生成的逆ネットワークモデルを構築する。 最後に、ASelf-MDSは3つの有名な摂動サンプル技術を用いて、敵のマルウェアを開発し、自己管理アーキテクチャ上で注入する。 また,これらの攻撃を緩和するための防御手法,すなわち,悪意のあるサンプルの注入からマルウェア検出アーキテクチャを保護するために,敵の自己監視トレーニングを適用する。 攻撃と防御のアルゴリズムを検証するために、最近の2つのIoTデータセット、IoT23とNBIoTの実験を行います。 結果を比較すると、IoT23データセットでは、Self-MDSメソッドは攻撃者の視点で最も有害な結果をもたらし、精度を98%から74%に下げている。 NBIoTデータセットでは、ASelf-MDS法が最も破壊的なアルゴリズムであり、精度を98%から77%に下げることができる。

In recent years, malware detection has become an active research topic in the area of Internet of Things (IoT) security. The principle is to exploit knowledge from large quantities of continuously generated malware. Existing algorithms practice available malware features for IoT devices and lack real-time prediction behaviors. More research is thus required on malware detection to cope with real-time misclassification of the input IoT data. Motivated by this, in this paper we propose an adversarial self-supervised architecture for detecting malware in IoT networks, SETTI, considering samples of IoT network traffic that may not be labeled. In the SETTI architecture, we design three self-supervised attack techniques, namely Self-MDS, GSelf-MDS and ASelf-MDS. The Self-MDS method considers the IoT input data and the adversarial sample generation in real-time. The GSelf-MDS builds a generative adversarial network model to generate adversarial samples in the self-supervised structure. Finally, ASelf-MDS utilizes three well-known perturbation sample techniques to develop adversarial malware and inject it over the self-supervised architecture. Also, we apply a defence method to mitigate these attacks, namely adversarial self-supervised training to protect the malware detection architecture against injecting the malicious samples. To validate the attack and defence algorithms, we conduct experiments on two recent IoT datasets: IoT23 and NBIoT. Comparison of the results shows that in the IoT23 dataset, the Self-MDS method has the most damaging consequences from the attacker's point of view by reducing the accuracy rate from 98% to 74%. In the NBIoT dataset, the ASelf-MDS method is the most devastating algorithm that can plunge the accuracy rate from 98% to 77%.
翻訳日:2022-04-19 16:32:41 公開日:2022-04-16
# エンティティ集合展開のためのハードネガティブなエンティティを用いたコントラスト学習

Contrastive Learning with Hard Negative Entities for Entity Set Expansion ( http://arxiv.org/abs/2204.07789v1 )

ライセンス: Link先を確認
Yinghui Li, Yangning Li, Yuxin He, Tianyu Yu, Ying Shen, Hai-Tao Zheng(参考訳) Entity Set Expansion(ESE)は、小さなシードエンティティセットによって記述されたターゲットセマンティッククラスのエンティティを拡張することを目的とした有望なタスクである。 様々なNLPおよびIRアプリケーションは、知識を発見する能力により、ESEの恩恵を受けるだろう。 従来の ESE メソッドは大きな進歩を遂げているが、それらの多くは、分析した異なる粒度レベルに基づいて、2つのエンティティが同じセマンティッククラスに属している可能性があるため、ハードネガティブなエンティティ(すなわち、ターゲットエンティティと区別が難しいエンティティ)を扱う能力が欠けている。 この課題に対処するために、コントラスト学習を用いたエンティティレベルのマスキング言語モデルを作成し、エンティティの表現を洗練させる。 さらに、上記の言語モデルによって得られたエンティティ表現を利用してエンティティを拡張する新しい確率的ESEフレームワークProbExpanを提案する。 3つのデータセットに関する広範囲な実験と詳細な分析により,本手法が従来の最先端手法よりも優れていることが示された。 この論文のソースコードはhttps://github.com/geekjuruo/ProbExpan.comで公開されている。

Entity Set Expansion (ESE) is a promising task which aims to expand entities of the target semantic class described by a small seed entity set. Various NLP and IR applications will benefit from ESE due to its ability to discover knowledge. Although previous ESE methods have achieved great progress, most of them still lack the ability to handle hard negative entities (i.e., entities that are difficult to distinguish from the target entities), since two entities may or may not belong to the same semantic class based on different granularity levels we analyze on. To address this challenge, we devise an entity-level masked language model with contrastive learning to refine the representation of entities. In addition, we propose the ProbExpan, a novel probabilistic ESE framework utilizing the entity representation obtained by the aforementioned language model to expand entities. Extensive experiments and detailed analyses on three datasets show that our method outperforms previous state-of-the-art methods. The source codes of this paper are available at https://github.com/geekjuruo/ProbExpan.
翻訳日:2022-04-19 15:57:37 公開日:2022-04-16
# 深層強化学習におけるスケーラブルな観測モデルを用いた効率よいベイズ政策再利用

Efficient Bayesian Policy Reuse with a Scalable Observation Model in Deep Reinforcement Learning ( http://arxiv.org/abs/2204.07729v1 )

ライセンス: Link先を確認
Donghan Xie, Zhi Wang, Chunlin Chen, Daoyi Dong(参考訳) ベイジアンポリシー再利用(bpr)は、いくつかの観測信号と訓練された観測モデルに基づいてタスク信念を推論することにより、オフラインライブラリからソースポリシーを選択するための一般的なポリシー転送フレームワークである。 本稿では,深部強化学習(DRL)におけるより効率的な政策伝達を実現するための改良されたBPR手法を提案する。 第一に、ほとんどのBPRアルゴリズムは、限られた情報を含む観察信号として、エピソードの終わりまで取得できないエピソードリターンを使用する。 代わりに、より高速で正確なタスク推論のための観測信号として、情報的かつ瞬時的な状態遷移サンプルを用いる。 第二に、BPRアルゴリズムは、特に状態遷移サンプルを信号として使用する場合、高コストで、学習や維持が不可能なグラフベースの観測モデルの確率分布を推定するために、多くのサンプルを必要とする。 そこで本研究では,対象タスクで観測される信号に一般化可能な,少数のサンプルのみからのソースタスクの状態遷移関数を適合させたスケーラブルな観測モデルを提案する。 さらに,スケーラブルな観察モデルをプラグ・アンド・プレイ方式で拡張することで,新たな未知のタスクに直面する場合の負の転送を回避し,オフラインモードbprを連続学習環境に拡張する。 実験の結果,提案手法はより高速かつ効率的な政策伝達を継続的に促進できることが判明した。

Bayesian policy reuse (BPR) is a general policy transfer framework for selecting a source policy from an offline library by inferring the task belief based on some observation signals and a trained observation model. In this paper, we propose an improved BPR method to achieve more efficient policy transfer in deep reinforcement learning (DRL). First, most BPR algorithms use the episodic return as the observation signal that contains limited information and cannot be obtained until the end of an episode. Instead, we employ the state transition sample, which is informative and instantaneous, as the observation signal for faster and more accurate task inference. Second, BPR algorithms usually require numerous samples to estimate the probability distribution of the tabular-based observation model, which may be expensive and even infeasible to learn and maintain, especially when using the state transition sample as the signal. Hence, we propose a scalable observation model based on fitting state transition functions of source tasks from only a small number of samples, which can generalize to any signals observed in the target task. Moreover, we extend the offline-mode BPR to the continual learning setting by expanding the scalable observation model in a plug-and-play fashion, which can avoid negative transfer when faced with new unknown tasks. Experimental results show that our method can consistently facilitate faster and more efficient policy transfer.
翻訳日:2022-04-19 15:55:24 公開日:2022-04-16
# FedCau: コミュニケーションと計算の効果的なフェデレーション学習のための積極的なストップポリシー

FedCau: A Proactive Stop Policy for Communication and Computation Efficient Federated Learning ( http://arxiv.org/abs/2204.07773v1 )

ライセンス: Link先を確認
Afsaneh Mahmoudi, Hossein S. Ghadikolaei, Jos\'e Mairton Barros Da Silva J\'unior and Carlo Fischione(参考訳) 本稿では,無線デバイスの無線ネットワーク上でのフェデレーション学習(fl)モデルの効率的な分散トレーニングについて検討する。 分散トレーニングアルゴリズムの通信イテレーションは、デバイスのバックグラウンドトラフィック、パケット損失、混雑、あるいは遅延の影響により、大幅に劣化またはブロックされる可能性がある。 通信計算の影響を「文末コスト」として抽象化し、コスト認識因果的flアルゴリズム(fedcau)を提案する。 トレーニング性能とネットワークコストをトレードオフする反復終了法を提案する。 本稿では、クライアントがスロット付きALOHA、衝突回避によるキャリアセンス多重アクセス(CSMA/CA)、直交周波数分割多重アクセス(OFDMA)プロトコルを使用する場合に適用する。 総コスト予算を考えると,バックグラウンド通信トラフィックやトレーニング問題の次元が増加すると,トレーニング性能が低下することが示された。 本研究は,必要な通信計算コストを回避するために最適なコスト効率の停止基準を積極的に設計することの重要性を実証する。 MNISTデータセット上でFLのトレーニングと試験を行い,本手法の有効性を検証した。 最後に,本手法を既存の通信効率のよいfl手法に適用し,さらに効率性を高める。 無線ネットワーク上での実用FLの成功には,コスト効率のよい停止基準が不可欠である。

This paper investigates efficient distributed training of a Federated Learning~(FL) model over a wireless network of wireless devices. The communication iterations of the distributed training algorithm may be substantially deteriorated or even blocked by the effects of the devices' background traffic, packet losses, congestion, or latency. We abstract the communication-computation impacts as an `iteration cost' and propose a cost-aware causal FL algorithm~(FedCau) to tackle this problem. We propose an iteration-termination method that trade-offs the training performance and networking costs. We apply our approach when clients use the slotted-ALOHA, the carrier-sense multiple access with collision avoidance~(CSMA/CA), and the orthogonal frequency-division multiple access~(OFDMA) protocols. We show that, given a total cost budget, the training performance degrades as either the background communication traffic or the dimension of the training problem increases. Our results demonstrate the importance of proactively designing optimal cost-efficient stopping criteria to avoid unnecessary communication-computation costs to achieve only a marginal FL training improvement. We validate our method by training and testing FL over the MNIST dataset. Finally, we apply our approach to existing communication efficient FL methods from the literature, achieving further efficiency. We conclude that cost-efficient stopping criteria are essential for the success of practical FL over wireless networks.
翻訳日:2022-04-19 15:54:58 公開日:2022-04-16
# 高次元およびスパースデータ解析のためのマルチメトリック潜在因子モデル

A Multi-Metric Latent Factor Model for Analyzing High-Dimensional and Sparse data ( http://arxiv.org/abs/2204.07819v1 )

ライセンス: Link先を確認
Di Wu, Peng Zhang, Yi He, Xin Luo(参考訳) 高次元およびスパース(HiDS)行列は、様々なビッグデータ関連アプリケーションにおいて一様である。 潜在因子分析(LFA)は、低ランク近似を用いて、HiDS行列から有用な潜在知識を抽出する典型的な表現学習法である。 現在のlfaベースのモデルは、近似損失関数のために設計された表現戦略が固定かつ排他的であるシングルメトリック表現に主に焦点をあてている。 しかし、実世界のHiDS行列は一般に不均一で包摂的であり、単一のメートル法表現が劣った性能をもたらす可能性が最も高いような様々な基礎パターンを持つ。 そこで本研究では,多値潜在因子(MMLF)モデルを提案する。 主な考え方は2つある。 1) 2つのベクトル空間と3つのLp-ノルムは同時にLFAモデルの6つの変種を開発し、それぞれが一意な距離表現空間に存在する。 2)全ての変種は、調整された自己適応的な重み付け戦略でアンサンブルされている。 このように、提案したMMLFは、異なる距離空間の集合から一斉に派生したメリットを享受し、HiDS行列の包括的かつ偏りのない表現を実現する。 理論的研究はMMLFが性能向上を達成することを保証している。 8つの実世界のHiDSデータセットの大規模な実験は、幅広い産業領域と科学領域にまたがって行われ、我々のMMLFが最先端の浅く深い10のデータセットより著しく優れていることを検証した。

High-dimensional and sparse (HiDS) matrices are omnipresent in a variety of big data-related applications. Latent factor analysis (LFA) is a typical representation learning method that extracts useful yet latent knowledge from HiDS matrices via low-rank approximation. Current LFA-based models mainly focus on a single-metric representation, where the representation strategy designed for the approximation Loss function, is fixed and exclusive. However, real-world HiDS matrices are commonly heterogeneous and inclusive and have diverse underlying patterns, such that a single-metric representation is most likely to yield inferior performance. Motivated by this, we in this paper propose a multi-metric latent factor (MMLF) model. Its main idea is two-fold: 1) two vector spaces and three Lp-norms are simultaneously employed to develop six variants of LFA model, each of which resides in a unique metric representation space, and 2) all the variants are ensembled with a tailored, self-adaptive weighting strategy. As such, our proposed MMLF enjoys the merits originated from a set of disparate metric spaces all at once, achieving the comprehensive and unbiased representation of HiDS matrices. Theoretical study guarantees that MMLF attains a performance gain. Extensive experiments on eight real-world HiDS datasets, spanning a wide range of industrial and science domains, verify that our MMLF significantly outperforms ten state-of-the-art, shallow and deep counterparts.
翻訳日:2022-04-19 15:54:36 公開日:2022-04-16
# TeleGraph:階層的リンク予測のためのベンチマークデータセット

TeleGraph: A Benchmark Dataset for Hierarchical Link Prediction ( http://arxiv.org/abs/2204.07703v1 )

ライセンス: Link先を確認
Min Zhou, Bisheng Li, Menglin Yang, Lujia Pan(参考訳) リンク予測は、ネットワーク構造データにとって重要な問題であり、その多様な応用のためにかなりの研究努力を惹きつける。 現在のリンク予測手法は一般的なネットワークにフォーカスしており、ネットワークの閉じた三角形構造かノード属性のいずれかに依存する。 スパースネットワークや高度階層ネットワークでのそれらの性能はよく研究されていない。 一方、利用可能なツリーライクなベンチマークデータセットは、シミュレートされるか、ノード情報が少ないか、あるいは小規模である。 このギャップを埋めるために、リンク推論技術の評価と育成のために、リッチノード属性に関連付けられた高度にスパースで階層的な通信ネットワークであるTeleGraphを提案する。 実験結果から,ほとんどのアルゴリズムは,ほぼ木のようなデータセット上で十分な性能を得られず,リンク予測アルゴリズムの設計やデプロイには特に注意が必要であることが示唆された。

Link prediction is a key problem for network-structured data, attracting considerable research efforts owing to its diverse applications. The current link prediction methods focus on general networks and are overly dependent on either the closed triangular structure of networks or node attributes. Their performance on sparse or highly hierarchical networks has not been well studied. On the other hand, the available tree-like benchmark datasets are either simulated, with limited node information, or small in scale. To bridge this gap, we present a new benchmark dataset TeleGraph, a highly sparse and hierarchical telecommunication network associated with rich node attributes, for assessing and fostering the link inference techniques. Our empirical results suggest that most of the algorithms fail to produce a satisfactory performance on a nearly tree-like dataset, which calls for special attention when designing or deploying the link prediction algorithm in practice.
翻訳日:2022-04-19 15:51:27 公開日:2022-04-16
# STRATA:トランスファーラーニング・アテンション・データ強化を用いた連続ウルドゥー音声からの単語境界と音素認識

STRATA: Word Boundaries & Phoneme Recognition From Continuous Urdu Speech using Transfer Learning, Attention, & Data Augmentation ( http://arxiv.org/abs/2204.07848v1 )

ライセンス: Link先を確認
Saad Naeem and Omer Beg(参考訳) 音素認識は、特にウルドゥー語のような低リソース言語において、NLPにおいてほとんど未解決の問題である。 音声から音素を抽出しようとするシステムは、手書きの音声転写を必要とする。 これは、専門家の言語学者が、高価な作業と退屈な作業の両方で、関連する音声表現で音声データに注釈を付ける必要がある。 本稿では,トランスファー学習や注意機構,データ拡張機構と統合したseq2seqニューラルネットワークを用いて,低リソース言語におけるデータ不足問題を克服する,教師付き音素認識のためのフレームワークであるstrataを提案する。 STRATAは転送学習を使ってネットワーク損失を半分に減らしている。 単語境界とフレームアライメント検出に注意機構を使用し、ネットワーク損失をさらに4%削減し、92.2%の精度で単語境界を識別することができる。 STRATAは様々なデータ拡張技術を使用して損失を1.5%削減し、一般化と精度の両面で新しい信号に対してより堅牢である。 STRATAは16.5%の音素誤り率を達成でき、TIMITデータセット(英語)では1.1%、CSaLTデータセット(Urdu)では11.5%向上している。

Phoneme recognition is a largely unsolved problem in NLP, especially for low-resource languages like Urdu. The systems that try to extract the phonemes from audio speech require hand-labeled phonetic transcriptions. This requires expert linguists to annotate speech data with its relevant phonetic representation which is both an expensive and a tedious task. In this paper, we propose STRATA, a framework for supervised phoneme recognition that overcomes the data scarcity issue for low resource languages using a seq2seq neural architecture integrated with transfer learning, attention mechanism, and data augmentation. STRATA employs transfer learning to reduce the network loss in half. It uses attention mechanism for word boundaries and frame alignment detection which further reduces the network loss by 4% and is able to identify the word boundaries with 92.2% accuracy. STRATA uses various data augmentation techniques to further reduce the loss by 1.5% and is more robust towards new signals both in terms of generalization and accuracy. STRATA is able to achieve a Phoneme Error Rate of 16.5% and improves upon the state of the art by 1.1% for TIMIT dataset (English) and 11.5% for CSaLT dataset (Urdu).
翻訳日:2022-04-19 15:49:55 公開日:2022-04-16
# 人間-物体相互作用における対話性場

Interactiveness Field in Human-Object Interactions ( http://arxiv.org/abs/2204.07718v1 )

ライセンス: Link先を確認
Xinpeng Liu, Yong-Lu Li, Xiaoqian Wu, Yu-Wing Tai, Cewu Lu, Chi-Keung Tang(参考訳) ヒューマン・オブジェクト・インタラクション(hoi)検出は、活動理解において重要な役割を果たす。 最近の2段階/1段階の手法は印象的な成果を上げているが、重要なステップとして人間と物体の対話的なペアの発見は依然として困難である。 どちらの手法も、冗長な負のペアを生成する代わりに、効果的に対話的なペアを抽出しない。 画像中の物体が人間とペアリングした後、生成されたペアは、主に非対話的か、主に対話的かのいずれかであり、前者の方が後者よりも頻繁に発生する。 この対話性バイモーダルに基づいて「対話性場」を提案する。 実際のHOI画像に適合させるため,対話型対と非対話型対の根底にある「相互作用性場」の濃度と差に基づく新しいエネルギー制約を提案する。 その結果,提案手法はより高精度なペアを検出し,HOI検出性能を大幅に向上させることができる。 私たちのコードはhttps://github.com/foruck/interactiveness-fieldで利用可能です。

Human-Object Interaction (HOI) detection plays a core role in activity understanding. Though recent two/one-stage methods have achieved impressive results, as an essential step, discovering interactive human-object pairs remains challenging. Both one/two-stage methods fail to effectively extract interactive pairs instead of generating redundant negative pairs. In this work, we introduce a previously overlooked interactiveness bimodal prior: given an object in an image, after pairing it with the humans, the generated pairs are either mostly non-interactive, or mostly interactive, with the former more frequent than the latter. Based on this interactiveness bimodal prior we propose the "interactiveness field". To make the learned field compatible with real HOI image considerations, we propose new energy constraints based on the cardinality and difference in the inherent "interactiveness field" underlying interactive versus non-interactive pairs. Consequently, our method can detect more precise pairs and thus significantly boost HOI detection performance, which is validated on widely-used benchmarks where we achieve decent improvements over state-of-the-arts. Our code is available at https://github.com/Foruck/Interactiveness-Field.
翻訳日:2022-04-19 15:15:47 公開日:2022-04-16
# ドメイン適応意味セグメンテーションのための複数異方性プロトタイプを用いた双方向自己学習

Bidirectional Self-Training with Multiple Anisotropic Prototypes for Domain Adaptive Semantic Segmentation ( http://arxiv.org/abs/2204.07730v1 )

ライセンス: Link先を確認
Yulei Lu, Yawei Luo, Li Zhang, Zheyang Li, Yi Yang, Jun Xiao(参考訳) ドメイン適応セグメンテーション努力の活発化傾向は、ターゲットドメインの高品質な擬似ラベルを生成し、セグメンテーションをリトレーニングする。 この自己学習パラダイムの下では、いくつかの競争的手法が潜在空間情報を求めており、セマンティッククラスの特徴セントロイド(プロトタイプ)を確立し、これらのセントロイドからの距離で擬似ラベル候補を決定する。 本稿では,潜在空間には活用すべき情報が多く含まれているため,それを活用するための一歩を踏み出した。 まず、単にソースドメインのプロトタイプを使用してターゲットの擬似ラベルを決定するのではなく、ターゲットドメインのプロトタイプを双方向に生成して、適応に難しすぎるか邪魔になる可能性のあるソースの機能を劣化させます。 第二に、既存の試みは単に各カテゴリを単一で等方的なプロトタイプとしてモデル化し、特徴分布のばらつきを無視して、類似のカテゴリを混乱させる可能性がある。 この問題に対処するため,ガウス混合モデルを用いて,各カテゴリを複数の異方性プロトタイプで表現し,ソース領域のデファクト分布に適合させ,確率密度に基づいて対象サンプルの確率を推定する手法を提案する。 我々は,GTA5->CityscapesとSynthia->Cityscapesのタスクに適用し,平均IoUで61.2と62.8を達成する。 特に「トラック」や「バス」といったカテゴリーの混乱に苦しむいくつかのカテゴリーでは、それぞれ56.4と68.8を達成しており、設計の有効性をさらに示している。

A thriving trend for domain adaptive segmentation endeavors to generate the high-quality pseudo labels for target domain and retrain the segmentor on them. Under this self-training paradigm, some competitive methods have sought to the latent-space information, which establishes the feature centroids (a.k.a prototypes) of the semantic classes and determines the pseudo label candidates by their distances from these centroids. In this paper, we argue that the latent space contains more information to be exploited thus taking one step further to capitalize on it. Firstly, instead of merely using the source-domain prototypes to determine the target pseudo labels as most of the traditional methods do, we bidirectionally produce the target-domain prototypes to degrade those source features which might be too hard or disturbed for the adaptation. Secondly, existing attempts simply model each category as a single and isotropic prototype while ignoring the variance of the feature distribution, which could lead to the confusion of similar categories. To cope with this issue, we propose to represent each category with multiple and anisotropic prototypes via Gaussian Mixture Model, in order to fit the de facto distribution of source domain and estimate the likelihood of target samples based on the probability density. We apply our method on GTA5->Cityscapes and Synthia->Cityscapes tasks and achieve 61.2 and 62.8 respectively in terms of mean IoU, substantially outperforming other competitive self-training methods. Noticeably, in some categories which severely suffer from the categorical confusion such as "truck" and "bus", our method achieves 56.4 and 68.8 respectively, which further demonstrates the effectiveness of our design.
翻訳日:2022-04-19 15:15:29 公開日:2022-04-16
# 野生における言語周囲の3次元セマンティックセマンティックセグメンテーション

Language-Grounded Indoor 3D Semantic Segmentation in the Wild ( http://arxiv.org/abs/2204.07761v1 )

ライセンス: Link先を確認
David Rozenberszki, Or Litany, Angela Dai(参考訳) ディープニューラルネットワークによる3Dセマンティックセグメンテーションの最近の進歩は、利用可能なデータセットのパフォーマンスが急速に向上するなど、目覚ましい成功を収めている。 しかし、現在の3Dセマンティックセグメンテーションのベンチマークでは、ScanNetとSemanticKITTIの30未満のカテゴリしか含んでおらず、実際の環境の多様性を反映するには不十分である(たとえば、セマンティックイメージの理解は数百から数千のクラスをカバーする)。 そこで本研究では,200のクラスカテゴリを持つスキャンネットデータに対する新たな拡張ベンチマークを用いて,3次元意味セグメンテーションのためのより大きな語彙について検討する。 この多数のクラスカテゴリは、また大きな自然クラス不均衡を引き起こし、どちらも既存の3d意味セグメンテーション法では困難である。 この文脈でより堅牢な3D特徴を学習するために,事前学習されたテキスト埋め込みに近接する訓練例を限定した3D特徴の学習を促すために,言語駆動型事前学習手法を提案する。 広範な実験により,提案するベンチマーク(+9%相対miou)における3dセマンティクスセグメンテーションのための最先端の3dプリトレーニングを,25%相対miouを5%のアノテーションで満たした限定データシナリオを含む,一貫して改善することを示した。

Recent advances in 3D semantic segmentation with deep neural networks have shown remarkable success, with rapid performance increase on available datasets. However, current 3D semantic segmentation benchmarks contain only a small number of categories -- less than 30 for ScanNet and SemanticKITTI, for instance, which are not enough to reflect the diversity of real environments (e.g., semantic image understanding covers hundreds to thousands of classes). Thus, we propose to study a larger vocabulary for 3D semantic segmentation with a new extended benchmark on ScanNet data with 200 class categories, an order of magnitude more than previously studied. This large number of class categories also induces a large natural class imbalance, both of which are challenging for existing 3D semantic segmentation methods. To learn more robust 3D features in this context, we propose a language-driven pre-training method to encourage learned 3D features that might have limited training examples to lie close to their pre-trained text embeddings. Extensive experiments show that our approach consistently outperforms state-of-the-art 3D pre-training for 3D semantic segmentation on our proposed benchmark (+9% relative mIoU), including limited-data scenarios with +25% relative mIoU using only 5% annotations.
翻訳日:2022-04-19 15:14:56 公開日:2022-04-16
# 視覚言語タスクのためのグループ変換による軽量トランスフォーマーの開発

Towards Lightweight Transformer via Group-wise Transformation for Vision-and-Language Tasks ( http://arxiv.org/abs/2204.07780v1 )

ライセンス: Link先を確認
Gen Luo, Yiyi Zhou, Xiaoshuai Sun, Yan Wang, Liujuan Cao, Yongjian Wu, Feiyue Huang, Rongrong Ji(参考訳) 素晴らしい性能にもかかわらず、Transformerはその過剰なパラメータと計算コストで批判されている。 しかしながら、圧縮トランスは層設計の内部複雑さ、すなわちマルチヘッドアテンション(mha)とフィードフォワードネットワーク(ffn)のため、オープンな問題として残されている。 この問題に対処するために、LW-Transformerと呼ばれる視覚・言語タスクのための普遍的で軽量なTransformerに対するグループワイズ変換を導入する。 lw-transformerは、トランスフォーマのパラメータと計算量を減らすためにグループ変換を適用し、mhaの多様な部分空間上の効率的な注意モデリングとffnの拡張スケーリング機能変換という2つの主な特性を維持している。 我々は、lw変換器をトランスフォーマネットワークの集合に適用し、3つの視覚言語タスクと6つのベンチマークデータセットで定量的に測定する。 実験の結果,LW-Transformerは多数のパラメータや計算を節約しながら,視覚・言語タスクのためのトランスフォーマーネットワークと非常に競合する性能を発揮することがわかった。 一般化能力を検討するため,最近提案されたSwin-Transformerと呼ばれる画像変換器に最適化戦略を適用し,その有効性を確認する。

Despite the exciting performance, Transformer is criticized for its excessive parameters and computation cost. However, compressing Transformer remains as an open problem due to its internal complexity of the layer designs, i.e., Multi-Head Attention (MHA) and Feed-Forward Network (FFN). To address this issue, we introduce Group-wise Transformation towards a universal yet lightweight Transformer for vision-and-language tasks, termed as LW-Transformer. LW-Transformer applies Group-wise Transformation to reduce both the parameters and computations of Transformer, while also preserving its two main properties, i.e., the efficient attention modeling on diverse subspaces of MHA, and the expanding-scaling feature transformation of FFN. We apply LW-Transformer to a set of Transformer-based networks, and quantitatively measure them on three vision-and-language tasks and six benchmark datasets. Experimental results show that while saving a large number of parameters and computations, LW-Transformer achieves very competitive performance against the original Transformer networks for vision-and-language tasks. To examine the generalization ability, we also apply our optimization strategy to a recently proposed image Transformer called Swin-Transformer for image classification, where the effectiveness can be also confirmed
翻訳日:2022-04-19 15:14:26 公開日:2022-04-16
# FCL-GAN:無監督ブラインド画像劣化のための軽量リアルタイムベースライン

FCL-GAN: A Lightweight and Real-Time Baseline for Unsupervised Blind Image Deblurring ( http://arxiv.org/abs/2204.07820v1 )

ライセンス: Link先を確認
Suiyi Zhao, Zhao Zhang, Richang Hong, Mingliang Xu, Yi Yang, Meng Wang(参考訳) BID(Blind Image Deblurring)は依然として困難な課題である。 深層学習の強い適合性から、ペア化されたデータ駆動型教師付きBID法が大きな進歩を遂げた。 しかし、ペアデータは通常手作業で合成されるため、現実的な曖昧さは合成法よりも複雑であり、教師付き手法は現実的な曖昧さをモデル化できず、現実の応用を妨げる。 このように、ペアデータを持たない教師なしのディープBID法には何らかの利点があるが、現在の手法では、例えば、大きめのモデルサイズ、長い推測時間、厳密な画像解像度とドメイン要件など、いくつかの欠点がある。 本稿では, 周波数領域のコントラスト損失制約付き軽量サイクガン(略してfcl-gan)と呼ばれる, 画像領域制限なし, 解像度制限なし, sotaより25倍軽量, sotaより5倍高速化した, 軽量かつリアルタイムな入札ベースラインを提案する。 軽量性と性能の優位性を保証するため、軽量領域変換ユニット(LDCU)とパラメータフリー周波数領域コントラストユニット(PFCU)という2つの新しい協調ユニットを設計する。 LDCUは主にドメイン間変換を軽量に実装している。 PFCUはさらに、余分なパラメータを伴わずに、ぼやけた領域と周波数領域の鋭い領域画像との間の類似度測定、外部差、内部接続について検討している。 いくつかの画像データセットに対する大規模な実験は、パフォーマンス、モデルサイズ、参照時間の観点から、FCL-GANの有効性を示す。

Blind image deblurring (BID) remains a challenging and significant task. Benefiting from the strong fitting ability of deep learning, paired data-driven supervised BID method has obtained great progress. However, paired data are usually synthesized by hand, and the realistic blurs are more complex than synthetic ones, which makes the supervised methods inept at modeling realistic blurs and hinders their real-world applications. As such, unsupervised deep BID method without paired data offers certain advantages, but current methods still suffer from some drawbacks, e.g., bulky model size, long inference time, and strict image resolution and domain requirements. In this paper, we propose a lightweight and real-time unsupervised BID baseline, termed Frequency-domain Contrastive Loss Constrained Lightweight CycleGAN (shortly, FCL-GAN), with attractive properties, i.e., no image domain limitation, no image resolution limitation, 25x lighter than SOTA, and 5x faster than SOTA. To guarantee the lightweight property and performance superiority, two new collaboration units called lightweight domain conversion unit(LDCU) and parameter-free frequency-domain contrastive unit(PFCU) are designed. LDCU mainly implements inter-domain conversion in lightweight manner. PFCU further explores the similarity measure, external difference and internal connection between the blurred domain and sharp domain images in frequency domain, without involving extra parameters. Extensive experiments on several image datasets demonstrate the effectiveness of our FCL-GAN in terms of performance, model size and reference time.
翻訳日:2022-04-19 15:14:00 公開日:2022-04-16
# 骨格に基づく歩行認識のより深い理解に向けて

Towards a Deeper Understanding of Skeleton-based Gait Recognition ( http://arxiv.org/abs/2204.07855v1 )

ライセンス: Link先を確認
Torben Teepe, Johannes Gilg, Fabian Herzog, Stefan H\"ormann, Gerhard Rigoll(参考訳) 歩行認識は、歩行パターンによって遠くから個人を識別するユニークな特性を持つ有望なバイオメトリックである。 近年、ほとんどの歩行認識法は、人のシルエットを用いて歩行の特徴を抽出する。 しかし、シルエット画像は細かな空間情報を失い、(自己)閉塞に苦しむことができ、現実のシナリオでは取得が困難である。 さらに、これらのシルエットには、実際の歩行特徴ではなく、識別だけでなく、システムを騙すために使用できる他の視覚手がかりも含まれている。 モデルに基づく手法はこれらの問題に悩まされず、実際の歩行特徴である体節の時間運動を表現することができる。 ヒトのポーズ推定の進歩は、骨格に基づく歩行認識を用いたモデルに基づく歩行認識の新しい時代が始まった。 本研究では,高次入力と残差ネットワークを組み合わせたグラフ畳み込みネットワーク(GCN)に基づく手法を,歩行認識のための効率的なアーキテクチャに提案する。 CASIA-BとOUMVLP-Poseの2つの一般的な歩行データセットに対する大規模な実験は、最大の歩行データセットであるOUMVLP-Poseと強力な時間モデリング機能に対して、最先端(SotA)の3倍の大幅な改善を示している。 最後に,骨格に基づく歩行認識をよりよく理解し,実際の歩行特徴をモデル化する手法を可視化する。

Gait recognition is a promising biometric with unique properties for identifying individuals from a long distance by their walking patterns. In recent years, most gait recognition methods used the person's silhouette to extract the gait features. However, silhouette images can lose fine-grained spatial information, suffer from (self) occlusion, and be challenging to obtain in real-world scenarios. Furthermore, these silhouettes also contain other visual clues that are not actual gait features and can be used for identification, but also to fool the system. Model-based methods do not suffer from these problems and are able to represent the temporal motion of body joints, which are actual gait features. The advances in human pose estimation started a new era for model-based gait recognition with skeleton-based gait recognition. In this work, we propose an approach based on Graph Convolutional Networks (GCNs) that combines higher-order inputs, and residual networks to an efficient architecture for gait recognition. Extensive experiments on the two popular gait datasets, CASIA-B and OUMVLP-Pose, show a massive improvement (3x) of the state-of-the-art (SotA) on the largest gait dataset OUMVLP-Pose and strong temporal modeling capabilities. Finally, we visualize our method to understand skeleton-based gait recognition better and to show that we model real gait features.
翻訳日:2022-04-19 15:13:34 公開日:2022-04-16
# 自動車両用デュアルトップビューグリッド表示におけるLiDARとカメラ計測のマッピング

Mapping LiDAR and Camera Measurements in a Dual Top-View Grid Representation Tailored for Automated Vehicles ( http://arxiv.org/abs/2204.07887v1 )

ライセンス: Link先を確認
Sven Richter, Frank Bieder, Sascha Wirges and Christoph Stiller(参考訳) 本稿では,LiDARやカメラなどの画像センサのための汎用的な網網マッピングパイプラインを提案する。 本モデルでは,セル占有率と接地率を別々に推定する。 点集合で表される入力データに対する推定ステップを指定するが、主に不均一マップやLiDARレンジ画像などの画像で表される入力データに焦点を当てる。 外部の地盤セグメンテーションのみに頼るのではなく、測定周辺の表面方位を分析して占有率の証拠を推定する。 実交通シナリオに記録されたlidarおよびステレオカメラデータを用いて実験を行い,提案手法の評価を行った。 本手法は,セル占有率を高い精度で評価し,効率を最大化し,外部処理モジュールへの依存性を最小限に抑える。

We present a generic evidential grid mapping pipeline designed for imaging sensors such as LiDARs and cameras. Our grid-based evidential model contains semantic estimates for cell occupancy and ground separately. We specify the estimation steps for input data represented by point sets, but mainly focus on input data represented by images such as disparity maps or LiDAR range images. Instead of relying on an external ground segmentation only, we deduce occupancy evidence by analyzing the surface orientation around measurements. We conduct experiments and evaluate the presented method using LiDAR and stereo camera data recorded in real traffic scenarios. Our method estimates cell occupancy robustly and with a high level of detail while maximizing efficiency and minimizing the dependency to external processing modules.
翻訳日:2022-04-19 15:13:10 公開日:2022-04-16
# DRFLM:局所的混合によるクライアント間雑音による分散ロバストなフェデレーション学習

DRFLM: Distributionally Robust Federated Learning with Inter-client Noise via Local Mixup ( http://arxiv.org/abs/2204.07742v1 )

ライセンス: Link先を確認
Bingzhe Wu, Zhipeng Liang, Yuxuan Han, Yatao Bian, Peilin Zhao, Junzhou Huang(参考訳) 近年、連合学習は、生データを漏らさずに複数の組織からのデータを使用してグローバルモデルをトレーニングするための有望なアプローチとして登場している。 それにもかかわらず、実世界のタスクに連邦学習を直接適用することは、(1)異なる組織間のデータの均一性、(2)個々の組織内のデータノイズの2つの課題に直面している。 本稿では,上記の2つの課題を同時に解決するための一般的な枠組みを提案する。 具体的には,各イテレーションにおける学習可能な分布に基づくサンプルクライアントに対するデータ不均質性パラダイムによる負の影響を軽減するために,分散的にロバストな最適化手法を提案する。 さらに,この最適化のパラダイムは,グローバルモデル予測精度の点で性能が著しく低下するローカルクライアント内のデータノイズの影響を受けやすいことが観察された。 そこで本研究では,統合学習の局所的な学習プロセスにミックスアップ手法を取り入れることを提案する。 さらに、ロバスト性解析、収束解析、一般化能力を含む包括的理論解析を提供する。 さらに,ADMET特性予測やドラッグターゲット親和性予測など,さまざまな薬物発見タスクに対する実証的研究を行った。

Recently, federated learning has emerged as a promising approach for training a global model using data from multiple organizations without leaking their raw data. Nevertheless, directly applying federated learning to real-world tasks faces two challenges: (1) heterogeneity in the data among different organizations; and (2) data noises inside individual organizations. In this paper, we propose a general framework to solve the above two challenges simultaneously. Specifically, we propose using distributionally robust optimization to mitigate the negative effects caused by data heterogeneity paradigm to sample clients based on a learnable distribution at each iteration. Additionally, we observe that this optimization paradigm is easily affected by data noises inside local clients, which has a significant performance degradation in terms of global model prediction accuracy. To solve this problem, we propose to incorporate mixup techniques into the local training process of federated learning. We further provide comprehensive theoretical analysis including robustness analysis, convergence analysis, and generalization ability. Furthermore, we conduct empirical studies across different drug discovery tasks, such as ADMET property prediction and drug-target affinity prediction.
翻訳日:2022-04-19 14:35:24 公開日:2022-04-16
# 分解プローブを用いたマルチホップ質問応答システムの校正信頼度

Calibrating Trust of Multi-Hop Question Answering Systems with Decompositional Probes ( http://arxiv.org/abs/2204.07693v1 )

ライセンス: Link先を確認
Kaige Xie, Sarah Wiegreffe, Mark Riedl(参考訳) マルチホップ質問回答(Multi-hop Question Answering, QA)は、複数の文脈からの情報の正確な集約と、基礎となる推論連鎖の理解を必要とするため、難しい課題である。 マルチホップQAにおける最近の研究は、まず質問を単純なシングルホップの質問に分解することで、パフォーマンスを向上できることを示している。 本稿では, 説明可能なNLPの観点から, マルチホップ分解の新たな有用性について検討する。 そうすることで、ユーザは、基礎となるQAシステムが正しい答えを与えるときのメンタルモデルを構築することができる、という仮説を立てています。 ヒトの参加者による研究を通して,分解プローブと回答をユーザに公開することで,質問事例に基づいてシステム性能を予測する能力が向上することを確認した。 分解はqaシステムを探索する効果的な形態であり,説明生成に有望なアプローチであることを示す。 詳細な分析は、分解システムの改善の必要性を示している。

Multi-hop Question Answering (QA) is a challenging task since it requires an accurate aggregation of information from multiple context paragraphs and a thorough understanding of the underlying reasoning chains. Recent work in multi-hop QA has shown that performance can be boosted by first decomposing the questions into simpler, single-hop questions. In this paper, we explore one additional utility of the multi-hop decomposition from the perspective of explainable NLP: to create explanation by probing a neural QA model with them. We hypothesize that in doing so, users will be better able to construct a mental model of when the underlying QA system will give the correct answer. Through human participant studies, we verify that exposing the decomposition probes and answers to the probes to users can increase their ability to predict system performance on a question instance basis. We show that decomposition is an effective form of probing QA systems as well as a promising approach to explanation generation. In-depth analyses show the need for improvements in decomposition systems.
翻訳日:2022-04-19 14:31:43 公開日:2022-04-16
# 半構造化表上のカウントの論理推論

Logical Inference for Counting on Semi-structured Tables ( http://arxiv.org/abs/2204.07803v1 )

ライセンス: Link先を確認
Tomoya Kurosawa, Hitomi Yanaka(参考訳) 近年,厳密な形式を持たない半構造化テーブルに対して,自然言語推論(NLI)タスクが研究されている。 ニューラルネットワークは、半構造化テーブルとテキスト間のNLIを含む様々なタイプのNLIで高い性能を達成しているが、カウントなどの数値型推論の実行には依然として困難である。 数値型推論を扱うために,半構造化テーブルとテキスト間の推論のための論理推論システムを提案する。 論理表現を表とテキストの意味表現として使用し,テキストとテーブル間の数値型推論をモデルチェックで処理する。 そこで,本研究では,半構造化表と英語のテキスト間の数値的理解に着目した評価プロトコルを構築した。 本システムでは,現在のニューラルアプローチと比較して,数値理解を必要とするテーブルとテキスト間の推論をより頑健に行えることを示す。

Recently, the Natural Language Inference (NLI) task has been studied for semi-structured tables that do not have a strict format. Although neural approaches have achieved high performance in various types of NLI, including NLI between semi-structured tables and texts, they still have difficulty in performing a numerical type of inference, such as counting. To handle a numerical type of inference, we propose a logical inference system for reasoning between semi-structured tables and texts. We use logical representations as meaning representations for tables and texts and use model checking to handle a numerical type of inference between texts and tables. To evaluate the extent to which our system can perform inference with numerical comparatives, we make an evaluation protocol that focuses on numerical understanding between semi-structured tables and texts in English. We show that our system can more robustly perform inference between tables and texts that requires numerical understanding compared with current neural approaches.
翻訳日:2022-04-19 14:29:32 公開日:2022-04-16
# ソフトラベリングと多様体混合によるオープンインテント分類の学習

Learning to Classify Open Intent via Soft Labeling and Manifold Mixup ( http://arxiv.org/abs/2204.07804v1 )

ライセンス: Link先を確認
Zifeng Cheng, Zhiwei Jiang, Yafeng Yin, Cong Wang, Qing Gu(参考訳) オープンインテント分類は対話システムにおいて実用的だが難しい課題である。 その目的は、オープン(未知)インテントの検出と同時に、既知のインテントのサンプルを正確に分類することである。 既存の手法は通常、Kクラス分類器と組み合わせてオープンインテントを検出し、Kは既知のインテントのクラス数を表す。 それらと異なり、本論文では、外乱検出アルゴリズムを使わずに別の方法を検討する。 具体的には、開意図分類のための(K+1)クラス分類器を直接訓練し、(K+1)クラスは開意図を表す。 Kクラスのみのトレーニングサンプルを用いた(K+1)クラス分類器のトレーニング課題に対処するため,Soft Labeling and Manifold Mixup (SLMM)に基づく深層モデルを提案する。 本手法では, ソフトラベリングを用いて既知のインテントサンプルのラベル分布を再構成し, モデルの既知のインテントに対する信頼度を低下させる。 manifold mixupは、オープンインテントの決定境界を適切に最適化することを目的として、オープンインテントの擬似サンプルを生成するために使用される。 4つのベンチマークデータセットを用いた実験により,本手法が従来の手法より優れ,最先端の性能を実現することが示された。 この作業のコードとデータは、https://github.com/zifengcheng/SLMMで取得できる。

Open intent classification is a practical yet challenging task in dialogue systems. Its objective is to accurately classify samples of known intents while at the same time detecting those of open (unknown) intents. Existing methods usually use outlier detection algorithms combined with K-class classifier to detect open intents, where K represents the class number of known intents. Different from them, in this paper, we consider another way without using outlier detection algorithms. Specifically, we directly train a (K+1)-class classifier for open intent classification, where the (K+1)-th class represents open intents. To address the challenge that training a (K+1)-class classifier with training samples of only K classes, we propose a deep model based on Soft Labeling and Manifold Mixup (SLMM). In our method, soft labeling is used to reshape the label distribution of the known intent samples, aiming at reducing model's overconfident on known intents. Manifold mixup is used to generate pseudo samples for open intents, aiming at well optimizing the decision boundary of open intents. Experiments on four benchmark datasets demonstrate that our method outperforms previous methods and achieves state-of-the-art performance. All the code and data of this work can be obtained at https://github.com/zifengcheng/SLMM.
翻訳日:2022-04-19 14:29:19 公開日:2022-04-16
# ツリー損失:多くのクラスで一般化を改善する

The Tree Loss: Improving Generalization with Many Classes ( http://arxiv.org/abs/2204.07727v1 )

ライセンス: Link先を確認
Yujie Wang, Mike Izbicki(参考訳) 多クラス分類問題はしばしば意味論的に類似したクラスを持つ。 例えば、imagenetの1000クラスのうち90クラスは、異なる種類の犬用である。 これらの意味的に類似したクラスは類似のパラメータベクトルを持つと期待すべきであるが、標準のクロスエントロピー損失は、この制約を強制しない。 我々は,クロスエントロピー損失の代替として木損失を導入する。 ツリーロスはパラメータ行列を再パラメータ化し、意味的に類似したクラスが類似のパラメータベクトルを持つことを保証する。 確率的勾配降下の単純な性質を用いて,木損失の一般化誤差は交叉エントロピー損失よりも漸近的に優れていることを示した。 次に、これらの理論結果を合成データ、画像データ(CIFAR100, ImageNet)、テキストデータ(Twitter)で検証する。

Multi-class classification problems often have many semantically similar classes. For example, 90 of ImageNet's 1000 classes are for different breeds of dog. We should expect that these semantically similar classes will have similar parameter vectors, but the standard cross entropy loss does not enforce this constraint. We introduce the tree loss as a drop-in replacement for the cross entropy loss. The tree loss re-parameterizes the parameter matrix in order to guarantee that semantically similar classes will have similar parameter vectors. Using simple properties of stochastic gradient descent, we show that the tree loss's generalization error is asymptotically better than the cross entropy loss's. We then validate these theoretical results on synthetic data, image data (CIFAR100, ImageNet), and text data (Twitter).
翻訳日:2022-04-19 14:08:32 公開日:2022-04-16
# グラフニューラルネットワークの理論:表現と学習

Theory of Graph Neural Networks: Representation and Learning ( http://arxiv.org/abs/2204.07697v1 )

ライセンス: Link先を確認
Stefanie Jegelka(参考訳) グラフニューラルネットワーク(GNN)は、グラフの表現を学習するためのニューラルネットワークアーキテクチャであり、ノードやグラフ、ポイントの設定を予測するための一般的な学習モデルとなっている。 本稿では、広く使われているメッセージパッシングGNNと高階GNNの近似と学習特性に関する新たな理論結果の選択を要約し、表現、一般化、外挿に焦点を当てる。 その過程で、数学的関係を要約する。

Graph Neural Networks (GNNs), neural network architectures targeted to learning representations of graphs, have become a popular learning model for prediction tasks on nodes, graphs and configurations of points, with wide success in practice. This article summarizes a selection of the emerging theoretical results on approximation and learning properties of widely used message passing GNNs and higher-order GNNs, focusing on representation, generalization and extrapolation. Along the way, it summarizes mathematical connections.
翻訳日:2022-04-19 14:07:17 公開日:2022-04-16
# beyond l1: skglmによる高速でスパースなモデル

Beyond L1: Faster and Better Sparse Models with skglm ( http://arxiv.org/abs/2204.07826v1 )

ライセンス: Link先を確認
Quentin Bertrand and Quentin Klopfenstein and Pierre-Antoine Bannier and Gauthier Gidel and Mathurin Massias(参考訳) 凸あるいは非凸分離ペナルティを持つ疎一般化線形モデルを推定するための新しい高速アルゴリズムを提案する。 我々のアルゴリズムは、座標降下、ワーキングセット、アンダーソン加速度に頼って、数百万のサンプルと特徴を数秒で解くことができる。 未対応のモデルを処理し、最先端のアルゴリズムを改善するために広く示されている。 私たちは、カスタマイズしたdatafitsとペナルティを簡単に処理できるフレキシブルでscikit-learn互換パッケージを提供しています。

We propose a new fast algorithm to estimate any sparse generalized linear model with convex or non-convex separable penalties. Our algorithm is able to solve problems with millions of samples and features in seconds, by relying on coordinate descent, working sets and Anderson acceleration. It handles previously unaddressed models, and is extensively shown to improve state-of-art algorithms. We provide a flexible, scikit-learn compatible package, which easily handles customized datafits and penalties.
翻訳日:2022-04-19 14:05:55 公開日:2022-04-16
# 多項式時間スパース測度の回復

Polynomial-time sparse measure recovery ( http://arxiv.org/abs/2204.07879v1 )

ライセンス: Link先を確認
Hadi Daneshmand and Francis Bach(参考訳) 特定の瞬間からスパース支援を伴う確率測度を回復する方法? この問題は理論計算機科学とニューラルコンピューティングの研究の焦点となっている。 しかし、回復のための多項式時間アルゴリズムは存在しない。 回復に最適なアルゴリズムは、$O(2^{\text{poly}(1/\epsilon)})$ for $\epsilon$-accurate recoveryである。 我々は,$O(\log(1/\epsilon)/\epsilon^2)$の計算しか必要としない,慎重に設計されたモーメントからの最初のポリ時間回復法を提案する。 この方法は、2次元入力、有限幅、ゼロワンアクティベーションを持つ植込み型2層ニューラルネットワークの回復に依存している。 このようなネットワークに対して, 勾配降下のグローバル収束を初めて確立し, スパース測度回復への応用を実証する。

How to recover a probability measure with sparse support from particular moments? This problem has been the focus of research in theoretical computer science and neural computing. However, there is no polynomial-time algorithm for the recovery. The best algorithm for the recovery requires $O(2^{\text{poly}(1/\epsilon)})$ for $\epsilon$-accurate recovery. We propose the first poly-time recovery method from carefully designed moments that only requires $O(\log(1/\epsilon)/\epsilon^2)$ computations for an $\epsilon$-accurate recovery. This method relies on the recovery of a planted two-layer neural network with two-dimensional inputs, a finite width, and zero-one activation. For such networks, we establish the first global convergence of gradient descent and demonstrate its application in sparse measure recovery.
翻訳日:2022-04-19 14:05:48 公開日:2022-04-16
# 変圧器に基づく領域適応のための安全な自己定義

Safe Self-Refinement for Transformer-based Domain Adaptation ( http://arxiv.org/abs/2204.07683v1 )

ライセンス: Link先を確認
Tao Sun, Cheng Lu, Tianshuo Zhang, Haibin Ling(参考訳) Unsupervised Domain Adaptation (UDA)は、ラベル豊富なソースドメインを活用して、関連するラベルのないターゲットドメイン上のタスクを解決することを目的としている。 特にソースとターゲットドメインの間に大きなドメインギャップがある場合、これは難しい問題です。 本稿では,SSRT(Safe Self-Refinement for Transformer-based domain adaptation)という新しい手法を提案する。 まず、様々な視覚タスクにおけるビジョントランスフォーマーの成功に励まされ、トランスフォーマーバックボーンでSSRTをアームする。 視覚トランスフォーマーと単純な逆適応の組み合わせは、最も報告された畳み込みニューラルネットワーク(cnn)ベースのドメインネットベンチマークの結果を上回っており、その強力な転送可能な特徴表現を示している。 第二に,モデル崩壊のリスクを低減し,大きなギャップを持つ領域間の知識伝達の有効性を向上させるため,安全な自己抑制戦略を提案する。 具体的には、SSRTは摂動対象領域データの予測を利用してモデルを洗練する。 視覚トランスフォーマのモデル容量が大きく、このような困難なタスクにおける予測がノイズになる可能性があるため、学習構成を適応的に調整する安全なトレーニング機構が設計されている。 広くテストされているいくつかのUDAベンチマークで大規模な評価が行われ、SSRTは、Office-Homeで85.43%、VisDA-2017で88.76%、DomainNetで45.2%など、一貫して最高のパフォーマンスを達成している。

Unsupervised Domain Adaptation (UDA) aims to leverage a label-rich source domain to solve tasks on a related unlabeled target domain. It is a challenging problem especially when a large domain gap lies between the source and target domains. In this paper we propose a novel solution named SSRT (Safe Self-Refinement for Transformer-based domain adaptation), which brings improvement from two aspects. First, encouraged by the success of vision transformers in various vision tasks, we arm SSRT with a transformer backbone. We find that the combination of vision transformer with simple adversarial adaptation surpasses best reported Convolutional Neural Network (CNN)-based results on the challenging DomainNet benchmark, showing its strong transferable feature representation. Second, to reduce the risk of model collapse and improve the effectiveness of knowledge transfer between domains with large gaps, we propose a Safe Self-Refinement strategy. Specifically, SSRT utilizes predictions of perturbed target domain data to refine the model. Since the model capacity of vision transformer is large and predictions in such challenging tasks can be noisy, a safe training mechanism is designed to adaptively adjust learning configuration. Extensive evaluations are conducted on several widely tested UDA benchmarks and SSRT achieves consistently the best performances, including 85.43% on Office-Home, 88.76% on VisDA-2017 and 45.2% on DomainNet.
翻訳日:2022-04-19 14:04:07 公開日:2022-04-16
# 応力試験LiDAR登録

Stress-Testing LiDAR Registration ( http://arxiv.org/abs/2204.07719v1 )

ライセンス: Link先を確認
Amnon Drory, Shai Avidan and Raja Giryes(参考訳) ポイントクラウド登録(PCR)は、LiDARセンサーを用いた自動運転を含む多くの分野において重要なタスクである。 近年, PCRアルゴリズムは, 深く学習した特徴と頑健な推定法を組み合わせることで, 大幅に改善されている。 これらのアルゴリズムは、屋内シーンやオブジェクトモデル登録のようなシナリオで成功する。 しかし、独自の課題を示す自動車用LiDAR環境でのテストは制限されている。 この設定の標準ベンチマークであるKITTI-10mは、基本的に最近のアルゴリズムによって飽和している。 本研究では,最近のPCR法をLiDARデータを用いてストレステストする。 本稿では,LiDARデータセットからフレームペアの挑戦的集合である平衡登録集合を選択する手法を提案する。 これらはデータセットに現れる異なる相対運動のバランスの取れた表現、すなわち、小さな回転と大きな回転、空間と時間の小さなオフセットと大きなオフセット、そしてそれらの様々な組み合わせを含んでいる。 これらのベンチマークで精度と実行時間の徹底的な比較を行う。 おそらく予想外のことに、最も速くかつ同時に正確なアプローチは、高度なRANSACのバージョンである。 我々は、新しい事前フィルタ法により結果をさらに改善する。

Point cloud registration (PCR) is an important task in many fields including autonomous driving with LiDAR sensors. PCR algorithms have improved significantly in recent years, by combining deep-learned features with robust estimation methods. These algorithms succeed in scenarios such as indoor scenes and object models registration. However, testing in the automotive LiDAR setting, which presents its own challenges, has been limited. The standard benchmark for this setting, KITTI-10m, has essentially been saturated by recent algorithms: many of them achieve near-perfect recall. In this work, we stress-test recent PCR techniques with LiDAR data. We propose a method for selecting balanced registration sets, which are challenging sets of frame-pairs from LiDAR datasets. They contain a balanced representation of the different relative motions that appear in a dataset, i.e. small and large rotations, small and large offsets in space and time, and various combinations of these. We perform a thorough comparison of accuracy and run-time on these benchmarks. Perhaps unexpectedly, we find that the fastest and simultaneously most accurate approach is a version of advanced RANSAC. We further improve results with a novel pre-filtering method.
翻訳日:2022-04-19 14:03:41 公開日:2022-04-16
# 視覚変換器の固有次元探索

Searching Intrinsic Dimensions of Vision Transformers ( http://arxiv.org/abs/2204.07722v1 )

ライセンス: Link先を確認
Fanghui Xue, Biao Yang, Yingyong Qi and Jack Xin(参考訳) 多くの研究者が、トランスフォーマーは多くのコンピュータビジョンタスクにおいて畳み込みニューラルネットワークと同様に機能することを示した。 一方、注目モジュールの大きな計算コストは、エッジデバイスに関するさらなる研究や応用を妨げる。 効率的な視覚トランスフォーマーを構築するためにいくつかのプルーニング法が開発されているが、そのほとんどは画像分類タスクのみを考慮している。 これらの結果にインスパイアされたSiDTは, 物体検出などの複雑な視覚タスクに対して, トランスフォーマー次元の探索に基づいて, バックボーンを切断する手法である。 CIFAR-100とCOCOデータセットの実験では、刈り取られた20\%または40\%の寸法/パラメータのバックボーンは、未刈取モデルと同等またはそれ以上の性能を持つ。 さらに, 従来のプルーニング法と比較して, 複雑度解析と比較を行った。

It has been shown by many researchers that transformers perform as well as convolutional neural networks in many computer vision tasks. Meanwhile, the large computational costs of its attention module hinder further studies and applications on edge devices. Some pruning methods have been developed to construct efficient vision transformers, but most of them have considered image classification tasks only. Inspired by these results, we propose SiDT, a method for pruning vision transformer backbones on more complicated vision tasks like object detection, based on the search of transformer dimensions. Experiments on CIFAR-100 and COCO datasets show that the backbones with 20\% or 40\% dimensions/parameters pruned can have similar or even better performance than the unpruned models. Moreover, we have also provided the complexity analysis and comparisons with the previous pruning methods.
翻訳日:2022-04-19 14:03:23 公開日:2022-04-16
# メタラーニングに基づくクロスモーダルプロンプティングによるマルチモーダルショットオブジェクト検出

Multimodal Few-Shot Object Detection with Meta-Learning Based Cross-Modal Prompting ( http://arxiv.org/abs/2204.07841v1 )

ライセンス: Link先を確認
Guangxing Han, Jiawei Ma, Shiyuan Huang, Long Chen, Rama Chellappa, Shih-Fu Chang(参考訳) 本稿では,マルチモーダルな複数ショットオブジェクト検出(FSOD)について,少数ショット視覚例とクラスセマンティック情報の両方を用いて検討する。 以前の作品のほとんどは、視覚情報と意味情報の相補性を無視して、少数またはゼロショットのオブジェクト検出に焦点を当てていた。 まず,事前学習された視覚言語モデルから下流タスクへのゼロショットトランスファー手法であるメタラーニングとプロンプトベースラーニングが概念的に類似していることを示す。 どちらも、事前訓練されたタスクと同じ下流タスクの目的を変更し、主に事前訓練されたモデルのパラメータをチューニングしない。 そこで本研究では,マルチモーダルfsodにおけるメタラーニングとプロンプトベースラーニングを組み合わせて,多ショットベースクラス上で転送可能なクラス非依存なマルチモーダルfsodモデルを学習することを提案する。 具体的には、事前学習された視覚言語モデルをよりうまく活用するために、ソフトプロンプトを生成するためにメタラーニングベースのクロスモーダルプロンプトが提案されている。 そして、抽出したセマンティックプロトタイプと少数ショットのビジュアルプロトタイプとを融合させてマルチモーダルプロトタイプを生成して検出する。 我々のモデルは、トークンレベルと特徴レベルの両方で視覚情報と意味情報を効率的に融合させることができる。 提案するマルチモーダルFSODモデルを,複数の複数ショットオブジェクト検出ベンチマークで総合評価し,有望な結果を得た。

We study multimodal few-shot object detection (FSOD) in this paper, using both few-shot visual examples and class semantic information for detection. Most of previous works focus on either few-shot or zero-shot object detection, ignoring the complementarity of visual and semantic information. We first show that meta-learning and prompt-based learning, the most commonly-used methods for few-shot learning and zero-shot transferring from pre-trained vision-language models to downstream tasks, are conceptually similar. They both reformulate the objective of downstream tasks the same as the pre-training tasks, and mostly without tuning the parameters of pre-trained models. Based on this observation, we propose to combine meta-learning with prompt-based learning for multimodal FSOD without fine-tuning, by learning transferable class-agnostic multimodal FSOD models over many-shot base classes. Specifically, to better exploit the pre-trained vision-language models, the meta-learning based cross-modal prompting is proposed to generate soft prompts and further used to extract the semantic prototype, conditioned on the few-shot visual examples. Then, the extracted semantic prototype and few-shot visual prototype are fused to generate the multimodal prototype for detection. Our models can efficiently fuse the visual and semantic information at both token-level and feature-level. We comprehensively evaluate the proposed multimodal FSOD models on multiple few-shot object detection benchmarks, achieving promising results.
翻訳日:2022-04-19 14:02:10 公開日:2022-04-16
# persua:オンライン議論における議論の説得力を高めるビジュアルインタラクティブシステム

Persua: A Visual Interactive System to Enhance the Persuasiveness of Arguments in Online Discussion ( http://arxiv.org/abs/2204.07741v1 )

ライセンス: Link先を確認
Meng Xia, Qian Zhu, Xingbo Wang, Fei Nei, Huamin Qu, Xiaojuan Ma(参考訳) 人々が意見を変えるよう説得することは、政治キャンペーンから関係相談まで、オンラインディスカッションフォーラムでよくある実践である。 説得力のある議論を書く能力を高めることは、批判的な思考と推論を実践するだけでなく、オンラインコミュニケーションの有効性と市民性にも寄与する。 しかし、書き言葉が主要なコミュニケーションチャネルであるオンラインの議論では、これは簡単な作業ではない。 本稿では,オンライン議論における議論の説得力向上を支援するツールの設計目標を,オンラインフォーラム利用者123名と議論専門家5名を対象に行った。 これらの設計目標を満たすため、オンラインディスカッションフォーラムであるchangemyviewから164の議論の中で、粒度の細かい説得戦略(ロゴ、パス、倫理、証拠など)のラベル付きデータセットを分析、構築した。 そこで我々は,対話型視覚システムPersuaを設計し,議論の説得力を高めるための説得戦略の例に基づく指導を行った。 特に、ある議論トピックに適用された様々な説得戦略に基づいて、議論のポートフォリオを構築する。 次に、ユーザ入力のポートフォリオとデータセットの高品質な引数の違いに基づいて、具体的な例を示す。 サブジェクト間の調査は、Persuaがユーザーがフィードバックのためにより多くの時間を提出することを奨励し、ベースラインシステムよりも議論の説得力を高めるのに役立つという示唆的な証拠を示している。 最後に、テキストの説得性を改善するための未来のインテリジェントシステムについて、一連の設計考察を要約した。

Persuading people to change their opinions is a common practice in online discussion forums on topics ranging from political campaigns to relationship consultation. Enhancing people's ability to write persuasive arguments could not only practice their critical thinking and reasoning but also contribute to the effectiveness and civility in online communication. It is, however, not an easy task in online discussion settings where written words are the primary communication channel. In this paper, we derived four design goals for a tool that helps users improve the persuasiveness of arguments in online discussions through a survey with 123 online forum users and interviews with five debating experts. To satisfy these design goals, we analyzed and built a labeled dataset of fine-grained persuasive strategies (i.e., logos, pathos, ethos, and evidence) in 164 arguments with high ratings on persuasiveness from ChangeMyView, a popular online discussion forum. We then designed an interactive visual system, Persua, which provides example-based guidance on persuasive strategies to enhance the persuasiveness of arguments. In particular, the system constructs portfolios of arguments based on different persuasive strategies applied to a given discussion topic. It then presents concrete examples based on the difference between the portfolios of user input and high-quality arguments in the dataset. A between-subjects study shows suggestive evidence that Persua encourages users to submit more times for feedback and helps users improve more on the persuasiveness of their arguments than a baseline system. Finally, a set of design considerations was summarized to guide future intelligent systems that improve the persuasiveness in text.
翻訳日:2022-04-19 14:01:43 公開日:2022-04-16
# 移動品質評価のためのロバストでスケーラブルな注意誘導型ディープラーニングフレームワーク

A Robust and Scalable Attention Guided Deep Learning Framework for Movement Quality Assessment ( http://arxiv.org/abs/2204.07840v1 )

ライセンス: Link先を確認
Aditya Kanade and Mansi Sharma and Manivannan Muniyandi(参考訳) 身体リハビリテーションプログラムは、病院に短期間滞在し、在宅リハビリテーションを続けることから始まることが多い。 運動の正しさに対するフィードバック不足は在宅リハビリテーションにおいて大きな問題である。 深部イメージング装置で収集した骨格運動データ(以下、骨格データ)を用いた自動運動品質評価(mqa)は、必要な量的フィードバックを提供することで、在宅リハビリテーションを支援することができる。 本稿では,MQAの課題に対処するために,近年のディープラーニングの進歩を活用することを目的とする。 運動品質スコア生成はMQAの重要な構成要素である。 我々は3つの新しい骨格データ拡張スキームを提案する。 動作品質スコアの生成に提案手法を用いることで,既存の手法よりも性能が大幅に向上することを示す。 最後に,MQAのための新しいトランスフォーマーアーキテクチャを提案する。 トランスフォーマーネットワークを骨格データ上で動作させる4つの新しい特徴抽出器を提案し,検討した。 提案する特徴抽出器の設計に注意機構を加えることで、トランスフォーマーネットワークは、運動の実行に重要な貢献をする特定の身体部位に注意を払うことができることを示す。 既存の手法と比較して,UI-PRMDデータセットでは12%,KIMOREデータセットでは21%の移動品質スコアが向上した。

Physical rehabilitation programs frequently begin with a brief stay in the hospital and continue with home-based rehabilitation. Lack of feedback on exercise correctness is a significant issue in home-based rehabilitation. Automated movement quality assessment (MQA) using skeletal movement data (hereafter referred to as skeletal data) collected via depth imaging devices can assist with home-based rehabilitation by providing the necessary quantitative feedback. This paper aims to use recent advances in deep learning to address the problem of MQA. Movement quality score generation is an essential component of MQA. We propose three novel skeletal data augmentation schemes. We show that using the proposed augmentations for generating movement quality scores result in significant performance boosts over existing methods. Finally, we propose a novel transformer based architecture for MQA. Four novel feature extractors are proposed and studied that allow the transformer network to operate on skeletal data. We show that adding the attention mechanism in the design of the proposed feature extractor allows the transformer network to pay attention to specific body parts that make a significant contribution towards executing a movement. We report an improvement in movement quality score prediction of 12% on UI-PRMD dataset and 21% on KIMORE dataset compared to the existing methods.
翻訳日:2022-04-19 13:30:13 公開日:2022-04-16
# TVShowGuess:物語におけるキャラクターの理解

TVShowGuess: Character Comprehension in Stories as Speaker Guessing ( http://arxiv.org/abs/2204.07721v1 )

ライセンス: Link先を確認
Yisi Sang, Xiangyang Mou, Mo Yu, Shunyu Yao, Jing Li, Jeffrey Stanton(参考訳) 物語における架空の登場人物を理解する機械の能力を評価するための新しい課題を提案する。 タスクであるTVShowGuessは、TVシリーズのスクリプトをベースとして、シーンの背景や対話に基づいて匿名のメインキャラクターを推測する形式をとっている。 本研究は,人物のパーソナリティ,事実,個人体験の記憶を理解することを含む,多種類の人物ペルソナの理解を対象とし,人間の心の理論(トム)に関する心理学的・文学的理論と連動し,読書中の架空の人物を理解することを目的としている。 さらに,長いシーンテキストの文脈化符号化を支援する新しいモデルアーキテクチャを提案する。 実験の結果,提案手法はベースラインを著しく上回っているが,(ほぼ完璧に近い)人間のパフォーマンスには及ばないことがわかった。 我々の研究は物語的性格理解のゴールに向けた第一歩となる。

We propose a new task for assessing machines' skills of understanding fictional characters in narrative stories. The task, TVShowGuess, builds on the scripts of TV series and takes the form of guessing the anonymous main characters based on the backgrounds of the scenes and the dialogues. Our human study supports that this form of task covers comprehension of multiple types of character persona, including understanding characters' personalities, facts and memories of personal experience, which are well aligned with the psychological and literary theories about the theory of mind (ToM) of human beings on understanding fictional characters during reading. We further propose new model architectures to support the contextualized encoding of long scene texts. Experiments show that our proposed approaches significantly outperform baselines, yet still largely lag behind the (nearly perfect) human performance. Our work serves as a first step toward the goal of narrative character comprehension.
翻訳日:2022-04-19 13:01:59 公開日:2022-04-16
# TASTEset -- レシピデータセットと食品エンティティ認識ベンチマーク

TASTEset -- Recipe Dataset and Food Entities Recognition Benchmark ( http://arxiv.org/abs/2204.07775v1 )

ライセンス: Link先を確認
Ania Wr\'oblewska, Agnieszka Kaliska, Maciej Paw{\l}owski, Dawid Wi\'sniewski, Witold Sosnowski, Agnieszka {\L}awrynowicz(参考訳) フードコンピューティングは現在急速に成長している研究分野である。 自然言語処理(NLP)もこの分野において特に食品の認識に不可欠である。 しかし、この分野のソリューションのベンチマークとして機能するタスクは、まだごくわずかである。 このギャップを埋めるために、新しいデータセット --textit{TASTEset} を導入しました。 このデータセットでは、名前付きエンティティ認識(ner)モデルは、料理製品、量とその単位、調理プロセスの名前、食材の物理的品質、目的、味など、レシピの処理に有用な様々なエンティティを発見または推測することが期待される。 データセットは700のレシピで構成され、13,000以上のエンティティを抽出する。 私たちは、名前付きエンティティ認識モデルの最先端のベースラインをいくつか提供しています。 最高のモデルは平均0.95ドルF_1$スコアで、エンティティタイプによって-0.781から0.982まで。 レシピからのより深く複雑な情報抽出の進捗を促すために、データセットとタスクを共有します。

Food Computing is currently a fast-growing field of research. Natural language processing (NLP) is also increasingly essential in this field, especially for recognising food entities. However, there are still only a few well-defined tasks that serve as benchmarks for solutions in this area. We introduce a new dataset -- called \textit{TASTEset} -- to bridge this gap. In this dataset, Named Entity Recognition (NER) models are expected to find or infer various types of entities helpful in processing recipes, e.g.~food products, quantities and their units, names of cooking processes, physical quality of ingredients, their purpose, taste. The dataset consists of 700 recipes with more than 13,000 entities to extract. We provide a few state-of-the-art baselines of named entity recognition models, which show that our dataset poses a solid challenge to existing models. The best model achieved, on average, 0.95 $F_1$ score, depending on the entity type -- from 0.781 to 0.982. We share the dataset and the task to encourage progress on more in-depth and complex information extraction from recipes.
翻訳日:2022-04-19 12:38:01 公開日:2022-04-16
# 高次元およびスパース行列に対するグラフ内蔵潜在因子解析

Graph-incorporated Latent Factor Analysis for High-dimensional and Sparse Matrices ( http://arxiv.org/abs/2204.07818v1 )

ライセンス: Link先を確認
Di Wu, Yi He, Xin Luo(参考訳) eコマースシステムやソーシャルネットワークサービスシステムのようなビッグデータ関連アプリケーションでは、高次元およびスパース(hid)マトリックスが頻繁に発生する。 潜伏した知識やパターンを抽出したいという大きな願望から、高精度な表現学習を行う。 遅延因子分析(LFA)は、観測された成分のみに基づいて低ランクの埋め込みを学習することでHiDS行列を表現するもので、この問題に対する最も効果的かつ効率的なアプローチの一つである。 しかし、既存のLFAベースのモデルの多くは、隠れたグラフ構造を利用せずに直接HiDS行列にそのような埋め込みを実行するため、精度が低下する。 本稿では,グラフを組み込んだ潜在因子分析(GLFA)モデルを提案する。 考え方は2つあります。 1)HiDS行列で記述されたノード間の隠れた高次相互作用(HOI)を特定するグラフを構築し、 2) HOIを組み込んだ繰り返しLFA構造を慎重に設計し, 結果モデルの表現型学習能力を向上させる。 実世界の3つのデータセットの実験結果から、GLFAは、HiDSデータに対する強力な表現学習能力を確実にサポートするHiDS行列の欠落データを予測するために、6つの最先端モデルより優れていることが示された。

A High-dimensional and sparse (HiDS) matrix is frequently encountered in a big data-related application like an e-commerce system or a social network services system. To perform highly accurate representation learning on it is of great significance owing to the great desire of extracting latent knowledge and patterns from it. Latent factor analysis (LFA), which represents an HiDS matrix by learning the low-rank embeddings based on its observed entries only, is one of the most effective and efficient approaches to this issue. However, most existing LFA-based models perform such embeddings on a HiDS matrix directly without exploiting its hidden graph structures, thereby resulting in accuracy loss. To address this issue, this paper proposes a graph-incorporated latent factor analysis (GLFA) model. It adopts two-fold ideas: 1) a graph is constructed for identifying the hidden high-order interaction (HOI) among nodes described by an HiDS matrix, and 2) a recurrent LFA structure is carefully designed with the incorporation of HOI, thereby improving the representa-tion learning ability of a resultant model. Experimental results on three real-world datasets demonstrate that GLFA outperforms six state-of-the-art models in predicting the missing data of an HiDS matrix, which evidently supports its strong representation learning ability to HiDS data.
翻訳日:2022-04-19 12:37:23 公開日:2022-04-16
# 畳み込みニューラルネットワークの意味論的解釈 : 猫を猫にする理由

Semantic interpretation for convolutional neural networks: What makes a cat a cat? ( http://arxiv.org/abs/2204.07724v1 )

ライセンス: Link先を確認
Hao Xu, Yuntian Chen, Dongxiao Zhang(参考訳) 近年、ディープニューラルネットワークの解釈可能性に注目が集まっており、「ブラックボックス」モデルを解釈するいくつかの方法が作成されている。 しかし、ネットワークを理解するペース、特に理解可能な意味空間の抽出を妨げる基本的な制限は残っている。 本稿では,遺伝的アルゴリズムにより検出されたスーパーピクセルの最良の組み合わせから,行中心主成分分析を用いて共通特徴を抽出し,検出された意味的センシティブなニューロンと可視化技術に基づいて理解可能な意味空間を抽出する,意味説明可能なai(s-xai)の枠組みを紹介する。 意味空間の統計的解釈も提供され、意味確率の概念が初めて提案される。 実験の結果,S-XAIはCNNのセマンティックな解釈に有効であり,信頼性評価やセマンティックなサンプル検索など幅広い用途を提供している。

The interpretability of deep neural networks has attracted increasing attention in recent years, and several methods have been created to interpret the "black box" model. Fundamental limitations remain, however, that impede the pace of understanding the networks, especially the extraction of understandable semantic space. In this work, we introduce the framework of semantic explainable AI (S-XAI), which utilizes row-centered principal component analysis to obtain the common traits from the best combination of superpixels discovered by a genetic algorithm, and extracts understandable semantic spaces on the basis of discovered semantically sensitive neurons and visualization techniques. Statistical interpretation of the semantic space is also provided, and the concept of semantic probability is proposed for the first time. Our experimental results demonstrate that S-XAI is effective in providing a semantic interpretation for the CNN, and offers broad usage, including trustworthiness assessment and semantic sample searching.
翻訳日:2022-04-19 12:36:41 公開日:2022-04-16