このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210813となっている論文です。

PDF登録状況(公開日: 20210813)

TitleAuthorsAbstract論文公表日・翻訳日
# 政治・法的枠組みとしてのオープンサイエンスの定義に向けて--研究成果の共有と普及に向けて

Towards an Open Science definition as a political and legal framework: on the sharing and dissemination of research outputs ( http://arxiv.org/abs/2010.04508v2 )

ライセンス: Link先を確認
Teresa Gomez-Diaz and Tomas Recio(参考訳) ブダペスト・オープンサイエンスイニシアチブ(boai)やフリー/オープンソースソフトウェア(foss)やオープンデータムーブメント(open data movement)によって強化された概念の上に立ち、可視性、アクセス性、再利用可能なものにするために、研究成果を共有・配布する政治・法的な枠組みとしてのオープンサイエンス定義の提案を動機とする、オープンサイエンスの単一、受け入れられた統一的な定義は存在しないと広く認識されている。 本提案は、選択されたEC政策や法則の詳細な分析と、研究評価の実践機能を通じて、本提案を詳述する。 本試験で考慮すべき法的側面は,特に,研究成果の普及の文脈におけるライセンスの役割に関する研究である。

It is widely recognised nowadays that there is no single, accepted, unified definition of Open Science, which motivates our proposal of an Open Science definition as a political and legal framework where research outputs are shared and disseminated in order to be rendered visible, accessible, reusable is developed, standing over the concepts enhanced by the Budapest Open Science Initiative (BOAI), and by the Free/Open Source Software (FOSS) and Open data movements. We elaborate this proposal through a detailed analysis of some selected EC policies and laws as well as of the function of research evaluation practices. The legal aspects considered in our examination include, in particular, the study of the role of licenses in the context of the dissemination of research outputs.
翻訳日:2023-04-29 13:29:49 公開日:2021-08-13
# セキュア量子計算の丸い複雑性について

On The Round Complexity of Secure Quantum Computation ( http://arxiv.org/abs/2011.11212v3 )

ライセンス: Link先を確認
James Bartusek, Andrea Coladangelo, Dakshita Khurana, Fermi Ma(参考訳) 我々は、悪意のある敵に対するセキュリティを備えた2パーティ(2PQC)およびマルチパーティ(MPQC)設定において、セキュアな量子計算のための最初の定ラウンドプロトコルを構築した。 私たちのプロトコルは、common random string (crs)モデルにあります。 -2-message oblivious transfer(ot)を仮定すると、 (i)3メッセージ2PQC及び (ii)オンライン(入力依存)通信を3ラウンドしか持たない5ラウンドmpqc。このようなotは、qlwe(quantum-hard learning with error)で知られている。 -QLWEの亜指数硬度を仮定すると、得られる。 (i)オンラインラウンド2回3ラウンド2PQC (ii)オンライン2ラウンドの4ラウンドmpqc。 従来、このようなプロトコルは非対話的セキュア計算(non-interactive secure computation,nisc)と呼ばれ、結果として最初の悪意あるセキュアな量子niscを構成する。 さらに、NP(MDV-NIZKs)に対する再利用可能な不正な指定検証NIZK引数を仮定し、量子証人のコピーのみを必要とするQMAに対する最初のMDV-NIZKを与える。 最後に、各パーティが出力を得る必要がある2ラウンドのセキュアな量子計算について予備的な調査を行う。 負の面では、量子環境では動作しない古典的な2ラウンドセキュアな計算のために十分である幅広いシミュレーション戦略を識別する。 次に、概念実証として、2ラウンドのセキュアな量子計算が量子神託に関して存在することを示す。

We construct the first constant-round protocols for secure quantum computation in the two-party (2PQC) and multi-party (MPQC) settings with security against malicious adversaries. Our protocols are in the common random string (CRS) model. - Assuming two-message oblivious transfer (OT), we obtain (i) three-message 2PQC, and (ii) five-round MPQC with only three rounds of online (input-dependent) communication; such OT is known from quantum-hard Learning with Errors (QLWE). - Assuming sub-exponential hardness of QLWE, we obtain (i) three-round 2PQC with two online rounds and (ii) four-round MPQC with two online rounds. - When only one (out of two) parties receives output, we achieve minimal interaction (two messages) from two-message OT; classically, such protocols are known as non-interactive secure computation (NISC), and our result constitutes the first maliciously-secure quantum NISC. Additionally assuming reusable malicious designated-verifier NIZK arguments for NP (MDV-NIZKs), we give the first MDV-NIZK for QMA that only requires one copy of the quantum witness. Finally, we perform a preliminary investigation into two-round secure quantum computation where each party must obtain output. On the negative side, we identify a broad class of simulation strategies that suffice for classical two-round secure computation that are unlikely to work in the quantum setting. Next, as a proof-of-concept, we show that two-round secure quantum computation exists with respect to a quantum oracle.
翻訳日:2023-04-23 09:15:11 公開日:2021-08-13
# 量子世界におけるワンウェイ関数のセキュア計算

One-Way Functions Imply Secure Computation in a Quantum World ( http://arxiv.org/abs/2011.13486v2 )

ライセンス: Link先を確認
James Bartusek and Andrea Coladangelo and Dakshita Khurana and Fermi Ma(参考訳) 量子ハードの一方向関数は、任意の量子関数のセキュアな計算法として知られているQOT(Simulation-Secure Quant Oblivious Transfer)を暗示する。 さらに、我々の構成は量子ハード片道関数をブラックボックスでのみ利用する。 我々の主要な技術的貢献は、標準モデルにおける量子ハード片道関数のブラックボックス利用に基づく、抽出可能かつ等価な量子ビットコミットメントの構築である。 Cr\epeau-Kilian (FOCS 1988) フレームワークをこれらのコミットメントで強化すると、シミュレーションセーフな QOT が得られる。

We prove that quantum-hard one-way functions imply simulation-secure quantum oblivious transfer (QOT), which is known to suffice for secure computation of arbitrary quantum functionalities. Furthermore, our construction only makes black-box use of the quantum-hard one-way function. Our primary technical contribution is a construction of extractable and equivocal quantum bit commitments based on the black-box use of quantum-hard one-way functions in the standard model. Instantiating the Cr\'epeau-Kilian (FOCS 1988) framework with these commitments yields simulation-secure QOT.
翻訳日:2023-04-22 22:35:33 公開日:2021-08-13
# ランダム破壊と意図攻撃による量子インターネット

Quantum Internet under random breakdowns and intentional attacks ( http://arxiv.org/abs/2012.02241v3 )

ライセンス: Link先を確認
Bingzhi Zhang and Quntao Zhuang(参考訳) 量子ネットワークは分散量子情報処理において重要な役割を果たす。 ネットワークサイズが大きくなるにつれて、ランダムな破壊や意図的な攻撃といったネットワークレベルのエラーは避けられないため、従来のインターネットと同じような大規模量子ネットワークの堅牢性を理解することが重要である。 ワックスマンネットワークのような指数関数ネットワークでは、エラーは単にネットワークを再パラメータ化し、エラーの確率で量子容量を線形に減少させる。 同じ線形減衰はランダムな破壊下でスケールフリーの量子ネットワークで起こるが、接続性は以前発見されていたロバスト性である。 しかし、攻撃の存在下では、スケールフリー量子ネットワークの容量は攻撃率の増加とともに急激な指数減衰を示す。 本研究は,あらゆる種類の量子通信のためのファイバーに基づく量子インターネットに適用し,その堅牢性に関する量子ネットワークの今後の構築に示唆を与える。

Quantum networks will play a key role in distributed quantum information processing. As the network size increases, network-level errors like random breakdown and intentional attack are inevitable; therefore, it is important to understand the robustness of large-scale quantum networks, similar to what has been done for the classical counterpart---the Internet. For exponential networks such as Waxman networks, errors simply re-parameterize the network and lead to a linear decrease of the quantum capacity with the probability of error. The same linear decay happens for scale-free quantum networks under random breakdowns, despite the previously discovered robustness in terms of the connectivity. In presence of attack, however, the capacity of scale-free quantum networks shows a sharp exponential decay with the increasing attack fraction. Our results apply to quantum internet based on fibers for all kinds of quantum communications and provide implications for the future construction of quantum networks with regard to its robustness.
翻訳日:2023-04-22 05:07:12 公開日:2021-08-13
# 超伝導ワイヤアレイにおける$\mathbb{Z}_3$量子ダブル

$\mathbb{Z}_3$ quantum double in a superconducting wire array ( http://arxiv.org/abs/2101.01720v3 )

ライセンス: Link先を確認
Zhi-Cheng Yang, Dmitry Green, Hongji Yu, and Claudio Chamon(参考訳) ジョゼフソン接合を介して結合された超伝導ワイヤの配列において、$\mathbb{z}_3$ quantum double が実現可能であることを示す。 好適に選択された磁束のスレッディングにより、配線間ジョセフソン結合は、組合せゲージ対称性を持つ複雑なアダマール行列の形をとる(局所的な$\mathbb{Z}_3$対称性は超伝導相の$\pm 2\pi/3$の置換とシフトを含む)。 ジョセフソンエネルギーから生じる恒星ポテンシャルの兆候は、この物理的実現において反転し、非零磁束セクタにおいて大きな縮退をもたらす。 アレイのキャパシタンスに符号化された二量体化パターンはこれらの退化子を持ち上げ、$\mathbb{Z}_3$ 位相的に順序づけられた状態となる。 さらに、この二量化パターンは、通常の(逆)恒星項の標準の場合と比較して、より効果的なバイソンギャップをもたらす。 さらに、我々のモデルは双対変換の下で量子三状態ポッツモデルに写像することを示す。 ボゾン化と平均場理論の組み合わせを用いて、キャパシタンスのダイマー化パターンを変化させると、$\mathbb{Z}_3$位相相から量子XY順序相へ遷移すると主張する。 我々の研究は、組合せゲージ対称性が現実的な相互作用を持つシステムを用いて量子二重モデルを構築する設計原理として役立つことを強調している。

We show that a $\mathbb{Z}_3$ quantum double can be realized in an array of superconducting wires coupled via Josephson junctions. With a suitably chosen magnetic flux threading the system, the inter-wire Josephson couplings take the form of a complex Hadamard matrix, which possesses combinatorial gauge symmetry -- a local $\mathbb{Z}_3$ symmetry involving permutations and shifts by $\pm 2\pi/3$ of the superconducting phases. The sign of the star potential resulting from the Josephson energy is inverted in this physical realization, leading to a massive degeneracy in the non-zero flux sectors. A dimerization pattern encoded in the capacitances of the array lifts up these degeneracies, resulting in a $\mathbb{Z}_3$ topologically ordered state. Moreover, this dimerization pattern leads to a larger effective vison gap as compared to the canonical case with the usual (uninverted) star term. We further show that our model maps to a quantum three-state Potts model under a duality transformation. We argue, using a combination of bosonization and mean field theory, that altering the dimerization pattern of the capacitances leads to a transition from the $\mathbb{Z}_3$ topological phase into a quantum XY-ordered phase. Our work highlights that combinatorial gauge symmetry can serve as a design principle to build quantum double models using systems with realistic interactions.
翻訳日:2023-04-17 19:49:02 公開日:2021-08-13
# 傾斜1次元フェルミ-ハッバードモデルにおける量子的傷点の実現の提案

A proposal for realising quantum scars in the tilted 1D Fermi-Hubbard model ( http://arxiv.org/abs/2102.01675v2 )

ライセンス: Link先を確認
Jean-Yves Desaules, Ana Hudomal, Christopher J. Turner and Zlatko Papi\'c(参考訳) 傾斜ポテンシャルを持つ1Dフェルミ-ハッバード鎖におけるヒルベルト空間の破れによるエルゴディディティ破壊の最近の観測(Scherg et al., arXiv:2010.12965]により、同じ系でも電子充填係数$\nu=1$で量子多体傷を負うことが示されている。 このモデルにおけるスカーリング現象は、リドベルク原子鎖のような他の既知の現象と類似しており、永続的な動的回復やエルゴード性破壊多体固有状態を含む。 同時に、Fermi-Hubbardモデルにおける傷跡のメカニズムは他の文献の他の例とは異なることが示される: 傷痕は、ハミルトンの隣接グラフの他の部分と弱結合である自由スピン-1パラマグネットを表す部分グラフに由来する。 本研究は,傾斜した光学格子内の相関フェルミオンが多体スカーリングの相互作用や局所化やヒルベルト空間のフラグメンテーションといった他のエルゴーディティ破壊の形式を理解するためのプラットフォームを提供することを示した。

Motivated by recent observations of ergodicity breaking due to Hilbert space fragmentation in 1D Fermi-Hubbard chains with a tilted potential [Scherg et al., arXiv:2010.12965], we show that the same system also hosts quantum many-body scars in a regime $U\approx \Delta \gg J$ at electronic filling factor $\nu=1$. We numerically demonstrate that the scarring phenomenology in this model is similar to other known realisations such as Rydberg atom chains, including persistent dynamical revivals and ergodicity-breaking many-body eigenstates. At the same time, we show that the mechanism of scarring in the Fermi-Hubbard model is different from other examples in the literature: the scars originate from a subgraph, representing a free spin-1 paramagnet, which is weakly connected to the rest of the Hamiltonian's adjacency graph. Our work demonstrates that correlated fermions in tilted optical lattices provide a platform for understanding the interplay of many-body scarring and other forms of ergodicity breaking, such as localisation and Hilbert space fragmentation.
翻訳日:2023-04-13 00:29:58 公開日:2021-08-13
# de Broglie-Bohm理論における測定結果

The outcomes of measurements in the de Broglie-Bohm theory ( http://arxiv.org/abs/2102.02519v3 )

ライセンス: Link先を確認
G. Tastevin and F. Lalo\"e(参考訳) De Broglie-Bohm (dBB) 理論の中では, 測定系 S. % のボフミアン位置の影響の観点から, 測定過程と結果の決定が議論されることが多い。 実際、多くの場合、結果はSに付随するボヘミア位置の初期値とは事実上独立であり、M の値のみによって決定される。 量子文脈性は、絡み合った系に対するdBBダイナミクスの結果、特定の明快さで現れる。

Within the de Broglie-Bohm (dBB) theory, the measurement process and the determination of its outcome are usually discussed in terms of the effect of the Bohmian positions of the measured system S. %} This article shows that the Bohmian positions associated with the measurement apparatus M can actually play a crucial role in the determination of the result of measurement. Indeed, in many cases, the result is practically independent of the initial value of a Bohmian position associated with S, and determined only by those of M. The measurement then does not reveal the value of any pre-existing variable attached to S, but just the initial state of the measurement apparatus. Quantum contextuality then appears with particular clarity as a consequence of the dBB dynamics for entangled systems.
翻訳日:2023-04-12 20:00:31 公開日:2021-08-13
# Merged-Element Transmons:設計とQubitパフォーマンス

Merged-Element Transmons: Design and Qubit Performance ( http://arxiv.org/abs/2103.09163v2 )

ライセンス: Link先を確認
H. J. Mamin, E. Huang, S. Carnevale, C. T. Rettner, N. Arellano, M. H. Sherwood, C. Kurter, B. Trimm, M. Sandberg, R. M. Shelby, M. A. Mueed, B. A. Madon, A. Pushp, M. Steffen, and D. Rugar(参考訳) 我々は、ジョセフソン接合部を独自の並列シャントコンデンサとして機能させる新しいタイプの超伝導トランスモン量子ビットを実証した。 マージエレメントトランスモン(MET)は、従来のトランスモンよりもフットプリントが小さく、製造も簡単である可能性がある。 接合部内の電磁エネルギーを集中するため、他の界面からの相対電界参加を減少させる。 マイクロメートルスケールのAl/AlOx/Al接合と長い酸化と新規な処理を組み合わせることで、低トランモン状態のE_{J}$/$E_{C}$(E_{J}$/$E_{C}$$\lesssim$30)で機能デバイスを製造しました。 低温I-V測定は,低ギャップ導電率の鋭いdI/dV構造を示した。 可変バージョンのクビット分光は回避レベル交差の少ないことを示し、2レベル系(TLS)の存在を示唆している。 平均T1回は10~90マイクロ秒の範囲で平均T1回, 熱処理した装置ではT1〜100マイクロ秒を数時間で観測した。 その結果, 従来の小さな接合トランスモンのエネルギー緩和は接合損失によって制限されないことが示唆された。

We have demonstrated a novel type of superconducting transmon qubit in which a Josephson junction has been engineered to act as its own parallel shunt capacitor. This merged-element transmon (MET) potentially offers a smaller footprint and simpler fabrication than conventional transmons. Because it concentrates the electromagnetic energy inside the junction, it reduces relative electric field participation from other interfaces. By combining micrometer-scale Al/AlOx/Al junctions with long oxidations and novel processing, we have produced functional devices with $E_{J}$/$E_{C}$ in the low transmon regime ($E_{J}$/$E_{C}$ $\lesssim$30). Cryogenic I-V measurements show sharp dI/dV structure with low sub-gap conduction. Qubit spectroscopy of tunable versions show a small number of avoided level crossings, suggesting the presence of two-level systems (TLS). We have observed mean T1 times typically in the range of 10-90 microseconds, with some annealed devices exhibiting T1 > 100 microseconds over several hours. The results suggest that energy relaxation in conventional, small-junction transmons is not limited by junction loss.
翻訳日:2023-04-07 23:34:18 公開日:2021-08-13
# セキュアで実用的なマルチパーティ量子デジタル署名

Secure and practical multiparty quantum digital signatures ( http://arxiv.org/abs/2104.12059v2 )

ライセンス: Link先を確認
Chen-Xun Weng, Yu-Shuo Lu, Rui-Qi Gao, Yuan-Mei Xie, Jie Gu, Chen-Long Li, Bing-Hong Li, Hua-Lei Yin, Zeng-Bing Chen(参考訳) 量子デジタル署名(QDS)は、メッセージの弁明と偽造に対する情報理論のセキュリティを約束する。 既存の3パーティQDSプロトコルと比較して、マルチパーティプロトコルは、マスメッセージを送信する際に2つ以上の受信機を実際に使用する場合に、ユニークな利点がある。 しかし、複雑なセキュリティ分析、多数の量子チャネル、データ利用効率の低いため、サードパーティをマルチパーティに拡張することは困難である。 ここでは、6状態の非直交符号化プロトコルに基づいて、これらの困難を克服する効果的な多人数QDSフレームワークを提案する。 我々のプロトコルにおける量子チャネルの数は、ユーザ数にのみ線形に依存する。 本手法は,データ利用効率を向上し,五者シナリオにおいても検出事象の発生確率と線形にスケールできるようにする。 本研究は,将来のQDSネットワークへの道筋をたどる,実用的なマルチパーティプロトコルの欠如を補うものである。

Quantum digital signatures (QDSs) promise information-theoretic security against repudiation and forgery of messages. Compared with currently existing three-party QDS protocols, multiparty protocols have unique advantages in the practical case of more than two receivers when sending a mass message. However, complex security analysis, numerous quantum channels and low data utilization efficiency make it intractable to expand three-party to multiparty scenario. Here, based on six-state non-orthogonal encoding protocol, we propose an effective multiparty QDS framework to overcome these difficulties. The number of quantum channels in our protocol only linearly depends on the number of users. The post-matching method is introduced to enhance data utilization efficiency and make it linearly scale with the probability of detection events even for five-party scenario. Our work compensates for the absence of practical multiparty protocols, which paves the way for future QDS networks.
翻訳日:2023-04-02 11:14:09 公開日:2021-08-13
# 強磁性トルクセンサによるエネルギー分解能限界を超える

Surpassing the Energy Resolution Limit with ferromagnetic torque sensors ( http://arxiv.org/abs/2104.14425v2 )

ライセンス: Link先を確認
Andrea Vinante, Chris Timberlake, Dmitry Budker, Derek Jackson Kimball, Alexander O. Sushkov, Hendrik Ulbricht(参考訳) 浮上磁石を用いた強磁性トルクセンサの基本ノイズ制限について検討した。 標準量子限界(sql)における熱力学的ノイズと機械的検出ノイズを考慮した最適磁場分解能の評価を行った。 近年の文献では、磁気センサのほとんどのクラスで関連するベンチマークとして指摘されているエネルギー分解限界(ERL)は、桁違いに超える可能性がある。 さらに、強磁性ジャイロスコープの場合と同様に、スピン投影ノイズから生じる独立スピンによる磁気測定の標準量子限界を超えることも可能である。 その結果,磁力計に最適化された磁気力学系は,従来の磁気センサよりも数桁の磁場分解能が得られることがわかった。 我々は、標準モデルを超えたエキゾチックな相互作用の探索のような基本的な物理問題に焦点をあてる。

We discuss the fundamental noise limitations of a ferromagnetic torque sensor based on a levitated magnet in the tipping regime. We evaluate the optimal magnetic field resolution taking into account the thermomechanical noise and the mechanical detection noise at the standard quantum limit (SQL). We find that the Energy Resolution Limit (ERL), pointed out in recent literature as a relevant benchmark for most classes of magnetometers, can be surpassed by many orders of magnitude. Moreover, similarly to the case of a ferromagnetic gyroscope, it is also possible to surpass the standard quantum limit for magnetometry with independent spins, arising from spin-projection noise. Our finding indicates that magnetomechanical systems optimized for magnetometry can achieve a magnetic field resolution per unit volume several orders of magnitude better than any conventional magnetometer. We discuss possible implications, focusing on fundamental physics problems such as the search for exotic interactions beyond the standard model.
翻訳日:2023-04-02 01:59:45 公開日:2021-08-13
# 最小2体量子吸収冷凍機

Minimal two-body quantum absorption refrigerator ( http://arxiv.org/abs/2105.05835v2 )

ライセンス: Link先を確認
Bibek Bhandari and Andrew N. Jordan(参考訳) 本研究では,作業ではなく加熱によって冷凍を行う吸収冷凍現象を,結合量子ビットに基づく最小設定と非線形結合共振器の2つの異なる構成で検討した。 2つの量子ビット間のZZ相互作用を考えると、冷却に必要な基本成分を概説する。 局所的および大域的マスター方程式を用いて、qubit-qubitカップリングにおけるXX型項の包含は冷却に有害である。 量子ビットの場合の冷却効果と、ZZ相互作用がKerr型非線形性に変換する非線形結合共振器(マルチレベルシステム)の冷却効果を比較する。 非線型性の小さいから中間的な強度については、例えば量子量子系は量子ビットよりも冷却効果が良いことを観察する。 ケルディッシュ非平衡グリーン関数形式を用いて、一階連続トンネル化過程を越え、冷蔵に対する高次過程の影響を考察する。 主方程式計算と比較して冷却効果が低下することがわかった。

We study the phenomenon of absorption refrigeration, where refrigeration is achieved by heating instead of work, in two different setups: a minimal set up based on coupled qubits, and two non-linearly coupled resonators. Considering ZZ interaction between the two qubits, we outline the basic ingredients required to achieve cooling. Using local as well as global master equations, we observe that inclusion of XX type term in the qubit-qubit coupling is detrimental to cooling. We compare the cooling effect obtained in the qubit case with that of non-linearly coupled resonators (multi-level system) where the ZZ interaction translates to a Kerr-type non-linearity. For small to intermediate strengths of non-linearity, we observe that multi-level quantum systems, for example qutrits, give better cooling effect compared to the qubits. Using Keldysh non-equilibrium Green's function formalism, we go beyond first order sequential tunneling processes and study the effect of higher order processes on refrigeration. We find reduced cooling effect compared to the master equation calculations.
翻訳日:2023-03-31 08:43:55 公開日:2021-08-13
# キャビティマグノニクス系におけるパラメトリック駆動によるパリティ対称性破れ量子相転移

Parity-symmetry-breaking quantum phase transition via parametric drive in a cavity magnonic system ( http://arxiv.org/abs/2105.08371v3 )

ライセンス: Link先を確認
Guo-Qiang Zhang, Zhen Chen, Wei Xiong, Chi-Hang Lam, and J. Q. You(参考訳) 強磁性イットリウム-鉄-ガーネット球面のマグノンがマイクロ波共振器に強く結合するパラメトリック磁場により駆動されるキャビティマグノン系におけるパリティ対称性破断量子相転移(qpt)について検討した。 適切なパラメータにより、このキャビティマグノニック系はパリティ対称相、パリティ対称性ブロッキング相、双安定相を含む豊富な位相図を示すことができる。 臨界しきい値を超える駆動強度を増大させるとき、キャビティ・マグノニクス系は、パリティ対称性の位相からパリティ対称性の破壊相への微視的な励起を伴う1階または2階の非平衡QPTのいずれかを系のパラメータによって行う。 我々の研究は、強い交換相互作用を持つフェライトまたは強磁性材料にスピンアンサンブルを含むハイブリッド量子系でQPTを設計する代替手段を提供する。

We study the parity-symmetry-breaking quantum phase transition (QPT) in a cavity magnonic system driven by a parametric field, where the magnons in a ferrimagnetic yttrium-iron-garnet sphere strongly couple to a microwave cavity. With appropriate parameters, this cavity magnonic system can exhibit a rich phase diagram, including the parity-symmetric phase, parity-symmetry-broken phase, and bistable phase. When increasing the drive strength beyond a critical threshold, the cavity magnonic system undergoes either a first- or second-order nonequilibrium QPT from the parity-symmetric phase with microscopic excitations to the parity-symmetry-broken phase with macroscopic excitations, depending on the parameters of the system. Our work provides an alternate way to engineer the QPT in a hybrid quantum system containing the spin ensemble in a ferri- or ferromagnetic material with strong exchange interactions.
翻訳日:2023-03-30 20:08:03 公開日:2021-08-13
# 1次元フォトニックトポロジカル絶縁体における圧縮状態の四次保護

Quadrature protection of squeezed states in a one-dimensional photonic topological insulator ( http://arxiv.org/abs/2106.00869v2 )

ライセンス: Link先を確認
J. Medina Due\~nas, G. O'Ryan P\'erez, Carla Hermann-Avigliano, L. E. F. Foa Torres(参考訳) フォトニック格子における量子光の伝播におけるトポロジーの役割 我々は, 位相的一次元導波路アレイにおけるスクイーズ状態の伝播を解析し, 位相的自明な局所状態に対する結果のベンチマークを行い, 障害に対するロバスト性について検討した。 具体的には、光子統計、一モード・二モードスクイーズ、および局所状態が圧縮光で励起された場合の絡み合いの発生について研究する。 これらの量子特性は局所状態の形状を継承するが、より興味深いことに、トポロジカルに自明な場合とは異なり、トポロジカルに保護された状態でのシャープドライトの伝播は、システムが進化するにつれてシャープドクオーチュアの位相を強く保存する。 後者のトポロジ的優位性は量子情報プロトコルにどのように活用できるかを示す。

What is the role of topology in the propagation of quantum light in photonic lattices? We address this question by studying the propagation of squeezed states in a topological one-dimensional waveguide array, benchmarking our results with those for a topologically trivial localized state, and studying their robustness against disorder. Specifically, we study photon statistics, one-mode and two-mode squeezing, and entanglement generation when the localized state is excited with squeezed light. These quantum properties inherit the shape of the localized state but, more interestingly, and unlike in the topologically trivial case, we find that propagation of squeezed light in a topologically protected state robustly preserves the phase of the squeezed quadrature as the system evolves. We show how this latter topological advantage can be harnessed for quantum information protocols.
翻訳日:2023-03-28 01:34:28 公開日:2021-08-13
# 1つの初期状態を用いた純状態生成のための量子最適制御

Quantum Optimal Control for Pure-State Preparation Using One Initial State ( http://arxiv.org/abs/2106.09148v2 )

ライセンス: Link先を確認
Stefanie G\"unther, N. Anders Petersson, Jonathan L. DuBois(参考訳) 本稿では,数値最適制御を用いた純状態生成問題の解法を提案する。 例えば、数個の量子ビットが分散して読み出し空洞に結合される場合を考える。 我々は、外部制御パルスによって駆動されるマルコフ・リンドブラッドマスター方程式を用いて、オープンシステム量子力学をモデル化する。 本論文の主な結果は、各基底要素が密度行列自身であるような密度行列(パラメータ化)の基礎を開発することである。 特定の目的関数を利用することで、最適化プロセスを通して、システム次元に依存しない、基底要素のアンサンブルを単一の初期状態として使用できることを示す。 我々は, 1 と 2 つの qubit を読み出しキャビティに結合した基底状態リセットの特定の応用に汎用フレームワークを適用する。

This paper presents a framework for solving the pure-state preparation problem using numerical optimal control. As an example, we consider the case where a number of qubits are dispersively coupled to a readout cavity. We model open system quantum dynamics using the Markovian Lindblad master equation, driven by external control pulses. The main result of this paper develops a basis of density matrices (a parameterization) where each basis element is a density matrix itself. Utilizing a specific objective function, we show how an ensemble of the basis elements can be used as a single initial state throughout the optimization process - independent of the system dimension. We apply the general framework to the specific application of ground-state reset of one and two qubits coupled to a readout cavity.
翻訳日:2023-03-26 12:50:19 公開日:2021-08-13
# 革新的AIコースの指導によるMOOC-Eraの立ち上がり

Staying Ahead in the MOOC-Era by Teaching Innovative AI Courses ( http://arxiv.org/abs/2107.04024v2 )

ライセンス: Link先を確認
Patrick Glauner(参考訳) 教育のデジタル化が急速に進んでいる結果、大学はMOOC(Massive Open Online Courses)と大きな競争に直面し始めている。 したがって大学は、予見的な学生に3年から5年の学位プログラムの付加価値を正当化するためにMOOCから分離する必要がある。 本稿では、MLとAIのDeggendorf Institute of Technologyにおいて、この課題にどのように対処するかを示す。 私たちはまず、ベストプラクティスを共有し、独自の販売提案を含む2つの具体的なコースを提示します。 次に、これらのコースがdeggendorf institute of technologyのmooc(および他の大学)と差別化する能力にどのように寄与するかを示す。

As a result of the rapidly advancing digital transformation of teaching, universities have started to face major competition from Massive Open Online Courses (MOOCs). Universities thus have to set themselves apart from MOOCs in order to justify the added value of three to five-year degree programs to prospective students. In this paper, we show how we address this challenge at Deggendorf Institute of Technology in ML and AI. We first share our best practices and present two concrete courses including their unique selling propositions: Computer Vision and Innovation Management for AI. We then demonstrate how these courses contribute to Deggendorf Institute of Technology's ability to differentiate itself from MOOCs (and other universities).
翻訳日:2023-03-25 18:12:26 公開日:2021-08-13
# エキシトン-ポラリトン凝縮体の二重井戸電位における自己組織化PT対称性

Self-organized PT-symmetry of exciton-polariton condensate in a double-well potential ( http://arxiv.org/abs/2107.01675v2 )

ライセンス: Link先を確認
Panayotis A. Kalozoumis and David Petrosyan(参考訳) 半導体励起子-ポーラリトン凝縮体の二重井戸ポテンシャルにおけるダイナミクスと定常状態について検討する。 レーザー励起によるポラリトン人口の増大に伴い, 偏光子の位相変動によるコヒーレンス緩和は, 自己組織型PT対称相に対応する安定な固定点へと誘導されることがわかった。

We investigate the dynamics and stationary states of a semiconductor exciton-polariton condensate in a double well potential. We find that upon the population build up of the polaritons by above-threshold laser pumping, coherence relaxation due to the phase fluctuations of the polaritons drives the system into a stable fixed point corresponding to a self-organized PT-symmetric phase.
翻訳日:2023-03-23 11:20:35 公開日:2021-08-13
# 表面上の量子粒子:カテナリー表面と革命のパラボロイド

Quantum particle on a surface: Catenary surface and Paraboloid of revolution ( http://arxiv.org/abs/2107.05621v2 )

ライセンス: Link先を確認
S. Habib Mazharimousavi(参考訳) 曲面上に閉じ込められた量子粒子の「シュル」{o}ディンガー方程式を再検討する。 R. C. T. da Costa [1] の新たな研究に触発されて、より便利な記法で場方程式が見つかる。 表面上の有効結合電位に対する主曲率の寄与を強調した。 さらに、いわゆるmonge-gauge を用いて、小さなゆらぎを持つ平坦曲面に対する近似 schr\"{o}dinger 方程式を構築する。 最後に、結果のSchr\"{o}dinger方程式は特定の曲面に対して解かれる。 特に、陰極面に閉じ込められた粒子と、回転の放物型粒子の正確な解を与える。

We revisit the Schr\"{o}dinger equation of a quantum particle that is confined on a curved surface. Inspired by the novel work of R. C. T. da Costa [1] we find the field equation in a more convenient notation. The contribution of the principal curvatures in the effective binding potential on the surface is emphasized. Furthermore, using the so-called Monge-Gauge we construct the approximate Schr\"{o}dinger equation for a flat surface with small fluctuations. Finally, the resulting Schr\"{o}dinger equation is solved for some specific surfaces. In particular, we give exact solutions for a particle confined on a Catenary surface and a paraboloid of revolution.
翻訳日:2023-03-23 04:07:00 公開日:2021-08-13
# 社会触媒:会話の火花を放つ人を特徴づける

Social Catalysts: Characterizing People Who Spark Conversations Among Others ( http://arxiv.org/abs/2107.04936v2 )

ライセンス: Link先を確認
Martin Saveski, Farshad Kooti, Sylvia Morelli Vitousek, Carlos Diuk, Bryce Bartlett, Lada Adamic(参考訳) 人々はソーシャルネットワーク内で異なる重要な役割を担います。 いくつかの役割は、十分に接続されたインフルエンサーや、ネットワークの未接続部分をブリッジするブローカーなど、広範な研究を受けている。 しかしながら、人々が対話し、会話を促進する機会を生み出すという、潜在的に重要な役割を探求する作業はほとんどない。 これらの個人は人々をまとめ、社会触媒として働きます。 本稿では,オンラインソーシャルネットワークFacebookにおけるソーシャル触媒の存在を検証した。 まず、ポスターの友人同士の会話を刺激した投稿を特定し、それらの投稿の特徴を要約する。 次に、その個人の「触媒性」の尺度として、触媒されたコメントの数をポスターレベルで集計する。 これらの人の上位1%は触媒的相互作用の31%を占めるが、そのネットワーク特性は頻繁に投稿し、同じ数の友人を持つ他の人々と大きく異なるわけではない。 また,調査データを収集することで,他者との議論を頻繁に促す場合には,友人によって社会的触媒として推薦される傾向が強まる。 この尺度は、他の会話に関連した機能とともに、ある人物が触媒として指名される最も予測的なものの一つである。 インフルエンサーやブローカーはネットワークのポジションに注意を払っているかもしれないが、我々の発見は、他の重要な役割が存在するという確固たる証拠を提供し、オンラインソーシャルネットワークで認識されている。

People assume different and important roles within social networks. Some roles have received extensive study: that of influencers who are well-connected, and that of brokers who bridge unconnected parts of the network. However, very little work has explored another potentially important role, that of creating opportunities for people to interact and facilitating conversation between them. These individuals bring people together and act as social catalysts. In this paper, we test for the presence of social catalysts on the online social network Facebook. We first identify posts that have spurred conversations between the poster's friends and summarize the characteristics of such posts. We then aggregate the number of catalyzed comments at the poster level, as a measure of the individual's "catalystness." The top 1% of such individuals account for 31% of catalyzed interactions, although their network characteristics do not differ markedly from others who post as frequently and have a similar number of friends. By collecting survey data, we also validate the behavioral measure of catalystness: a person is more likely to be nominated as a social catalyst by their friends if their posts prompt discussions between other people more frequently. The measure, along with other conversation-related features, is one of the most predictive of a person being nominated as a catalyst. Although influencers and brokers may have gotten more attention for their network positions, our findings provide converging evidence that another important role exists and is recognized in online social networks.
翻訳日:2023-03-22 20:13:28 公開日:2021-08-13
# 超伝導クトリット量子ビット系におけるトレードオフオフアングルエンタングルメント安定化

Trade off-Free Entanglement Stabilization in a Superconducting Qutrit-Qubit System ( http://arxiv.org/abs/2107.13579v2 )

ライセンス: Link先を確認
Tristan Brown, Emery Doucet, Diego Rist\`e, Guilhem Ribeill, Katarina Cicak, Joe Aumentado, Ray Simmonds, Luke Govia, Archana Kamal, and Leonardo Ranzani(参考訳) 量子貯水池工学は、自律的な量子状態の準備と誤り訂正のための強力なフレームワークである。 しかし、従来の貯水池工学のアプローチは、目標状態から避けられないコヒーレントな漏れによって妨げられ、達成可能な定常状態の忠実性と安定化率の間に固有のトレードオフを課す。 本研究では,回路qed プラットフォーム上で実現された qutrit-qubit システムにおいて,取引オフベル状態安定化を実現するプロトコルを実証する。 超伝導トランスモンの2次励振状態と工学的なバス共振器を結合した強いパラメトリック相互作用を介し, ターゲット状態への人口移動のための純粋散逸チャネルを作成する。 提案手法は339 nsの安定化時間定数で84%の再現性を実現し,これまでに固体量子情報プラットフォームで報告されている最も低いエラータイム製品となる。

Quantum reservoir engineering is a powerful framework for autonomous quantum state preparation and error correction. However, traditional approaches to reservoir engineering are hindered by unavoidable coherent leakage out of the target state, which imposes an inherent trade off between achievable steady-state state fidelity and stabilization rate. In this work we demonstrate a protocol that achieves trade off-free Bell state stabilization in a qutrit-qubit system realized on a circuit-QED platform. We accomplish this by creating a purely dissipative channel for population transfer into the target state, mediated by strong parametric interactions coupling the second-excited state of a superconducting transmon and the engineered bath resonator. Our scheme achieves a state preparation fidelity of 84% with a stabilization time constant of 339 ns, leading to the lowest error-time product reported in solid-state quantum information platforms to date.
翻訳日:2023-03-20 16:53:39 公開日:2021-08-13
# 分散型ベーシックインカム:オンチェーンステイクと固定レートプロトコルによる富の創出

Decentralized Basic Income: Creating Wealth with On-Chain Staking and Fixed-Rate Protocols ( http://arxiv.org/abs/2107.14312v2 )

ライセンス: Link先を確認
Hakwan Lau, Stephen Tse(参考訳) 本稿では、安定した受動的所得を生み出すための分散型金融プロトコルの背景にあるメカニズムを評価する。 現在、こうした貯蓄金利は年間20%まで高く、米国ドルのような伝統的な通貨価値で支払うことができる。 したがって、暗号通貨市場の成長の恩恵を受けることができ、ボラティリティのリスクは最小限に抑えられる。 我々は、これらの貯蓄製品の背後にある理論的根拠を、簡単に説明することを目指している。 このパズルの鍵は、ネットワークコンセンサス機構や自動市場(融資など)を促進するため、暗号通貨エコシステムの資産預金が本質的な経済価値であることである。 これらの機能は参加者に富をもたらし、従来の金融システムでは利用できないユニークな利点を提供する。 我々のレビューは、普遍的ベーシックインカムに似ているが、公共政策ではなくブロックチェーン上の金融製品によって保証される分散ベーシックインカムの概念について述べています。 私たちは、固定レートの貸出プロトコルやデリバティブトークンの取得を通じて、pos( proof-of-stake)プロトコルで貯蓄をstake depositsに流す方法の実装を精査し、最小のリスクでセーバーを公開します。 潜在的な落とし穴を議論し、これらのプロトコルが市場サイクルでどのように振る舞うかを評価し、さらなる研究開発の分野を提案する。

In this review, we evaluate the mechanisms behind the decentralized finance protocols for generating stable, passive income. Currently, such savings interest rates can be as high as 20% annually, payable in traditional currency values such as US dollars. Therefore, one can benefit from the growth of the cryptocurrency markets, with minimal exposure to their volatility risks. We aim to explain the rationale behind these savings products in simple terms. The key to this puzzle is that asset deposits in cryptocurrency ecosystems are of intrinsic economic value, as they facilitate network consensus mechanisms and automated marketplaces (e.g. for lending). These functions create wealth for the participants, and they provide unique advantages unavailable in traditional financial systems. Our review speaks to the notion of decentralized basic income - analogous to universal basic income but guaranteed by financial products on blockchains instead of public policies. We will go through their implementations of how savings can be channeled into the staking deposits in Proof-of-Stake (PoS) protocols, through fixed-rate lending protocols and staking derivative tokens, thereby exposing savers with minimal risks. We will discuss potential pitfalls, assess how these protocols may behave in market cycles, as well as suggest areas for further research and development.
翻訳日:2023-03-20 11:12:54 公開日:2021-08-13
# 信頼と説明可能性の関係について--エンジニアの信頼のために

On the Relation of Trust and Explainability: Why to Engineer for Trustworthiness ( http://arxiv.org/abs/2108.05379v2 )

ライセンス: Link先を確認
Lena K\"astner, Markus Langer, Veronika Lazar, Astrid Schom\"acker, Timo Speith, Sarah Sterz(参考訳) 近年,ソフトウェアシステムの説明可能性に対する要求が高まっている。 このような要求に対する主要な動機の1つは、説明可能性によってシステムに対するステークホルダーの信頼が促進されることである。 これは直感的に魅力的に見えるが、近年の心理学研究は、説明が必ずしも信頼を促進するとは限らないことを示している。 したがって、説明責任要件は信頼の促進には適さないかもしれない。 この発見に対応する一つの方法は、信頼ではなく、信頼に焦点を合わせることです。 これら2つが別れるかもしれないが、私たちは理想的には、信頼できるシステムとステークホルダの信頼の両方を望んでいる。 本稿では,信頼度が自動的に信頼につながりませんが,信頼度を主に設計する理由はいくつかあり,システムの説明性が信頼度に決定的に寄与する可能性があることを論じる。

Recently, requirements for the explainability of software systems have gained prominence. One of the primary motivators for such requirements is that explainability is expected to facilitate stakeholders' trust in a system. Although this seems intuitively appealing, recent psychological studies indicate that explanations do not necessarily facilitate trust. Thus, explainability requirements might not be suitable for promoting trust. One way to accommodate this finding is, we suggest, to focus on trustworthiness instead of trust. While these two may come apart, we ideally want both: a trustworthy system and the stakeholder's trust. In this paper, we argue that even though trustworthiness does not automatically lead to trust, there are several reasons to engineer primarily for trustworthiness -- and that a system's explainability can crucially contribute to its trustworthiness.
翻訳日:2023-03-18 19:10:56 公開日:2021-08-13
# 脱局在原子を用いた二重束分光法

Double-twisted spectroscopy with delocalized atoms ( http://arxiv.org/abs/2108.06045v1 )

ライセンス: Link先を確認
Igor P. Ivanov(参考訳) 原子とねじれた光との相互作用は、強い実験と理論的研究の対象である。 ほとんどすべての研究において、原子はねじれた光場の局所的なプローブと見なされている。 しかし、この論文で論じられたように、光-原子相互作用が非局在化状態の二重ツイスト状態、すなわち原子渦ビームによるツイスト光吸収、または非局所化状態の原子の2ツイスト光子分光によって研究される場合、概念的に新しい効果が生じる。 単色ツイスト光子や無限に狭い直線の場合でさえ、吸収は有限のデチューン範囲で起こる。 この範囲内では、急速に変化する吸収確率が予測され、同じ最終状態につながる2つの異なる経路によって引き起こされる干渉縞が明らかにされる。 これらのフリンジの数、位置、高さ、コントラストは、通常の分光設定ではアクセスできない励起過程に関する追加情報を与えることができる。 予測される効果の可視性は、将来のガンマ工場でイオンの大きなモーメントによって強化される。

Interaction of atoms with twisted light is the subject of intense experimental and theoretical investigation. In almost all studies, the atom is viewed as a localized probe of the twisted light field. However, as argued in this paper, conceptually novel effects will arise if light-atom interaction is studied in the double-twisted regime with delocalized atoms, that is, either via twisted light absorption by atom vortex beam, or via two-twisted-photon spectroscopy of atoms in a non-vortex but delocalized state. Even for monochromatic twisted photons and for an infinitely narrow line, absorption will occur over a finite range of detuning. Inside this range, a rapidly varying absorption probability is predicted, revealing interference fringes induced by two distinct paths leading to the same final state. The number, location, height and contrast of these fringes can give additional information on the excitation process which would not be accessible in usual spectroscopic settings. Visibility of the predicted effects will be enhanced at the future Gamma factory thanks to the large momenta of ions.
翻訳日:2023-03-18 15:11:34 公開日:2021-08-13
# 数個の複素軌道を用いたスピンの絡み合いダイナミクス

Entanglement dynamics of spins using a few complex trajectories ( http://arxiv.org/abs/2108.06021v1 )

ライセンス: Link先を確認
Matheus V. Scherer and Alexandre D. Ribeiro(参考訳) 本研究では,コヒーレント状態の積で初期合成された2つのスピンを考察し,それらの絡み合いダイナミクスを一般相互作用型ハミルトニアンによって研究する。 我々は、縮密度作用素の線形エントロピーに対する半古典公式の導出を可能にするアプローチを採用し、エンタングルメント量化器として仮定した。 結果として得られる表現は、基礎となる古典的記述から派生し、相互に連結された最終位相空間点を持つ4つの軌跡の集合に依存する。 このような古典的要素は、伝播時間の長い値であっても量子の絡み合いを再現することができ、古典的位相空間の複素領域への適切な解析的継続を仮定すると生じる。 この理論を特定の物理系に適用し、数組の複素軌道のみを考慮に入れることで、還元密度作用素の半古典線型エントロピーとその量子対との間の優れた一致が得られることを示した。

In this work, we consider two spins initially prepared in a product of coherent states and study their entanglement dynamics due to a general interacting Hamiltonian. We adopt an approach that allowed the derivation of a semiclassical formula for the linear entropy of the reduced density operator, assumed as an entanglement quantifier. The resulting expression depends on sets of four trajectories, originated from the underlying classical description, and having mutually connected final phase-space points. Such classical elements, which are capable to reproduce the quantum entanglement even for long values of propagation time, arise when we assume a proper analytical continuation of the classical phase space onto a complex domain. We apply this theory to a particular physical system, showing that taking into account only a few sets of complex trajectories is enough to get an excellent agreement between the semiclassical linear entropy of the reduced density operator and its quantum counterpart.
翻訳日:2023-03-18 15:11:16 公開日:2021-08-13
# QOptCraft: 線形光量子系の設計と研究のためのPythonパッケージ

QOptCraft: A Python package for the design and study of linear optical quantum systems ( http://arxiv.org/abs/2108.06186v1 )

ライセンス: Link先を確認
Daniel G\'omez Aguado, Vicent Gimeno, Julio Jos\'e Moyano-Fern\'andez, Juan Carlos Garcia-Escartin(参考訳) 線形光学系における光の量子状態の操作は、量子光学と量子計算に複数の応用がある。 QOptCraftパッケージは、線形干渉計を用いた量子実験を設計する際に、最も一般的な問題のいくつかを解決する方法のコレクションを提供する。 この方法には、システムの古典的な記述からn個の光子の量子進化行列を計算する関数と、任意の所望の量子進化のために、ユニタリ進化を実現する実験系の完全な記述を与えるか、あるいはそれが不可能である場合には、所望のユニタリを局所的に最小の誤差で近似する線形系の完全な記述を与える逆法が含まれる。 パッケージ内の関数には、線形系の古典的な散乱行列をビームスプリッターと位相シフト器のリストに変換する異なる既知の分解の実装と、n光子を持つ状態の量子進化を記述する効果的なハミルトニアンを計算する方法が含まれる。 このパッケージはランダム線形光学系の生成や行列対数計算などの有用なタスクのためのルーチンで完結している。 ルーチンは、線形系の記述に現れるユニタリ行列を扱うとき、通常の数値問題を避けるために選択される。

The manipulation of the quantum states of light in linear optical systems has multiple applications in quantum optics and quantum computation. The package QOptCraft gives a collection of methods to solve some of the most usual problems when designing quantum experiments with linear interferometers. The methods include functions that compute the quantum evolution matrix for n photons from the classical description of the system and inverse methods that, for any desired quantum evolution, will either give the complete description of the experimental system that realizes that unitary evolution or, when this is impossible, the complete description of the linear system which approximates the desired unitary with a locally minimal error. The functions in the package include implementations of different known decompositions that translate the classical scattering matrix of a linear system into a list of beam splitters and phase shifters and methods to compute the effective Hamiltonian that describes the quantum evolution of states with n photons. The package is completed with routines for useful tasks like generating random linear optical systems and computing matrix logarithms. The routines are chosen to avoid usual numerical problems when dealing with the unitary matrices that appear in the description of linear systems.
翻訳日:2023-03-18 15:08:37 公開日:2021-08-13
# 一般自由フェルミオン系における絡み合いスペクトル

Entanglement Spectrum in General Free Fermionic Systems ( http://arxiv.org/abs/2108.06124v1 )

ライセンス: Link先を確認
Eldad Bettelheim, Aditya Banerjee, Martin B. Plenio, Susana F. Huelga(参考訳) 無限系に埋め込まれた有限部分系の統計力学は、量子物理学の基本的な問題である。 それでも、すべての必要エントロピー測度に対する完全閉形式 {} は、問題となる有限系がいくつかの不連続区間からなるときでさえ一般の場合において存在しない。 ここでは、リーマン・ヒルベルト法に基づく数学的枠組みを開発し、有限系が2つの不連続な区間と熱力学的極限からなる1次元の場合(区間とそれらの間の空間は無限個の格子点を含み、その結果は熱力学的展開として与えられる)でこの問題を扱う。 提案手法の有用性を示すために, エンタングルメントと負性率の変化, すなわち, 縮小密度行列の固有値スペクトルを, 間隔の1つの時間反転なしで計算する。 私たちは、インターバル間の距離が、そのサイズよりもずっと大きい場合、これを行います。 この手法は、間隔とサイズの間の距離の比を拡大して任意の電力を計算するのに容易に適用できる。 これらの結果は, 局所環境下のフェルミオン系における量子相関の構造と範囲という, 具体的な物理シナリオにおける関連する問題に対処するために必要な数学的装置を提供することを期待する。

The statistical mechanics characterization of a finite subsystem embedded in an infinite system is a fundamental question of quantum physics. Nevertheless, a full closed form { for all required entropic measures} does not exist in the general case even for free systems when the finite system in question is composed of several disjoint intervals. Here we develop a mathematical framework based on the Riemann-Hilbert approach to treat this problem in the one-dimensional case where the finite system is composed of two disjoint intervals and in the thermodynamic limit (both intervals and the space between them contains an infinite number of lattice sites and the result is given as a thermodynamic expansion). To demonstrate the usefulness of our method, we compute the change in the entanglement and negativity namely the spectrum of eigenvalues of the reduced density matrix with our without time reversal of one of the intervals. We do this in the case that the distance between the intervals is much larger than their size. The method we use can be easily applied to compute any power in an expansion in the ratio of the distance between the intervals to their size. {We expect these results to provide the necessary mathematical apparatus to address relevant questions in concrete physical scenarios, namely the structure and extent of quantum correlations in fermionic systems subject to local environment.
翻訳日:2023-03-18 15:06:39 公開日:2021-08-13
# 光qrngによる厳密な統計試験による高エントロピー時間の実験的検証

Experimental demonstration of high-entropy time of arrival based optical QRNG qualifying stringent statistical tests ( http://arxiv.org/abs/2108.06112v1 )

ライセンス: Link先を確認
Anindita Banerjee, Anuj Sethia, Vijayalaxmi Mogiligidda, Rajesh Kumar Krishnan, Meiyappan AR, Sairam Rajamani, Vivek Shenoy(参考訳) 本稿では,光子到着時間に基づく高エントロピー光量子乱数生成器(QRNG)の実証を報告する。 我々は,115Mbpsの生データを生成する1psの時間分解能を有する高速・高精度電子機器を用いて,本方式を実装した。 ランダムビット生成効率は検出毎に8ビットである。 実験データは、最小バイアスを示す理論的推定と完全に一致している。 実時間情報理論的ランダム性抽出器を用いて109Mbpsの最終的なデータレートを生成する。 ランダム性は、nist、ent、diehard、tu-01、dieharderなどのよく知られた統計テストスイートに対して厳格に評価される。

We report a demonstration of a high-entropy optical quantum random number generator (QRNG) based on photon arrival time. We have implemented the scheme with high-speed and high-precision electronics with a time resolution of 1 ps generating 115 Mbps raw data. The random bit generation efficiency is 8 bits per detection. The experimental data is quite consistent with theoretical estimation showing minimum bias. We apply a real-time information-theoretic randomness extractor to generate a final data rate of 109 Mbps. The randomness is rigorously evaluated against well-known statistical test suites of NIST, ENT, Diehard, TU-01 and Dieharder.
翻訳日:2023-03-18 15:06:14 公開日:2021-08-13
# 機械学習によるガウス量子状態のパラメータ推定

Machine Learning Based Parameter Estimation of Gaussian Quantum States ( http://arxiv.org/abs/2108.06061v1 )

ライセンス: Link先を確認
Neel Kanth Kundu, Matthew R. McKay, and Ranjan K. Mallik(参考訳) 単一モードガウス量子状態のパラメータ推定のための機械学習フレームワークを提案する。 ベイズフレームワークでは,測定データから適切な事前分布のパラメータを推定する。 位相空間の変位とスクイーズパラメータ推定には、期待最大化(EM)に基づくアルゴリズムを導入し、位相パラメータ推定には経験的ベイズ法を適用した。 観測データとともに推定された事前分布パラメータを用いて, 未知の変位, スクイーズ, 位相パラメータのベイズ推定値を求める。 シミュレーションの結果,提案アルゴリズムは推定性能が,先行するパラメータの完全な知識を仮定したジェニー支援ベイズ推定器と非常に近いことがわかった。 提案手法は, ガウス量子状態のパラメータの最適ベイズ推定を, 先行分布パラメータの知識を必要とせず, 観測値のみを用いることで, 実験者により利用することができる。

We propose a machine learning framework for parameter estimation of single mode Gaussian quantum states. Under a Bayesian framework, our approach estimates parameters of suitable prior distributions from measured data. For phase-space displacement and squeezing parameter estimation, this is achieved by introducing Expectation-Maximization (EM) based algorithms, while for phase parameter estimation an empirical Bayes method is applied. The estimated prior distribution parameters along with the observed data are used for finding the optimal Bayesian estimate of the unknown displacement, squeezing and phase parameters. Our simulation results show that the proposed algorithms have estimation performance that is very close to that of Genie Aided Bayesian estimators, that assume perfect knowledge of the prior parameters. Our proposed methods can be utilized by experimentalists to find the optimum Bayesian estimate of parameters of Gaussian quantum states by using only the observed measurements without requiring any knowledge about the prior distribution parameters.
翻訳日:2023-03-18 15:06:05 公開日:2021-08-13
# ダイヤモンド中の窒素空孔中心を持つ広視野量子顕微鏡 : 強度、限界、展望

Widefield quantum microscopy with nitrogen-vacancy centers in diamond: strengths, limitations, and prospects ( http://arxiv.org/abs/2108.06060v1 )

ライセンス: Link先を確認
S. C. Scholten, A. J. Healey, I. O. Robertson, G. J. Abrahams, D. A. Broadway and J.-P. Tetienne(参考訳) ダイヤモンドの表面に近い窒素空孔(NV)中心の密度の高い層は、広視野光学顕微鏡で疑問視され、磁場、電場、格子ひずみなどの局所量の空間分解マップが作成され、近くに置かれた試料や装置に関する潜在的に価値のある情報が得られる。 2010年にこのような広視野NV顕微鏡を初めて実験的に実現して以来、この技術は凝縮物質物理学、地球科学、生物学など様々な分野の応用の急速な発展と実証が見られた。 このパースペクティブは、最も有望なアプリケーションを特定し、将来の開発を導くために、広視野NV顕微鏡の長所と短所を解析する。 まず、NV中心のアンサンブルを用いた量子センシングの簡単なレビューと、広視野NV顕微鏡の実験的実装から始める。 次に、磁気材料や電荷流分布を調べるために一般的に用いられる代替顕微鏡技術と比較する。 空間分解能, 測定精度, 磁気感度, 動作条件, 使いやすさの現在の限界について考察した。 最後に、上記の限界を解決する技術的進歩を特定し、それらの実装は実用的で、アクセス可能で、高スループットな広視野nv顕微鏡となると論じる。

A dense layer of nitrogen-vacancy (NV) centers near the surface of a diamond can be interrogated in a widefield optical microscope to produce spatially resolved maps of local quantities such as magnetic field, electric field and lattice strain, providing potentially valuable information about a sample or device placed in proximity. Since the first experimental realization of such a widefield NV microscope in 2010, the technology has seen rapid development and demonstration of applications in various areas across condensed matter physics, geoscience and biology. This Perspective analyzes the strengths and shortcomings of widefield NV microscopy in order to identify the most promising applications and guide future development. We begin with a brief review of quantum sensing with ensembles of NV centers, and the experimental implementation of widefield NV microscopy. We then compare this technology to alternative microscopy techniques commonly employed to probe magnetic materials and charge flow distributions. Current limitations in spatial resolution, measurement accuracy, magnetic sensitivity, operating conditions and ease of use, are discussed. Finally, we identify the technological advances that solve the aforementioned limitations, and argue that their implementation would result in a practical, accessible, high-throughput widefield NV microscope.
翻訳日:2023-03-18 15:05:49 公開日:2021-08-13
# ニューロモルフィックプロセッシング : 統一チュートリアル

Neuromorphic Processing: A Unifying Tutorial ( http://arxiv.org/abs/2108.06318v1 )

ライセンス: Link先を確認
Hamid Soleimani and Emmanuel. M. Drakakis(参考訳) すべてのシストリックまたは分散ニューロモルフィックアーキテクチャは電力効率の良い処理ノードを必要とする。 本稿では、シナプス、ニューロン、アストロサイトモデルを含む系統的アナログアプローチを用いて、複数の神経形態的処理要素を実装する統一チュートリアルを提案する。 提案手法は,最小限の労力で多次元力学系をアナログ回路に合成できることを示す。

All systolic or distributed neuromorphic architectures require power-efficient processing nodes. In this paper, a unifying tutorial is presented which implements multiple neuromorphic processing elements using a systematic analog approach including synapse, neuron and astrocyte models. It is shown that the proposed approach can successfully synthesize multidimensional dynamical systems into analog circuitry with minimum effort.
翻訳日:2023-03-18 14:58:19 公開日:2021-08-13
# グラフェンプラズモンに結合した二段階系:リンドブラッド方程式アプローチ

Two-level Systems Coupled to Graphene plasmons: A Lindblad equation approach ( http://arxiv.org/abs/2108.06287v1 )

ライセンス: Link先を確認
T. V. C. Ant\~ao, N. M. R. Peres(参考訳) 本稿では、オープン量子系とマクロ量子電磁力学の理論を概観し、これら2つの理論の多くの側面を自己完結的に説明する。 前者は電磁熱浴に結合した量子ビットの文脈で表され、後者はランゲヴィンノイズ電流に基づくグラフェンの表面プラズモン分極(SPP)の量子化スキームの文脈で表される。 これには、2つの半無限の線形二項媒質間のグラフェンシートの(静電限界における)dyadic green関数の計算と、それに続くsp生成と消滅作用素の構成への応用が含まれる。 次に、2つの場をまとめて、SPPを支持するグラフェンシートの近傍で2つの量子ビットの絡み合いについて議論する。 2つの量子ビットはSPPの放出と吸収を介して互いに通信する。 グラフェンの散逸ダイナミクスを利用することにより、2つの量子ビットを含むシュウディンガー猫状態が部分的に脱コヒーレンスから保護されることがわかった。 また、シュロディンガー方程式によって得られるゼロ温度でのダイナミクスと、リンドブラッド方程式を用いて得られる有限温度とのダイナミクスの比較も行われる。

In this paper we review the theory of open quantum systems and macroscopic quantum electrodynamics, providing a self-contained account of many aspects of these two theories. The former is presented in the context of a qubit coupled to a electromagnetic thermal bath, the latter is presented in the context of a quantization scheme for surface-plasmon polaritons (SPPs) in graphene based on Langevin noise currents. This includes a calculation of the dyadic Green's function (in the electrostatic limit) for a Graphene sheet between two semi-infinite linear dieletric media, and its subsequent application to the construction of SPP creation and annihilation operators. We then bring the two fields together and discuss the entanglement of two qubits in the vicinity of a graphene sheet which supports SPPs. The two qubits communicate with each other via the emission and absorption of SPPs. We find that a Sch\"odinger cat state involving the two qubits can be partially protected from decoherence by taking advantage of the dissipative dynamics in graphene. A comparison is also drawn between the dynamics at zero temperature, obtained via Schrodinger's equation, and at finite temperature, obtained using the Lindblad equation.
翻訳日:2023-03-18 14:58:10 公開日:2021-08-13
# 量子コンピュータで遊んだり

Playing with a Quantum Computer ( http://arxiv.org/abs/2108.06271v1 )

ライセンス: Link先を確認
Rainer M\"uller and Franziska Greinert(参考訳) 量子コンピューティングに対する大衆の注目は、興味深いトピックとして認識されていることを示している。 我々はこの動機付け効果を量子物理学の教えと学習に利用したい。 具体的には、さまざまなプロバイダが無料で利用できる実際の量子コンピュータへのアクセスを活用したいと考えています。 量子物理学の入門講座において,量子コンピュータの直接的かつ直接的な利用方法を示す。 量子的優位性を提供しながら、単純で分かりやすい問題を解決するアルゴリズムを用いる。 提案するアルゴリズムは、量子物理学の利用が勝利の優位性をもたらす単純なゲームである。 このゲームはQuantum Penny Flipと呼ばれ、1999年にDavid A. Meyerが提案した。 量子ゲートによって記述されるように容易に再構成できる。 したがって、量子コンピュータのプログラミングを教えるのに使うことができる。 我々はその実装をIBMのQuantum Composerで実証する。

The high public attention given to quantum computing shows that it is perceived as an interesting topic. We want to utilize this motivating effect for the teaching and learning of quantum physics. Specifically, we want to take advantage of the access to real quantum computers, which various providers make available free of charge. We show a direct and straightforward way to use quantum computers in an introductory course on quantum physics. We use an algorithm that solves a simple and easily understandable problem while providing a quantum advantage. The algorithm we propose is a simple game in which the use of quantum physics offers a winning advantage. The game is called Quantum Penny Flip and was proposed by David A. Meyer back in 1999. It can be easily reformulated to be described by quantum gates. We can therefore use it to teach the programming of a quantum computer. We demonstrate its implementation in IBM's Quantum Composer.
翻訳日:2023-03-18 14:57:51 公開日:2021-08-13
# ディープニューラルネットワークによる超高速散逸量子ダイナミクスのエミュレート

Emulating ultrafast dissipative quantum dynamics with deep neural networks ( http://arxiv.org/abs/2108.06261v1 )

ライセンス: Link先を確認
Nikolai D. Klimkin(参考訳) 駆動散逸量子力学のシミュレーションは、特に駆動場の様々な形状について計算する場合、しばしば計算集約的である。 我々は、フィールドを表現するための新しい特徴空間を設計し、この表現を対象のオブザーバブルに直接マッピングすることで、ディープニューラルネットワークがこれらのダイナミクスをエミュレートするように訓練できることを実証する。 このアプローチでは,システム応答を何桁も高速に取得できることを実証する。 マルコフ環境と相互作用する数サイクルの磁気パルスを照射した有限横イジングモデルの例を用いて,本手法の有効性を検証する。 本手法は,トレーニングセット外のパルスに対する応答を再現するのに十分な一般化と頑健性を示す。

The simulation of driven dissipative quantum dynamics is often prohibitively computation-intensive, especially when it is calculated for various shapes of the driving field. We engineer a new feature space for representing the field and demonstrate that a deep neural network can be trained to emulate these dynamics by mapping this representation directly to the target observables. We demonstrate that with this approach, the system response can be retrieved many orders of magnitude faster. We verify the validity of our approach using the example of finite transverse Ising model irradiated with few-cycle magnetic pulses interacting with a Markovian environment. We show that our approach is sufficiently generalizable and robust to reproduce responses to pulses outside the training set.
翻訳日:2023-03-18 14:57:41 公開日:2021-08-13
# 量子力学系における多重フォノン転移

Multiphonon transitions in a quantum electromechanical system ( http://arxiv.org/abs/2108.06241v1 )

ライセンス: Link先を確認
Alpo V\"alimaa, Wayne Crump, Mikael Kervinen and Mika A. Sillanp\"a\"a(参考訳) 量子音響系に結合した超伝導量子ビットを近似共振配置で検討する。 本システムでは、スペクトルが明らかに非古典的特徴を示すマルチフォノン遷移を測定することにより、GHz音の量子化を直接的に証明し、フォノンカウントを可能にする。 さらに、qubit-oscillator結合に匹敵する高い駆動スペクトルにおいて、多くのマルチフォノン遷移のドレッシングによる多重フォノンスペクトル線のシフトを観測する。

We investigate a superconducting qubit coupled to a quantum acoustic system in a near resonant configuration. In our system we measure multiphonon transitions, whose spectrum reveals distinctly nonclassical features and thus provides direct evidence of quantization of GHz sound, enabling phonon counting. Additionally, at a high driving amplitude comparable to the qubit-oscillator coupling, we observe a shift of the multiphonon spectral lines owing to dressing of many multiphonon transitions.
翻訳日:2023-03-18 14:56:30 公開日:2021-08-13
# 商用テレコム光ファイバ部品における寄生エルビウム発光

Parasitic erbium photoluminescence in commercial telecom fiber optical components ( http://arxiv.org/abs/2108.10126v1 )

ライセンス: Link先を確認
Gary Wolfowicz, F. Joseph Heremans, David D. Awschalom(参考訳) ノイズのない光学コンポーネントは、メトロロジーから量子通信まで幅広いアプリケーションにとって重要である。 ここでは, 波長可変レーザーを用いたパラシティックノイズのための商用cバンドファイバコンポーネントを特徴付ける。 我々はYVO4, LiNbO3, TeO2, AMTIRガラスなどの光学結晶から, エルビウムの微量濃度のスペクトルを観察した。 エルビウムの寿命が長いため、これらの信号は通信範囲の単一光子レベルでの緩和が困難であり、より純度の高い光学結晶の必要性を示唆している。

Noiseless optical components are critical for applications ranging from metrology to quantum communication. Here we characterize several commercial telecom C-band fiber components for parasitic noise using a tunable laser. We observe the spectral signature of trace concentrations of erbium in all devices from the underlying optical crystals including YVO4, LiNbO3, TeO2 and AMTIR glass. Due to the long erbium lifetime, these signals are challenging to mitigate at the single photon level in the telecom range, and suggests the need for higher purity optical crystals.
翻訳日:2023-03-18 14:48:47 公開日:2021-08-13
# Monitor++? 早期プログラミング教育における複数対単一実験室モニター

Monitor++?: Multiple versus Single Laboratory Monitors in Early Programming Education ( http://arxiv.org/abs/2108.07729v1 )

ライセンス: Link先を確認
Matthew Stephan(参考訳) 貢献:本稿は,複数のモニタを用いた入門レベルのプログラミングコースを学生に対して実施し,そのパフォーマンスと自己報告体験を1つのモニタを用いた生徒と比較した。 BACKGROUND: 多くの技術分野におけるプロフェッショナルレベルのプログラミングは、しばしば複数のモニターステーションを使用するが、一部の教育研究所は単一のモニターステーションを使用している。 これは、学生が実践や経験的学習で何と遭遇するかを示すものではない。 研究QUESTIONS: 本研究は3つの研究課題に答えることを目的としている。 課題は,学生の経験的観察の発見,1つのモニターを用いた生徒のパフォーマンスと2つのモニターを用いた生徒のパフォーマンスの対比,および複数のモニターを学生が利用する方法の調査である。 METHODOLOGY: 調査対象の学生の半数が複数のモニターにアクセスできた。 これが2つの研究グループ間の唯一の違いであった。 本研究は、中等度を対比し、中等度評価を行う。 さらに、経験調査は、ヨットスケールの値を容易にし、オープンエンドフィードバックの質問はテキスト分析を容易にした。 この研究の限界は、サンプルサイズ(86人の学生)と参加者構成の制御の欠如である。 FINDINGS: 学生は介入による経験の評価に非常に好意的に反応した。 全体として、マルチモニタグループのパフォーマンスはわずかに改善した。 ほとんどの改善はソフトウェア設計とグラフィックの割り当てであった。 インターフェース・アンド・ヒエラルキー研究所では、統計的にパフォーマンスが著しく向上した。 学生は参照ガイドや代入仕様など、さまざまな方法で複数のモニターを使用した。

CONTRIBUTION: This paper presents an empirical study of an introductory-level programming course with students using multiple monitors and compares their performance and self-reported experiences versus students using a single monitor. BACKGROUND: Professional-level programming in many technological fields often employs multiple-monitors stations, however, some education laboratories employ single-monitor stations. This is unrepresentative of what students will encounter in practice and experiential learning. RESEARCH QUESTIONS: This study aims to answer three research questions. The questions include discovering the experiential observations of the students, contrasting the performance of the students using one monitor versus those using two monitors, and an investigation of the ways in which multiple monitors were employed by the students. METHODOLOGY: Half of the students in the study had access to multiple monitors. This was the only difference between the two study groups. This study contrasts grade medians and conducts median-test evaluation. Additionally, an experience survey facilitated likert-scale values and open-ended feedback questions facilitated textual analysis. Limitations of the study include the small sample size (86 students) and lack of control of participant composition. FINDINGS: Students reacted very favorably in rating their experience using the intervention. Overall, the multiple-monitor group had a slight performance improvement. Most improvement was in software-design and graphics assignments. Performance increased statistically significantly on the interfaces-and-hierarchies labs. Students used multiple-monitors in different ways including reference guides, assignment specifications, and more.
翻訳日:2023-03-18 14:48:37 公開日:2021-08-13
# 二次元ブロッホ振動における量子化ドリフトによるバンドトポロジーの解明

Uncover band topology via quantized drift in two-dimensional Bloch oscillations ( http://arxiv.org/abs/2108.07351v1 )

ライセンス: Link先を確認
Bo Zhu, Shi Hu, Honghua Zhong and Yongguan Ke(参考訳) 両方向傾斜場を受ける2次元ハーパー・ホフシュタッター格子におけるブロッホ振動の量子化ドリフトによるバンドトポロジーの測定を提案する。 2つの傾いた磁場の差が大きい場合、ブロッホ振動は全てのモーメントを均一にサンプリングするので、初期状態の運動量に関係なく、各方向の変位は全体の周期の倍数で量子化されがちである。 量子化された変位は、各方向のベリー曲率の線積分として定義される縮小チャーン数と関連しており、チャーン数の測定はほぼ完全である。 本手法は, チャーン数や位相相転移をエネルギー分離バンドだけでなく, 従来のthoulessポンプや整数量子ホール効果では実現できないエネルギー分離バンドに対しても適用可能である。

We propose to measure band topology via quantized drift of Bloch oscillations in a two-dimensional Harper-Hofstadter lattice subjected to tilted fields in both directions. When the difference between the two tilted fields is large, Bloch oscillations uniformly sample all momenta, and hence the displacement in each direction tends to be quantized at multiples of the overall period, regardless of any momentum of initial state. The quantized displacement is related to a reduced Chern number defined as a line integral of Berry curvature in each direction, providing an almost perfect measurement of Chern number. Our scheme can apply to detect Chern number and topological phase transitions not only for the energy-separable band, but also for energy-inseparable bands which cannot be achieved by conventional Thouless pumping or integer quantum Hall effect.
翻訳日:2023-03-18 14:48:16 公開日:2021-08-13
# 機械学習による光ファイバの高次元暗号化

High-dimensional encryption in optical fibers using machine learning ( http://arxiv.org/abs/2108.06420v1 )

ライセンス: Link先を確認
Michelle L. J. Lollie, Fatemeh Mostafavi, Narayan Bhusal, Mingyuan Hong, Chenglong You, Roberto de J. Le\'on-Montiel, Omar S. Maga\~na-Loaiza, Mario A. Quiroz-Ju\'arez(参考訳) 光子の空間波動関数を設計できる能力は、通信、センシング、情報処理のための様々な量子プロトコルを可能にした。 これらのプロトコルは構造化光の高次元を利用して、1つの光子における複数の情報のエンコーディネーション、小さな物理パラメータの測定、暗号のスキームにおける前例のないレベルのセキュリティの達成を可能にする。 残念ながら、構造光のポテンシャルは、光子の空間プロファイルが保存される自由空間プラットフォームに制限されている。 本稿では,光ファイバー通信における構造光の利用に向けて重要な一歩を踏み出す。 本稿では,マルチモードファイバ内の空間モードの伝搬を暗号化の自然なメカニズムとして利用する,スマートな高次元暗号化プロトコルを提案する。 これはデータ伝送のためのセキュアな通信チャネルを提供する。 空間モードに符号化された情報はニューラルネットワークを用いて検索され、実験により検出された空間モードの強度分布から訓練される。 我々のオンファイバ通信プラットフォームは、高次元ビットバイビットおよびバイトバイバイト符号化に光の空間モードを使用することができる。 このプロトコルにより、ほぼ完全な精度でメッセージや画像を復元することができる。 光ファイバーにおける高次元光暗号化のためのスマートプロトコルは、光の構造体、特に自由空間伝播に挑戦される量子技術に重要な意味を持つ。

The ability to engineer the spatial wavefunction of photons has enabled a variety of quantum protocols for communication, sensing, and information processing. These protocols exploit the high dimensionality of structured light enabling the encodinng of multiple bits of information in a single photon, the measurement of small physical parameters, and the achievement of unprecedented levels of security in schemes for cryptography. Unfortunately, the potential of structured light has been restrained to free-space platforms in which the spatial profile of photons is preserved. Here, we make an important step forward to using structured light for fiber optical communication. We introduce a smart high-dimensional encryption protocol in which the propagation of spatial modes in multimode fibers is used as a natural mechanism for encryption. This provides a secure communication channel for data transmission. The information encoded in spatial modes is retrieved using artificial neural networks, which are trained from the intensity distributions of experimentally detected spatial modes. Our on-fiber communication platform allows us to use spatial modes of light for high-dimensional bit-by-bit and byte-by-byte encoding. This protocol enables one to recover messages and images with almost perfect accuracy. Our smart protocol for high-dimensional optical encryption in optical fibers has key implications for quantum technologies relying on structured fields of light, particularly those that are challenged by free-space propagation.
翻訳日:2023-03-18 14:48:01 公開日:2021-08-13
# 量子および半量子密閉型オークション:脆弱性と利点

Quantum and semi-quantum sealed-bid auction: Vulnerabilities and advantages ( http://arxiv.org/abs/2108.06388v1 )

ライセンス: Link先を確認
Pramod Asagodu, Kishore Thapliyal and Anirban Pathak(参考訳) 量子封印入札のための既存のプロトコルのファミリーは批判的に分析され、いくつかの攻撃(例えば、参加者の攻撃と非参加者の攻撃、および参加者の共謀攻撃)によってそれらが脆弱であることが示され、これらの研究でなされた主張のいくつかは正しくない。 密閉帯へのアクセスにおける盗聴者の成功確率の限界を得た。 さらに, 汚損防止におけるセキュアなシール・バイド・オークションの役割を実現するため, 半量子であるシール・バイド・オークションの新しいプロトコルが提案され, 入札者は量子資源を持っておらず, 量子状態の古典的な操作を行うことができる。 提案プロトコルのセキュリティは一連の攻撃に対して確立されており,提案プロトコルは既存のプロトコルの文脈で報告されている脆弱性から解放されていることが確認された。

A family of existing protocols for quantum sealed-bid auction is critically analyzed, and it is shown that they are vulnerable under several attacks (e.g., the participant's and non-participant's attacks as well as the collusion attack of participants) and some of the claims made in these works are not correct. We obtained the bounds on the success probability of an eavesdropper in accessing the sealed-bids. Further, realizing the role of secure sealed-bid auction in the reduction of corruption, a new protocol for sealed-bid auction is proposed which is semi-quantum in nature, where the bidders do not have quantum resources but they can perform classical operations on the quantum states. The security of the proposed protocol is established against a set of attacks, and thus it is established that the proposed protocol is free from the vulnerabilities reported here in the context of the existing protocols.
翻訳日:2023-03-18 14:47:43 公開日:2021-08-13
# 回転波近似を超えた2モード場を有する3レベルアトムラムダv,laderの相互作用:混合強度依存結合

Interaction of a three-level atom Lambda, V, lader with a two-mode field beyond rotating wave approximation: Intermixed intensity-dependent coupling ( http://arxiv.org/abs/2108.06372v1 )

ライセンス: Link先を確認
N. Asili Firouzabadi, M. K. Tavassoly(参考訳) 回転波近似 (RWA) が弱い結合状態においてのみ有効であることを示す上で, 本論文の目的は, 3レベル原子の様々な構成のLambda, V, ladder間の相互作用の量子力学的アプローチを, RWA は考慮されていないが, RWA は考慮されていない。 一般的に、ハミルトニアンにおけるCRTの存在は解析解を得るのを妨げている。 さらに、本研究で示すように、摂動理論を用いて解析可解ハミルトニアンを得ることが出来る。 我々の計算によれば、通常のハミルトニアンにおけるCRTの寄与は、第1次における特定の強度依存デチューニングと、関連する摂動パラメータの第2次における特定の強度依存(f変形)結合との定数原子場結合の置き換えと等価である。 さらに、ハミルトニアンの初期表現に従って、場の各モードが3レベル原子の各タイプの許容される遷移の特定のペアのみと相互作用していることに気付くと、上記のアプローチを適用することによって得られる強度依存結合関数が場の両方のモード、f(na,nb)に依存することが予想される。 このようにして、crtは磁場の2つのモードの混合強度依存性原子場結合関数に到達する価格で除去される。 このようにして得られる最終ハミルトニアンは解析的に解くことができる。 最終的に、原子場の波動関数の時間的進化を決定することにより、原子集団の反転や光子統計など、系状態のいくつかの非古典的性質に対するCRTの影響を研究する。

Recalling that the rotating wave approximation (RWA) is only valid in the weak coupling regimes, the purpose of this paper is to study the Hamiltonian dynamics describing the full quantum mechanical approach of the interaction between various configurations of three-level atoms Lambda, V and ladder distinctly with a two-mode radiation field, while the RWA is not considered; the counter-rotating terms (CRTs) are taken into account. Generally, the presence of CRTs in the Hamiltonian prevents one to achieve an analytical solution. Moreover, as we will show in the present work, using the perturbation theory, analytical solvable Hamiltonians can be successfully obtained. According to our calculations, the contribution of CRTs within the ordinary Hamiltonian is equivalent to the replacement of the constant detuning with a specific intensity dependent detuning in the first order, and the constant atom field coupling with a particular intensity dependent (f deformed) coupling in the second order of the associated perturbation parameter. Moreover, noticing that according to the initial expression of the Hamiltonian, each mode of the field interacts only with a specific pair of the allowed transitions of each type of the three-level atom, it is surprisingly observed that via applying the mentioned approach, the obtained intensity dependent coupling functions depend on both modes of the field, f(na,nb). In this way, it is seen that the CRTs are removed with the price of arriving at some intermixed intensity dependent atom field coupling functions of the two modes of the field. In this way, the obtained final Hamiltonians are analytically solvable. At last, by determining the time evolution of the atom field wave function, we study the effects of CRTs on a few nonclassical properties of the state of the system, including the atomic population inversion and photon statistics.
翻訳日:2023-03-18 14:47:02 公開日:2021-08-13
# ニュートン、絡み合い、重力は

Newton, entanglement, and the graviton ( http://arxiv.org/abs/2108.06320v1 )

ライセンス: Link先を確認
Daniel Carney(参考訳) 最近、非相対論的重力相互作用が絡み合いを引き起こすかどうかをテストするために多くの実験が提案されている。 本稿では,グラビトンが存在する場合,これらの実験がテストできる範囲について考察する。 ユニタリティとローレンツ不変性を仮定すると、この「ニュートンの絡み合い」は、低エネルギー散乱状態のヒルベルト空間において質量に普遍的に結合した質量のないボソンの存在を必要とする。 これらのボソンは通常のスピン2グラビトンかもしれないが、原理的にはスピン0スカラーグラビトンのような他の可能性もある。 より洗練された実験でこれらを除外するコンセプトを提案します。 d=3+1$の時空次元の特別な役割とユニタリティーが重力によって破られる可能性を強調する。

Many experiments have recently been proposed to test whether non-relativistic gravitational interactions can generate entanglement. In this note, I consider the extent to which these experiments can test if the graviton exists. Assuming unitarity and Lorentz invariance of the $S$-matrix, I demonstrate that this "Newtonian entanglement" requires the existence of massless bosons, universally coupled to mass, in the Hilbert space of low-energy scattering states. These bosons could be the usual spin-2 gravitons, but in principle there are other possibilities like spin-0 scalar gravitons. I suggest a concept for a more refined experiment to rule these out. The special role of $d=3+1$ spacetime dimensions and the possibility that unitarity is violated by gravity are highlighted.
翻訳日:2023-03-18 14:45:49 公開日:2021-08-13
# 任意有界雑音をもつスパース半空間の効率的な能動学習

Efficient active learning of sparse halfspaces with arbitrary bounded noise ( http://arxiv.org/abs/2002.04840v3 )

ライセンス: Link先を確認
Chicheng Zhang and Jie Shen and Pranjal Awasthi(参考訳) 非ラベルのデータ分布が等方的対数凹であり、各ラベルが有界雑音として知られるパラメータ $\eta \in \big[0, \frac12\big)$ に対して最大$\eta$ の確率で反転する設定の下で、同種$s$スパース半空間の活性学習を$\mathbb{R}^d$で研究する。 軽いラベルノイズがある場合でも、例えば$\eta$は小さな定数であり、これは難しい問題であり、計算効率の良いアルゴリズムのために [Zhang, 2018] で確立された $\tilde{O}\big(s \cdot \mathrm{polylog}(d, \frac{1}{\epsilon})\big)$ という形のラベル複雑性境界を持つのは最近である。 対照的に、高レベルなラベルノイズ下では、計算効率のよいアルゴリズムによって達成されるラベルの複雑さの境界は、かなり悪い: [awasthi et al., 2016] の最もよく知られている結果は、ラベルの複雑さを持つ計算効率の良いアルゴリズム$\tilde{o}\big((\frac{s \ln d}{\epsilon})^{2^{\mathrm{poly}(1/(1-2\eta))}} \big)$であり、これはノイズレート$\eta$が固定定数である場合にのみラベル効率である。 本研究では、$s$ スパース半空間のアクティブ学習のための多項式時間アルゴリズムを設計し、ラベル複雑性を$\tilde{O}\big(\frac{s}{(1-2\eta)^4} \mathrm{polylog} (d, \frac 1 \epsilon) \big)$とする。 これは、ラベル複雑性多項式が$\frac{1}{1-2\eta}$のこの設定で最初の効率的なアルゴリズムであり、$\eta$が$\frac12$に任意に近い場合でもラベル効率が良い。 任意の有界雑音下でのフル次元アクティブ・パッシブ・ハーフスペース学習では,能動学習アルゴリズムとその理論的保証は,新たな最先端ラベルとサンプル複雑性に直ちに変換される。 我々のアルゴリズムと分析の鍵となる洞察は、オンライン学習の後悔の不平等の新たな解釈である。

We study active learning of homogeneous $s$-sparse halfspaces in $\mathbb{R}^d$ under the setting where the unlabeled data distribution is isotropic log-concave and each label is flipped with probability at most $\eta$ for a parameter $\eta \in \big[0, \frac12\big)$, known as the bounded noise. Even in the presence of mild label noise, i.e. $\eta$ is a small constant, this is a challenging problem and only recently have label complexity bounds of the form $\tilde{O}\big(s \cdot \mathrm{polylog}(d, \frac{1}{\epsilon})\big)$ been established in [Zhang, 2018] for computationally efficient algorithms. In contrast, under high levels of label noise, the label complexity bounds achieved by computationally efficient algorithms are much worse: the best known result of [Awasthi et al., 2016] provides a computationally efficient algorithm with label complexity $\tilde{O}\big((\frac{s \ln d}{\epsilon})^{2^{\mathrm{poly}(1/(1-2\eta))}} \big)$, which is label-efficient only when the noise rate $\eta$ is a fixed constant. In this work, we substantially improve on it by designing a polynomial time algorithm for active learning of $s$-sparse halfspaces, with a label complexity of $\tilde{O}\big(\frac{s}{(1-2\eta)^4} \mathrm{polylog} (d, \frac 1 \epsilon) \big)$. This is the first efficient algorithm with label complexity polynomial in $\frac{1}{1-2\eta}$ in this setting, which is label-efficient even for $\eta$ arbitrarily close to $\frac12$. Our active learning algorithm and its theoretical guarantees also immediately translate to new state-of-the-art label and sample complexity results for full-dimensional active and passive halfspace learning under arbitrary bounded noise. The key insight of our algorithm and analysis is a new interpretation of online learning regret inequalities, which may be of independent interest.
翻訳日:2023-01-01 19:23:06 公開日:2021-08-13
# トランスフォーマー言語モデルによる段落レベルの質問生成の簡略化

Simplifying Paragraph-level Question Generation via Transformer Language Models ( http://arxiv.org/abs/2005.01107v4 )

ライセンス: Link先を確認
Luis Enrico Lopez, Diane Kathryn Cruz, Jan Christian Blaise Cruz, Charibeth Cheng(参考訳) 質問生成(qg)は、モデルが入力テキストに対応する質問をするように訓練される自然言語生成タスクである。 直近のアプローチでは、QGはシーケンス対シーケンスの問題であり、性能向上のための追加機能やメカニズムに依存しているが、これはしばしばモデルの複雑さを増大させ、実用的な利用では利用できない補助的なデータに頼ることができる。 トランスフォーマーベースの一方向一方向言語モデルは、タスク固有の複雑さを処理しながら高品質な質問を生成するために使用できる。 我々のQGモデルは、GPT-2 Smallから微調整され、SQuADデータセット上のいくつかの段落レベルのQGベースラインを0.95 METEORポイントで上回る。 人間の評価者は、質問は答えが簡単で、文脈の段落に関連があり、自然な人間のスピーチによく対応していると評価した。 また、以前QGタスクに使用されていなかったRASデータセットに新しいベースラインスコアが導入された。 事前学習したトランスフォーマーベースのLMを質問生成器として頑健性を検証するため, 様々なモデル容量と非識別型質問付きデータセットのさらなる実験が推奨されている。

Question generation (QG) is a natural language generation task where a model is trained to ask questions corresponding to some input text. Most recent approaches frame QG as a sequence-to-sequence problem and rely on additional features and mechanisms to increase performance; however, these often increase model complexity, and can rely on auxiliary data unavailable in practical use. A single Transformer-based unidirectional language model leveraging transfer learning can be used to produce high quality questions while disposing of additional task-specific complexity. Our QG model, finetuned from GPT-2 Small, outperforms several paragraph-level QG baselines on the SQuAD dataset by 0.95 METEOR points. Human evaluators rated questions as easy to answer, relevant to their context paragraph, and corresponding well to natural human speech. Also introduced is a new set of baseline scores on the RACE dataset, which has not previously been used for QG tasks. Further experimentation with varying model capacities and datasets with non-identification type questions is recommended in order to further verify the robustness of pretrained Transformer-based LMs as question generators.
翻訳日:2022-12-07 06:31:24 公開日:2021-08-13
# 深層ニューラルネットワークを用いた深部電磁石のモデル化

Modeling extra-deep electromagnetic logs using a deep neural network ( http://arxiv.org/abs/2005.08919v3 )

ライセンス: Link先を確認
Sergey Alyaev, Mostafa Shahriari, David Pardo, Angel Javier Omella, David Larsen, Nazanin Jahani, Erich Suter(参考訳) 現代のジオステアリングは、深電磁測定のリアルタイム解釈に大きく依存している。 本稿では,深層ニューラルネットワーク(DNN)モデルを構築し,ロギング位置当たり22測定値からなる,完全な深部EMログを再現する手法を提案する。 モデルは、比抵抗値の異なる最大7層からなる1次元の層状環境で訓練される。 ツールベンダーが提供する商用シミュレータを使用して、トレーニングデータセットを生成する。 ベンダーが提供するシミュレータがシーケンシャルな実行に最適化されているため、データセットのサイズは制限されている。 そこで,我々は,フォワードモデルが支持する地質規則とジオステアリング仕様を取り入れたトレーニングデータセットを設計する。 本データセットを用いて,DNNをベースとしたEMシミュレータを作成し,EMツール構成やオリジナルのシミュレータソースコードのプロプライエタリな情報にアクセスすることなく生成する。 トレーニングセットのサイズは比較的小さいが、結果として得られたdnnのフォワードモデルは、考慮された例では極めて正確である: 多層合成ケースと、ゴリアトフィールドから公開された歴史的操作のセクションである。 観測されたロギング位置平均評価時間は0.15msであり、ジオステアリングワークフロー内の統計的および/またはモンテカルロ逆アルゴリズムの一部として将来の用途にも適している。

Modern geosteering is heavily dependent on real-time interpretation of deep electromagnetic (EM) measurements. We present a methodology to construct a deep neural network (DNN) model trained to reproduce a full set of extra-deep EM logs consisting of 22 measurements per logging position. The model is trained in a 1D layered environment consisting of up to seven layers with different resistivity values. A commercial simulator provided by a tool vendor is used to generate a training dataset. The dataset size is limited because the simulator provided by the vendor is optimized for sequential execution. Therefore, we design a training dataset that embraces the geological rules and geosteering specifics supported by the forward model. We use this dataset to produce an EM simulator based on a DNN without access to the proprietary information about the EM tool configuration or the original simulator source code. Despite employing a relatively small training set size, the resulting DNN forward model is quite accurate for the considered examples: a multi-layer synthetic case and a section of a published historical operation from the Goliat Field. The observed average evaluation time of 0.15 ms per logging position makes it also suitable for future use as part of evaluation-hungry statistical and/or Monte-Carlo inversion algorithms within geosteering workflows.
翻訳日:2022-12-02 00:50:57 公開日:2021-08-13
# ニューラルネットワークによる滑らかな階層関数のPDE制約

PDE constraints on smooth hierarchical functions computed by neural networks ( http://arxiv.org/abs/2005.08859v2 )

ライセンス: Link先を確認
Khashayar Filom, Konrad Paul Kording, Roozbeh Farhoodi(参考訳) ニューラルネットワークは、幅広い関数を近似する能力を持つ、計算のための多用途なツールである。 ディープニューラルネットワークの理論における重要な問題は表現性である。つまり、与えられたネットワークによって計算可能な関数を理解したいのだ。 フィードフォワードニューラルネットワークによって実装された実無限微分可能(滑らかな)階層関数を,1) 合成の各構成関数が結果関数よりも入力が少ないこと,2) 構成関数は線形多変量関数に適用された非線形単変量関数(例: tanh)のより具体的であること,の2つのケースで検討する。 それぞれに非自明な代数偏微分方程式(PDE)が存在し、計算関数によって満たされることを示す。 これらのPDEは純粋に部分微分の項であり、ネットワークの位相にのみ依存する。 多項式函数の合成に対して、代数的 PDE は、関連する函数多様体で満たされる周囲多項式空間における非自明な方程式(アーキテクチャのみに依存する次数)を生成する。 逆に、そのようなPDE制約は、適切な非特異性条件とおそらく偏微分を含むある種の不等式を伴い、考慮中の滑らかな関数をネットワークで表現できることを予想する。 この予想は神経科学的な関心を持つ木アーキテクチャの事例を含む多くの例で検証されている。 このアプローチは、特定のニューラルネットワークに関連する関数空間の代数的記述を定式化するためのステップであり、ニューラルネットワークを構築するための新しい有用なツールを提供するかもしれない。

Neural networks are versatile tools for computation, having the ability to approximate a broad range of functions. An important problem in the theory of deep neural networks is expressivity; that is, we want to understand the functions that are computable by a given network. We study real infinitely differentiable (smooth) hierarchical functions implemented by feedforward neural networks via composing simpler functions in two cases: 1) each constituent function of the composition has fewer inputs than the resulting function; 2) constituent functions are in the more specific yet prevalent form of a non-linear univariate function (e.g. tanh) applied to a linear multivariate function. We establish that in each of these regimes there exist non-trivial algebraic partial differential equations (PDEs), which are satisfied by the computed functions. These PDEs are purely in terms of the partial derivatives and are dependent only on the topology of the network. For compositions of polynomial functions, the algebraic PDEs yield non-trivial equations (of degrees dependent only on the architecture) in the ambient polynomial space that are satisfied on the associated functional varieties. Conversely, we conjecture that such PDE constraints, once accompanied by appropriate non-singularity conditions and perhaps certain inequalities involving partial derivatives, guarantee that the smooth function under consideration can be represented by the network. The conjecture is verified in numerous examples including the case of tree architectures which are of neuroscientific interest. Our approach is a step toward formulating an algebraic description of functional spaces associated with specific neural networks, and may provide new, useful tools for constructing neural networks.
翻訳日:2022-12-01 23:11:32 公開日:2021-08-13
# パラメータに基づく値関数

Parameter-Based Value Functions ( http://arxiv.org/abs/2006.09226v4 )

ライセンス: Link先を確認
Francesco Faccio, Louis Kirsch and J\"urgen Schmidhuber(参考訳) 従来の非政治的アクター批判強化学習(RL)アルゴリズムは、単一のターゲットポリシーの価値関数を学ぶ。 しかし、値関数が学習したポリシーを追跡するために更新されると、古いポリシーに関する潜在的に有用な情報を忘れてしまう。 我々は、入力にポリシーパラメータを含むパラメータベース値関数(pbvfs)と呼ばれる値関数のクラスを導入する。 異なる政策にまたがって一般化することができる。 PBVFは、状態、状態-作用対、RLエージェントの初期状態上の分布が与えられた任意のポリシーのパフォーマンスを評価することができる。 まず、PBVFがいかにして政治外の政策勾配定理をもたらすかを示す。 次にモンテカルロ法または時間差法で訓練されたpbvfsに基づくオフポリシーアクタ-クリティックアルゴリズムを導出する。 学習したpbvfが、トレーニング中に見られるポリシーよりも優れた新しいポリシーをゼロショットで学べることを示す。 最後に,浅層ポリシと深層ニューラルネットワークを用いて,離散制御タスクと連続制御タスクを選択することでアルゴリズムを評価する。 その性能は最先端の手法に匹敵する。

Traditional off-policy actor-critic Reinforcement Learning (RL) algorithms learn value functions of a single target policy. However, when value functions are updated to track the learned policy, they forget potentially useful information about old policies. We introduce a class of value functions called Parameter-Based Value Functions (PBVFs) whose inputs include the policy parameters. They can generalize across different policies. PBVFs can evaluate the performance of any policy given a state, a state-action pair, or a distribution over the RL agent's initial states. First we show how PBVFs yield novel off-policy policy gradient theorems. Then we derive off-policy actor-critic algorithms based on PBVFs trained by Monte Carlo or Temporal Difference methods. We show how learned PBVFs can zero-shot learn new policies that outperform any policy seen during training. Finally our algorithms are evaluated on a selection of discrete and continuous control tasks using shallow policies and deep neural networks. Their performance is comparable to state-of-the-art methods.
翻訳日:2022-11-20 18:43:46 公開日:2021-08-13
# 検証ネットワーク埋め込みの次の波

Next Waves in Veridical Network Embedding ( http://arxiv.org/abs/2007.05385v2 )

ライセンス: Link先を確認
Owen G. Ward, Zhen Huang, Andrew Davison, Tian Zheng(参考訳) 大規模ネットワークのノードを計量(例えばユークリッド)空間に埋め込むことは、統計機械学習における活発な研究領域となり、自然科学や社会科学に応用されている。 一般に、ネットワークオブジェクトの表現はユークリッド幾何学で学習され、その後、コミュニティ検出、ノード分類、リンク予測などのネットワークのノードおよび/またはエッジに関するタスクに使用される。 ネットワーク埋め込みアルゴリズムは、ドメイン固有の表記法や詳細を含む複数の分野において提案されている。 さらに、異なる設定下で提案された手法を評価・比較するために、様々な手段やツールが採用されている。 その結果,これらのアルゴリズムを体系的に研究することは困難である。 最近提案された Veridical Data Science (VDS) フレームワークに触発され,ネットワーク埋め込みアルゴリズムの枠組みを提案し,予測可能性,計算可能性,安定性の原理がこの文脈でどのように適用されるかについて議論した。 ネットワーク埋め込みにおけるこのフレームワークの利用は、将来の研究の動機付けと新たな方向性を示す可能性を秘めている。

Embedding nodes of a large network into a metric (e.g., Euclidean) space has become an area of active research in statistical machine learning, which has found applications in natural and social sciences. Generally, a representation of a network object is learned in a Euclidean geometry and is then used for subsequent tasks regarding the nodes and/or edges of the network, such as community detection, node classification and link prediction. Network embedding algorithms have been proposed in multiple disciplines, often with domain-specific notations and details. In addition, different measures and tools have been adopted to evaluate and compare the methods proposed under different settings, often dependent of the downstream tasks. As a result, it is challenging to study these algorithms in the literature systematically. Motivated by the recently proposed Veridical Data Science (VDS) framework, we propose a framework for network embedding algorithms and discuss how the principles of predictability, computability and stability apply in this context. The utilization of this framework in network embedding holds the potential to motivate and point to new directions for future research.
翻訳日:2022-11-11 21:31:37 公開日:2021-08-13
# 高品質脳腫瘍分離のための計算効率の良いCNNシステム

A Computation-Efficient CNN System for High-Quality Brain Tumor Segmentation ( http://arxiv.org/abs/2007.12066v3 )

ライセンス: Link先を確認
Yanming Sun, Chunyan Wang(参考訳) 本稿では,低計算量で脳腫瘍の分節化を行うための,信頼性の高い畳み込みニューラルネットワーク(cnn)を提案する。 このシステムは、セグメンテーションの主処理用のCNNと、データリダクションのためのCNN前ブロックと、CNN後リファインメントブロックで構成される。 ユニークなCNNは、たった108のカーネルと20308のトレーニング可能なパラメータを含む7つの畳み込み層で構成されている。 ascnn(application specific cnn)のパラダイムに従って、モノモダリティおよびクロスモダリティ特徴抽出、腫瘍局在、ピクセル分類を行うカスタムデザインされている。 各レイヤは、そのレイヤに割り当てられたタスクに適合する (i)その入力データに適用される適切な正規化 (ii)割り当てられたタスクに対する正しい畳み込みモード、及び (iii)畳み込み結果を最適化するための適切な非線形変換。 この特定の設計コンテキストでは、各7層のカーネル数を、そのタスクにちょうど十分であるようにし、その層を指数関数的に拡大するのではなく、情報密度を高め、処理のランダム性を低減する。 提案したアクティベーション関数Full-ReLUは、処理品質を劣化させることなく、ハイパスフィルタリングの畳み込み層内のカーネル数を半減する。 BRATS2018データセットを用いた多数の実験が提案システムの処理品質と再現性を測定するために実施されている。 その結果、システムは再トレーニング後の入力に対してほぼ同じ出力を確実に再現できることが示される。 腫瘍を増強する平均diceスコアは77.2%、腫瘍コアは89.2%、腫瘍コアは76.3%である。 提案システムの簡易な構造と信頼性の高い高処理品質により,実装や医療応用が容易になる。

The work presented in this paper is to propose a reliable high-quality system of Convolutional Neural Network (CNN) for brain tumor segmentation with a low computation requirement. The system consists of a CNN for the main processing for the segmentation, a pre-CNN block for data reduction and post-CNN refinement block. The unique CNN consists of 7 convolution layers involving only 108 kernels and 20308 trainable parameters. It is custom-designed, following the proposed paradigm of ASCNN (application specific CNN), to perform mono-modality and cross-modality feature extraction, tumor localization and pixel classification. Each layer fits the task assigned to it, by means of (i) appropriate normalization applied to its input data, (ii) correct convolution modes for the assigned task, and (iii) suitable nonlinear transformation to optimize the convolution results. In this specific design context, the number of kernels in each of the 7 layers is made to be just-sufficient for its task, instead of exponentially growing over the layers, to increase information density and to reduce randomness in the processing. The proposed activation function Full-ReLU helps to halve the number of kernels in convolution layers of high-pass filtering without degrading processing quality. A large number of experiments with BRATS2018 dataset have been conducted to measure the processing quality and reproducibility of the proposed system. The results demonstrate that the system reproduces reliably almost the same output to the same input after retraining. The mean dice scores for enhancing tumor, whole tumor and tumor core are 77.2%, 89.2% and 76.3%, respectively. The simple structure and reliable high processing quality of the proposed system will facilitate its implementation and medical applications.
翻訳日:2022-11-07 22:40:04 公開日:2021-08-13
# 深層学習に基づくH&E染色の特殊染色への変換

Deep learning-based transformation of the H&E stain into special stains ( http://arxiv.org/abs/2008.08871v2 )

ライセンス: Link先を確認
Kevin de Haan, Yijie Zhang, Jonathan E. Zuckerman, Tairan Liu, Anthony E. Sisk, Miguel F. P. Diaz, Kuang-Yu Jen, Alexander Nobori, Sofia Liou, Sarah Zhang, Rana Riahi, Yair Rivenson, W. Dean Wallace, Aydogan Ozcan(参考訳) 病理学は組織化学的に染色されたスライドの視覚的検査によって実践される。 最も一般的には、診断ワークフローにおいてヘマトキシリンとエオシン(H&E)染色が使用され、がん診断のゴールドスタンダードである。 しかし、多くの場合、特に非腫瘍性疾患では、組織成分と異なるレベルのコントラストと色を提供し、病理医がより明確な診断画像を得るために「特殊な染色」が用いられる。 本研究では,h&eから異なる特殊染色(masson's trichrome, periodic acid-schiff, jones silver stain)へ,腎臓針コア生検から組織切片を用いて教師あり学習に基づく計算的染色変換の有用性を示す。 3人の腎病理医による評価と4人目の腎病理医による偏見から,既存のH&E画像からの仮想染色により,58例の非腫瘍性腎疾患の診断が改善することが示唆された。 3人の病理学者による第2の研究では、ステンドトランスフォーメーションネットワークによって生成される特殊染色の品質は、標準的な組織化学的染色によって生成されたものと統計的に同等であることが判明した。 H&E画像の特殊な染色への変換は、患者コア検体スライドあたり1分以下で達成できるため、この染色-安定変換フレームワークは、追加の特別な染色が必要な場合の予備診断の質を向上させるとともに、時間とコストの大幅な節約と、医療システムや患者に対する負担の軽減を可能にする。

Pathology is practiced by visual inspection of histochemically stained slides. Most commonly, the hematoxylin and eosin (H&E) stain is used in the diagnostic workflow and it is the gold standard for cancer diagnosis. However, in many cases, especially for non-neoplastic diseases, additional "special stains" are used to provide different levels of contrast and color to tissue components and allow pathologists to get a clearer diagnostic picture. In this study, we demonstrate the utility of supervised learning-based computational stain transformation from H&E to different special stains (Masson's Trichrome, periodic acid-Schiff and Jones silver stain) using tissue sections from kidney needle core biopsies. Based on evaluation by three renal pathologists, followed by adjudication by a fourth renal pathologist, we show that the generation of virtual special stains from existing H&E images improves the diagnosis in several non-neoplastic kidney diseases sampled from 58 unique subjects. A second study performed by three pathologists found that the quality of the special stains generated by the stain transformation network was statistically equivalent to those generated through standard histochemical staining. As the transformation of H&E images into special stains can be achieved within 1 min or less per patient core specimen slide, this stain-to-stain transformation framework can improve the quality of the preliminary diagnosis when additional special stains are needed, along with significant savings in time and cost, reducing the burden on healthcare system and patients.
翻訳日:2022-10-27 03:24:30 公開日:2021-08-13
# タイムウインドウを用いた電気自動車経路問題の深層強化学習

Deep Reinforcement Learning for Electric Vehicle Routing Problem with Time Windows ( http://arxiv.org/abs/2010.02068v4 )

ライセンス: Link先を確認
Bo Lin, Bissan Ghaddar, Jatin Nathwani(参考訳) 過去10年、電気自動車(EV)が急速に普及し、より多くの物流・輸送企業がサービス提供のためにEVを配備し始めている。 商用EVの運用をモデル化するために、時間窓付きEVルーティング問題(EVRPTW)を利用する。 本研究では,EVRPTWを解くためのエンドツーエンドの深層強化学習フレームワークを提案する。 特に,EVRPTWを解くための確率的ポリシーをパラメータ化するために,ポインタネットワークとグラフ埋め込み技術を組み合わせた注意モデルを開発する。 モデルは、ロールアウトベースラインのポリシ勾配を使用してトレーニングされる。 提案手法は,既存の手法では解けない大規模evrptwインスタンスを効率的に解くことができることを示す。

The past decade has seen a rapid penetration of electric vehicles (EV) in the market, more and more logistics and transportation companies start to deploy EVs for service provision. In order to model the operations of a commercial EV fleet, we utilize the EV routing problem with time windows (EVRPTW). In this research, we propose an end-to-end deep reinforcement learning framework to solve the EVRPTW. In particular, we develop an attention model incorporating the pointer network and a graph embedding technique to parameterize a stochastic policy for solving the EVRPTW. The model is then trained using policy gradient with rollout baseline. Our numerical studies show that the proposed model is able to efficiently solve EVRPTW instances of large sizes that are not solvable with any existing approaches.
翻訳日:2022-10-10 19:43:24 公開日:2021-08-13
# 道路標識認識における深層学習モデルに対する物理世界注意攻撃

Targeted Physical-World Attention Attack on Deep Learning Models in Road Sign Recognition ( http://arxiv.org/abs/2010.04331v3 )

ライセンス: Link先を確認
Xinghao Yang, Weifeng Liu, Shengli Zhang, Wei Liu, Dacheng Tao(参考訳) 現実の交通標識認識は、ディープニューラルネットワーク(DNN)に大きく依存している自動運転車を構築するための重要なステップである。 最近の研究では、DNNは驚くほど敵対的な例に影響を受けやすいことが示されている。 グラデーションベース攻撃、スコアベース攻撃、決定ベース攻撃、転送ベース攻撃など、敵の例を理解し、生成するための多くの攻撃手法が提案されている。 しかし,これらのアルゴリズムの多くは,(1) フレームごとの摂動を反復的に学習することは,高速走行車では現実的ではなく,(2) 最適化アルゴリズムは多種多様な寄与を考慮せずに全画素を均等に横断する。 この問題を軽減するため,本論文では,実世界の道路標識攻撃に対するターゲット・アテンション・アタック(taa)手法を提案する。 Specifically, we have made the following contributions: (1) we leverage the soft attention map to highlight those important pixels and skip those zero-contributed areas - this also helps to generate natural perturbations, (2) we design an efficient universal attack that optimizes a single perturbation/noise based on a set of training images under the guidance of the pre-trained attention map, (3) we design a simple objective function that can be easily optimized, (4) we evaluate the effectiveness of TAA on real world data sets. 実験の結果,TAA法は攻撃成功率(約10%)を向上し,RP2法と比較して摂動損失(約4分の1)を減少させることがわかった。 さらに、当社のTAAは、転送可能性や一般化能力など、優れた特性も提供しています。 再現性を保証するために、コードとデータを提供します。

Real world traffic sign recognition is an important step towards building autonomous vehicles, most of which highly dependent on Deep Neural Networks (DNNs). Recent studies demonstrated that DNNs are surprisingly susceptible to adversarial examples. Many attack methods have been proposed to understand and generate adversarial examples, such as gradient based attack, score based attack, decision based attack, and transfer based attacks. However, most of these algorithms are ineffective in real-world road sign attack, because (1) iteratively learning perturbations for each frame is not realistic for a fast moving car and (2) most optimization algorithms traverse all pixels equally without considering their diverse contribution. To alleviate these problems, this paper proposes the targeted attention attack (TAA) method for real world road sign attack. Specifically, we have made the following contributions: (1) we leverage the soft attention map to highlight those important pixels and skip those zero-contributed areas - this also helps to generate natural perturbations, (2) we design an efficient universal attack that optimizes a single perturbation/noise based on a set of training images under the guidance of the pre-trained attention map, (3) we design a simple objective function that can be easily optimized, (4) we evaluate the effectiveness of TAA on real world data sets. Experimental results validate that the TAA method improves the attack successful rate (nearly 10%) and reduces the perturbation loss (about a quarter) compared with the popular RP2 method. Additionally, our TAA also provides good properties, e.g., transferability and generalization capability. We provide code and data to ensure the reproducibility: https://github.com/AdvAttack/RoadSignAttack.
翻訳日:2022-10-09 04:47:44 公開日:2021-08-13
# 詳細データセットの自動コーパス生成のためのニュース記事構造

Exploiting News Article Structure for Automatic Corpus Generation of Entailment Datasets ( http://arxiv.org/abs/2010.11574v3 )

ライセンス: Link先を確認
Jan Christian Blaise Cruz, Jose Kristian Resabal, James Lin, Dan John Velasco and Charibeth Cheng(参考訳) トランスフォーマーは近年の自然言語処理(NLP)の最先端を表現しており、低リソース言語で行われているタスクでも有効であることが証明されている。 これらの言語の事前学習されたトランスフォーマーは作成可能だが、ハードベンチマークデータセットの欠如と、それらの製造の困難さとコストのため、真のパフォーマンスとキャパシティを測定することは困難である。 本稿では,3つのコントリビューションを提案する。まず,低リソース言語を対象とした自然言語推論(NLI)ベンチマークデータセットの自動生成手法を提案する。 そこで我々は,低リソースのフィリピン語で最初の文包含ベンチマークデータセットであるNewsPH-NLIを作成し,リリースする。 第2に,フィリピンの資源不足をさらに緩和するためにelectra技術に基づく新しい事前学習トランスを新たに作成し,他の一般的な転送学習技術に対してデータセット上でベンチマークを行う。 最後に, 劣化試験を用いて低データ領域での運用時の真の性能を明らかにするために, 転送学習手法の分析を行う。

Transformers represent the state-of-the-art in Natural Language Processing (NLP) in recent years, proving effective even in tasks done in low-resource languages. While pretrained transformers for these languages can be made, it is challenging to measure their true performance and capacity due to the lack of hard benchmark datasets, as well as the difficulty and cost of producing them. In this paper, we present three contributions: First, we propose a methodology for automatically producing Natural Language Inference (NLI) benchmark datasets for low-resource languages using published news articles. Through this, we create and release NewsPH-NLI, the first sentence entailment benchmark dataset in the low-resource Filipino language. Second, we produce new pretrained transformers based on the ELECTRA technique to further alleviate the resource scarcity in Filipino, benchmarking them on our dataset against other commonly-used transfer learning techniques. Lastly, we perform analyses on transfer learning techniques to shed light on their true performance when operating in low-data domains through the use of degradation tests.
翻訳日:2022-10-04 06:32:08 公開日:2021-08-13
# 反復グラフ自己蒸留

Iterative Graph Self-Distillation ( http://arxiv.org/abs/2010.12609v2 )

ライセンス: Link先を確認
Hanlin Zhang, Shuai Lin, Weiyang Liu, Pan Zhou, Jian Tang, Xiaodan Liang, Eric P. Xing(参考訳) グラフを差別的にベクトル化する方法は、近年注目を集めている根本的な課題である。 教師なしのコントラスト学習の成功に触発されて、教師なしの方法でグラフレベルの表現を学習することを目指す。 具体的には,教師間蒸留をグラフ増補で反復的に行う反復グラフ自己蒸留(igsd)と呼ばれる新しい教師なしグラフ学習パラダイムを提案する。 従来の知識蒸留とは異なり、IGSDは学生モデルの指数的な移動平均で教師を構築し、自分自身の知識を蒸留する。 IGSDの背後にある直感は、異なる拡張ビューの下でグラフペアの教師ネットワーク表現を予測することである。 自然な拡張として,教師付きコントラスト損失と教師なしコントラスト損失の両方でネットワークを協調的に調整することにより,半教師付きシナリオにもigsdを適用する。 最後に,自己学習によるIGSD学習モデルの微調整により,グラフ表現能力が向上することを示す。 実験により,教師なしと半教師なしの両方のグラフデータセットにおいて,IGSDの優越性を良好に検証し,有意かつ一貫した性能向上を実現した。

How to discriminatively vectorize graphs is a fundamental challenge that attracts increasing attentions in recent years. Inspired by the recent success of unsupervised contrastive learning, we aim to learn graph-level representation in an unsupervised manner. Specifically, we propose a novel unsupervised graph learning paradigm called Iterative Graph Self-Distillation (IGSD) which iteratively performs the teacher-student distillation with graph augmentations. Different from conventional knowledge distillation, IGSD constructs the teacher with an exponential moving average of the student model and distills the knowledge of itself. The intuition behind IGSD is to predict the teacher network representation of the graph pairs under different augmented views. As a natural extension, we also apply IGSD to semi-supervised scenarios by jointly regularizing the network with both supervised and unsupervised contrastive loss. Finally, we show that finetuning the IGSD-trained models with self-training can further improve the graph representation power. Empirically, we achieve significant and consistent performance gain on various graph datasets in both unsupervised and semi-supervised settings, which well validates the superiority of IGSD.
翻訳日:2022-10-03 23:35:57 公開日:2021-08-13
# 統計的学習から見た圧縮センシングとニューラルネットワーク

Compressive Sensing and Neural Networks from a Statistical Learning Perspective ( http://arxiv.org/abs/2010.15658v4 )

ライセンス: Link先を確認
Arash Behboodi, Holger Rauhut, Ekkehard Schnoor(参考訳) 逆問題に対する様々な反復的再構成アルゴリズムをニューラルネットワークとして展開することができる。 経験上、このアプローチは結果の改善に繋がることが多いが、理論的な保証はまだ少ない。 ニューラルネットワークの一般化特性に関するいくつかの進歩はなされているが、大きな課題は残る。 この章では、これらのトピックを議論し、組み合わせて、少数の線形測定からスパース再構成に適したニューラルネットワークのクラスに対する一般化誤差分析を示す。 考察される仮説クラスは、古典的な反復的ソフトスレッショルドアルゴリズム(ista)に触発されている。 このクラスのニューラルネットワークは、ISTAの繰り返しを展開させ、いくつかの重みを学習することで得られる。 トレーニングサンプルに基づき、実験的リスク最小化により最適なネットワークパラメータを学習し、圧縮線形測定から信号を再構成する最適ネットワークを構築することを目的とする。 特に,すべてのイテレーション/レイヤで共有される疎度基底を学習することで,辞書学習のための新しいアプローチを得ることができる。 このネットワークのクラスに対して、ダドリー積分によるそのようなディープネットワークからなる仮説クラスのラデマッハ複雑性の束縛に基づく一般化境界を提案する。 驚くべきことに、現実的な条件下では、一般化誤差は層数でのみ対数的にスケールし、計測回数で最大に線形である。

Various iterative reconstruction algorithms for inverse problems can be unfolded as neural networks. Empirically, this approach has often led to improved results, but theoretical guarantees are still scarce. While some progress on generalization properties of neural networks have been made, great challenges remain. In this chapter, we discuss and combine these topics to present a generalization error analysis for a class of neural networks suitable for sparse reconstruction from few linear measurements. The hypothesis class considered is inspired by the classical iterative soft-thresholding algorithm (ISTA). The neural networks in this class are obtained by unfolding iterations of ISTA and learning some of the weights. Based on training samples, we aim at learning the optimal network parameters via empirical risk minimization and thereby the optimal network that reconstructs signals from their compressive linear measurements. In particular, we may learn a sparsity basis that is shared by all of the iterations/layers and thereby obtain a new approach for dictionary learning. For this class of networks, we present a generalization bound, which is based on bounding the Rademacher complexity of hypothesis classes consisting of such deep networks via Dudley's integral. Remarkably, under realistic conditions, the generalization error scales only logarithmically in the number of layers, and at most linear in number of measurements.
翻訳日:2022-10-01 22:36:27 公開日:2021-08-13
# 統合内在と時空間制約を用いた教師なし単眼深度学習

Unsupervised Monocular Depth Learning with Integrated Intrinsics and Spatio-Temporal Constraints ( http://arxiv.org/abs/2011.01354v3 )

ライセンス: Link先を確認
Kenny Chen, Alexandra Pogue, Brett T. Lopez, Ali-akbar Agha-mohammadi, and Ankur Mehta(参考訳) 近年、単眼深度推定は研究者から大きな注目を集めており、高価な飛行時間センサーの代替として有望なものとして残されているが、スケール獲得や実装オーバーヘッドの問題は依然としてこれらのシステムを悩ませている。 この目的のために,本研究では,単一ネットワークを経由したモノクロ画像のシーケンスから,カメラ内在性に加えて,大規模深度マップやエゴモーションを予測可能な教師なし学習フレームワークを提案する。 本手法では, 空間的および時間的制約を組み込んで, 深度を計算し, スケール係数を推定し, トレーニング時の監督的再構成損失関数内に適用する。 シングルネットワークアーキテクチャの重み付けをトレーニングするためには,ラベルのないステレオシーケンスのみが必要になります。 以上の結果から,KITTI運転データセットの複数シーケンスにおける現状と比較して高い性能を示し,ネットワークの複雑さを低減して学習時間を短縮できることを示した。

Monocular depth inference has gained tremendous attention from researchers in recent years and remains as a promising replacement for expensive time-of-flight sensors, but issues with scale acquisition and implementation overhead still plague these systems. To this end, this work presents an unsupervised learning framework that is able to predict at-scale depth maps and egomotion, in addition to camera intrinsics, from a sequence of monocular images via a single network. Our method incorporates both spatial and temporal geometric constraints to resolve depth and pose scale factors, which are enforced within the supervisory reconstruction loss functions at training time. Only unlabeled stereo sequences are required for training the weights of our single-network architecture, which reduces overall implementation overhead as compared to previous methods. Our results demonstrate strong performance when compared to the current state-of-the-art on multiple sequences of the KITTI driving dataset and can provide faster training times with its reduced network complexity.
翻訳日:2022-09-30 11:39:15 公開日:2021-08-13
# 確率的変分不等式に対する単純かつ最適手法 II:強化学習におけるマルコフ雑音と政策評価

Simple and optimal methods for stochastic variational inequalities, II: Markovian noise and policy evaluation in reinforcement learning ( http://arxiv.org/abs/2011.08434v4 )

ライセンス: Link先を確認
Georgios Kotsalis and Guanghui Lan and Tianjiao Li(参考訳) 本稿ではマルコフ雑音下での確率的変動不等式(VI)に着目した。 アルゴリズム開発の顕著な応用は強化学習における確率的政策評価問題である。 論文の先行研究は,確率的劣次降下に動機づけられた非滑らかな有限時間解析を用いて時間差(td)学習に焦点をあてた。 これらは、a-プリオリ定義ユークリッド球への射影を含む修正されたtdアルゴリズムの解析の要件を包含し、非最適収束率を達成し、並列実装の有益な効果を導出する明確な方法がない。 我々のアプローチは、確率的vi、特に確率的政策評価の広い文脈において、これらの欠点を是正する。 我々は,その単純さを維持しつつ,非漸近的な解析的視点から見れば,様々な単純なTD学習型アルゴリズムを開発した。 まず、並列実装の利点を享受できる標準tdアルゴリズムのより良い解析を提供する。 そこで我々は,確率的反復の周期的更新を含む条件付きTDアルゴリズム(CTD)のバージョンを提案する。 これにより、CTDの要素と共用紙の確率演算子外挿法を組み合わせた高速TD(FTD)アルゴリズムが実現される。 新たなインデックスリセットポリシーでは、FTDが最もよく知られた収束率を示す。 また,アルゴリズムのロバスト版を考案し,約1。

The focus of this paper is on stochastic variational inequalities (VI) under Markovian noise. A prominent application of our algorithmic developments is the stochastic policy evaluation problem in reinforcement learning. Prior investigations in the literature focused on temporal difference (TD) learning by employing nonsmooth finite time analysis motivated by stochastic subgradient descent leading to certain limitations. These encompass the requirement of analyzing a modified TD algorithm that involves projection to an a-priori defined Euclidean ball, achieving a non-optimal convergence rate and no clear way of deriving the beneficial effects of parallel implementation. Our approach remedies these shortcomings in the broader context of stochastic VIs and in particular when it comes to stochastic policy evaluation. We developed a variety of simple TD learning type algorithms motivated by its original version that maintain its simplicity, while offering distinct advantages from a non-asymptotic analysis point of view. We first provide an improved analysis of the standard TD algorithm that can benefit from parallel implementation. Then we present versions of a conditional TD algorithm (CTD), that involves periodic updates of the stochastic iterates, which reduce the bias and therefore exhibit improved iteration complexity. This brings us to the fast TD (FTD) algorithm which combines elements of CTD and the stochastic operator extrapolation method of the companion paper. For a novel index resetting policy FTD exhibits the best known convergence rate. We also devised a robust version of the algorithm that is particularly suitable for discounting factors close to 1.
翻訳日:2022-09-25 07:03:47 公開日:2021-08-13
# (参考訳) 新型コロナウイルスのツイートの動的トピック識別とラベル付け手法

A Dynamic Topic Identification and Labeling Approach of COVID-19 Tweets ( http://arxiv.org/abs/2109.02462v1 )

ライセンス: CC BY 4.0
Khandaker Tayef Shahriar, Iqbal H. Sarker, Muhammad Nazrul Islam and Mohammad Ali Moni(参考訳) 本稿では、新型コロナウイルスのツイートの適切なラベルで重要なトピックを動的に識別する問題を定式化し、より広範な世論を概説する。 現在、ソーシャルメディアはインターネット技術を通じて人々を繋ぐ最良の方法の1つであり、これは私たちの日常生活にとって不可欠な部分だと考えられている。 2019年12月下旬、新型コロナウイルス(COVID-19)の流行が報告され、世界保健機関(WHO)は世界中で急速に拡散しているため緊急事態を宣言した。 新型コロナウイルスの感染拡大は、世界中の多くの人々のソーシャルメディア利用に影響している。 Twitterは最も影響力のあるソーシャルメディアサービスの一つで、パンデミックによる利用が劇的に増加した。 このように、covid-19のツイートからラベル付き特定のトピックを動的に抽出することは、手動のトピックラベル付けアプローチではなく、会話を強調する上で難しい問題である。 本稿では,ラテント・ディリクレ・アロケーション(LDA)生成トピックのアスペクト項クラスタの上位Unigram機能を用いて,ツイートからのラベル付きキートピックを自動的に識別するフレームワークを提案する。 実験の結果,この動的トピック識別とラベル付け手法は,手動の静的アプローチに対して85.48\%の精度で有効であることがわかった。

This paper formulates the problem of dynamically identifying key topics with proper labels from COVID-19 Tweets to provide an overview of wider public opinion. Nowadays, social media is one of the best ways to connect people through Internet technology, which is also considered an essential part of our daily lives. In late December 2019, an outbreak of the novel coronavirus, COVID-19 was reported, and the World Health Organization declared an emergency due to its rapid spread all over the world. The COVID-19 epidemic has affected the use of social media by many people across the globe. Twitter is one of the most influential social media services, which has seen a dramatic increase in its use from the epidemic. Thus dynamic extraction of specific topics with labels from tweets of COVID-19 is a challenging issue for highlighting conversation instead of manual topic labeling approach. In this paper, we propose a framework that automatically identifies the key topics with labels from the tweets using the top Unigram feature of aspect terms cluster from Latent Dirichlet Allocation (LDA) generated topics. Our experiment result shows that this dynamic topic identification and labeling approach is effective having the accuracy of 85.48\% with respect to the manual static approach.
翻訳日:2021-09-12 13:31:21 公開日:2021-08-13
# (参考訳) 衛星画像における目標追跡と背景抽出の教師なし学習

Unsupervised Learning for Target Tracking and Background Subtraction in Satellite Imagery ( http://arxiv.org/abs/2109.00885v1 )

ライセンス: CC BY-SA 4.0
Jonathan S. Kent, Charles C. Wamsley, Davin Flateau, Amber Ferguson(参考訳) 本稿では,新しいデュアルモデルアプローチによる追跡と背景抑圧が可能な教師なし機械学習手法について述べる。 ``jekyll`` は動く物体の位置を推定するビデオビットマスクを生成し、 ``hyde`` は擬似バックグランドフレームを出力して元の入力画像列から減算する。 これらのモデルは、クロスエントロピー損失のカスタマイズされたバージョンで訓練された。 シミュレーションデータを使用して、JekyllとHydeのパフォーマンスを、従来型の教師付き機械学習アプローチと比較した。 これらの結果から, 教師なし手法は, ラベル付きトレーニングデータを取得するコストを伴わずに, 教師付き手法と出力品質の競争力を有することがわかった。

This paper describes an unsupervised machine learning methodology capable of target tracking and background suppression via a novel dual-model approach. ``Jekyll`` produces a video bit-mask describing an estimate of the locations of moving objects, and ``Hyde`` outputs a pseudo-background frame to subtract from the original input image sequence. These models were trained with a custom-modified version of Cross Entropy Loss. Simulated data were used to compare the performance of Jekyll and Hyde against a more traditional supervised Machine Learning approach. The results from these comparisons show that the unsupervised methods developed are competitive in output quality with supervised techniques, without the associated cost of acquiring labeled training data.
翻訳日:2021-09-05 13:05:02 公開日:2021-08-13
# パーソナライズドレコメンデーションシステムのためのインクリメンタル学習

Incremental Learning for Personalized Recommender Systems ( http://arxiv.org/abs/2108.13299v1 )

ライセンス: Link先を確認
Yunbo Ouyang, Jun Shi, Haichao Wei, Huiji Gao(参考訳) ユビキタスなパーソナライズドレコメンダシステムは、一見相反する2つの目標を達成するために構築され、個々のユーザの好みに合わせて高品質なコンテンツを提供し、変化し続ける環境に迅速に適応する。 前者は大量のデータに基づいてトレーニングされる複雑な機械学習モデルを必要とし、後者はモデルの頻繁な更新を必要とする。 トレーニング効率とモデル品質の両方を提供するためのインクリメンタルな学習ソリューションを提案する。 我々の解は逐次ベイズ更新と二次近似に基づいている。 私たちの焦点は、大規模パーソナライズされたロジスティック回帰モデルであり、ディープラーニングモデルの拡張にあります。 本稿では,大規模パーソナライズドレコメンダシステムへのインクリメンタル学習の適用において生じるいくつかの実装上の課題を解決することで,理論と実践のギャップを埋める。 詳細なオフラインおよびオンライン実験は、モデル精度を維持しながらトレーニング時間を著しく短縮できることを示した。 このソリューションはLinkedInにデプロイされ、産業規模のレコメンデーションシステムに直接適用される。

Ubiquitous personalized recommender systems are built to achieve two seemingly conflicting goals, to serve high quality content tailored to individual user's taste and to adapt quickly to the ever changing environment. The former requires a complex machine learning model that is trained on a large amount of data; the latter requires frequent update to the model. We present an incremental learning solution to provide both the training efficiency and the model quality. Our solution is based on sequential Bayesian update and quadratic approximation. Our focus is on large-scale personalized logistic regression models, with extensions to deep learning models. This paper fills in the gap between the theory and the practice by addressing a few implementation challenges that arise when applying incremental learning to large personalized recommender systems. Detailed offline and online experiments demonstrated our approach can significantly shorten the training time while maintaining the model accuracy. The solution is deployed in LinkedIn and directly applicable to industrial scale recommender systems.
翻訳日:2021-09-05 08:51:12 公開日:2021-08-13
# (参考訳) 一般化された最適線形順序

Generalized Optimal Linear Orders ( http://arxiv.org/abs/2108.10692v1 )

ライセンス: CC BY 4.0
Rishi Bommasani(参考訳) 言語の逐次構造、特に文中の単語の順序は、人間の言語処理において中心的な役割を果たす。 したがって、言語の計算モデルの設計において、事実上のアプローチは、原文と同じ順序で命令された単語を機械に提示することである。 この研究の本質は、これが望ましいという暗黙の仮定を疑問視し、自然言語処理における語順の考慮に理論的健全性を注入することである。 本稿では, 認知科学, 心理言語学, 計算言語学, 自然言語処理における単語順の異なる扱いを, 柔軟なアルゴリズムの枠組みで一元化することから始める。 我々は、この異種理論の基礎を、精神言語学的最適性の不足を伴う新しい単語順序の探索の基盤として用いていく。 特に,人間および計算言語処理における長距離依存処理の難しさを考慮すると,依存長最小化の概念に着目する。 次に,可能性の組合せ空間に拘わらず,最適な単語順を求めるアルゴリズムについて論じる。 我々は、これらの単語順序が人間の言語に与える影響と、計算モデルに統合された場合の下流への影響を論じる。

The sequential structure of language, and the order of words in a sentence specifically, plays a central role in human language processing. Consequently, in designing computational models of language, the de facto approach is to present sentences to machines with the words ordered in the same order as in the original human-authored sentence. The very essence of this work is to question the implicit assumption that this is desirable and inject theoretical soundness into the consideration of word order in natural language processing. In this thesis, we begin by uniting the disparate treatments of word order in cognitive science, psycholinguistics, computational linguistics, and natural language processing under a flexible algorithmic framework. We proceed to use this heterogeneous theoretical foundation as the basis for exploring new word orders with an undercurrent of psycholinguistic optimality. In particular, we focus on notions of dependency length minimization given the difficulties in human and computational language processing in handling long-distance dependencies. We then discuss algorithms for finding optimal word orders efficiently in spite of the combinatorial space of possibilities. We conclude by addressing the implications of these word orders on human language and their downstream impacts when integrated in computational models.
翻訳日:2021-08-29 15:11:46 公開日:2021-08-13
# (参考訳) プロセスマイニングにおける構造方程式モデル発見のための特徴推奨

Feature Recommendation for Structural Equation Model Discovery in Process Mining ( http://arxiv.org/abs/2108.07795v1 )

ライセンス: CC BY 4.0
Mahnaz Sadat Qafari and Wil van der Aalst(参考訳) プロセスマイニング技術は、組織が運用プロセスを改善するのに役立つ。 組織は、プロセスマイニング技術によって、パフォーマンスやコンプライアンスの問題の根本原因を見つけ、修正することができる。 今日の企業の情報システムによって収集されるデータの量や特徴の数を考えると、根本原因分析で考慮すべき特徴の集合を発見する作業は極めて関与する。 本稿では,問題に影響を及ぼす可能性のある(集約された)特徴の集合を見つける方法を提案する。 根本原因分析タスクは通常、プロセスをサポートする情報システムから収集されたデータに機械学習技術を適用することで行われる。 そこで本研究では,機械学習手法の結果を因果として解釈しうる相関関係と因果関係の混合を防止するため,根源解析に使用可能なプロセスの構造方程式モデルを発見する手法を提案する。 提案手法をプラグインとしてpromに実装し,実および合成の2つのイベントログを用いて評価した。 これらの実験は,提案手法の有効性と有効性を示す。

Process mining techniques can help organizations to improve their operational processes. Organizations can benefit from process mining techniques in finding and amending the root causes of performance or compliance problems. Considering the volume of the data and the number of features captured by the information system of today's companies, the task of discovering the set of features that should be considered in root cause analysis can be quite involving. In this paper, we propose a method for finding the set of (aggregated) features with a possible effect on the problem. The root cause analysis task is usually done by applying a machine learning technique to the data gathered from the information system supporting the processes. To prevent mixing up correlation and causation, which may happen because of interpreting the findings of machine learning techniques as causal, we propose a method for discovering the structural equation model of the process that can be used for root cause analysis. We have implemented the proposed method as a plugin in ProM and we have evaluated it using two real and synthetic event logs. These experiments show the validity and effectiveness of the proposed methods.
翻訳日:2021-08-19 03:08:48 公開日:2021-08-13
# (参考訳) 高不確実性データポイントとしてのOODの検出

Detecting OODs as datapoints with High Uncertainty ( http://arxiv.org/abs/2108.06380v1 )

ライセンス: CC BY 4.0
Ramneet Kaur, Susmit Jha, Anirban Roy, Sangdon Park, Oleg Sokolsky, Insup Lee(参考訳) ディープニューラルネットワーク(DNN)は、オフ・オブ・ディストリビューション・インプット(OOD)に非常に高い信頼性を持つ誤った予測を生成することが知られている。 この制限は、自律運転、航空交通管理、医療診断などの高信頼システムにおけるDNNの採用における重要な課題の1つである。 この課題は最近大きな注目を集めており、モデルの予測が信頼できない入力を検出する技術がいくつか開発されている。 これらの手法は, てんかん性不確実性が高いデータポイントとしてOODを検出する。 我々は,これらの手法の検知能力の違いを実証し,不確実性の高いデータポイントとしてOODを検出するためのアンサンブルアプローチを提案する。 我々は複数のDNNアーキテクチャで視覚データセットの実験を行い、ほとんどのケースで最先端の結果を得る。

Deep neural networks (DNNs) are known to produce incorrect predictions with very high confidence on out-of-distribution inputs (OODs). This limitation is one of the key challenges in the adoption of DNNs in high-assurance systems such as autonomous driving, air traffic management, and medical diagnosis. This challenge has received significant attention recently, and several techniques have been developed to detect inputs where the model's prediction cannot be trusted. These techniques detect OODs as datapoints with either high epistemic uncertainty or high aleatoric uncertainty. We demonstrate the difference in the detection ability of these techniques and propose an ensemble approach for detection of OODs as datapoints with high uncertainty (epistemic or aleatoric). We perform experiments on vision datasets with multiple DNN architectures, achieving state-of-the-art results in most cases.
翻訳日:2021-08-18 11:57:33 公開日:2021-08-13
# (参考訳) 畳み込みニューラルネットワークにおける代表解釈の探索

Finding Representative Interpretations on Convolutional Neural Networks ( http://arxiv.org/abs/2108.06384v1 )

ライセンス: CC BY 4.0
Peter Cho-Ho Lam, Lingyang Chu, Maxim Torgonskiy, Jian Pei, Yong Zhang, Lanjun Wang(参考訳) 画像上で効果的な深層畳み込みニューラルネットワーク(cnn)の背後にある決定論理を解釈することは、ディープラーニングモデルの成功を補完する。 しかし、既存の手法では、個々の画像や少数の画像に対してのみ特定の決定論理を解釈できる。 人間の理解可能性と一般化能力を促進するために,CNNの共通決定論理を類似した画像群で解釈する代表的解釈を開発することが重要である。 本稿では,多数の類似画像に対して高度に代表される解釈を生成するための新しい教師なし手法を提案する。 我々は,共クラスタリング問題として代表解釈を求める問題を定式化し,CNNの線形決定境界のサンプルに基づいて,部分モジュラーコストのサブモジュラー被覆問題に変換する。 また,可視化と類似度ランキング手法を提案する。 本手法の優れた性能を示す大規模な実験を行った。

Interpreting the decision logic behind effective deep convolutional neural networks (CNN) on images complements the success of deep learning models. However, the existing methods can only interpret some specific decision logic on individual or a small number of images. To facilitate human understandability and generalization ability, it is important to develop representative interpretations that interpret common decision logics of a CNN on a large group of similar images, which reveal the common semantics data contributes to many closely related predictions. In this paper, we develop a novel unsupervised approach to produce a highly representative interpretation for a large number of similar images. We formulate the problem of finding representative interpretations as a co-clustering problem, and convert it into a submodular cost submodular cover problem based on a sample of the linear decision boundaries of a CNN. We also present a visualization and similarity ranking method. Our extensive experiments demonstrate the excellent performance of our method.
翻訳日:2021-08-18 11:44:48 公開日:2021-08-13
# (参考訳) FrankMocap: 回帰と統合による単眼の3D全体像推定システム

FrankMocap: A Monocular 3D Whole-Body Pose Estimation System via Regression and Integration ( http://arxiv.org/abs/2108.06428v1 )

ライセンス: CC0 1.0
Yu Rong, Takaaki Shiratori, Hanbyul Joo(参考訳) 既存のモノラルな3Dポーズのアプローチのほとんどは、顔、手、身体の微妙な動きによって人間の動きの本質的なニュアンスが伝達されるという事実を無視して、単一の身体の部分のみに焦点を当てている。 本稿では,3次元顔,手,身体を同時に生成できる高速かつ高精度な3次元ポーズ推定システムfrankmocapを提案する。 frankmocapの中核となるアイデアはモジュラーデザインです。まず、顔、手、体に対して3dポーズの回帰メソッドを独立して実行し、次に統合モジュールを介して回帰出力を生成します。 別々の回帰モジュールを使うことで、元の正確性と信頼性を損なうことなく、最先端のパフォーマンスを最大限に活用することができます。 レイテンシと精度をトレードオフする3つの異なる統合モジュールを開発しています。 これらすべてが、別々のアウトプットをシームレスな全身ポーズ推定結果に統一する、シンプルで効果的なソリューションを提供することができる。 我々は,モジュール化したシステムが,体全体のポーズを推定する最適化法とエンドツーエンド法の両方を上回っていることを定量的に定性的に証明する。

Most existing monocular 3D pose estimation approaches only focus on a single body part, neglecting the fact that the essential nuance of human motion is conveyed through a concert of subtle movements of face, hands, and body. In this paper, we present FrankMocap, a fast and accurate whole-body 3D pose estimation system that can produce 3D face, hands, and body simultaneously from in-the-wild monocular images. The core idea of FrankMocap is its modular design: We first run 3D pose regression methods for face, hands, and body independently, followed by composing the regression outputs via an integration module. The separate regression modules allow us to take full advantage of their state-of-the-art performances without compromising the original accuracy and reliability in practice. We develop three different integration modules that trade off between latency and accuracy. All of them are capable of providing simple yet effective solutions to unify the separate outputs into seamless whole-body pose estimation results. We quantitatively and qualitatively demonstrate that our modularized system outperforms both the optimization-based and end-to-end methods of estimating whole-body pose.
翻訳日:2021-08-18 11:19:10 公開日:2021-08-13
# ベイズ階層モデルを用いたメタデータに基づくマルチタスクバンディット

Metadata-based Multi-Task Bandits with Bayesian Hierarchical Models ( http://arxiv.org/abs/2108.06422v1 )

ライセンス: Link先を確認
Runzhe Wan, Lin Ge, Rui Song(参考訳) 効果的に探索する方法は、多腕バンディットの中心的な問題である。 本稿では,メタデータに基づくマルチタスク・バンディット問題について紹介する。そこでは,エージェントが多数の関連するマルチアーム・バンディットタスクを解決し,タスク間の知識を共有するためにタスク固有の機能(メタデータ)を活用する。 本稿では,タスク関係を効率的に学習し,情報を共有し,累積的後悔を最小限に抑えるために,トンプソンサンプリングアルゴリズムを設計したベイズ階層モデルのレンズを通してタスク関係を捉えることを提案する。 ガウシアン・バンディットとベルヌーイ・バンディットの2つの具体例を慎重に分析した。 the bayes regret for gaussian banditsは、アルゴリズムと情報共有の利点を明確に示しています。 提案手法は広範な実験によってさらに支持されている。

How to explore efficiently is a central problem in multi-armed bandits. In this paper, we introduce the metadata-based multi-task bandit problem, where the agent needs to solve a large number of related multi-armed bandit tasks and can leverage some task-specific features (i.e., metadata) to share knowledge across tasks. As a general framework, we propose to capture task relations through the lens of Bayesian hierarchical models, upon which a Thompson sampling algorithm is designed to efficiently learn task relations, share information, and minimize the cumulative regrets. Two concrete examples for Gaussian bandits and Bernoulli bandits are carefully analyzed. The Bayes regret for Gaussian bandits clearly demonstrates the benefits of information sharing with our algorithm. The proposed method is further supported by extensive experiments.
翻訳日:2021-08-17 15:26:26 公開日:2021-08-13
# スイッチングオラクルに対する一般混合損失に対する最適かつ効率的なアルゴリズム

Optimal and Efficient Algorithms for General Mixable Losses against Switching Oracles ( http://arxiv.org/abs/2108.06411v1 )

ライセンス: Link先を確認
Kaan Gokcesu, Hakan Gokcesu(参考訳) 近年,機械学習からゲーム理論まで幅広い分野に適用可能であることから,オンライン学習の課題が注目されている。 具体的には,動的環境における混合損失関数のオンライン最適化について検討する。 我々は,最適後悔冗長性を持つ切替オラクルの最適動的推定シーケンスの性能を漸近的に達成するオンライン混合スキームを導入する。 我々が競う最良の動的推定列は、損失関数の完全な観察とともに後から選択され、異なる時間間隔(セグメント)で異なる最適推定を選択できる。 私たちは仕事に2つの混合案を提案する。 まず, 難解なブリュート力アプローチの最適冗長性を実現するために, 抽出可能な多項式時間複雑性アルゴリズムを提案する。 第二に、最適冗長性を一定の多重度ギャップまで達成できる効率的な対数時間複雑性アルゴリズムを提案する。 私たちの結果は、個々のシーケンスで強い決定論的意味を持つことが保証されます。

We investigate the problem of online learning, which has gained significant attention in recent years due to its applicability in a wide range of fields from machine learning to game theory. Specifically, we study the online optimization of mixable loss functions in a dynamic environment. We introduce online mixture schemes that asymptotically achieves the performance of the best dynamic estimation sequence of the switching oracle with optimal regret redundancies. The best dynamic estimation sequence that we compete against is selected in hindsight with full observation of the loss functions and is allowed to select different optimal estimations in different time intervals (segments). We propose two mixtures in our work. Firstly, we propose a tractable polynomial time complexity algorithm that can achieve the optimal redundancy of the intractable brute force approach. Secondly, we propose an efficient logarithmic time complexity algorithm that can achieve the optimal redundancy up to a constant multiplicity gap. Our results are guaranteed to hold in a strong deterministic sense in an individual sequence manner.
翻訳日:2021-08-17 15:24:28 公開日:2021-08-13
# MTG:多言語テキスト生成のためのベンチマークスイート

MTG: A Benchmarking Suite for Multilingual Text Generation ( http://arxiv.org/abs/2108.07140v1 )

ライセンス: Link先を確認
Yiran Chen, Zhenqiao Song, Xianze Wu, Danqing Wang, Jingjing Xu, Jiaze Chen, Hao Zhou, Lei Li(参考訳) MTGは多言語テキスト生成のトレーニングと評価のための新しいベンチマークスイートである。 これは4つの言語(英語、ドイツ語、フランス語、スペイン語)にまたがる3つのタスク(ストーリー生成、質問生成、タイトル生成)に対して120kのマルチウェイ並列データを持つ、最初の、そして最大のテキスト生成ベンチマークである。 そこで我々は,様々な評価シナリオを設定し,様々な側面から人気多言語生成モデルを深く分析する。 我々のベンチマークスイートは、より人間的な注釈付き並列データとより多様な生成シナリオによって、テキスト生成コミュニティの多言語化を促進する。

We introduce MTG, a new benchmark suite for training and evaluating multilingual text generation. It is the first and largest text generation benchmark with 120k human-annotated multi-way parallel data for three tasks (story generation, question generation, and title generation) across four languages (English, German, French, and Spanish). Based on it, we set various evaluation scenarios and make a deep analysis of several popular multilingual generation models from different aspects. Our benchmark suite will encourage the multilingualism for text generation community with more human-annotated parallel data and more diverse generation scenarios.
翻訳日:2021-08-17 15:18:06 公開日:2021-08-13
# 数量化解集合プログラミングにおける不完全情報を用いた計画

Planning with Incomplete Information in Quantified Answer Set Programming ( http://arxiv.org/abs/2108.06405v1 )

ライセンス: Link先を確認
Jorge Fandinno (2 and 3), Fran\c{c}ois Laferri\`ere (3), Javier Romero (3), Torsten Schaub (3) and Tran Cao Son (1) ((1) New Mexico State University, USA, (2) Omaha State University, USA, (3) University of Potsdam, Germany)(参考訳) 本稿では,解集合プログラミング(asp)における不完全情報を用いた計画手法を提案する。 より正確には、感覚行動と仮定を伴う適合性と条件付き計画の問題を考える。 我々は,論理プログラムが状態,初期状態,目標状態間の遷移関数を記述する単純な形式を用いて計画問題を表現する。 計画問題の解決には、QBF(Quantified Boolean Formulas)に類似した原子上の存在量化器と普遍量化器を備えたASPの拡張であるQuantified Answer Set Programming(QASP)を用いる。 我々は、量化論理プログラムの言語を定義し、それを用いて、共形および条件付き計画の異なる変種に対するソリューションを表現する。 実用面では、量子化論理プログラムをQBFに変換してQBFソルバを実行する翻訳ベースのQASPソルバを提案し、適合性および条件付き計画ベンチマークに対するアプローチを実験的に評価する。 TPLPの受容についての検討

We present a general approach to planning with incomplete information in Answer Set Programming (ASP). More precisely, we consider the problems of conformant and conditional planning with sensing actions and assumptions. We represent planning problems using a simple formalism where logic programs describe the transition function between states, the initial states and the goal states. For solving planning problems, we use Quantified Answer Set Programming (QASP), an extension of ASP with existential and universal quantifiers over atoms that is analogous to Quantified Boolean Formulas (QBFs). We define the language of quantified logic programs and use it to represent the solutions to different variants of conformant and conditional planning. On the practical side, we present a translation-based QASP solver that converts quantified logic programs into QBFs and then executes a QBF solver, and we evaluate experimentally the approach on conformant and conditional planning benchmarks. Under consideration for acceptance in TPLP.
翻訳日:2021-08-17 15:17:43 公開日:2021-08-13
# Pseudo-Lidarはモノクロ3次元物体検出に必要か?

Is Pseudo-Lidar needed for Monocular 3D Object detection? ( http://arxiv.org/abs/2108.06417v1 )

ライセンス: Link先を確認
Dennis Park, Rares Ambrus, Vitor Guizilini, Jie Li, Adrien Gaidon(参考訳) 単一画像からの3d物体検出の最近の進歩は、モノキュラー深度推定を3dポイントクラウドを生成する手段として活用し、カメラを擬似ライダーセンサーに変える。 これらの2段階検出器は、中間深度推定ネットワークの精度が向上し、大規模な自己教師付き学習によって手動ラベルなしでも改善できる。 しかし、それらはエンド・ツー・エンドの方法以上の過剰なフィッティングに苦しむ傾向にあり、より複雑であり、類似のlidarベースの検出器とのギャップは依然として大きい。 本研究では,エンドツーエンドの単眼型3d物体検出装置dd3dを提案し,擬似ライダー法のような奥行き事前学習の利点を享受するが,その限界はない。 我々のアーキテクチャは、深度推定と3次元検出の効果的な情報伝達のために設計されており、ラベルなし事前学習データの量でスケールすることができる。 提案手法は,kitti-3dベンチマークでは16.34%,歩行者では9.28%,裸では41.5%という,難易度の高い2つのベンチマークで最新の結果を得た。

Recent progress in 3D object detection from single images leverages monocular depth estimation as a way to produce 3D pointclouds, turning cameras into pseudo-lidar sensors. These two-stage detectors improve with the accuracy of the intermediate depth estimation network, which can itself be improved without manual labels via large-scale self-supervised learning. However, they tend to suffer from overfitting more than end-to-end methods, are more complex, and the gap with similar lidar-based detectors remains significant. In this work, we propose an end-to-end, single stage, monocular 3D object detector, DD3D, that can benefit from depth pre-training like pseudo-lidar methods, but without their limitations. Our architecture is designed for effective information transfer between depth estimation and 3D detection, allowing us to scale with the amount of unlabeled pre-training data. Our method achieves state-of-the-art results on two challenging benchmarks, with 16.34% and 9.28% AP for Cars and Pedestrians (respectively) on the KITTI-3D benchmark, and 41.5% mAP on NuScenes.
翻訳日:2021-08-17 15:16:55 公開日:2021-08-13
# GeoCLR: 効率的な海底画像解釈のためのジオレファレンスコントラスト学習

GeoCLR: Georeference Contrastive Learning for Efficient Seafloor Image Interpretation ( http://arxiv.org/abs/2108.06421v1 )

ライセンス: Link先を確認
Takaki Yamada, Adam Pr\"ugel-Bennett, Stefan B. Williams, Oscar Pizarro, Blair Thornton(参考訳) 本稿では,ディープラーニング畳み込みニューラルネットワーク(cnns)の効率的な学習のためのジオリファレンスコントラスト学習(geoclr)について述べる。 本手法では,近接する場所の画像を用いて類似した画像対を生成し,これらを遠く離れた画像対と対比することにより,ジオリファレンス情報を活用する。 基礎となる前提は、近距離で収集された画像が類似した視覚的外観を持つ可能性が高いことであり、これは海底のロボット画像アプリケーションにおいて合理的に満足できるため、画像のフットプリントは数メートルの縁の長さに制限され、車両の軌道に沿って重なり合うように取られる。 この方法の主な利点は、CNN訓練に人的入力を必要としない自己教師型であることである。 この方法は計算的に効率的であり、複数日のAUVミッションにおいて、ほとんどの海洋実験でアクセス可能な計算資源を使用してダイブ間で結果を生成することができる。 我々は,AUV(Autonomous Underwater Vehicle)を用いて収集した約86kの画像からなるデータセット上で,GeoCLRを生息地分類に適用した。 そこで本研究では,GeoCLRが生成した潜伏表現を用いて,人間のアノテーションの取り組みを効率的にガイドする方法を実証する。この半教師付きフレームワークは,同じCNNと同等数の人間のアノテーションを用いた最先端の伝達学習と比較して,平均11.8 %の分類精度を向上する。

This paper describes Georeference Contrastive Learning of visual Representation (GeoCLR) for efficient training of deep-learning Convolutional Neural Networks (CNNs). The method leverages georeference information by generating a similar image pair using images taken of nearby locations, and contrasting these with an image pair that is far apart. The underlying assumption is that images gathered within a close distance are more likely to have similar visual appearance, where this can be reasonably satisfied in seafloor robotic imaging applications where image footprints are limited to edge lengths of a few metres and are taken so that they overlap along a vehicle's trajectory, whereas seafloor substrates and habitats have patch sizes that are far larger. A key advantage of this method is that it is self-supervised and does not require any human input for CNN training. The method is computationally efficient, where results can be generated between dives during multi-day AUV missions using computational resources that would be accessible during most oceanic field trials. We apply GeoCLR to habitat classification on a dataset that consists of ~86k images gathered using an Autonomous Underwater Vehicle (AUV). We demonstrate how the latent representations generated by GeoCLR can be used to efficiently guide human annotation efforts, where the semi-supervised framework improves classification accuracy by an average of 11.8 % compared to state-of-the-art transfer learning using the same CNN and equivalent number of human annotations for training.
翻訳日:2021-08-17 15:16:36 公開日:2021-08-13
# 機械学習における公平性のシャープ予測

The Sharpe predictor for fairness in machine learning ( http://arxiv.org/abs/2108.06415v1 )

ライセンス: Link先を確認
Suyun Liu and Luis Nunes Vicente(参考訳) 機械学習(ML)アプリケーションでは、不公平な予測が少数派に対して差別されることがある。 fair machine learning(fml)の既存のアプローチのほとんどは、機械学習モデルの最適化においてフェアネスを制約あるいはペナリゼーション用語として扱うが、これは正確さとフェアネスメトリクスの学習におけるトレードオフの完全なランドスケープの発見につながり、フェアネスを有意義な方法で統合しない。 近年,Stochastic Multi-Objective Optimization (SMOO)に基づくFMLの新しいパラダイムを導入している。 トレードオフ範囲全体はSMOO問題のParetoフロントとして定義され、確率勾配型アルゴリズムを用いて効率的に計算できる。 SMOOはまた、FMLの新たな有意義な予測器の定義と計算を可能にし、この論文で紹介したシャープ予測器は、新しいもので、精度と不公平の比率が最も高い。 金融のSMOOからインスパイアされたFMLのシャープ予測器は、予測リスク(不公平性)の単位当たりの最も高い予測リターン(精度)を提供する。

In machine learning (ML) applications, unfair predictions may discriminate against a minority group. Most existing approaches for fair machine learning (FML) treat fairness as a constraint or a penalization term in the optimization of a ML model, which does not lead to the discovery of the complete landscape of the trade-offs among learning accuracy and fairness metrics, and does not integrate fairness in a meaningful way. Recently, we have introduced a new paradigm for FML based on Stochastic Multi-Objective Optimization (SMOO), where accuracy and fairness metrics stand as conflicting objectives to be optimized simultaneously. The entire trade-offs range is defined as the Pareto front of the SMOO problem, which can then be efficiently computed using stochastic-gradient type algorithms. SMOO also allows defining and computing new meaningful predictors for FML, a novel one being the Sharpe predictor that we introduce and explore in this paper, and which gives the highest ratio of accuracy-to-unfairness. Inspired from SMOO in finance, the Sharpe predictor for FML provides the highest prediction return (accuracy) per unit of prediction risk (unfairness).
翻訳日:2021-08-17 14:56:40 公開日:2021-08-13
# 2相ペーパーレビューと会議実験設計における準最適レビュア分割

Near-Optimal Reviewer Splitting in Two-Phase Paper Reviewing and Conference Experiment Design ( http://arxiv.org/abs/2108.06371v1 )

ライセンス: Link先を確認
Steven Jecmen, Hanrui Zhang, Ryan Liu, Fei Fang, Vincent Conitzer, Nihar B. Shah(参考訳) 多くの科学会議は2段階の論文レビュープロセスを採用しており、いくつかの論文は最初のレビューが提出された後に追加のレビュアーが割り当てられる。 多くのカンファレンスは、論文レビュープロセスで実験を設計し、実行しており、いくつかの論文では、実験条件下でレビューを提供するレビュアーが割り当てられている。 本稿では, 総割り当て類似度を最大化するために, 審査員を段階, 条件に分けるべきかという課題を考察する。 私たちはこの質問に答えるためにいくつかの貢献をしている。 まず、追加のレビューを必要とする論文の集合が未知の場合、この問題の単純化された変種がNPハードであることを証明する。 第二に、実際の会議データに関連する複数のデータセットにおいて、ランダムに位相/条件を均一に分割することで、オラクルの最適割り当てとほぼ同等の割り当てが可能であることを実証的に示す。 この一様ランダムな選択は、二相設計と会議設計の両方に実用的である。 第三に、ある自然条件下でのランダム戦略の最適性に関する理論的境界を提供することにより、この現象を説明する。 このような分かりやすい状況から、ランダムなレビュアー分割が会議に適しているかどうかについて、会議プログラムチェアに実用的な洞察を提供する。

Many scientific conferences employ a two-phase paper review process, where some papers are assigned additional reviewers after the initial reviews are submitted. Many conferences also design and run experiments on their paper review process, where some papers are assigned reviewers who provide reviews under an experimental condition. In this paper, we consider the question: how should reviewers be divided between phases or conditions in order to maximize total assignment similarity? We make several contributions towards answering this question. First, we prove that when the set of papers requiring additional review is unknown, a simplified variant of this problem is NP-hard. Second, we empirically show that across several datasets pertaining to real conference data, dividing reviewers between phases/conditions uniformly at random allows an assignment that is nearly as good as the oracle optimal assignment. This uniformly random choice is practical for both the two-phase and conference experiment design settings. Third, we provide explanations of this phenomenon by providing theoretical bounds on the suboptimality of this random strategy under certain natural conditions. From these easily-interpretable conditions, we provide actionable insights to conference program chairs about whether a random reviewer split is suitable for their conference.
翻訳日:2021-08-17 14:51:13 公開日:2021-08-13
# densepass:entententment-augmented context exchangeを用いた教師なしドメイン適応による高密度パノラマ意味セグメンテーション

DensePASS: Dense Panoramic Semantic Segmentation via Unsupervised Domain Adaptation with Attention-Augmented Context Exchange ( http://arxiv.org/abs/2108.06383v1 )

ライセンス: Link先を確認
Chaoxiang Ma, Jiaming Zhang, Kailun Yang, Alina Roitberg and Rainer Stiefelhagen(参考訳) インテリジェントな車両は360度センサーの視野拡大(FoV)によって明らかに恩恵を受けるが、利用可能なセマンティックセグメンテーションのトレーニング画像の大部分はピンホールカメラで撮影されている。 本研究では、ドメイン適応のレンズを用いてこの問題を考察し、従来のピンホールカメラ画像の異なる分布からラベル付きトレーニングデータが導出される設定にパノラマセマンティックセマンティックセマンティックセグメンテーションをもたらす。 まず,ピンホールカメラデータのソースドメインからラベル付きサンプルをトレーニングしたネットワークを,異なるターゲット領域のパノラマ画像に展開するパノラマ意味セグメンテーションのための教師なしドメイン適応のタスクを定式化する。 このアイデアを検証するために、我々はDensePASS – ドメイン間条件下でパノラマセグメンテーションを高度に注釈付けした新しいデータセット - を収集、公開し、特にPinhole-to-Panoramicトランスファーの研究用に構築し、Cityscapesから取得したピンホールカメラトレーニングのサンプルを添付した。 DensePASSは、ラベル付きおよび未ラベルの360度画像の両方をカバーし、ラベル付きデータは、ソースドメイン(すなわち、ソースドメインで利用可能なカテゴリに明示的に適合する19のクラスから構成される。 ピンホール) データ。 ドメインシフトの課題を満たすために、注意に基づくメカニズムの現在の進歩を活用し、注意喚起されたドメイン適応モジュールの異なる変種に基づいて、クロスドメインパノラマ意味セグメンテーションのための汎用フレームワークを構築する。 このフレームワークは、ドメイン対応を学ぶ際に、局所的およびグローバルレベルでの情報交換を促進し、平均iouにおける2つの標準セグメンテーションネットワークのドメイン適応性能を6.05%、11.26%向上させる。

Intelligent vehicles clearly benefit from the expanded Field of View (FoV) of the 360-degree sensors, but the vast majority of available semantic segmentation training images are captured with pinhole cameras. In this work, we look at this problem through the lens of domain adaptation and bring panoramic semantic segmentation to a setting, where labelled training data originates from a different distribution of conventional pinhole camera images. First, we formalize the task of unsupervised domain adaptation for panoramic semantic segmentation, where a network trained on labelled examples from the source domain of pinhole camera data is deployed in a different target domain of panoramic images, for which no labels are available. To validate this idea, we collect and publicly release DensePASS - a novel densely annotated dataset for panoramic segmentation under cross-domain conditions, specifically built to study the Pinhole-to-Panoramic transfer and accompanied with pinhole camera training examples obtained from Cityscapes. DensePASS covers both, labelled- and unlabelled 360-degree images, with the labelled data comprising 19 classes which explicitly fit the categories available in the source domain (i.e. pinhole) data. To meet the challenge of domain shift, we leverage the current progress of attention-based mechanisms and build a generic framework for cross-domain panoramic semantic segmentation based on different variants of attention-augmented domain adaptation modules. Our framework facilitates information exchange at local- and global levels when learning the domain correspondences and improves the domain adaptation performance of two standard segmentation networks by 6.05% and 11.26% in Mean IoU.
翻訳日:2021-08-17 14:45:17 公開日:2021-08-13
# (参考訳) 高性能データサイエンス・データエンジニアリングのためのHPTMT並列演算子

HPTMT Parallel Operators for High Performance Data Science & Data Engineering ( http://arxiv.org/abs/2108.06001v1 )

ライセンス: CC BY 4.0
Vibhatha Abeykoon, Supun Kamburugamuve, Chathura Widanage, Niranda Perera, Ahmet Uyar, Thejaka Amila Kanewala, Gregor von Laszewski, and Geoffrey Fox(参考訳) データ集約型アプリケーションは、あらゆる科学分野において一般的になっています。 これらはデータエンジニアリングやディープラーニング、マシンラーニングといった、豊富なサブドメインで構成されています。 これらのアプリケーションは、異なるドメインのアプリケーションに適した効率的なデータ抽象化とオペレータを中心に構築されている。 多くの場合、フィールド内のデータ構造と演算子の明確な定義が欠如しており、他の実装ではうまく動作しない。 我々が最近提案したHPTMTアーキテクチャは、データエンジニアリングとデータサイエンスのすべての側面を効率的に結びつけるリッチなデータアプリケーションを作成するための一連のデータ構造、演算子、実行モデルを特定します。 本稿では、ディープラーニングとデータエンジニアリングを併用したエンドツーエンドアプリケーションを用いて、このアーキテクチャを詳述し、解説する。

Data-intensive applications are becoming commonplace in all science disciplines. They are comprised of a rich set of sub-domains such as data engineering, deep learning, and machine learning. These applications are built around efficient data abstractions and operators that suit the applications of different domains. Often lack of a clear definition of data structures and operators in the field has led to other implementations that do not work well together. The HPTMT architecture that we proposed recently, identifies a set of data structures, operators, and an execution model for creating rich data applications that links all aspects of data engineering and data science together efficiently. This paper elaborates and illustrates this architecture using an end-to-end application with deep learning and data engineering parts working together.
翻訳日:2021-08-16 21:40:54 公開日:2021-08-13
# (参考訳) AGKD-BML:意識指導型知識蒸留と双方向メトリック学習による敵攻撃に対する防御

AGKD-BML: Defense Against Adversarial Attack by Attention Guided Knowledge Distillation and Bi-directional Metric Learning ( http://arxiv.org/abs/2108.06017v1 )

ライセンス: CC BY 4.0
Hong Wang, Yuefan Deng, Shinjae Yoo, Haibin Ling, Yuewei Lin(参考訳) ディープニューラルネットワークは多くのタスクで顕著なパフォーマンスを示しているが、慎重に設計された敵攻撃には脆弱である。 注意誘導知識蒸留と双方向メトリックラーニング(agkd-bml)による新しい対向訓練モデルを提案する。 注意知識は、教師モデルと呼ばれるクリーンデータセットでトレーニングされた重み付けモデルから得られ、生徒モデルと呼ばれる逆例(AE)のトレーニングを受けているモデルに転送される。 このようにして、学生モデルは正しい領域に焦点を合わせることができ、また、AEsが破損した中間的特徴を修正して最終的にモデルの精度を向上させることができる。 さらに,特徴空間における表現を効率的に正規化するために,双方向なメトリック学習を提案する。 具体的には、クリーンな画像が与えられたら、まず最も混乱したクラスに攻撃され、AEを前進させる。 最も紛らわしいクラスのクリーンなイメージがランダムに選択され、元のクラスにアタックされて、後方のAEを取得する。 次に、元の画像とそのAE間の表現距離を短くし、前方と後方のAE間を拡大するために三重項損失を用いる。 我々は,攻撃の異なる2つのデータセットに対して,広範囲な対向的ロバストネス実験を行う。 提案したAGKD-BMLモデルは最先端のアプローチよりも一貫して優れている。 AGKD-BMLのコードは以下の通りである。

While deep neural networks have shown impressive performance in many tasks, they are fragile to carefully designed adversarial attacks. We propose a novel adversarial training-based model by Attention Guided Knowledge Distillation and Bi-directional Metric Learning (AGKD-BML). The attention knowledge is obtained from a weight-fixed model trained on a clean dataset, referred to as a teacher model, and transferred to a model that is under training on adversarial examples (AEs), referred to as a student model. In this way, the student model is able to focus on the correct region, as well as correcting the intermediate features corrupted by AEs to eventually improve the model accuracy. Moreover, to efficiently regularize the representation in feature space, we propose a bidirectional metric learning. Specifically, given a clean image, it is first attacked to its most confusing class to get the forward AE. A clean image in the most confusing class is then randomly picked and attacked back to the original class to get the backward AE. A triplet loss is then used to shorten the representation distance between original image and its AE, while enlarge that between the forward and backward AEs. We conduct extensive adversarial robustness experiments on two widely used datasets with different attacks. Our proposed AGKD-BML model consistently outperforms the state-of-the-art approaches. The code of AGKD-BML will be available at: https://github.com/hongw579/AGKD-BML.
翻訳日:2021-08-16 21:18:57 公開日:2021-08-13
# (参考訳) コード:chamfer out-of-distribution examples against overconfidence issue

CODEs: Chamfer Out-of-Distribution Examples against Overconfidence Issue ( http://arxiv.org/abs/2108.06024v1 )

ライセンス: CC BY 4.0
Keke Tang, Dingruibo Miao, Weilong Peng, Jianpeng Wu, Yawen Shi, Zhaoquan Gu, Zhihong Tian, and Wenping Wang(参考訳) out-of-distribution(ood)サンプルに対する自信過剰な予測は、ディープニューラルネットワークにとって厄介な問題である。 OOD過信問題を解決するための鍵は、本来はOODサンプルのサブセットを構築し、それらに対する予測を抑えることである。 本稿では,分布が分布中のサンプルに近いCODE(Chamfer OOD example)を提案し,その予測を抑えることで,OOD過信問題を効果的に軽減することができる。 コードを得るには,まず,異なるカテゴリの分布サンプルに対するスライシング・スライシング操作を通じてシードoodサンプルを生成し,その後,余分なデータにアクセスすることなく,分布変換のためのchamfer生成逆ネットワークに供給する。 CODEの予測を抑える訓練は、分類精度を損なうことなく、OOD過信問題を軽減し、最先端の手法より優れていることが検証されている。 さらに,OODの検出と分類を改善する上で,CODEが有用であることを示す。

Overconfident predictions on out-of-distribution (OOD) samples is a thorny issue for deep neural networks. The key to resolve the OOD overconfidence issue inherently is to build a subset of OOD samples and then suppress predictions on them. This paper proposes the Chamfer OOD examples (CODEs), whose distribution is close to that of in-distribution samples, and thus could be utilized to alleviate the OOD overconfidence issue effectively by suppressing predictions on them. To obtain CODEs, we first generate seed OOD examples via slicing&splicing operations on in-distribution samples from different categories, and then feed them to the Chamfer generative adversarial network for distribution transformation, without accessing to any extra data. Training with suppressing predictions on CODEs is validated to alleviate the OOD overconfidence issue largely without hurting classification accuracy, and outperform the state-of-the-art methods. Besides, we demonstrate CODEs are useful for improving OOD detection and classification.
翻訳日:2021-08-16 21:00:13 公開日:2021-08-13
# (参考訳) DeepIC:ディープラーニングによる干渉チャネルの符号化

DeepIC: Coding for Interference Channels via Deep Learning ( http://arxiv.org/abs/2108.06028v1 )

ライセンス: CC BY 4.0
Karl Chahine, Nanyang Ye, Hyeji Kim(参考訳) 2ユーザ干渉チャネルは、複数の1対1通信のモデルであり、2人の送信者が共有無線媒体を介して対応する受信機と通信することを望んでいる。 最も一般的で単純な符号化方式は、時間分割(TD)と干渉をノイズ(TIN)として扱うことである。 興味深いことに、TDやTINよりも優れたハン小林スキーム(Han-Kobayashi scheme)と呼ばれる漸近的なスキームが存在する。 しかし、半小林スキームは急激に複雑化しており、漸近的な設定のために設計されており、情報理論と実践のギャップが生じる。 本稿では,干渉チャネルの実用的な符号設計に焦点をあてる。 複雑度の高い実用的なコードを解析的に設計することは困難であるため,干渉チャネルの学習にディープラーニングを適用する。 繰り返しデコーダを備えた畳み込み型ニューラルネットワークベースのコードであるdeepicが,2ユーザ添加の白色ガウス雑音チャネルに対して,tdとtinを有意差で上回っていることを実証した。

The two-user interference channel is a model for multi one-to-one communications, where two transmitters wish to communicate with their corresponding receivers via a shared wireless medium. Two most common and simple coding schemes are time division (TD) and treating interference as noise (TIN). Interestingly, it is shown that there exists an asymptotic scheme, called Han-Kobayashi scheme, that performs better than TD and TIN. However, Han-Kobayashi scheme has impractically high complexity and is designed for asymptotic settings, which leads to a gap between information theory and practice. In this paper, we focus on designing practical codes for interference channels. As it is challenging to analytically design practical codes with feasible complexity, we apply deep learning to learn codes for interference channels. We demonstrate that DeepIC, a convolutional neural network-based code with an iterative decoder, outperforms TD and TIN by a significant margin for two-user additive white Gaussian noise channels with moderate amount of interference.
翻訳日:2021-08-16 20:45:35 公開日:2021-08-13
# (参考訳) track without appearance: learn box and tracklet embedded with local and global motion patterns for vehicle tracking

Track without Appearance: Learn Box and Tracklet Embedding with Local and Global Motion Patterns for Vehicle Tracking ( http://arxiv.org/abs/2108.06029v1 )

ライセンス: CC BY 4.0
Gaoang Wang, Renshu Gu, Zuozhu Liu, Weijie Hu, Mingli Song, Jenq-Neng Hwang(参考訳) 車両追跡は多目的追跡(MOT)分野において重要な課題である。 車両追跡における特徴は、車両の軌道が世界座標と画像座標の両方においてかなり滑らかであることである。 したがって、動きを捉えるモデルは非常に必要である。 しかし、限られた情報、検出エラー、閉塞により目標が容易に失われる可能性があるため、スタンドアロンのモーションベースのトラッカーによるトラッキングは非常に難しい。 オブジェクトの再識別を支援するために外観情報を活用することで、この課題をある程度解決することができる。 しかし, 出現情報は咬合にも敏感であり, 余分な計算が必要となる。 本稿では,外観情報のない車両追跡における動きパターンの意義について検討する。 本稿では, 長期追跡のための関連課題に, 排他的完全公開動作情報を用いた新しいアプローチを提案する。 本稿では,ディープグラフ畳み込みニューラルネットワーク(gcn)に基づく再構成・組込み戦略において,トラックレット埋め込み問題に対処する。 KITTI-car TrackingデータセットとUA-Detracデータセットの総合的な実験により、提案手法は外観情報を持たないが、最先端(SOTA)トラッカーとの競合性能を実現することができた。 ソースコードはhttps://github.com/gaoangw/lgmtrackerで入手できる。

Vehicle tracking is an essential task in the multi-object tracking (MOT) field. A distinct characteristic in vehicle tracking is that the trajectories of vehicles are fairly smooth in both the world coordinate and the image coordinate. Hence, models that capture motion consistencies are of high necessity. However, tracking with the standalone motion-based trackers is quite challenging because targets could get lost easily due to limited information, detection error and occlusion. Leveraging appearance information to assist object re-identification could resolve this challenge to some extent. However, doing so requires extra computation while appearance information is sensitive to occlusion as well. In this paper, we try to explore the significance of motion patterns for vehicle tracking without appearance information. We propose a novel approach that tackles the association issue for long-term tracking with the exclusive fully-exploited motion information. We address the tracklet embedding issue with the proposed reconstruct-to-embed strategy based on deep graph convolutional neural networks (GCN). Comprehensive experiments on the KITTI-car tracking dataset and UA-Detrac dataset show that the proposed method, though without appearance information, could achieve competitive performance with the state-of-the-art (SOTA) trackers. The source code will be available at https://github.com/GaoangW/LGMTracker.
翻訳日:2021-08-16 20:35:32 公開日:2021-08-13
# (参考訳) 階層的クラスタリングの情報理論的展望

An Information-theoretic Perspective of Hierarchical Clustering ( http://arxiv.org/abs/2108.06036v1 )

ライセンス: CC BY 4.0
Yicheng Pan, Feng Zheng, Bingchen Fan(参考訳) 階層クラスタリングの組合せコスト関数はDasgupta \cite{dasgupta2016 Cost}によって導入された。 Cohen-Addadらによって一般化されている。 \cite{cohen2019hierarchical} を許容関数(admissible function)という一般形式に拡張する。 本稿では,emph{information-theoretic}の観点から階層的クラスタリングを調べ,新しい目的関数を定式化する。 これら2つの視点の関係も確立する。 アルゴリズム的な側面では、従来のトップダウンおよびボトムアップフレームワークを廃止し、目的関数をガイドして再帰的にクラスタツリーの \emph{sparsest} レベルを階層化する新しいフレームワークを提案する。 実用上、私たちのクラスタツリーはバイナリではありません。 HCSEと呼ばれるアルゴリズムは,超パラメータなしで自動的に$k$を選択する新しい機構により,$k$レベルのクラスタツリーを出力する。 合成データセットに対する実験結果から,HCSEは本質的な階層数を見つける上で大きな優位性を示し,実データを用いた結果,HCSEはアルゴリズムLOUVAINとHLPの競合コストも達成できることがわかった。

A combinatorial cost function for hierarchical clustering was introduced by Dasgupta \cite{dasgupta2016cost}. It has been generalized by Cohen-Addad et al. \cite{cohen2019hierarchical} to a general form named admissible function. In this paper, we investigate hierarchical clustering from the \emph{information-theoretic} perspective and formulate a new objective function. We also establish the relationship between these two perspectives. In algorithmic aspect, we get rid of the traditional top-down and bottom-up frameworks, and propose a new one to stratify the \emph{sparsest} level of a cluster tree recursively in guide with our objective function. For practical use, our resulting cluster tree is not binary. Our algorithm called HCSE outputs a $k$-level cluster tree by a novel and interpretable mechanism to choose $k$ automatically without any hyper-parameter. Our experimental results on synthetic datasets show that HCSE has a great advantage in finding the intrinsic number of hierarchies, and the results on real datasets show that HCSE also achieves competitive costs over the popular algorithms LOUVAIN and HLP.
翻訳日:2021-08-16 20:34:07 公開日:2021-08-13
# (参考訳) 関係有向グラフを用いた知識グラフ推論

Knowledge Graph Reasoning with Relational Directed Graph ( http://arxiv.org/abs/2108.06040v1 )

ライセンス: CC BY 4.0
Yongqi Zhang and Quanming Yao(参考訳) 知識グラフ(KG)の推論は、既存のものから新しい事実を推測することを目的としている。 文学における関係経路に基づく手法は、強く、解釈可能で、帰納的推論能力を示す。 しかし、経路は自然にkgの複雑なトポロジーを捉えることに制限される。 本稿では,KGの構造情報を取得するために,重なり合う関係経路からなる関係有向グラフ(r-digraph)という新しい関係構造を導入する。 グラフは経路よりも複雑な構造を示すので、r-グラフの構成と学習は困難である。 本稿では,グラフニューラルネットワークの変種であるRED-GNNを提案する。 具体的には、RED-GNNは複数のr-digraphを共有エッジで再帰的にエンコードし、クエリ依存の注意重みを通して強く相関するエッジを選択する。 r-digraph による kg と unseen entity と uncompletion kg ベンチマークの両方の推論において有意な利益が得られたこと,red-gnn の効率,および r-digraph で学んだ解釈可能な依存関係が示された。

Reasoning on the knowledge graph (KG) aims to infer new facts from existing ones. Methods based on the relational path in the literature have shown strong, interpretable, and inductive reasoning ability. However, the paths are naturally limited in capturing complex topology in KG. In this paper, we introduce a novel relational structure, i.e., relational directed graph (r-digraph), which is composed of overlapped relational paths, to capture the KG's structural information. Since the digraph exhibits more complex structure than paths, constructing and learning on the r-digraph are challenging. Here, we propose a variant of graph neural network, i.e., RED-GNN, to address the above challenges by learning the RElational Digraph with a variant of GNN. Specifically, RED-GNN recursively encodes multiple r-digraphs with shared edges and selects the strongly correlated edges through query-dependent attention weights. We demonstrate the significant gains on reasoning both KG with unseen entities and incompletion KG benchmarks by the r-digraph, the efficiency of RED-GNN, and the interpretable dependencies learned on the r-digraph.
翻訳日:2021-08-16 20:15:56 公開日:2021-08-13
# (参考訳) 深層半監督学習のためのプログレッシブな代表ラベリング

Progressive Representative Labeling for Deep Semi-Supervised Learning ( http://arxiv.org/abs/2108.06070v1 )

ライセンス: CC BY 4.0
Xiaopeng Yan, Riquan Chen, Litong Feng, Jingkang Yang, Huabin Zheng, Wayne Zhang(参考訳) 近年の深層半教師付き学習(SSL)は,ラベル付きデータに制限されたデータによるディープラーニングの性能向上のために,膨大な量のラベル付きデータを活用するために大きな注目を集めている。 Pseudo-labelingはラベル付きデータセットを拡張する一般的なアプローチである。 しかし、より効果的なラベル付け方法が存在するかどうかは未解決の問題である。 本稿では,ラベル付き集合を拡張するために,最も代表的なサンプルのみをラベル付けすることを提案する。 有向kネアレスト近傍(knn)グラフ上の対応するノードの次数によって選択される代表サンプルは、他の多くのサンプルのkネアレスト近傍にある。 我々は、グラフニューラルネットワーク(GNN)ラベルをプログレッシブな学習方法でラベル付けするように設計する。 CIFAR-10、SVHN、ILSVRC-2012など、一般的なSSLベンチマークにおいて、当社のDeep SSLアプローチは最先端のメソッドよりも優れています。 特に、ラベル付きデータのわずか10\%のImageNetベンチマークにおいて、72.1%のトップ1の精度を達成し、前回の最高値を3.3%上回った。

Deep semi-supervised learning (SSL) has experienced significant attention in recent years, to leverage a huge amount of unlabeled data to improve the performance of deep learning with limited labeled data. Pseudo-labeling is a popular approach to expand the labeled dataset. However, whether there is a more effective way of labeling remains an open problem. In this paper, we propose to label only the most representative samples to expand the labeled set. Representative samples, selected by indegree of corresponding nodes on a directed k-nearest neighbor (kNN) graph, lie in the k-nearest neighborhood of many other samples. We design a graph neural network (GNN) labeler to label them in a progressive learning manner. Aided by the progressive GNN labeler, our deep SSL approach outperforms state-of-the-art methods on several popular SSL benchmarks including CIFAR-10, SVHN, and ILSVRC-2012. Notably, we achieve 72.1% top-1 accuracy, surpassing the previous best result by 3.3%, on the challenging ImageNet benchmark with only $10\%$ labeled data.
翻訳日:2021-08-16 19:49:44 公開日:2021-08-13
# (参考訳) Point-Voxel Transformer:3Dディープラーニングへの効率的なアプローチ

Point-Voxel Transformer: An Efficient Approach To 3D Deep Learning ( http://arxiv.org/abs/2108.06076v1 )

ライセンス: CC BY 4.0
Cheng Zhang, Haocheng Wan, Shengqiang Liu, Xinyi Shen, Zizhao Wu(参考訳) 3dデータのスパース性と不規則性のため、ポイントを直接処理するアプローチが普及している。 すべてのポイントベースモデルの中で、トランスフォーマーベースのモデルは、ポイント相互関係を完全に保存することで最先端のパフォーマンスを達成している。 しかし、そのほとんどはスパースデータアクセス(例えば、FPS(Farthest Point Sampling)や近隣点クエリ)に多くの時間を費やしており、計算の負担となっている。 そこで本稿では,voxelにおいてマルチヘッドセルフアテンション(msa)計算を行い,局所情報をキャプチャし,不規則なデータアクセスを低減しつつ,ポイントにおける自己アテンション計算を活用した,新しい3次元トランスであるpoint-voxel transformer(pvt)を提案する。 さらに, MSA 計算のコストをさらに削減するため, クロスボックス接続を保ちながら, オーバーラップしないローカルボックスに MSA 計算を制限することにより, より効率のよい巡回シフトボックス方式を設計する。 本手法はトランスフォーマーアーキテクチャのポテンシャルを十分に活用し,効率良く正確な認識に道を開く。 分類とセグメンテーションのベンチマークで評価したところ,pvtは精度が向上しただけでなく,従来のトランスフォーマーモデルと比較して平均9倍の速度アップを達成している。 3Dオブジェクト検出タスクでは、Frustrum PointNetのプリミティブをPVT層に置き換え、8.6%の改善を実現する。

Due to the sparsity and irregularity of the 3D data, approaches that directly process points have become popular. Among all point-based models, Transformer-based models have achieved state-of-the-art performance by fully preserving point interrelation. However, most of them spend high percentage of total time on sparse data accessing (e.g., Farthest Point Sampling (FPS) and neighbor points query), which becomes the computation burden. Therefore, we present a novel 3D Transformer, called Point-Voxel Transformer (PVT) that leverages self-attention computation in points to gather global context features, while performing multi-head self-attention (MSA) computation in voxels to capture local information and reduce the irregular data access. Additionally, to further reduce the cost of MSA computation, we design a cyclic shifted boxing scheme which brings greater efficiency by limiting the MSA computation to non-overlapping local boxes while also preserving cross-box connection. Our method fully exploits the potentials of Transformer architecture, paving the road to efficient and accurate recognition results. Evaluated on classification and segmentation benchmarks, our PVT not only achieves strong accuracy but outperforms previous state-of-the-art Transformer-based models with 9x measured speedup on average. For 3D object detection task, we replace the primitives in Frustrum PointNet with PVT layer and achieve the improvement of 8.6%.
翻訳日:2021-08-16 19:35:29 公開日:2021-08-13
# (参考訳) カリキュラム学習: 効率的かつ安定なGPTモデル事前学習のための正規化手法

Curriculum Learning: A Regularization Method for Efficient and Stable Billion-Scale GPT Model Pre-Training ( http://arxiv.org/abs/2108.06084v1 )

ライセンス: CC BY 4.0
Conglong Li, Minjia Zhang, Yuxiong He(参考訳) 最近の研究は、テキスト生成のための大量の未ラベルテキストコーパスを用いて、高容量自動回帰言語モデル(GPT, GPT-2, GPT-3)の訓練に成功している。 優れた結果を示したにもかかわらず、これは2つのトレーニング効率の課題を生み出します。 第一に、大規模なコーパスのトレーニングは非常にタイミングがかかり、トークンの収束速度を改善するためのトレーニングサンプルをモデルに提示する方法は、依然として困難でオープンな問題である。 第二に、これらの大きなモデルの多くは、非常に大きなバッチサイズを持つデータ並列性を使用して、数百から数千のプロセッサでトレーニングする必要があります。 計算効率は優れているが、大規模バッチトレーニングはしばしばトレーニング不安定問題に陥り、一般化性能の悪いソリューションに収束することが観察されている。 これら2つの課題を克服するために,自己回帰モデルの事前学習収束速度の向上を支援するカリキュラム学習に基づくアプローチを提案する。 さらに, カリキュラム学習は, 正規化手法として, 勾配分散低減効果をもたらし, バッチサイズや学習率を大きくした自己回帰モデルのトレーニングが可能となり, トレーニング速度がさらに向上することを示す。 評価の結果,カリキュラム学習はGPT-2モデル(最大1.5Bパラメータ)を8倍のバッチサイズと4倍の学習率で訓練することが可能である。 カリキュラム学習は,事前学習中に同じ妥当性の重み付け目標を達成するために,必要なトークン数と壁時計時間(壁時計時間)を最大59%,54%削減する。 プレトレーニング終了時のWikiText-103/LAMBADA評価結果のゼロショット化を実現するために,カリキュラム学習では,必要なトークン数とウォールクロック時間を最大13%,61%削減する。

Recent works have demonstrated great success in training high-capacity autoregressive language models (GPT, GPT-2, GPT-3) on a huge amount of unlabeled text corpus for text generation. Despite showing great results, this generates two training efficiency challenges. First, training large corpora can be extremely timing consuming, and how to present training samples to the model to improve the token-wise convergence speed remains a challenging and open question. Second, many of these large models have to be trained with hundreds or even thousands of processors using data-parallelism with a very large batch size. Despite of its better compute efficiency, it has been observed that large-batch training often runs into training instability issue or converges to solutions with bad generalization performance. To overcome these two challenges, we present a study of a curriculum learning based approach, which helps improves the pre-training convergence speed of autoregressive models. More importantly, we find that curriculum learning, as a regularization method, exerts a gradient variance reduction effect and enables to train autoregressive models with much larger batch sizes and learning rates without training instability, further improving the training speed. Our evaluations demonstrate that curriculum learning enables training GPT-2 models (with up to 1.5B parameters) with 8x larger batch size and 4x larger learning rate, whereas the baseline approach struggles with training divergence. To achieve the same validation perplexity targets during pre-training, curriculum learning reduces the required number of tokens and wall clock time by up to 59% and 54%, respectively. To achieve the same or better zero-shot WikiText-103/LAMBADA evaluation results at the end of pre-training, curriculum learning reduces the required number of tokens and wall clock time by up to 13% and 61%, respectively.
翻訳日:2021-08-16 19:20:22 公開日:2021-08-13
# (参考訳) 強化学習を用いたアスペクト感情三重項抽出

Aspect Sentiment Triplet Extraction Using Reinforcement Learning ( http://arxiv.org/abs/2108.06107v1 )

ライセンス: CC BY-SA 4.0
Samson Yu Bai Jian, Tapas Nayak, Navonil Majumder, and Soujanya Poria(参考訳) Aspect Sentiment Triplet extract (ASTE) は、アスペクト用語、関連する感情、表現された感情の証拠を提供する意見用語を抽出するタスクである。 ASTEの以前のアプローチでは、通常は3つのコンポーネントを同時に抽出するか、まずアスペクトと意見の項を識別し、それらを組み合わせて感情の極性を予測する。 本稿では、階層的強化学習(RL)フレームワークにおける表現された感情の議論として、アスペクトと意見項に関する新しいパラダイムASTE-RLを提案する。 まず、文章で表現された感情に注目し、その感情のターゲットとなる側面と意見の言葉を特定します。 これはトリプレットのコンポーネント間の相互相互作用を考慮し、探索とサンプル効率を改善している。 さらに、この階層的なRLsetupにより、複数の重なり合う三重項を扱うことができる。 実験では,ラップトップおよびレストランドメインの既存データセットのモデルを評価し,最先端の性能を実現することを示す。 この作業の実装はhttps://github.com/declare-lab/ASTE-RLで公開されている。

Aspect Sentiment Triplet Extraction (ASTE) is the task of extracting triplets of aspect terms, their associated sentiments, and the opinion terms that provide evidence for the expressed sentiments. Previous approaches to ASTE usually simultaneously extract all three components or first identify the aspect and opinion terms, then pair them up to predict their sentiment polarities. In this work, we present a novel paradigm, ASTE-RL, by regarding the aspect and opinion terms as arguments of the expressed sentiment in a hierarchical reinforcement learning (RL) framework. We first focus on sentiments expressed in a sentence, then identify the target aspect and opinion terms for that sentiment. This takes into account the mutual interactions among the triplet's components while improving exploration and sample efficiency. Furthermore, this hierarchical RLsetup enables us to deal with multiple and overlapping triplets. In our experiments, we evaluate our model on existing datasets from laptop and restaurant domains and show that it achieves state-of-the-art performance. The implementation of this work is publicly available at https://github.com/declare-lab/ASTE-RL.
翻訳日:2021-08-16 18:50:09 公開日:2021-08-13
# (参考訳) UMFA:U-Netと多層特徴集合に基づくフォトリアリスティックなスタイル転送手法

UMFA: A photorealistic style transfer method based on U-Net and multi-layer feature aggregation ( http://arxiv.org/abs/2108.06113v1 )

ライセンス: CC0 1.0
D.Y. Rao, X.J. Wu, H. Li, J. Kittler, T.Y. Xu(参考訳) 本稿では,フォトリアリスティックな画像スタイライゼーションの自然な効果を強調する,フォトリアリスティックなスタイル転送ネットワークを提案する。 一般に、画像内容の歪みと詳細の欠如は、スタイル転送分野における2つの典型的な問題である。 この目的のために,U-Net構造を用いた多層特徴集約(MFA)法を用いて,スタイリング処理において浅層により得られた詳細情報を同時に提供する新しいフレームワークを設計する。 特に、高密度ブロックに基づくエンコーダとU-Netの対称構造を形成するデコーダとを連立して、効率的な特徴抽出と画像再構成を実現する。 また、スタイリゼーションを実現するために、スキップ接続位置にMFAと"adaptive instance normalization"(AdaIN)に基づく転送モジュールを挿入する。 したがって、スタイリッシュな画像は、実際の写真のテクスチャを有し、マスクや後処理工程を導入することなく、リッチなコンテンツ詳細を保持することができる。 公開データセットにおける実験結果は,提案手法の有効性とメリットを反映して,より忠実な構造的類似性と低いスタイル損失を実現することを実証する。

In this paper, we propose a photorealistic style transfer network to emphasize the natural effect of photorealistic image stylization. In general, distortion of the image content and lacking of details are two typical issues in the style transfer field. To this end, we design a novel framework employing the U-Net structure to maintain the rich spatial clues, with a multi-layer feature aggregation (MFA) method to simultaneously provide the details obtained by the shallow layers in the stylization processing. In particular, an encoder based on the dense block and a decoder form a symmetrical structure of U-Net are jointly staked to realize an effective feature extraction and image reconstruction. Besides, a transfer module based on MFA and "adaptive instance normalization" (AdaIN) is inserted in the skip connection positions to achieve the stylization. Accordingly, the stylized image possesses the texture of a real photo and preserves rich content details without introducing any mask or post-processing steps. The experimental results on public datasets demonstrate that our method achieves a more faithful structural similarity with a lower style loss, reflecting the effectiveness and merit of our approach.
翻訳日:2021-08-16 18:40:23 公開日:2021-08-13
# (参考訳) 白内障手術における効果的な意味的セグメンテーション

Effective semantic segmentation in Cataract Surgery: What matters most? ( http://arxiv.org/abs/2108.06119v1 )

ライセンス: CC BY 4.0
Theodoros Pissas, Claudio Ravasio, Lyndon Da Cruz, Christos Bergeles(参考訳) 我々の研究は、白内障手術に関する挑戦的な公開ベンチマークであるCaDISで最先端のニューラルネットワーク設計の選択を提案する。 本手法は, 3つのセマンティックセグメンテーションタスクにおいて, クラス不均衡を効果的に扱うことで, よりきめ細かな外科的ツールセットによる高いパフォーマンスを実現する。 概念的に単純な2つのデータオーバーサンプリング法と異なる損失関数を検討し評価する。 特に最も稀なツールクラスでは,ネットワークアーキテクチャやタスク間で有意なパフォーマンス向上を示し,不均衡な粒度データセットを考慮すれば,高いパフォーマンスを実現するためのアプローチを示す。 私たちのコードとトレーニングされたモデルは、https://github.com/rvimlab/miccai2021_cataract_semantic_segmentationで利用可能です。

Our work proposes neural network design choices that set the state-of-the-art on a challenging public benchmark on cataract surgery, CaDIS. Our methodology achieves strong performance across three semantic segmentation tasks with increasingly granular surgical tool class sets by effectively handling class imbalance, an inherent challenge in any surgical video. We consider and evaluate two conceptually simple data oversampling methods as well as different loss functions. We show significant performance gains across network architectures and tasks especially on the rarest tool classes, thereby presenting an approach for achieving high performance when imbalanced granular datasets are considered. Our code and trained models are available at https://github.com/RViMLab/MICCAI2021_Cataract_semantic_segmentation and qualitative results on unseen surgical video can be found at https://youtu.be/twVIPUj1WZM.
翻訳日:2021-08-16 18:29:43 公開日:2021-08-13
# (参考訳) Pruning vs XNOR-Net:マイクロコントローラにおける音声分類のためのディープラーニングに関する総合的研究

Pruning vs XNOR-Net: A Comprehensive Study on Deep Learning for Audio Classification in Microcontrollers ( http://arxiv.org/abs/2108.06128v1 )

ライセンス: CC BY 4.0
Md Mohaimenuzzaman, Christoph Bergmeir, Bernd Meyer(参考訳) Deep Learningは、コンピュータビジョンやマシンリスニングなど、インターネット・オブ・Thingsに関連する多くのアプリケーション分野において、大きな成功を祝っている。 IoTの深い傾きのパワーをフル活用するには、これらのテクノロジを最終的にエッジに直接持ち込む必要があります。 明らかな課題は、モデルが根本的に縮小された場合、ディープラーニング技術が厳密にリソース制約されたエッジデバイスにのみ実装可能であることだ。 このタスクは、ネットワークプルーニング、量子化、XNOR-Netの最近の進歩など、さまざまなモデル圧縮技術に依存している。 本稿では,マイクロコントローラの音声分類におけるこれらの手法の有効性について検討する。 本稿では、エンドツーエンドの生音声分類のためのXNOR-Netと、この手法をプルーニング・アンド・クァンタライズ法と比較した総合的な実証的研究について述べる。 XNORを用いた生音声分類は,メモリ要求を32倍に,計算要求を58倍に減らしながら,少数のクラスに対して通常の完全精度ネットワークに匹敵する性能を示す。 しかし、クラス数が大幅に増加するにつれて、性能低下とプルーニングと量子化に基づく圧縮技術が、同じ空間制約を満たすことができるが約8倍の計算を必要とする技術として好まれる。 これらの知見は,標準ベンチマークセットを用いた生音声分類と画像分類の整合性を示し,XNORをエンド・ツー・エンドの音声分類に適用し,代替手法の文脈で評価した最初の研究である。 すべてのコードはGitHubで公開されている。

Deep Learning has celebrated resounding successes in many application areas of relevance to the Internet-of-Things, for example, computer vision and machine listening. To fully harness the power of deep leaning for the IoT, these technologies must ultimately be brought directly to the edge. The obvious challenge is that deep learning techniques can only be implemented on strictly resource-constrained edge devices if the models are radically downsized. This task relies on different model compression techniques, such as network pruning, quantization and the recent advancement of XNOR-Net. This paper examines the suitability of these techniques for audio classification in microcontrollers. We present an XNOR-Net for end-to-end raw audio classification and a comprehensive empirical study comparing this approach with pruning-and-quantization methods. We show that raw audio classification with XNOR yields comparable performance to regular full precision networks for small numbers of classes while reducing memory requirements 32-fold and computation requirements 58-fold. However, as the number of classes increases significantly, performance degrades and pruning-and-quantization based compression techniques take over as the preferred technique being able to satisfy the same space constraints but requiring about 8x more computation. We show that these insights are consistent between raw audio classification and image classification using standard benchmark sets.To the best of our knowledge, this is the first study applying XNOR to end-to-end audio classification and evaluating it in the context of alternative techniques. All code is publicly available on GitHub.
翻訳日:2021-08-16 18:18:22 公開日:2021-08-13
# (参考訳) 質問応答モデル評価のための意味的回答類似性

Semantic Answer Similarity for Evaluating Question Answering Models ( http://arxiv.org/abs/2108.06130v1 )

ライセンス: CC BY 4.0
Julian Risch and Timo M\"oller and Julian Gutsch and Malte Pietsch(参考訳) 質問応答モデルの評価は、基底アノテーションとモデル予測を比較する。 しかし、今日では、この比較は概ね語彙に基づくものであり、語彙的重複を持たないが意味論的に類似している答えを見逃し、正しい答えを偽として扱う。 このモデルの性能の過小評価は、アプリケーションのユーザの受け入れを妨げ、異なるモデルの公正な比較を複雑にする。 したがって、純粋な文字列の類似性の代わりに意味論に基づく評価指標が必要である。 本稿では,意味的回答の類似度を推定するためのクロスエンコーダベースのメトリクスであるSASについて,既存の7つの指標と比較する。 そこで本研究では,2対の回答を含む英語とドイツ語の3方向アノテート評価データセットと,その意味的類似性に関する人間の判断を作成し,sasメトリクスと実験の実装とともに公開する。 最近のトランスフォーマーモデルに基づく意味的類似度指標は、新たに作成した2つのデータセットと関連する作業からの1つのデータセットの従来の語彙的類似度指標よりも、人間の判断と非常によく相関している。

The evaluation of question answering models compares ground-truth annotations with model predictions. However, as of today, this comparison is mostly lexical-based and therefore misses out on answers that have no lexical overlap but are still semantically similar, thus treating correct answers as false. This underestimation of the true performance of models hinders user acceptance in applications and complicates a fair comparison of different models. Therefore, there is a need for an evaluation metric that is based on semantics instead of pure string similarity. In this short paper, we present SAS, a cross-encoder-based metric for the estimation of semantic answer similarity, and compare it to seven existing metrics. To this end, we create an English and a German three-way annotated evaluation dataset containing pairs of answers along with human judgment of their semantic similarity, which we release along with an implementation of the SAS metric and the experiments. We find that semantic similarity metrics based on recent transformer models correlate much better with human judgment than traditional lexical similarity metrics on our two newly created datasets and one dataset from related work.
翻訳日:2021-08-16 18:03:42 公開日:2021-08-13
# (参考訳) パンスハーペンのフルレゾリューション品質評価

Full-resolution quality assessment for pansharpening ( http://arxiv.org/abs/2108.06144v1 )

ライセンス: CC BY 4.0
Giuseppe Scarpa and Matteo Ciotola(参考訳) パンスハーペン法における信頼性の高い品質評価手法は,関連ソリューションの開発において重要である。 残念なことに、客観的な評価のためのガイダンスとして使われる基盤の欠如により、コミュニティは、参照ベースの解像度低下インデックスや、フルレゾリューションデータセットに適用可能な主観的品質指標の参照を頼らざるを得なくなった。 特に、参照ベースのアプローチは、関連した基底真理でデータを合成できる分解分解過程であるwaldのプロトコルを活用している。 しかし、どちらのソリューションも、代替のノン参照フルレゾリューションフレームワークによって、この研究を緩和しようとする重大な欠点を提示する。 一方、スペクトル忠実性問題に対処するためのプロトコル、すなわち再プロジェクションプロトコルを導入しました。 一方,パンシャーペン画像とパンクロマティックバンドの完全分解能における空間整合性の新たな指標が提案されている。 実験の結果,視覚検査で確認した提案手法の有効性が示された。

A reliable quality assessment procedure for pansharpening methods is of critical importance for the development of the related solutions. Unfortunately, the lack of ground-truths to be used as guidance for an objective evaluation has pushed the community to resort to either reference-based reduced-resolution indexes or to no-reference subjective quality indexes that can be applied on full-resolution datasets. In particular, the reference-based approach leverages on Wald's protocol, a resolution degradation process that allows one to synthesize data with related ground truth. Both solutions, however, present critical shortcomings that we aim to mitigate in this work by means of an alternative no-reference full-resolution framework. On one side we introduce a protocol, namely the reprojection protocol, which allows to handle the spectral fidelity problem. On the other side, a new index of the spatial consistency between the pansharpened image and the panchromatic band at full resolution is proposed. The experimental results show the effectiveness of the proposed approach which is confirmed also by visual inspection.
翻訳日:2021-08-16 17:51:05 公開日:2021-08-13
# (参考訳) 高速トレーニング収束のための条件付きDETR

Conditional DETR for Fast Training Convergence ( http://arxiv.org/abs/2108.06152v1 )

ライセンス: CC BY 4.0
Depu Meng, Xiaokang Chen, Zejia Fan, Gang Zeng, Houqiang Li, Yuhui Yuan, Lei Sun, Jingdong Wang(参考訳) 最近開発されたDETRアプローチは、トランスフォーマーエンコーダとデコーダアーキテクチャをオブジェクト検出に適用し、有望な性能を達成する。 本稿では,重要な問題に対処し,トレーニングの収束を遅くし,高速DETRトレーニングのための条件付きクロスアテンション機構を提案する。 我々のアプローチは、DETRにおけるクロスアテンションは、4つの極端をローカライズし、ボックスを予測するためのコンテンツ埋め込みに大きく依存しているため、高品質なコンテンツ埋め込みの必要性が増し、トレーニングの難しさが増している。 提案手法は条件付きdetrと呼ばれ,マルチヘッドクロスアテンションのためのデコーダ埋め込みから条件付き空間クエリを学習する。 その利点は、条件付き空間問合せによって、各クロスアテンションヘッドが、例えば1つのオブジェクトの極端またはオブジェクトボックス内の領域を含むバンドに参加することができることである。 これにより、オブジェクト分類とボックス回帰のために異なる領域をローカライズするための空間範囲を狭め、コンテンツ埋め込みへの依存を緩和し、トレーニングを緩和する。 実験の結果、DTRはバックボーンR50とR101では6.7倍、バックボーンDC5-R50とDC5-R101では10倍の速度で収束することがわかった。 コードはhttps://git.io/ConditionalDETRで公開されている。

The recently-developed DETR approach applies the transformer encoder and decoder architecture to object detection and achieves promising performance. In this paper, we handle the critical issue, slow training convergence, and present a conditional cross-attention mechanism for fast DETR training. Our approach is motivated by that the cross-attention in DETR relies highly on the content embeddings for localizing the four extremities and predicting the box, which increases the need for high-quality content embeddings and thus the training difficulty. Our approach, named conditional DETR, learns a conditional spatial query from the decoder embedding for decoder multi-head cross-attention. The benefit is that through the conditional spatial query, each cross-attention head is able to attend to a band containing a distinct region, e.g., one object extremity or a region inside the object box. This narrows down the spatial range for localizing the distinct regions for object classification and box regression, thus relaxing the dependence on the content embeddings and easing the training. Empirical results show that conditional DETR converges 6.7x faster for the backbones R50 and R101 and 10x faster for stronger backbones DC5-R50 and DC5-R101. Code is available at https://git.io/ConditionalDETR.
翻訳日:2021-08-16 17:39:58 公開日:2021-08-13
# (参考訳) aiシステムのロバストネステスト:交通標識認識を事例として

Robustness testing of AI systems: A case study for traffic sign recognition ( http://arxiv.org/abs/2108.06159v1 )

ライセンス: CC BY 4.0
Christian Berghoff and Pavol Bielik and Matthias Neu and Petar Tsankov and Arndt von Twickel(参考訳) ここ数年、AIシステム、特にニューラルネットワークのパフォーマンスは大幅に向上し、現在では広範囲のアプリケーションで使用されている。 古典的なシンボリックAIシステムとは異なり、ニューラルネットワークは巨大なデータセットを使って訓練されており、数十億のパラメータを含む内部構造は人間の解釈に役立ちません。 結果として、トレーニング中に見られるものと大きく異なる入力データを処理する場合、操作中のニューラルネットワークの正しい振る舞いを広範囲に保証することは、今のところ不可能である。 しかし、aiシステムの多くのアプリケーションは、セキュリティ上または安全上重要であり、それゆえ、予期しない出来事に直面した場合にシステムの堅牢性に関するステートメントを取得する必要がある。 このようなアプリケーションのための堅牢なAIシステムを開発するためのステップとして,本論文では,AIシステムの堅牢性を実際に検討し,どの方法やメトリクスを利用できるかを示す。 自律運転における交通標識認識の例について,ロバストネステスト手法を解説し,分析した。

In the last years, AI systems, in particular neural networks, have seen a tremendous increase in performance, and they are now used in a broad range of applications. Unlike classical symbolic AI systems, neural networks are trained using large data sets and their inner structure containing possibly billions of parameters does not lend itself to human interpretation. As a consequence, it is so far not feasible to provide broad guarantees for the correct behaviour of neural networks during operation if they process input data that significantly differ from those seen during training. However, many applications of AI systems are security- or safety-critical, and hence require obtaining statements on the robustness of the systems when facing unexpected events, whether they occur naturally or are induced by an attacker in a targeted way. As a step towards developing robust AI systems for such applications, this paper presents how the robustness of AI systems can be practically examined and which methods and metrics can be used to do so. The robustness testing methodology is described and analysed for the example use case of traffic sign recognition in autonomous driving.
翻訳日:2021-08-16 17:23:18 公開日:2021-08-13
# (参考訳) 半マルコフモデルを用いた適応実行変調(AED)を用いたロボットナビゲーションの強化学習

Reinforcement Learning for Robot Navigation with Adaptive ExecutionDuration (AED) in a Semi-Markov Model ( http://arxiv.org/abs/2108.06161v1 )

ライセンス: CC BY 4.0
Yu'an Chen, Ruosong Ye, Ziyang Tao, Hongjian Liu, Guangda Chen, Jie Peng, Jun Ma, Yu Zhang, Yanyong Zhang and Jianmin Ji(参考訳) 深部強化学習(DRL)アルゴリズムは、知覚入力を直接ロボット制御コマンドにマッピングすることで、特に未知の環境でロボットナビゲーションに有効であることが証明されている。 既存の方法の多くは、一定間隔でコマンドを実行するロボットによる一様実行時間を採用している。 そのため、実行期間の長さはナビゲーションアルゴリズムにとって重要なパラメータとなる。 特に、継続時間が短すぎる場合、ナビゲーションポリシーは高い頻度で実行され、トレーニングの困難さと高い計算コストが増大する。 一方、期間が長すぎると、ポリシーは混雑した障害のあるような複雑な状況を扱うことができない。 従って、"スイート"期間範囲を見つけるのが難しい。いくつかの期間値は、DRLモデルにナビゲーションパスを見つけるのに失敗する可能性がある。 本稿では,この問題を克服するために適応実行時間を用いることを提案する。 具体的には,適応実行時間を扱う半マルコフ決定プロセス(smdp)問題としてナビゲーションタスクを定式化する。 また、分散近似ポリシー最適化(DPPO)アルゴリズムを改善し、SMDP問題に対する理論的保証を提供する。 我々はシミュレーターと実際のロボットの両方でアプローチを評価した。 その結果,本手法はナビゲーション成功率において,他のDRL法よりも10.3%優れていた。

Deep reinforcement learning (DRL) algorithms have proven effective in robot navigation, especially in unknown environments, through directly mapping perception inputs into robot control commands. Most existing methods adopt uniform execution duration with robots taking commands at fixed intervals. As such, the length of execution duration becomes a crucial parameter to the navigation algorithm. In particular, if the duration is too short, then the navigation policy would be executed at a high frequency, with increased training difficulty and high computational cost. Meanwhile, if the duration is too long, then the policy becomes unable to handle complex situations, like those with crowded obstacles. It is thus tricky to find the "sweet" duration range; some duration values may render a DRL model to fail to find a navigation path. In this paper, we propose to employ adaptive execution duration to overcome this problem. Specifically, we formulate the navigation task as a Semi-Markov Decision Process (SMDP) problem to handle adaptive execution duration. We also improve the distributed proximal policy optimization (DPPO) algorithm and provide its theoretical guarantee for the specified SMDP problem. We evaluate our approach both in the simulator and on an actual robot. The results show that our approach outperforms the other DRL-based method (with fixed execution duration) by 10.3% in terms of the navigation success rate.
翻訳日:2021-08-16 17:13:29 公開日:2021-08-13
# (参考訳) 預言者の追従:遅延したフィードバックの面における正確なオンライン変換率予測

Follow the Prophet: Accurate Online Conversion Rate Prediction in the Face of Delayed Feedback ( http://arxiv.org/abs/2108.06167v1 )

ライセンス: CC BY-SA 4.0
Haoming Li, Feiyang Pan, Xiang Ao, Zhao Yang, Min Lu, Junwei Pan, Dapeng Liu, Lei Xiao, Qing He(参考訳) 遅延したフィードバック問題は、数分から数日の変換の高度に多様化したフィードバック遅延によって引き起こされるオンライン広告における必然的な課題の1つである。 異なるタイプの広告やユーザに対して、このような識別できない遅延の下で適切なオンライン学習システムを設計することは困難である。 本稿では,オンライン広告における遅延したフィードバック問題に対して,"Following the Prophet"(略してFTP)を用いて対処することを提案する。 重要な洞察は、ログされたすべてのサンプルに対して即座にフィードバックが得られた場合、遅延したフィードバック、すなわち"プロキシ"なしでモデルを得ることができます。 オンライン学習中に預言者を得ることはできないが、各タスクが異なる期間のフィードバックパターンをキャプチャするマルチタスク予測のセットの上に集約ポリシーを用いて、預言者の予測を予測することができることを示す。 我々は,ポリシーの目的と最適化のアプローチを提案し,ログデータを用いて預言者を模倣する。 3つの実世界の広告データセットに対する大規模な実験により、我々の手法は過去の最先端のベースラインよりも優れていた。

The delayed feedback problem is one of the imperative challenges in online advertising, which is caused by the highly diversified feedback delay of a conversion varying from a few minutes to several days. It is hard to design an appropriate online learning system under these non-identical delay for different types of ads and users. In this paper, we propose to tackle the delayed feedback problem in online advertising by "Following the Prophet" (FTP for short). The key insight is that, if the feedback came instantly for all the logged samples, we could get a model without delayed feedback, namely the "prophet". Although the prophet cannot be obtained during online learning, we show that we could predict the prophet's predictions by an aggregation policy on top of a set of multi-task predictions, where each task captures the feedback patterns of different periods. We propose the objective and optimization approach for the policy, and use the logged data to imitate the prophet. Extensive experiments on three real-world advertising datasets show that our method outperforms the previous state-of-the-art baselines.
翻訳日:2021-08-16 16:57:52 公開日:2021-08-13
# (参考訳) バイオインフォマティクス問題における局所モデルおよび大域モデル予測の解釈のためのデータ駆動型アドバイス

Data-driven advice for interpreting local and global model predictions in bioinformatics problems ( http://arxiv.org/abs/2108.06201v1 )

ライセンス: CC BY 4.0
Markus Loecher and Qi Wu(参考訳) ランダムフォレストや勾配木などの木に基づくアルゴリズムは、複数の分野にまたがる最も人気があり強力な機械学習モデルのひとつであり続けている。 ツリーベースモデルにおける特徴の影響を推定する従来の知恵は、(i)グローバルな重要性の尺度しか得られず、(ii)深刻なバイアスに苦しむことで知られる \textit{node-wise reduction of a loss function} を測定することである。 条件付き特徴コントリビューション(CFC)は、決定パスに従うことによって予測をケースバイケースで説明し、経路に沿った各機能にモデルが期待する出力の変化をもたらす。 しかし、lundbergらもそうである。 木の根からの距離に依存するCFCの潜在的なバイアスを指摘した。 SHAP値(SHapley Additive exPlanation)は、このバイアスを軽減するために用いられるが、計算コストははるかに高い。 本稿では,2つの手法で計算された説明を164の公開分類問題に対して徹底的に比較し,現在の研究者にデータ駆動型アルゴリズムの推薦を提供する。 ランダムな森林では、局所的およびグローバルなSHAP値とCFCスコアの相関が非常に高く、非常に類似したランキングと解釈をもたらす。 類似の結論は、グローバルな特徴重要度スコアを各特徴に関連する予測力のプロキシとして用いることの忠実さである。

Tree-based algorithms such as random forests and gradient boosted trees continue to be among the most popular and powerful machine learning models used across multiple disciplines. The conventional wisdom of estimating the impact of a feature in tree based models is to measure the \textit{node-wise reduction of a loss function}, which (i) yields only global importance measures and (ii) is known to suffer from severe biases. Conditional feature contributions (CFCs) provide \textit{local}, case-by-case explanations of a prediction by following the decision path and attributing changes in the expected output of the model to each feature along the path. However, Lundberg et al. pointed out a potential bias of CFCs which depends on the distance from the root of a tree. The by now immensely popular alternative, SHapley Additive exPlanation (SHAP) values appear to mitigate this bias but are computationally much more expensive. Here we contribute a thorough comparison of the explanations computed by both methods on a set of 164 publicly available classification problems in order to provide data-driven algorithm recommendations to current researchers. For random forests, we find extremely high similarities and correlations of both local and global SHAP values and CFC scores, leading to very similar rankings and interpretations. Analogous conclusions hold for the fidelity of using global feature importance scores as a proxy for the predictive power associated with each feature.
翻訳日:2021-08-16 16:50:19 公開日:2021-08-13
# (参考訳) simcvd:半教師付き医用画像セグメンテーションのための単純コントラストボクセルワイズ表現蒸留法

SimCVD: Simple Contrastive Voxel-Wise Representation Distillation for Semi-Supervised Medical Image Segmentation ( http://arxiv.org/abs/2108.06227v1 )

ライセンス: CC BY 4.0
Chenyu You, Yuan Zhou, Ruihan Zhao, Lawrence Staib, James S. Duncan(参考訳) 医療画像分析におけるセグメンテーションの自動化は、大量の手動ラベル付きデータを必要とする課題である。 しかし、既存の学習ベースのアプローチの多くは、手動で注釈付けされた医療データに悩まされることが多いため、正確で堅牢な医用画像セグメンテーションにおいて大きな問題となる。 加えて、既存の半教師付きアプローチの多くは、教師付きアプローチに比べて堅牢ではなく、幾何学的構造と意味情報の明確なモデリングが欠如しており、どちらもセグメンテーションの精度を制限している。 そこで本研究では,最先端のボクセル表現学習を著しく向上させる,単純なコントラスト蒸留フレームワークであるSimCVDを提案する。 まず,入力ボリュームを2つの視点で把握し,対象境界の符号付き距離マップを,マスクとして2つの独立したドロップアウトしか持たない,教師なしのトレーニング戦略について述べる。 この単純なアプローチは驚くほどうまく機能し、ラベル付きデータの少ない以前の完全な教師付きメソッドと同じレベルで動作する。 我々は、ドロップアウトをデータ拡張の最小の形式と見なすことができ、ネットワークを表現の崩壊に頑健にする、と仮定する。 次に, 対の類似性を蒸留して構造蒸留を行うことを提案する。 我々は,SimCVDを左心房隔離チャレンジ(LA)とNIH膵CTデータセットの2つの一般的なデータセットで評価した。 The results on the LA dataset showed that in two type of labeled ratios (i.e. 20% and 10%) that SimCVD achieve a average Dice score of 90.85% and 89.03%, a 0.91% and 2.22% improve than previous best results。 本手法は,医用画像合成や登録などの下流業務の一般的な枠組みとして,SimCVDを活用することを約束して,エンドツーエンドで訓練することができる。

Automated segmentation in medical image analysis is a challenging task that requires a large amount of manually labeled data. However, most existing learning-based approaches usually suffer from limited manually annotated medical data, which poses a major practical problem for accurate and robust medical image segmentation. In addition, most existing semi-supervised approaches are usually not robust compared with the supervised counterparts, and also lack explicit modeling of geometric structure and semantic information, both of which limit the segmentation accuracy. In this work, we present SimCVD, a simple contrastive distillation framework that significantly advances state-of-the-art voxel-wise representation learning. We first describe an unsupervised training strategy, which takes two views of an input volume and predicts their signed distance maps of object boundaries in a contrastive objective, with only two independent dropout as mask. This simple approach works surprisingly well, performing on the same level as previous fully supervised methods with much less labeled data. We hypothesize that dropout can be viewed as a minimal form of data augmentation and makes the network robust to representation collapse. Then, we propose to perform structural distillation by distilling pair-wise similarities. We evaluate SimCVD on two popular datasets: the Left Atrial Segmentation Challenge (LA) and the NIH pancreas CT dataset. The results on the LA dataset demonstrate that, in two types of labeled ratios (i.e., 20% and 10%), SimCVD achieves an average Dice score of 90.85% and 89.03% respectively, a 0.91% and 2.22% improvement compared to previous best results. Our method can be trained in an end-to-end fashion, showing the promise of utilizing SimCVD as a general framework for downstream tasks, such as medical image synthesis and registration.
翻訳日:2021-08-16 16:46:28 公開日:2021-08-13
# (参考訳) 不均衡データストリームを用いたオンラインフェアネスアウェア学習

Online Fairness-Aware Learning with Imbalanced Data Streams ( http://arxiv.org/abs/2108.06231v1 )

ライセンス: CC BY 4.0
Vasileios Iosifidis, Wenbin Zhang, Eirini Ntoutsi(参考訳) データ駆動学習アルゴリズムは、ネットワーク監視、株価予測、ジョブアプリケーションなど、時間とともにデータが利用可能になる多くのオンラインアプリケーションで採用されている。 基礎となるデータ分散は、新しいインスタンスが到着し、古いインスタンスが時代遅れになると、モデル適応を呼び出す時間とともに進化するかもしれない。 このような動的な環境では、データストリームと呼ばれる公正な学習は、一方的な要件とはみなされず、ストリーム上の連続的な要件を構成するべきである。 最近のフェアネス対応ストリーム分類器は、多くの実生活アプリケーションに現れるクラス不均衡の問題を無視し、主に全てのクラスを効果的に学習できないために、少数インスタンスを「排除」するため、差別を緩和している。 本稿では,ストリーム上で有効かつ公正な分類を行うオンラインフェアネス対応手法である \ours を提案する。 ストリームのクラス不均衡を監視し、その決定境界を微調整することで、ストリーム上での差別的な結果を軽減する。 クラス不均衡の異なる領域の8つの実世界と1つの合成データセットによる実験は、平均的精度が[11.2\%-14.2\%]、[22.6\%-31.8\%]、[42.5\%-49.6\%]、[14.3\%-25.7\%]、[89.4\%-96.6\%]の統計パリティ(フェアネス)に対する我々の手法の優位性を示した。

Data-driven learning algorithms are employed in many online applications, in which data become available over time, like network monitoring, stock price prediction, job applications, etc. The underlying data distribution might evolve over time calling for model adaptation as new instances arrive and old instances become obsolete. In such dynamic environments, the so-called data streams, fairness-aware learning cannot be considered as a one-off requirement, but rather it should comprise a continual requirement over the stream. Recent fairness-aware stream classifiers ignore the problem of class imbalance, which manifests in many real-life applications, and mitigate discrimination mainly because they "reject" minority instances at large due to their inability to effectively learn all classes. In this work, we propose \ours, an online fairness-aware approach that maintains a valid and fair classifier over the stream. \ours~is an online boosting approach that changes the training distribution in an online fashion by monitoring stream's class imbalance and tweaks its decision boundary to mitigate discriminatory outcomes over the stream. Experiments on 8 real-world and 1 synthetic datasets from different domains with varying class imbalance demonstrate the superiority of our method over state-of-the-art fairness-aware stream approaches with a range (relative) increase [11.2\%-14.2\%] in balanced accuracy, [22.6\%-31.8\%] in gmean, [42.5\%-49.6\%] in recall, [14.3\%-25.7\%] in kappa and [89.4\%-96.6\%] in statistical parity (fairness).
翻訳日:2021-08-16 16:25:06 公開日:2021-08-13
# (参考訳) 全スライド細胞画像からの尿中メラノーマサブタイピングの解釈アルゴリズム

An Interpretable Algorithm for Uveal Melanoma Subtyping from Whole Slide Cytology Images ( http://arxiv.org/abs/2108.06246v1 )

ライセンス: CC BY 4.0
Haomin Chen, T.Y. Alvin Liu, Catalina Gomez, Zelia Correa, Mathias Unberath(参考訳) アルゴリズムによる意思決定支援は、パーソナライズドメディカルな医療の基盤となりつつあり、特に、特定の情報へのアクセスが治療の過程を劇的に変えることができるような高い推奨事項のために、特に、患者による結果が顕著である。 これらのシナリオではリスクが高いため、意思決定システムはレコメンデーションを提供するだけでなく、そのサポートに透過的な推論を提供するのが望ましい。 学習ベースのシステムでは、推論パイプラインの解釈可能な設計によってこれを実現できる。 そこで本研究では,細針吸引生検のデジタル細胞診画像を用いたぶどう膜メラノーマの自動解析システムについて述べる。 本手法は,多数の代表的スライドによって定義された2次元多様体において,候補細胞診画像の全てのセルを点として埋め込み,組織サンプルの細胞レベルの構成を推論し,生検の解釈可能なサブタイプ化への道を開く。 最後に、円歪2次元多様体の分割に対して規則に基づくスライドレベル分類アルゴリズムを訓練する。 このプロセスは、人間の検証のために自動的に評価されるが極めて透明な単純なルールセットをもたらす。 当院における88例の黒色腫症例の細胞診データにおいて,本手法は87.5%の精度を実現し,深部"ブラックボックス"モデルを含むすべての競合モデルと比較した。 この手法は細胞レベルのコンテンツとのインタラクションを容易にするユーザインタフェースを備えており、病理学的評価のためのさらなる洞察を提供する可能性がある。

Algorithmic decision support is rapidly becoming a staple of personalized medicine, especially for high-stakes recommendations in which access to certain information can drastically alter the course of treatment, and thus, patient outcome; a prominent example is radiomics for cancer subtyping. Because in these scenarios the stakes are high, it is desirable for decision systems to not only provide recommendations but supply transparent reasoning in support thereof. For learning-based systems, this can be achieved through an interpretable design of the inference pipeline. Herein we describe an automated yet interpretable system for uveal melanoma subtyping with digital cytology images from fine needle aspiration biopsies. Our method embeds every automatically segmented cell of a candidate cytology image as a point in a 2D manifold defined by many representative slides, which enables reasoning about the cell-level composition of the tissue sample, paving the way for interpretable subtyping of the biopsy. Finally, a rule-based slide-level classification algorithm is trained on the partitions of the circularly distorted 2D manifold. This process results in a simple rule set that is evaluated automatically but highly transparent for human verification. On our in house cytology dataset of 88 uveal melanoma patients, the proposed method achieves an accuracy of 87.5% that compares favorably to all competing approaches, including deep "black box" models. The method comes with a user interface to facilitate interaction with cell-level content, which may offer additional insights for pathological assessment.
翻訳日:2021-08-16 16:04:34 公開日:2021-08-13
# (参考訳) 心 - 主流・独立系ニュース文書コーパス

MIND - Mainstream and Independent News Documents Corpus ( http://arxiv.org/abs/2108.06249v1 )

ライセンス: CC BY 4.0
Danielle Caled, Paula Carvalho, M\'ario J. Silva(参考訳) 本稿は、オンライン主流および代替メディアソースから10ヶ月にわたって収集されたさまざまな種類の記事からなるポルトガル語コーパスであるMINDを提示し、特徴付ける。 コーパスの記事は、事実、意見、娯楽、風刺、陰謀論の5つのコレクションにまとめられている。 本稿では,データ収集プロセスがどのように行われたかを説明し,コーパスに含まれるテキストの予備的なキャラクタリゼーションを行うことができる言語メトリクスのセットを提案する。 また, コーパスにおける最も頻繁なトピックの分析を行い, 検討したコレクションの主な相違点と類似点について考察する。 最後に、このコーパスの恩恵を受けうるいくつかのタスクやアプリケーション、特に(間接的に)誤った情報検出に関連するタスクを列挙します。 全体として、コーパスの貢献と初期分析は、将来の探索的ニュース研究を支援し、誤情報に関するより良い洞察を提供するように設計されている。

This paper presents and characterizes MIND, a new Portuguese corpus comprised of different types of articles collected from online mainstream and alternative media sources, over a 10-month period. The articles in the corpus are organized into five collections: facts, opinions, entertainment, satires, and conspiracy theories. Throughout this paper, we explain how the data collection process was conducted, and present a set of linguistic metrics that allow us to perform a preliminary characterization of the texts included in the corpus. Also, we deliver an analysis of the most frequent topics in the corpus, and discuss the main differences and similarities among the collections considered. Finally, we enumerate some tasks and applications that could benefit from this corpus, in particular the ones (in)directly related to misinformation detection. Overall, our contribution of a corpus and initial analysis are designed to support future exploratory news studies, and provide a better insight into misinformation.
翻訳日:2021-08-16 15:50:43 公開日:2021-08-13
# (参考訳) 感情と関節行動のギャップを埋める

Bridging the gap between emotion and joint action ( http://arxiv.org/abs/2108.06264v1 )

ライセンス: CC BY 4.0
M. M. N. Bie\'nkiewicz (1), A. Smykovskyi (1), T. Olugbade (2), S. Janaqi (1), A. Camurri (3), N. Bianchi-Berthouze (2), M. Bj\"orkman (4), B. G. Bardy (1) ((1) EuroMov Digital Health in Motion Univ. Montpellier IMT Mines Ales France, (2) UCL, University College of London UK, (3) UNIGE InfoMus Casa Paganini Italy, (4) KTH Royal Institute of Technology Sweden)(参考訳) 私たちの日々の生活は、子供の遊び、大人が一緒に働く(チームスポーツ)、または群衆をナビゲートする見知らぬ人など、無数の共同行動モーメントで満たされています。 共同行動は、個人(および感情の具現化)を、空間的、時間的に結びつける。 しかし、個々の感情が集団内に存在することでどのように伝播するか、そして共同行動が個人の感情をどのように変化させるかについてはほとんど分かっていない。 実際、マルチエージェントコンポーネントは、主に神経科学に基づく感情へのアプローチに欠けており、逆の合同行動研究は、社会-運動の相互作用をモデル化するための重要なパラメータの1つとして感情を含める方法を見つけていない。 本稿では,まずそのギャップを識別し,様々な科学分野の感情と行動の強い絡み合いを示す証拠を蓄積する。 我々は,このギャップを埋める統合的アプローチを提案し,行動神経科学とデジタルサイエンスの5つの研究方法を強調し,現代社会が直面する領域における重要な課題に対処する。

Our daily human life is filled with a myriad of joint action moments, be it children playing, adults working together (i.e., team sports), or strangers navigating through a crowd. Joint action brings individuals (and embodiment of their emotions) together, in space and in time. Yet little is known about how individual emotions propagate through embodied presence in a group, and how joint action changes individual emotion. In fact, the multi-agent component is largely missing from neuroscience-based approaches to emotion, and reversely joint action research has not found a way yet to include emotion as one of the key parameters to model socio-motor interaction. In this review, we first identify the gap and then stockpile evidence showing strong entanglement between emotion and acting together from various branches of sciences. We propose an integrative approach to bridge the gap, highlight five research avenues to do so in behavioral neuroscience and digital sciences, and address some of the key challenges in the area faced by modern societies.
翻訳日:2021-08-16 15:37:14 公開日:2021-08-13
# (参考訳) ブレードディスクにおける故障のシグネチャをシミュレートするための低次モデリングフレームワーク

A reduced-order modeling framework for simulating signatures of faults in a bladed disk ( http://arxiv.org/abs/2108.06265v1 )

ライセンス: CC BY 4.0
Divya Shyam Singh, Atul Agrawal, D. Roy Mahapatra(参考訳) 本稿では, 回転軸上の羽根ディスクの低次モデリング手法を用いて, データ駆動機械学習のシミュレーションを目的とした各種部品の亀裂等の欠陥の振動シグネチャをシミュレートする。 我々は,複雑な動的応答の理解を深めるために,サブコンポーネントの集中的および1次元解析モデルを用いてきた。 このフレームワークは、エアエンジンを含む回転ターボ機械の健康モニタリングのための故障検出および識別スキームの分析と最適化において直面する課題に対処することを目指している。 積層要素と一次元有限要素を組み合わせたブレードディスクとシャフトをモデル化し,結合系に導いた。 シミュレーション結果は、以前公表したデータとよく一致している。 実効的な剛性近似により, ブレードの亀裂を解析的にモデル化した。 単一および2段のブレードディスクのブレードの亀裂、ファンブレードオフ(FBO)、異物損傷(FOD)など、複数の種類の故障がモデル化されている。 我々は,オンライン健康モニタリングの現実的なシナリオをシミュレートするために,航空機関の運用負荷条件を適用した。 提案手法は,確率的信号モデリング,フォールトシグニチャ同定への機械学習,および測定された振動信号を用いたパラメータ推定に応用する。

This paper reports a reduced-order modeling framework of bladed disks on a rotating shaft to simulate the vibration signature of faults like cracks in different components aiming towards simulated data-driven machine learning. We have employed lumped and one-dimensional analytical models of the subcomponents for better insight into the complex dynamic response. The framework seeks to address some of the challenges encountered in analyzing and optimizing fault detection and identification schemes for health monitoring of rotating turbomachinery, including aero-engines. We model the bladed disks and shafts by combining lumped elements and one-dimensional finite elements, leading to a coupled system. The simulation results are in good agreement with previously published data. We model the cracks in a blade analytically with their effective reduced stiffness approximation. Multiple types of faults are modeled, including cracks in the blades of single and two-stage bladed disks, Fan Blade Off (FBO), and Foreign Object Damage (FOD). We have applied aero-engine operational loading conditions to simulate realistic scenarios of online health monitoring. The proposed reduced-order simulation framework will have applications in probabilistic signal modeling, machine learning toward fault signature identification, and parameter estimation with measured vibration signals.
翻訳日:2021-08-16 15:36:12 公開日:2021-08-13
# (参考訳) BERTの動的スパース前処理の構造化に向けて

Towards Structured Dynamic Sparse Pre-Training of BERT ( http://arxiv.org/abs/2108.06277v1 )

ライセンス: CC BY-SA 4.0
Anastasia Dietrich and Frithjof Gressmann and Douglas Orr and Ivan Chelombiev and Daniel Justus and Carlo Luschi(参考訳) 大規模言語モデルの効率的な教師なし学習のためのアルゴリズムの同定は重要かつ活発な研究分野である。 本研究では,マグニチュードプルーニングに基づく周期的圧縮ステップとランダムパラメータの再配置を活用する,bert言語モデリングタスクのための,単純で動的に常にスパースな事前学習手法を開発し,検討する。 このアプローチにより,ネットワークサイズが広い範囲で,静的にスパースで密度の高いモデルよりも浮動小数点演算(FLOP)の数でParetoの改善を実現することができる。 さらに,粗粒度ブロックスパルシリティを使用する場合,トレーニングはフラップ効率が保たれ,現代のハードウェアアクセラレータ上での効率的な実行が期待できることを示した。

Identifying algorithms for computational efficient unsupervised training of large language models is an important and active area of research. In this work, we develop and study a straightforward, dynamic always-sparse pre-training approach for BERT language modeling task, which leverages periodic compression steps based on magnitude pruning followed by random parameter re-allocation. This approach enables us to achieve Pareto improvements in terms of the number of floating-point operations (FLOPs) over statically sparse and dense models across a broad spectrum of network sizes. Furthermore, we demonstrate that training remains FLOP-efficient when using coarse-grained block sparsity, making it particularly promising for efficient execution on modern hardware accelerators.
翻訳日:2021-08-16 15:34:09 公開日:2021-08-13
# (参考訳) Dense Passage Retrievalにおける単一および複数表現について

On Single and Multiple Representations in Dense Passage Retrieval ( http://arxiv.org/abs/2108.06279v1 )

ライセンス: CC BY 4.0
Craig Macdonald, Nicola Tonellotto, Iadh Ounis(参考訳) 文脈化された言語モデルの出現は、bm25のような古典的重み付けモデルの出力の再ランキングに適用されるだけでなく、通路の索引付けや検索に直接使用される場合にも、検索の有効性が向上した。 ニューラルランキングの既存の文献では、2つの高密度な検索ファミリが明らかになっている: 単一表現: 全通路が単一の埋め込み(通常BERTの[CLS]トークンで表される)、または複数の表現: 通路の各トークンがそれぞれの埋め込みで表される(最近のColBERTアプローチで例示される)。 この2家は直接比較されていない。 しかし,高度な検索が今後重要になる可能性から,その利点と欠点を明確に理解することが重要である。 そこで本研究では,各手法がw.r.tを行う状況について,その比較効果に関する直接研究を行っている。 お互い、w.r.t. bm25のベースライン。 応答時間やメモリ使用量の観点からは, ANCE は ColBERT よりも効率的であるが, 複数の表現はMAP や MRR@10 の単一の表現よりも統計的に効率的である。 また,BM25 では最も難しいクエリや定義クエリ,複雑な情報を必要とするクエリに対して,複数の表現が単一表現よりも改善されていることを示す。

The advent of contextualised language models has brought gains in search effectiveness, not just when applied for re-ranking the output of classical weighting models such as BM25, but also when used directly for passage indexing and retrieval, a technique which is called dense retrieval. In the existing literature in neural ranking, two dense retrieval families have become apparent: single representation, where entire passages are represented by a single embedding (usually BERT's [CLS] token, as exemplified by the recent ANCE approach), or multiple representations, where each token in a passage is represented by its own embedding (as exemplified by the recent ColBERT approach). These two families have not been directly compared. However, because of the likely importance of dense retrieval moving forward, a clear understanding of their advantages and disadvantages is paramount. To this end, this paper contributes a direct study on their comparative effectiveness, noting situations where each method under/over performs w.r.t. each other, and w.r.t. a BM25 baseline. We observe that, while ANCE is more efficient than ColBERT in terms of response time and memory usage, multiple representations are statistically more effective than the single representations for MAP and MRR@10. We also show that multiple representations obtain better improvements than single representations for queries that are the hardest for BM25, as well as for definitional queries, and those with complex information needs.
翻訳日:2021-08-16 15:09:26 公開日:2021-08-13
# (参考訳) ドイツの議会手続のダイアクロニック分析:政治バイアスのレンズによるイデオロギー的変化

Diachronic Analysis of German Parliamentary Proceedings: Ideological Shifts through the Lens of Political Biases ( http://arxiv.org/abs/2108.06295v1 )

ライセンス: CC BY 4.0
Tobias Walter, Celina Kirschner, Steffen Eger, Goran Glava\v{s}, Anne Lauscher, Simone Paolo Ponzetto(参考訳) 歴史的コーパスのバイアスを,二元論的分布的意味モデルにエンコードされるように分析し,政治(反共)と人種差別(反ユダヤ主義)という2つの特定のバイアスに焦点をあてて分析する。 この目的のために、我々は1867年から2020年までのドイツの議会手続の新たなコーパスであるDeuPARLを使用します。 ダイアクロニック単語埋め込みにおける歴史的バイアスのこの分析を,用語共起とグラフに基づくラベル伝搬に基づく新しいバイアス尺度で補完する。 偏見測定の結果は,ドイツ政治における反ユダヤ主義的・反共主義的偏見の歴史的傾向と一致し,歴史的コーパスから引き起こされた意味空間を用いた歴史的偏見傾向の分析の可能性を示した。

We analyze bias in historical corpora as encoded in diachronic distributional semantic models by focusing on two specific forms of bias, namely a political (i.e., anti-communism) and racist (i.e., antisemitism) one. For this, we use a new corpus of German parliamentary proceedings, DeuPARL, spanning the period 1867--2020. We complement this analysis of historical biases in diachronic word embeddings with a novel measure of bias on the basis of term co-occurrences and graph-based label propagation. The results of our bias measurements align with commonly perceived historical trends of antisemitic and anti-communist biases in German politics in different time periods, thus indicating the viability of analyzing historical bias trends using semantic spaces induced from historical corpora.
翻訳日:2021-08-16 14:59:11 公開日:2021-08-13
# (参考訳) コンテキスト対応オブジェクトジオタグ

Context Aware Object Geotagging ( http://arxiv.org/abs/2108.06302v1 )

ライセンス: CC BY 4.0
Chao-Jung Liu, Matej Ulicny, Michael Manzke and Rozenn Dahyot(参考訳) 近年,画像からのストリートオブジェクトの局所化が注目されている。 本研究では,動画像に関連付けられたメタデータの質を高めることにより,ストリートビュー画像からアセットジオロケーションを改善する手法を提案する。 予測対象の位置情報はopenstreetmapから抽出したコンテクスト地理情報によってさらに洗練される。 我々のパイプラインは、交通信号のジオタグ化技術の現状に対して実験的に検証されている。

Localization of street objects from images has gained a lot of attention in recent years. We propose an approach to improve asset geolocation from street view imagery by enhancing the quality of the metadata associated with the images using Structure from Motion. The predicted object geolocation is further refined by imposing contextual geographic information extracted from OpenStreetMap. Our pipeline is validated experimentally against the state of the art approaches for geotagging traffic lights.
翻訳日:2021-08-16 14:20:05 公開日:2021-08-13
# (参考訳) GISを用いた3次元点雲分割

3D point cloud segmentation using GIS ( http://arxiv.org/abs/2108.06306v1 )

ライセンス: CC BY 4.0
Chao-Jung Liu, Vladimir Krylov and Rozenn Dahyot(参考訳) 本稿では,2次元gis層(openstreetmap)から地理情報をインポートすることにより,3次元ポイントクラウドデータのセグメンテーションを行う手法を提案する。 提案手法は,GIS多角形周辺と点雲の最適適合性を実現するために,建物などの意味のある単位を特定し,位置を調整する。 私たちの処理パイプラインは、ドローンが収集した光学画像から構築したトリニティ・カレッジ・ダブリン(ireland)キャンパスの分断点雲データによって示され、図示されます。

In this paper we propose an approach to perform semantic segmentation of 3D point cloud data by importing the geographic information from a 2D GIS layer (OpenStreetMap). The proposed automatic procedure identifies meaningful units such as buildings and adjusts their locations to achieve best fit between the GIS polygonal perimeters and the point cloud. Our processing pipeline is presented and illustrated by segmenting point cloud data of Trinity College Dublin (Ireland) campus constructed from optical imagery collected by a drone.
翻訳日:2021-08-16 14:13:16 公開日:2021-08-13
# (参考訳) 時空間分割学習

Spatio-Temporal Split Learning ( http://arxiv.org/abs/2108.06309v1 )

ライセンス: CC BY 4.0
Joongheon Kim, Seunghoon Park, Soyi Jung, Seehwan Yoo(参考訳) 本稿では,深層ニューラルネットワーク計算のプライバシー保護を実現するために,複数のエンドシステムを用いた分割学習フレームワークを提案する。 従来の分割学習フレームワークでは、ディープニューラルネットワーク計算は、ネットワークアーキテクチャ全体を隠蔽する複数のコンピュータシステムに分離される。 提案したフレームワークでは,複数のエンドシステムは1つの集中型サーバを分割学習計算で共有し,複数のエンドシステムは入力層,第1の隠蔽層,集中型サーバは他の隠蔽層,出力層と共有する。 この枠組みは時空間分割学習と呼ばれ、複数のエンドシステムからデータを集めるために空間的に分離され、また分割学習の性質により時間的に分離される。 性能評価により,提案手法がデータのプライバシーを保ちながら,ほぼ最適に近い精度を示すことを確認した。

This paper proposes a novel split learning framework with multiple end-systems in order to realize privacypreserving deep neural network computation. In conventional split learning frameworks, deep neural network computation is separated into multiple computing systems for hiding entire network architectures. In our proposed framework, multiple computing end-systems are sharing one centralized server in split learning computation, where the multiple end-systems are with input and first hidden layers and the centralized server is with the other hidden layers and output layer. This framework, which is called as spatio-temporal split learning, is spatially separated for gathering data from multiple end-systems and also temporally separated due to the nature of split learning. Our performance evaluation verifies that our proposed framework shows nearoptimal accuracy while preserving data privacy.
翻訳日:2021-08-16 14:04:42 公開日:2021-08-13
# (参考訳) FlipDA:Few-Shot Learningのための効果的でロバストなデータ拡張

FlipDA: Effective and Robust Data Augmentation for Few-Shot Learning ( http://arxiv.org/abs/2108.06332v1 )

ライセンス: CC BY-SA 4.0
Jing Zhou, Yanan Zheng, Jie Tang, Jian Li, Zhilin Yang(参考訳) テキストデータ拡張のほとんどの以前の方法は、単純なタスクと弱いベースラインに限定されている。 ハードタスク(すなわち、少数の自然言語理解)と強いベースライン(つまり10億以上のパラメータを持つ事前学習されたモデル)のデータ拡張について検討する。 この条件下では, 先行手法の多くを再現し, これらの手法が限界ゲインを最善にもたらし, 時には性能を劣化させることがわかった。 この課題に対処するために、生成モデルと分類器を併用してラベルフリップデータを生成する新しいデータ拡張手法FlipDAを提案する。 flipdaのアイデアの中心は、ラベル付きデータを生成するよりも、ラベル付きデータを生成することがパフォーマンスにとって重要であることの発見である。 実験の結果、FlipDAは有効性と堅牢性の間の良好なトレードオフを達成し、多くのタスクを大幅に改善する一方で、他のタスクに悪影響を及ぼさないことがわかった。

Most previous methods for text data augmentation are limited to simple tasks and weak baselines. We explore data augmentation on hard tasks (i.e., few-shot natural language understanding) and strong baselines (i.e., pretrained models with over one billion parameters). Under this setting, we reproduced a large number of previous augmentation methods and found that these methods bring marginal gains at best and sometimes degrade the performance much. To address this challenge, we propose a novel data augmentation method FlipDA that jointly uses a generative model and a classifier to generate label-flipped data. Central to the idea of FlipDA is the discovery that generating label-flipped data is more crucial to the performance than generating label-preserved data. Experiments show that FlipDA achieves a good tradeoff between effectiveness and robustness---it substantially improves many tasks while not negatively affecting the others.
翻訳日:2021-08-16 13:54:20 公開日:2021-08-13
# クラス認識型QAアンサンブルによる請求書抽出のためのゼロショットタスク転送

Zero-shot Task Transfer for Invoice Extraction via Class-aware QA Ensemble ( http://arxiv.org/abs/2108.06069v1 )

ライセンス: Link先を確認
Prithiviraj Damodaran, Prabhkaran Singh, Josemon Achankuju(参考訳) 本稿では,レイアウト,ロケール,ドメインに依存しない文書抽出のためのゼロショットシステムvespaを提案する。 大量の文書が利用可能であるにもかかわらず、ラベル付きおよび検証済みデータセットの欠如は、企業のために文書抽出モデルを識別的に訓練することの課題となっている。 情報抽出(ie)タスクを自然言語質問応答(qa)タスクに、エンジニアリングタスク固有のアーキテクチャを使わずに移すことで、この問題に対処できることを示す。 本システムの有効性は,複数の複雑なレイアウト,ドメイン,地理を持つ実世界の小売・納税請求書を閉じたコーパスで評価することで実証する。 経験的評価の結果,請求書抽出に特化したアーキテクチャを用いた識別訓練モデルを用いた商用請求書ソリューションが4つに上回っていることがわかった。 Avgを用いた事前アノテーションやトレーニングをゼロとした6つのフィールドを抽出した。 f1 87.50。

We present VESPA, an intentionally simple yet novel zero-shot system for layout, locale, and domain agnostic document extraction. In spite of the availability of large corpora of documents, the lack of labeled and validated datasets makes it a challenge to discriminatively train document extraction models for enterprises. We show that this problem can be addressed by simply transferring the information extraction (IE) task to a natural language Question-Answering (QA) task without engineering task-specific architectures. We demonstrate the effectiveness of our system by evaluating on a closed corpus of real-world retail and tax invoices with multiple complex layouts, domains, and geographies. The empirical evaluation shows that our system outperforms 4 prominent commercial invoice solutions that use discriminatively trained models with architectures specifically crafted for invoice extraction. We extracted 6 fields with zero upfront human annotation or training with an Avg. F1 of 87.50.
翻訳日:2021-08-16 13:16:48 公開日:2021-08-13
# 解釈可能な異常検出のためのランダム部分空間混合モデル

Random Subspace Mixture Models for Interpretable Anomaly Detection ( http://arxiv.org/abs/2108.06283v1 )

ライセンス: Link先を確認
Cetin Savkli, Catherine Schwartz(参考訳) 本稿では,高次元データに対する確率モデルを構築するサブスペースに基づく新しい手法を提案する。 この手法は、ランダム部分空間の密度と幾何平均化を組み合わせた確率密度の統計的推定に基づく。 ランダムな部分空間を選択する際、各属性の等式は正しい統計的制限を保証するために用いられる。 ガウス混合モデル(gmms)は、数的属性とカテゴリ的属性の両方を扱うことができる特異点を緩和する技法を含む各部分空間の確率密度を作成するために用いられる。 各GMMの成分数はベイズ情報基準によって自動的に決定され、過度な適合を防止する。 提案するアルゴリズムは,ベンチマーク異常検出データセットに対する著名なアルゴリズムと比較して,単純でスケーラブルで解釈しやすいという利点がある。

We present a new subspace-based method to construct probabilistic models for high-dimensional data and highlight its use in anomaly detection. The approach is based on a statistical estimation of probability density using densities of random subspaces combined with geometric averaging. In selecting random subspaces, equal representation of each attribute is used to ensure correct statistical limits. Gaussian mixture models (GMMs) are used to create the probability densities for each subspace with techniques included to mitigate singularities allowing for the ability to handle both numerical and categorial attributes. The number of components for each GMM is determined automatically through Bayesian information criterion to prevent overfitting. The proposed algorithm attains competitive AUC scores compared with prominent algorithms against benchmark anomaly detection datasets with the added benefits of being simple, scalable, and interpretable.
翻訳日:2021-08-16 13:16:35 公開日:2021-08-13
# 教師なし領域適応のための学習伝達可能なパラメータ

Learning Transferable Parameters for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2108.06129v1 )

ライセンス: Link先を確認
Zhongyi Han, Haoliang Sun, Yilong Yin(参考訳) 教師なしドメイン適応(Unsupervised domain adapt, UDA)は、学習機械が分散シフトの下でラベル付きソースドメインからラベルなしドメインに適応できるようにする。 ディープニューラルネットワークの強力な表現能力のおかげで、UDAの最近の顕著な成果は、ドメイン不変の機能を学ぶことにある。 直感的には、優れた機能表現が、ソースドメインから学んだ仮説とともに、ターゲットドメインにうまく一般化できることを期待しています。 しかし、ドメイン不変特徴の学習プロセスとソース仮説は、必然的に、対象ドメイン上の UDA モデルの一般化性を低下させるドメイン固有情報を含む。 本稿では,部分的パラメータのみを一般化に必須とする抽選券仮説に動機づけられ,部分的パラメータのみがドメイン不変情報学習とudaでの一般化に不可欠であることを見出した。 このようなパラメータを転送可能なパラメータと呼ぶ。 対照的に、他のパラメータはドメイン固有の詳細に適合し、しばしば一般化に失敗する傾向がある。 そこで本研究では,ドメイン固有情報による学習過程における副作用を低減し,ドメイン不変情報の記憶力を高めるために,Transferable Parameter Learning(TransPar)を提案する。 具体的には、分布の不一致度に応じて、各トレーニングイテレーションにおいて、すべてのパラメータを転送可能および変換不能に分割する。 次に、2つのパラメータの別々の更新ルールを実行します。 画像分類と回帰タスク(キーポイント検出)に関する大規模な実験は、TransParが非自明なマージンで先行技術より優れていることを示している。 さらに実験では、TransParを最も人気のある深層UDAネットワークに統合し、データ分散シフトシナリオを簡単に扱えるように拡張できることが示されている。

Unsupervised domain adaptation (UDA) enables a learning machine to adapt from a labeled source domain to an unlabeled domain under the distribution shift. Thanks to the strong representation ability of deep neural networks, recent remarkable achievements in UDA resort to learning domain-invariant features. Intuitively, the hope is that a good feature representation, together with the hypothesis learned from the source domain, can generalize well to the target domain. However, the learning processes of domain-invariant features and source hypothesis inevitably involve domain-specific information that would degrade the generalizability of UDA models on the target domain. In this paper, motivated by the lottery ticket hypothesis that only partial parameters are essential for generalization, we find that only partial parameters are essential for learning domain-invariant information and generalizing well in UDA. Such parameters are termed transferable parameters. In contrast, the other parameters tend to fit domain-specific details and often fail to generalize, which we term as untransferable parameters. Driven by this insight, we propose Transferable Parameter Learning (TransPar) to reduce the side effect brought by domain-specific information in the learning process and thus enhance the memorization of domain-invariant information. Specifically, according to the distribution discrepancy degree, we divide all parameters into transferable and untransferable ones in each training iteration. We then perform separate updates rules for the two types of parameters. Extensive experiments on image classification and regression tasks (keypoint detection) show that TransPar outperforms prior arts by non-trivial margins. Moreover, experiments demonstrate that TransPar can be integrated into the most popular deep UDA networks and be easily extended to handle any data distribution shift scenarios.
翻訳日:2021-08-16 13:16:23 公開日:2021-08-13
# f-formationを用いた社会的相互作用のあるグループの検出:分類学、方法、データセット、応用、課題、今後の研究方向性の調査

Detecting socially interacting groups using f-formation: A survey of taxonomy, methods, datasets, applications, challenges, and future research directions ( http://arxiv.org/abs/2108.06181v1 )

ライセンス: Link先を確認
Hrishav Bakul Barua, Theint Haythi Mg, Pradip Pramanick, Chayan Sarkar(参考訳) 日々の周囲のロボットは日々増えています。 彼らの使いやすさと受容性は、その明示的で暗黙的な相互作用能力に大きく依存する。 結果として、社会的行動はロボットが持つことのできる最も追求すべき品質の1つである。 しかし、社会的に受け入れられる行動を定義する特定の側面や特徴は存在せず、状況、応用、社会に大きく依存する。 本稿では,コロケーションロボットの社会的行動について検討する。 あるグループが互いに交流していて、グループに参加したいと想像してください。 人間は、社会的に受け入れられる方法で、つまり、グループ内では、誰にも邪魔したり邪魔したりすることなく、グループ活動に参加することができるように、自分自身を位置づけている。 このような品質を持つためには、まずロボットがグループの形成を判断し、次に人間が暗黙的に行う自分自身の位置を決定する必要がある。 f-形式の理論はこの目的のために利用できる。 形成のタイプは非常に多様であるため、社会集団を検出することは簡単な作業ではない。 本稿では,ロボット工学およびその他の応用のためのf-formationを用いた社会的インタラクションおよびグループ検出に関する既存の研究の包括的調査を行う。 この問題に関連するすべての懸念とモジュールを組み合わせた,新たな総合的な調査フレームワークも提案した。 方法,カメラビュー,データセット,検出機能とスケール,評価アプローチ,アプリケーション領域に基づいて分類学を定義する。 我々は,この枠組みに基づく今後の研究の方向性とともに,現在の文献におけるオープンな課題と限界について論じる。 特に,既存の手法や技術,それらの相対的なメリット,デメリット,アプリケーションについて論じ,この領域における未解決だが関連する問題の集合を提供する。

Robots in our daily surroundings are increasing day by day. Their usability and acceptability largely depend on their explicit and implicit interaction capability with fellow human beings. As a result, social behavior is one of the most sought-after qualities that a robot can possess. However, there is no specific aspect and/or feature that defines socially acceptable behavior and it largely depends on the situation, application, and society. In this article, we investigate one such social behavior for collocated robots. Imagine a group of people is interacting with each other and we want to join the group. We as human beings do it in a socially acceptable manner, i.e., within the group, we do position ourselves in such a way that we can participate in the group activity without disturbing/obstructing anybody. To possess such a quality, first, a robot needs to determine the formation of the group and then determine a position for itself, which we humans do implicitly. The theory of f-formation can be utilized for this purpose. As the types of formations can be very diverse, detecting the social groups is not a trivial task. In this article, we provide a comprehensive survey of the existing work on social interaction and group detection using f-formation for robotics and other applications. We also put forward a novel holistic survey framework combining all the possible concerns and modules relevant to this problem. We define taxonomies based on methods, camera views, datasets, detection capabilities and scale, evaluation approaches, and application areas. We discuss certain open challenges and limitations in current literature along with possible future research directions based on this framework. In particular, we discuss the existing methods/techniques and their relative merits and demerits, applications, and provide a set of unsolved but relevant problems in this domain.
翻訳日:2021-08-16 13:15:56 公開日:2021-08-13
# タイムセンシティブな質問に対する回答データセット

A Dataset for Answering Time-Sensitive Questions ( http://arxiv.org/abs/2108.06314v1 )

ライセンス: Link先を確認
Wenhu Chen, Xinyi Wang, William Yang Wang(参考訳) 時間は我々の物理的な世界で重要な次元である。 時間に関して多くの事実が進化することができる。 例えば、大統領の任期は4年ごとに変更される。 したがって、時間次元を考慮し、既存のQAモデルに時間とともに推論する権限を与えることが重要である。 しかし、既存のQAデータセットには時間に敏感な質問がほとんどないので、モデルの時間的推論能力の診断やベンチマークには適さない。 この方向の研究を促進するために,時間に敏感なQAデータセットを構築することを提案する。 データセットは,(1)WikiDataから時系列に進化した事実をマイニングし,それらに対応するWikipediaページに整列させる,2)これらのノイズのある事実の検証と校正を行う,3)注釈付きタイムセンシティブな事実に基づいて質問と回答のペアを生成する。 データセットには2つの新しい課題がある: 1) モデルは長い文書における時間情報の明示的および暗黙的な言及の両方を理解する必要があり、2) モデルは比較、加算、減算のような時間的推論を行う必要がある。 我々はデータセット上で、BigBirdやFiDといったSoTAの長期文書QAシステムを評価した。 ベストパフォーマンスモデルfidは46\%の精度しか達成できず、87\%の人間性能よりもはるかに遅れている。 これらのモデルがまだ頑健な時間的理解と推論を行う能力が欠けていることを実証する。 したがって、当社のデータセットは、時間的推論における将来の研究を力づけるベンチマークとして役立つと確信しています。 データセットとコードは~\url{https://github.com/wenhuchen/Time-Sensitive-QA}でリリースされる。

Time is an important dimension in our physical world. Lots of facts can evolve with respect to time. For example, the U.S. President might change every four years. Therefore, it is important to consider the time dimension and empower the existing QA models to reason over time. However, the existing QA datasets contain rather few time-sensitive questions, hence not suitable for diagnosing or benchmarking the model's temporal reasoning capability. In order to promote research in this direction, we propose to construct a time-sensitive QA dataset. The dataset is constructed by 1) mining time-evolving facts from WikiData and align them to their corresponding Wikipedia page, 2) employing crowd workers to verify and calibrate these noisy facts, 3) generating question-answer pairs based on the annotated time-sensitive facts. Our dataset poses two novel challenges: 1) the model needs to understand both explicit and implicit mention of time information in the long document, 2) the model needs to perform temporal reasoning like comparison, addition, subtraction. We evaluate different SoTA long-document QA systems like BigBird and FiD on our dataset. The best-performing model FiD can only achieve 46\% accuracy, still far behind the human performance of 87\%. We demonstrate that these models are still lacking the ability to perform robust temporal understanding and reasoning. Therefore, we believe that our dataset could serve as a benchmark to empower future studies in temporal reasoning. The dataset and code are released in~\url{https://github.com/wenhuchen/Time-Sensitive-QA}.
翻訳日:2021-08-16 13:15:32 公開日:2021-08-13
# SPACE : 3次元環境における物理的相互作用と因果学習のシミュレータ

SPACE: A Simulator for Physical Interactions and Causal Learning in 3D Environments ( http://arxiv.org/abs/2108.06180v1 )

ライセンス: Link先を確認
Jiafei Duan, Samson Yu Bai Jian, Cheston Tan(参考訳) ディープラーニング、コンピュータビジョン、具体化aiの最近の進歩は、合成因果推論ビデオデータセットを生み出した。 これらのデータセットは、オブジェクト間の物理的相互作用を推論できるaiアルゴリズムの開発を促進する。 しかし、これまでのデータセットは主に転がりや転がりなどの基本的な物理的事象に焦点を当てていた。 現在、人間が現実世界のオブジェクトと毎日行う物理的相互作用に焦点を当てたデータセットが不足しています。 この不足に対処するために,3次元環境における物理インタラクションと因果学習のシミュレータSPACEを紹介する。 SPACEシミュレータは,3次元環境下での合成ビデオデータセットであるSPACEデータセットを生成し,物理因果推論タスクに基づいて物理ベースのモデルを体系的に評価する。 SPACEデータセットは、毎日のオブジェクトインタラクションにインスパイアされ、封じ込め、安定性、接触という3種類の物理的なイベントを描写したビデオで構成されている。 これらの出来事は、オブジェクト間の基本的な物理的相互作用の大部分を占めている。 さらに、最先端の物理に基づく深層モデルを用いて評価を行い、SPACEデータセットがカリキュラム学習にインスパイアされたアプローチを用いて直感的な物理学習を改善することを示す。 Repository: https://github.com/jiafei1224/SPACE

Recent advancements in deep learning, computer vision, and embodied AI have given rise to synthetic causal reasoning video datasets. These datasets facilitate the development of AI algorithms that can reason about physical interactions between objects. However, datasets thus far have primarily focused on elementary physical events such as rolling or falling. There is currently a scarcity of datasets that focus on the physical interactions that humans perform daily with objects in the real world. To address this scarcity, we introduce SPACE: A Simulator for Physical Interactions and Causal Learning in 3D Environments. The SPACE simulator allows us to generate the SPACE dataset, a synthetic video dataset in a 3D environment, to systematically evaluate physics-based models on a range of physical causal reasoning tasks. Inspired by daily object interactions, the SPACE dataset comprises videos depicting three types of physical events: containment, stability and contact. These events make up the vast majority of the basic physical interactions between objects. We then further evaluate it with a state-of-the-art physics-based deep model and show that the SPACE dataset improves the learning of intuitive physics with an approach inspired by curriculum learning. Repository: https://github.com/jiafei1224/SPACE
翻訳日:2021-08-16 13:15:06 公開日:2021-08-13
# MeetSum: Transforming Meeting Transcript Summarization using Transformer!

MeetSum: Transforming Meeting Transcript Summarization using Transformers! ( http://arxiv.org/abs/2108.06310v1 )

ライセンス: Link先を確認
Nima Sadri, Bohan Zhang, Bihan Liu(参考訳) ミーティングの書き起こしから抽象的な要約を作成することは、ニューラルネットワークモデルのトレーニングに利用可能なラベル付きデータの量が限られているため、困難であることが証明されている。 さらに、トランスフォーマーベースのアーキテクチャは、ニュースデータの要約において最先端のモデルを上回ることが証明されている。 本稿では,トランスフォーマティブなポインタ生成ネットワークを用いて,書き起こしを収集する抽象要約を生成する。 このモデルはエンコーダとデコーダとして2つのlstmを使用し、入力されたテキストから単語をコピーするポインタネットワークと、語彙外の単語を生成するジェネレータネットワーク(要約を抽象化する)である。 さらに、生成された要約における単語の繰り返しを避けるためにカバレッジメカニズムが使用される。 まず,ニュース要約データセット上でモデルをトレーニングし,ゼロショット学習を用いてミーティングデータセットでテストすることで,amiミーティングデータセットでトレーニングするよりも優れた結果が得られることを示す。 第2に、まずCNN-Dailymailデータセットのようなドメイン外のデータに基づいてこのモデルをトレーニングし、続いてAMIミーティングデータセットの微調整ステージにより、モデルの性能を大幅に改善できることを示す。 amiデータセットのテストセットでモデルをテストし、生成された要約のrouge-2スコアを以前の文献と比較するために報告します。 また,ROUGE-2スコアは単語オーバラップに制限されているため,抽象的な要約のベンチマークとして優れているため,要約のFactualスコアも報告する。 改良したモデルでは,少なくとも5つのルージュ-2スコアの改善が可能であり,大幅な改善が得られている。 また,本モデルが生成した要約の質的分析により,これらの要約は人間可読であり,転写から重要な情報の大部分を捉えることができることを示した。

Creating abstractive summaries from meeting transcripts has proven to be challenging due to the limited amount of labeled data available for training neural network models. Moreover, Transformer-based architectures have proven to beat state-of-the-art models in summarizing news data. In this paper, we utilize a Transformer-based Pointer Generator Network to generate abstract summaries for meeting transcripts. This model uses 2 LSTMs as an encoder and a decoder, a Pointer network which copies words from the inputted text, and a Generator network to produce out-of-vocabulary words (hence making the summary abstractive). Moreover, a coverage mechanism is used to avoid repetition of words in the generated summary. First, we show that training the model on a news summary dataset and using zero-shot learning to test it on the meeting dataset proves to produce better results than training it on the AMI meeting dataset. Second, we show that training this model first on out-of-domain data, such as the CNN-Dailymail dataset, followed by a fine-tuning stage on the AMI meeting dataset is able to improve the performance of the model significantly. We test our model on a testing set from the AMI dataset and report the ROUGE-2 score of the generated summary to compare with previous literature. We also report the Factual score of our summaries since it is a better benchmark for abstractive summaries since the ROUGE-2 score is limited to measuring word-overlaps. We show that our improved model is able to improve on previous models by at least 5 ROUGE-2 scores, which is a substantial improvement. Also, a qualitative analysis of the summaries generated by our model shows that these summaries and human-readable and indeed capture most of the important information from the transcripts.
翻訳日:2021-08-16 13:14:49 公開日:2021-08-13
# オープンドメイン生成チャットボットの低リソース適応

Low-Resource Adaptation of Open-Domain Generative Chatbots ( http://arxiv.org/abs/2108.06329v1 )

ライセンス: Link先を確認
Greyson Gerhard-Young, Raviteja Anantha, Srinivas Chappidi, Bj\"orn Hoffmeister(参考訳) 最近のオープンドメインチャットボットの構築は、モデルサイズの増加によるパフォーマンス向上を実証している。 一方、レイテンシと接続性を考慮すると、デバイス上のデジタルアシスタントの動きが決まる。 siriやalexa、google assistantといったデジタルアシスタントに、ほとんど何でも議論できる能力を与えることで、ユーザーのデバイスにフィットするようにチャットボットのモデルサイズを小さくする必要があります。 低パラメータモデルは、特定のドメインを改善しながら、会話能力の一般的な知識を同時に保持できることを示す。 さらに,質問型の多様性を考慮し,複数ターン会話の参照を追跡し,一貫性のない潜在的有害な応答を除去する汎用フレームワークを提案する。 われわれのフレームワークはチャットとトランザクションタスクをシームレスに移行し、最終的にはデジタルアシスタントとの対話をより人間らしくする。 提案手法は, 自動評価指標と人間評価指標の両方を用いて, 1 つの内部ベンチマークデータセットと 4 つの公開ベンチマークデータセット上で評価し, モデルパラメータを90%削減しつつ, 同等の性能を確立する。

Recent work building open-domain chatbots has demonstrated that increasing model size improves performance. On the other hand, latency and connectivity considerations dictate the move of digital assistants on the device. Giving a digital assistant like Siri, Alexa, or Google Assistant the ability to discuss just about anything leads to the need for reducing the chatbot model size such that it fits on the user's device. We demonstrate that low parameter models can simultaneously retain their general knowledge conversational abilities while improving in a specific domain. Additionally, we propose a generic framework that accounts for variety in question types, tracks reference throughout multi-turn conversations, and removes inconsistent and potentially toxic responses. Our framework seamlessly transitions between chatting and performing transactional tasks, which will ultimately make interactions with digital assistants more human-like. We evaluate our framework on 1 internal and 4 public benchmark datasets using both automatic (Perplexity) and human (SSA - Sensibleness and Specificity Average) evaluation metrics and establish comparable performance while reducing model parameters by 90%.
翻訳日:2021-08-16 13:14:19 公開日:2021-08-13
# GQE-PRF:擬似関連フィードバックを用いた生成クエリ拡張

GQE-PRF: Generative Query Expansion with Pseudo-Relevance Feedback ( http://arxiv.org/abs/2108.06010v1 )

ライセンス: Link先を確認
Minghui Huang, Dong Wang, Shuang Liu, Meizhen Ding(参考訳) 擬似関連フィードバック(PRF)を用いたクエリ拡張は、情報検索の有効性を高めるための強力なアプローチである。 近年,ディープラーニング技術の急速な進歩により,ニューラルテキスト生成は多くの自然言語タスクにおいて有望な成功を収めている。 本稿では,情報検索におけるテキスト生成の強みを活用するために,テキスト生成モデルをprfベースのクエリ拡張に効果的に統合する新しい手法を提案する。 特に,初期クエリと疑似関係フィードバックの両方を条件としたニューラルテキスト生成モデルにより,拡張クエリ項を生成する。 さらに,生成モデルを訓練するために条件付き生成敵ネット(cgans)を採用し,擬似関係フィードバックに基づいて生成器と判別器の両方を条件付けしたprf-cgan法を提案する。 2つのベンチマークデータセットを用いて,情報検索タスクに対するアプローチの有効性を評価する。 実験の結果,提案手法はタスクの検索と再ランク付けの両方において,従来のクエリ拡張手法に匹敵する性能あるいは性能を発揮することがわかった。

Query expansion with pseudo-relevance feedback (PRF) is a powerful approach to enhance the effectiveness in information retrieval. Recently, with the rapid advance of deep learning techniques, neural text generation has achieved promising success in many natural language tasks. To leverage the strength of text generation for information retrieval, in this article, we propose a novel approach which effectively integrates text generation models into PRF-based query expansion. In particular, our approach generates augmented query terms via neural text generation models conditioned on both the initial query and pseudo-relevance feedback. Moreover, in order to train the generative model, we adopt the conditional generative adversarial nets (CGANs) and propose the PRF-CGAN method in which both the generator and the discriminator are conditioned on the pseudo-relevance feedback. We evaluate the performance of our approach on information retrieval tasks using two benchmark datasets. The experimental results show that our approach achieves comparable performance or outperforms traditional query expansion methods on both the retrieval and reranking tasks.
翻訳日:2021-08-16 13:14:01 公開日:2021-08-13
# TPRM: Web検索のためのトピックベースのパーソナライズランキングモデル

TPRM: A Topic-based Personalized Ranking Model for Web Search ( http://arxiv.org/abs/2108.06014v1 )

ライセンス: Link先を確認
Minghui Huang, Wei Peng and Dong Wang(参考訳) ランキングモデルは有望な結果を得たが、ユーザプロファイルとクエリとドキュメント間のセマンティック表現を活用するためにパーソナライズされたランキングシステムを設計することは依然として困難である。 本稿では,ユーザのトピックプロファイルと事前学習された文脈化用語表現を統合し,一般文書ランキングを調整したトピックベースパーソナライズランキングモデル(tprm)を提案する。 実世界のデータセットの実験では、TPRMは最先端のアドホックランキングモデルとパーソナライズされたランキングモデルを大きく上回っている。

Ranking models have achieved promising results, but it remains challenging to design personalized ranking systems to leverage user profiles and semantic representations between queries and documents. In this paper, we propose a topic-based personalized ranking model (TPRM) that integrates user topical profile with pretrained contextualized term representations to tailor the general document ranking list. Experiments on the real-world dataset demonstrate that TPRM outperforms state-of-the-art ad-hoc ranking models and personalized ranking models significantly.
翻訳日:2021-08-16 13:13:43 公開日:2021-08-13
# PAIR:Dense Passage Retrieval改善のためのPAIR-Centric similarity Relationの活用

PAIR: Leveraging Passage-Centric Similarity Relation for Improving Dense Passage Retrieval ( http://arxiv.org/abs/2108.06027v1 )

ライセンス: Link先を確認
Ruiyang Ren, Shangwen Lv, Yingqi Qu, Jing Liu, Wayne Xin Zhao, QiaoQiao She, Hua Wu, Haifeng Wang, Ji-Rong Wen(参考訳) 近年,様々な自然言語処理タスクにおいて,関連する情報を見つけるために,高密度経路探索が主流となっている。 広く採用されているデュアルエンコーダアーキテクチャの改善に多くの研究が費やされている。 しかし、従来の研究の多くは、二重エンコーダレトリバーを学習する際にのみ、クエリ中心の類似性関係を考察している。 より包括的類似性関係を捉えるために,クエリ中心とPAssage中心のsマイクロラリティ関係(PAIR)を併用した新しい手法を提案する。 本手法を実践するために, 2種類の類似関係の形式的定式化, 知識蒸留による高品質擬似ラベルデータの生成, 通路中心の類似関係制約を組み込んだ効果的な2段階学習手順の設計という3つの大きな技術的貢献を行った。 広範な実験により,msmarco と natural questions のデータセットでは,従来の最先端モデルを大きく上回っていることがわかった。

Recently, dense passage retrieval has become a mainstream approach to finding relevant information in various natural language processing tasks. A number of studies have been devoted to improving the widely adopted dual-encoder architecture. However, most of the previous studies only consider query-centric similarity relation when learning the dual-encoder retriever. In order to capture more comprehensive similarity relations, we propose a novel approach that leverages both query-centric and PAssage-centric sImilarity Relations (called PAIR) for dense passage retrieval. To implement our approach, we make three major technical contributions by introducing formal formulations of the two kinds of similarity relations, generating high-quality pseudo labeled data via knowledge distillation, and designing an effective two-stage training procedure that incorporates passage-centric similarity relation constraint. Extensive experiments show that our approach significantly outperforms previous state-of-the-art models on both MSMARCO and Natural Questions datasets.
翻訳日:2021-08-16 13:13:32 公開日:2021-08-13
# 簡単な例から難しい例への一般化を研究するデータセット

Datasets for Studying Generalization from Easy to Hard Examples ( http://arxiv.org/abs/2108.06011v1 )

ライセンス: Link先を確認
Avi Schwarzschild, Eitan Borgnia, Arjun Gupta, Arpit Bansal, Zeyad Emam, Furong Huang, Micah Goldblum, Tom Goldstein(参考訳) 簡単な例から難しい例への一般化を研究するための新しいデータセットについて述べる。

We describe new datasets for studying generalization from easy to hard examples.
翻訳日:2021-08-16 13:13:15 公開日:2021-08-13
# 部分観測可能なグリッド環境におけるマルチエージェントパスフィニングのためのQミキシングネットワーク

Q-Mixing Network for Multi-Agent Pathfinding in Partially Observable Grid Environments ( http://arxiv.org/abs/2108.06148v1 )

ライセンス: Link先を確認
Vasilii Davydov, Alexey Skrynnik, Konstantin Yakovlev, Aleksandr I. Panov(参考訳) 本稿では,部分観測可能なグリッド環境におけるマルチエージェントナビゲーションの問題を考える。 この問題は通常、環境に関する完全な知識に依存しているため、集中型計画のアプローチでは困難である。 エージェントがまず、観察を行動にマップするポリシーを学び、そのポリシーに従って目標を達成する場合、強化学習アプローチを利用するように提案する。 協調行動の学習にかかわる課題、すなわち 多くの場合、エージェントはミッションを達成するために互いに譲歩する必要がありますが、個別のポリシーを補完する混合Q-ネットワークを使用します。 実験評価では,このようなアプローチが有望な結果をもたらし,多数のエージェントによく適用できることを示した。

In this paper, we consider the problem of multi-agent navigation in partially observable grid environments. This problem is challenging for centralized planning approaches as they, typically, rely on the full knowledge of the environment. We suggest utilizing the reinforcement learning approach when the agents, first, learn the policies that map observations to actions and then follow these policies to reach their goals. To tackle the challenge associated with learning cooperative behavior, i.e. in many cases agents need to yield to each other to accomplish a mission, we use a mixing Q-network that complements learning individual policies. In the experimental evaluation, we show that such approach leads to plausible results and scales well to large number of agents.
翻訳日:2021-08-16 13:13:13 公開日:2021-08-13
# 人口マッピングのためのワンショット転送学習

One-shot Transfer Learning for Population Mapping ( http://arxiv.org/abs/2108.06228v1 )

ライセンス: Link先を確認
Erzhuo Shao, Jie Feng, Yingheng Wang, Tong Xia and Yong Li(参考訳) 細かな人口分布データは、都市計画、交通スケジューリング、流行モデル、リスクコントロールなど、多くのアプリケーションにとって非常に重要である。 しかしながら、インフラストラクチャ密度、ユーザのプライバシ、ビジネスセキュリティといったデータ収集の制限のため、このようなきめ細かいデータは収集が難しく、通常は粗いデータのみを利用できる。 このように粗粒度分布から細粒度人口分布を得ることが重要な問題となる。 この作業を完了させるためには、既存の手法は主に訓練に十分なきめ細かい真実を頼りにしており、しばしば利用できない。 これにより、これらの手法の適用が制限され、知識をデータに不足した都市からデータに移す必要が生じた。 知識伝達シナリオでは,対象都市における単一参照細粒地真理を基礎的真理として,大規模都市構造に報知し,対象都市における知識伝達を支援する。 この手法により、人口マッピング問題から、人口マッピングタスクのための1ショット移動学習問題へ変換する。 本稿では,ネットワーク構造,データ,最適化の観点から,都市間における空間的時間的知識を詳細な人口マッピングタスクで伝達する一括伝達学習フレームワークPSRNetを提案する。 4つの都市の実生活データセットの実験では、RMSEとMAEを25%以上削減することで、PSRNetが8つのベースラインに対して大きなアドバンテージを持っていることが示されている。 私たちのコードとデータセットはgithubでリリースされています。

Fine-grained population distribution data is of great importance for many applications, e.g., urban planning, traffic scheduling, epidemic modeling, and risk control. However, due to the limitations of data collection, including infrastructure density, user privacy, and business security, such fine-grained data is hard to collect and usually, only coarse-grained data is available. Thus, obtaining fine-grained population distribution from coarse-grained distribution becomes an important problem. To complete this task, existing methods mainly rely on sufficient fine-grained ground truth for training, which is not often available. This limits the applications of these methods and brings the necessity to transfer knowledge from data-sufficient cities to data-scarce cities. In knowledge transfer scenario, we employ single reference fine-grained ground truth in the target city as the ground truth to inform the large-scale urban structure and support the knowledge transfer in the target city. By this approach, we transform the fine-grained population mapping problem into a one-shot transfer learning problem for population mapping task. In this paper, we propose a one-shot transfer learning framework, PSRNet, to transfer spatial-temporal knowledge across cities in fine-grained population mapping task from the view of network structure, data, and optimization. Experiments on real-life datasets of 4 cities demonstrate that PSRNet has significant advantages over 8 baselines by reducing RMSE and MAE for more than 25%. Our code and datasets are released in Github.
翻訳日:2021-08-16 13:13:02 公開日:2021-08-13
# 確率的コア分解のためのマルチステージグラフピーリングアルゴリズム

Multi-Stage Graph Peeling Algorithm for Probabilistic Core Decomposition ( http://arxiv.org/abs/2108.06094v1 )

ライセンス: Link先を確認
Yang Guo, Xuekui Zhang, Fatemeh Esfahani, Venkatesh Srinivasan, Alex Thomo, Li Xing(参考訳) 頂点が互いに密接な関係にある密集した部分グラフのマイニングは、グラフの解析において一般的なタスクである。 部分グラフ解析における非常に一般的な概念は核分解である。 最近、Esfahaniら。 グラフの剥離に基づく確率的コア分解アルゴリズムと、非常に大きなグラフを扱うことができる中央極限定理(CLT)を提示した。 彼らの提案するピーリングアルゴリズム(pa)は、最低次数頂点から始まり、これらの頂点を再帰的に削除し、コア数を割り当て、最大コアに達するまで隣接する頂点の次数を更新する。 しかし、多くの応用、特に生物学において、より貴重な情報は密集したサブコミュニティから得ることができ、頂点が他とあまり相互作用しない小さなコアには興味がない。 従来のpaをより密集したサブグラフに焦点を合わせるために,マルチステージグラフ剥離アルゴリズム(m-pa,multi-stage graph peeling algorithm)を提案する。従来のpaの前に2段階のデータスクリーニング手順を追加する。ユーザが定義したしきい値に基づいてグラフから頂点を取り除いた結果,グラフの複雑性をほとんど低減し,関心のあるサブグラフの頂点に影響を与えることなく,グラフの複雑さを低減できる。 我々は,M-PAが従来のPAよりも効率的であり,適切に設定されたフィルタリングしきい値により,前のPAと同一でない(グラフ密度とクラスタリング係数の点で)非常によく似た部分グラフが得られることを示す。

Mining dense subgraphs where vertices connect closely with each other is a common task when analyzing graphs. A very popular notion in subgraph analysis is core decomposition. Recently, Esfahani et al. presented a probabilistic core decomposition algorithm based on graph peeling and Central Limit Theorem (CLT) that is capable of handling very large graphs. Their proposed peeling algorithm (PA) starts from the lowest degree vertices and recursively deletes these vertices, assigning core numbers, and updating the degree of neighbour vertices until it reached the maximum core. However, in many applications, particularly in biology, more valuable information can be obtained from dense sub-communities and we are not interested in small cores where vertices do not interact much with others. To make the previous PA focus more on dense subgraphs, we propose a multi-stage graph peeling algorithm (M-PA) that has a two-stage data screening procedure added before the previous PA. After removing vertices from the graph based on the user-defined thresholds, we can reduce the graph complexity largely and without affecting the vertices in subgraphs that we are interested in. We show that M-PA is more efficient than the previous PA and with the properly set filtering threshold, can produce very similar if not identical dense subgraphs to the previous PA (in terms of graph density and clustering coefficient).
翻訳日:2021-08-16 13:12:37 公開日:2021-08-13
# FedPara: 効果的なフェデレート学習のための低ランクアダマール製品パラメータ化

FedPara: Low-rank Hadamard Product Parameterization for Efficient Federated Learning ( http://arxiv.org/abs/2108.06098v1 )

ライセンス: Link先を確認
Nam Hyeon-Woo, Moon Ye-Bin, Tae-Hyun Oh(参考訳) フェデレートラーニング(FL)における頻繁なモデルアップロードとダウンロードの負担を克服するため,通信効率の良い再パラメータ化FedParaを提案する。 本手法では, 低ランク行列やテンソルを用いてモデル層を再パラメータ化し, ハダマール積を導出する。 従来の低ランクパラメータ化とは異なり,本手法は低ランク制約に限らない。 したがって、フェドパラは、同じパラメータ数であっても、低ランクのものよりも大きな容量を持つ。 従来の低ランクパラメータ化では達成できないが、従来のモデルに比べて2.8倍から10.1倍の通信コストを必要とする。 また,提案手法と他の効率的なfl手法を組み合わせることにより,その効率をさらに向上させることができる。 また、パラメータをグローバルとローカルに分離するパーソナライズされたFLアプリケーションpFedParaにもメソッドを拡張します。 pfedparaは3倍以上のパラメータでパーソナライズされたflメソッドよりも優れていることを示す。

To overcome the burdens on frequent model uploads and downloads during federated learning (FL), we propose a communication-efficient re-parameterization, FedPara. Our method re-parameterizes the model's layers using low-rank matrices or tensors followed by the Hadamard product. Different from the conventional low-rank parameterization, our method is not limited to low-rank constraints. Thereby, our FedPara has a larger capacity than the low-rank one, even with the same number of parameters. It can achieve comparable performance to the original models while requiring 2.8 to 10.1 times lower communication costs than the original models, which is not achievable by the traditional low-rank parameterization. Moreover, the efficiency can be further improved by combining our method and other efficient FL techniques because our method is compatible with others. We also extend our method to a personalized FL application, pFedPara, which separates parameters into global and local ones. We show that pFedPara outperforms competing personalized FL methods with more than three times fewer parameters.
翻訳日:2021-08-16 13:11:54 公開日:2021-08-13
# アーキテクチャ単純化によるクラウドグラフニューラルネットワークの効率化

Towards Efficient Point Cloud Graph Neural Networks Through Architectural Simplification ( http://arxiv.org/abs/2108.06317v1 )

ライセンス: Link先を確認
Shyam A. Tailor, Ren\'{e} de Jong, Tiago Azevedo, Matthew Mattina, Partha Maji(参考訳) 近年、グラフニューラルネットワーク(GNN)ベースのアプローチは、ポイントクラウドデータを処理し、さまざまなタスクで定期的に最先端のパフォーマンスを達成する一般的な戦略となっている。 これまでの研究コミュニティは、主にモデル表現性の改善に重点を置いており、スマートフォンや複合現実ヘッドセットなど、リソースに制約のあるモバイルデバイス上で効率的に動作するモデルを設計する方法について、二次的な考察がなされている。 本稿では,gnnモデルが特徴抽出層の表現力に大きく制限されていることを観察することで,これらのモデルの効率を向上させるための一歩を踏み出します。 機能抽出層が最小限の劣化で保持されている限り、これらのモデルを劇的に単純化することが可能であり、さらに、機能抽出層の設計を改善して、modelnet40およびs3disの全体的なパフォーマンスを向上させることが可能であることが判明した。 我々のアプローチでは、dgcnnのようなモデルのグラフ層に対する20$\times$とレイテンシーを最大9.9$\times$に削減し、全体として最大4.5$\times$とピークメモリの72.5%の高速化を実現している。

In recent years graph neural network (GNN)-based approaches have become a popular strategy for processing point cloud data, regularly achieving state-of-the-art performance on a variety of tasks. To date, the research community has primarily focused on improving model expressiveness, with secondary thought given to how to design models that can run efficiently on resource constrained mobile devices including smartphones or mixed reality headsets. In this work we make a step towards improving the efficiency of these models by making the observation that these GNN models are heavily limited by the representational power of their first, feature extracting, layer. We find that it is possible to radically simplify these models so long as the feature extraction layer is retained with minimal degradation to model performance; further, we discover that it is possible to improve performance overall on ModelNet40 and S3DIS by improving the design of the feature extractor. Our approach reduces memory consumption by 20$\times$ and latency by up to 9.9$\times$ for graph layers in models such as DGCNN; overall, we achieve speed-ups of up to 4.5$\times$ and peak memory reductions of 72.5%.
翻訳日:2021-08-16 13:11:36 公開日:2021-08-13
# EEEA-Net: 初期の進化的ニューラルネットワーク検索

EEEA-Net: An Early Exit Evolutionary Neural Architecture Search ( http://arxiv.org/abs/2108.06156v1 )

ライセンス: Link先を確認
Chakkrit Termritthikun, Yeshi Jamtsho, Jirarat Ieamsaard, Paisarn Muneesawang, Ivan Lee(参考訳) この研究の目的は畳み込みニューラルネットワーク(CNN)アーキテクチャを探索することであり、コンピュータリソースが限られており、ネットワークアーキテクチャ探索(NAS)コストが大幅に低いオンデバイスプロセッサに適している。 進化的アルゴリズム (EA) のための初期人口初期化 (EE-PI) という新しいアルゴリズムを開発した。 EE-PIは、最大閾値よりも少ないパラメータでモデルをフィルタリングすることで、検索プロセスにおけるパラメータの総数を削減する。 しきい値以上のパラメータでそれらのモデルを置き換えるための新しいモデルを探している。 これにより、パラメータの数、モデルストレージのメモリ使用量、同じパフォーマンスや精度を維持しながら処理時間を削減することができる。 検索時間は 0.52 gpu に短縮された。 これは、NSGA-Netで達成された4GPU日、AmoebaNetモデルで3150GPU日、NASNetモデルで達成された2000GPU日と比較して、大きく、重要な成果である。 同様に、Early Exit Evolutionary Algorithm Network (EEEA-Nets) は、ネットワークアルゴリズムのクラスとして与えられたデータセットに適した最小のエラーと計算コストでネットワークアーキテクチャを生成する。 CIFAR-10, CIFAR-100, ImageNetデータセットのEEEA-Netを用いて実験したところ, EEEA-Netは最先端NASモデルの中で最も低いエラー率を示し, CIFAR-10は2.46%, CIFAR-100は15.02%, ImageNetデータセットは23.8%であった。 さらに、オブジェクト検出、セマンティックセグメンテーション、キーポイント検出タスクなど他のタスクに対してこの画像認識アーキテクチャを実装し、実験では、これらのタスクすべてにおいて、EEEA-Net-C2がMobileNet-V3よりも優れていた。 (アルゴリズムコードはhttps://github.com/chakkritte/EEEA-Net)。

The goals of this research were to search for Convolutional Neural Network (CNN) architectures, suitable for an on-device processor with limited computing resources, performing at substantially lower Network Architecture Search (NAS) costs. A new algorithm entitled an Early Exit Population Initialisation (EE-PI) for Evolutionary Algorithm (EA) was developed to achieve both goals. The EE-PI reduces the total number of parameters in the search process by filtering the models with fewer parameters than the maximum threshold. It will look for a new model to replace those models with parameters more than the threshold. Thereby, reducing the number of parameters, memory usage for model storage and processing time while maintaining the same performance or accuracy. The search time was reduced to 0.52 GPU day. This is a huge and significant achievement compared to the NAS of 4 GPU days achieved using NSGA-Net, 3,150 GPU days by the AmoebaNet model, and the 2,000 GPU days by the NASNet model. As well, Early Exit Evolutionary Algorithm networks (EEEA-Nets) yield network architectures with minimal error and computational cost suitable for a given dataset as a class of network algorithms. Using EEEA-Net on CIFAR-10, CIFAR-100, and ImageNet datasets, our experiments showed that EEEA-Net achieved the lowest error rate among state-of-the-art NAS models, with 2.46% for CIFAR-10, 15.02% for CIFAR-100, and 23.8% for ImageNet dataset. Further, we implemented this image recognition architecture for other tasks, such as object detection, semantic segmentation, and keypoint detection tasks, and, in our experiments, EEEA-Net-C2 outperformed MobileNet-V3 on all of these various tasks. (The algorithm code is available at https://github.com/chakkritte/EEEA-Net).
翻訳日:2021-08-16 13:10:24 公開日:2021-08-13
# 光対向攻撃

Optical Adversarial Attack ( http://arxiv.org/abs/2108.06247v1 )

ライセンス: Link先を確認
Abhiram Gnanasambandam, Alex M. Sherman, Stanley H. Chan(参考訳) 本稿では, OPAD (textbf{OP}tical \textbf{AD}versarial attack) を提案する。 OPADは、物理的に物体に触れることなく画像分類器を騙すことを目的とした物理的空間における敵攻撃である。 OPADの原則は、対象オブジェクトの外観を変更するために構造化照明を使用することである。 システムは低コストのプロジェクター、カメラ、コンピュータで構成されている。 この問題の課題は、プロジェクターの放射応答の非線形性と、シーンの空間的に変化するスペクトル応答である。 従来の手法で生成された攻撃は、そのようなプロジェクタカメラモデルの補正を調整されない限り、この設定では機能しない。 提案手法では, プロジェクタ・カメラモデルを用いて対角攻撃最適化を行い, 新たな攻撃定式化を導出する。 実験により解の妥当性が証明された。 OPADは、ホワイトボックス、ブラックボックス、ターゲット、ターゲット外攻撃の背景照明の存在下で、本物の3Dオブジェクトを光学的に攻撃することができる。 システムの基本性能限界を定量化するために理論的解析を行う。

We introduce \textbf{OP}tical \textbf{AD}versarial attack (OPAD). OPAD is an adversarial attack in the physical space aiming to fool image classifiers without physically touching the objects (e.g., moving or painting the objects). The principle of OPAD is to use structured illumination to alter the appearance of the target objects. The system consists of a low-cost projector, a camera, and a computer. The challenge of the problem is the non-linearity of the radiometric response of the projector and the spatially varying spectral response of the scene. Attacks generated in a conventional approach do not work in this setting unless they are calibrated to compensate for such a projector-camera model. The proposed solution incorporates the projector-camera model into the adversarial attack optimization, where a new attack formulation is derived. Experimental results prove the validity of the solution. It is demonstrated that OPAD can optically attack a real 3D object in the presence of background lighting for white-box, black-box, targeted, and untargeted attacks. Theoretical analysis is presented to quantify the fundamental performance limit of the system.
翻訳日:2021-08-16 13:09:54 公開日:2021-08-13
# リモートセンシング画像復元と融合のためのモデル駆動・データ駆動手法の結合

Coupling Model-Driven and Data-Driven Methods for Remote Sensing Image Restoration and Fusion ( http://arxiv.org/abs/2108.06073v1 )

ライセンス: Link先を確認
Huanfeng Shen, Menghui Jiang, Jie Li, Chenxia Zhou, Qiangqiang Yuan and Liangpei Zhang(参考訳) 画像復元と画像融合の分野では、モデル駆動メソッドとデータ駆動メソッドが2つの代表的なフレームワークである。 しかし、どちらのアプローチもそれぞれの利点と欠点がある。 モデル駆動方式は、決定論的かつ理論的に妥当なイメージング機構を考えるが、複雑な非線形問題を容易にモデル化することはできない。 データ駆動型手法は,大規模データ,特に非線形統計的特徴に対する事前知識学習能力が高いが,ネットワークの解釈性は乏しく,訓練データに過度に依存している。 本稿では,リモートセンシング画像復元と融合コミュニティではほとんど考慮されていないモデル駆動手法とデータ駆動手法の結合を体系的に検討する。 1)データ駆動型およびモデル駆動型カスケード手法,2)組込み学習を伴う変分モデル,3)モデル制約付きネットワーク学習手法である。 リモートセンシング画像の復元と融合のための典型的な既存および潜在的結合法を応用例とともに紹介する。 この論文は、メソッドとアプリケーションの両方の観点から、将来的な方向性に関する新たな洞察を与える。

In the fields of image restoration and image fusion, model-driven methods and data-driven methods are the two representative frameworks. However, both approaches have their respective advantages and disadvantages. The model-driven methods consider the imaging mechanism, which is deterministic and theoretically reasonable; however, they cannot easily model complicated nonlinear problems. The data-driven methods have a stronger prior knowledge learning capability for huge data, especially for nonlinear statistical features; however, the interpretability of the networks is poor, and they are over-dependent on training data. In this paper, we systematically investigate the coupling of model-driven and data-driven methods, which has rarely been considered in the remote sensing image restoration and fusion communities. We are the first to summarize the coupling approaches into the following three categories: 1) data-driven and model-driven cascading methods; 2) variational models with embedded learning; and 3) model-constrained network learning methods. The typical existing and potential coupling methods for remote sensing image restoration and fusion are introduced with application examples. This paper also gives some new insights into the potential future directions, in terms of both methods and applications.
翻訳日:2021-08-16 13:08:52 公開日:2021-08-13
# 画像マッチングとハーモニゼーションを同時に最適化するジェネレータフレームワーク

A Generative Adversarial Framework for Optimizing Image Matting and Harmonization Simultaneously ( http://arxiv.org/abs/2108.06087v1 )

ライセンス: Link先を確認
Xuqian Ren, Yifan Liu, Chunlei Song(参考訳) イメージマッティングとイメージ調和は、画像合成において2つの重要なタスクである。 前景境界の詳細を達成することを目的とした画像マッチングと、背景を前景と互換性を持たせることを目的とした画像調和は、どちらも有望だが困難な課題である。 以前の研究では、これら2つのタスクを別々に最適化することを検討している。 2つのタスクでより優れたパフォーマンスを得られ、より自然な結果が得られるように、マッティングと調和を同時に最適化することを提案する。 本稿では,自己認識型識別器に基づくマッチングネットワークと調和ネットワークを最適化するGAN(Generative Adversarial)フレームワークを提案する。 判別器は、自然画像と異なる種類の偽合成画像とを区別する必要がある。 構築したデータセットに対する大規模な実験により,提案手法の有効性が示された。 我々のデータセットとデータセット生成パイプラインは \url{https://git.io/HaMaGAN} で見ることができる。

Image matting and image harmonization are two important tasks in image composition. Image matting, aiming to achieve foreground boundary details, and image harmonization, aiming to make the background compatible with the foreground, are both promising yet challenging tasks. Previous works consider optimizing these two tasks separately, which may lead to a sub-optimal solution. We propose to optimize matting and harmonization simultaneously to get better performance on both the two tasks and achieve more natural results. We propose a new Generative Adversarial (GAN) framework which optimizing the matting network and the harmonization network based on a self-attention discriminator. The discriminator is required to distinguish the natural images from different types of fake synthesis images. Extensive experiments on our constructed dataset demonstrate the effectiveness of our proposed method. Our dataset and dataset generating pipeline can be found in \url{https://git.io/HaMaGAN}
翻訳日:2021-08-16 13:08:34 公開日:2021-08-13
# HRリモートセンシング画像のセマンティック変化検出のためのバイテンポラルセマンティック推論

Bi-Temporal Semantic Reasoning for the Semantic Change Detection of HR Remote Sensing Images ( http://arxiv.org/abs/2108.06103v1 )

ライセンス: Link先を確認
Lei Ding, Haitao Guo, Sicong Liu, Lichao Mou, Jing Zhang and Lorenzo Bruzzone(参考訳) 意味的変化検出(SCD)は、変化検出(CD)タスクを拡張して、変化箇所だけでなく、詳細な意味カテゴリー(観察間隔の前と後)を提供する。 このきめ細かい変化情報は、土地被覆/土地利用(LC/LU)アプリケーションでより有用である。 最近の研究では、2つの時間枝と1つの変化枝を含む3分岐畳み込みニューラルネットワーク(CNN)を用いてSCDをモデル化できることが示されている。 しかし、このアーキテクチャでは、時間分枝と変更分枝の間の接続が弱い。 これらの制約を克服するため,我々は,時間的特徴を再利用し,時間分枝に深く融合した新しいcnnアーキテクチャを提案する。 さらに,双時間意味相関をモデル化するために,このアーキテクチャを詳述する。 Bi-SRNet(Bi-temporal Semantic Reasoning Network)は,2種類の意味的推論ブロックを1つの時間的および時間的セマンティックな相関関係を推論すると共に,変化検出結果のセマンティック一貫性を改善する新しい損失関数を含む。 ベンチマークデータセットの実験的結果から,提案手法は既存の手法よりも精度が向上するが,bi-srnetでは,セマンティクスカテゴリと変更領域の両方のセグメンテーションがさらに向上した。 https://github.com/ggsDing/Bi-SRNet

Semantic change detection (SCD) extends the change detection (CD) task to provide not only the change locations but also the detailed semantic categories (before and after the observation intervals). This fine-grained change information is more useful in land-cover/land-use (LC/LU) applications. Recent studies indicate that the SCD can be modeled through a triple-branch Convolutional Neural Network (CNN), which contains two temporal branches and a change branch. However, in this architecture, the connections between the temporal branches and the change branch are weak. To overcome these limitations, we propose a novel CNN architecture for the SCD, where the temporal features are re-used and are deeply merged in the temporal branch. Furthermore, we elaborate on this architecture to model the bi-temporal semantic correlations. The resulting Bi-temporal Semantic Reasoning Network (Bi-SRNet) contains two types of semantic reasoning blocks to reason both single-temporal and cross-temporal semantic correlations, as well as a novel loss function to improve the semantic consistency of change detection results. Experimental results on a benchmark dataset show that the proposed architecture obtains significant accuracy improvements over the existing approaches, while the added designs in the Bi-SRNet further improves the segmentation of both semantic categories and the changed areas. The codes in this paper are accessible at: https://github.com/ggsDing/Bi-SRNet
翻訳日:2021-08-16 13:08:19 公開日:2021-08-13
# 未認識オブジェクトクラスによる検出とキャプション

Detection and Captioning with Unseen Object Classes ( http://arxiv.org/abs/2108.06165v1 )

ライセンス: Link先を確認
Berkan Demirel and Ramazan Gokberk Cinbis(参考訳) 画像キャプション生成は、視覚認識と自然言語モデリングドメインの交差において最も難しい問題の一つである。 そこで本研究では,テスト画像に視覚やテキストのトレーニング例を含まないビジュアルオブジェクトを含むことができるような,この問題の実際上重要な変種を提案し,検討する。 そこで本研究では,一般化ゼロショット検出モデルとテンプレートベース文生成モデルに基づく検出駆動型アプローチを提案する。 検出成分を改善するために,クラス間類似度に基づくクラス表現と実用的なスコア校正機構を共同で定義する。 また,字幕の視覚成分と非視覚成分を別々に扱うことにより,字幕出力に対する補完的洞察を提供する新しい評価指標を提案する。 実験の結果,提案したゼロショット検出モデルはMS-COCOデータセット上での最先端性能を得ることができ,ゼロショットキャプション手法は有望な結果をもたらすことがわかった。

Image caption generation is one of the most challenging problems at the intersection of visual recognition and natural language modeling domains. In this work, we propose and study a practically important variant of this problem where test images may contain visual objects with no corresponding visual or textual training examples. For this problem, we propose a detection-driven approach based on a generalized zero-shot detection model and a template-based sentence generation model. In order to improve the detection component, we jointly define a class-to-class similarity based class representation and a practical score calibration mechanism. We also propose a novel evaluation metric that provides complimentary insights to the captioning outputs, by separately handling the visual and non-visual components of the captions. Our experiments show that the proposed zero-shot detection model obtains state-of-the-art performance on the MS-COCO dataset and the zero-shot captioning approach yields promising results.
翻訳日:2021-08-16 13:07:56 公開日:2021-08-13
# IFR:低品質シーン音声認識のための反復融合型認識装置

IFR: Iterative Fusion Based Recognizer For Low Quality Scene Text Recognition ( http://arxiv.org/abs/2108.06166v1 )

ライセンス: Link先を確認
Zhiwei Jia and Shugong Xu and Shiyi Mu and Yue Tao and Shan Cao and Zhiyong Chen(参考訳) ディープラーニングに基づく最近の研究は、シーンのテキスト認識における認識精度の向上に進展しているが、エンド・ツー・エンドのディープネットワークにおける低品質テキスト画像の処理方法が研究課題である。 本稿では,高品質なシーンテキスト認識のためのIFR(Iterative Fusion based Recognizer)を提案する。 IFRには、シーンテキスト認識と低品質のシーンテキストイメージリカバリに焦点を当てた2つのブランチが含まれている。 2つのブランチ間の反復的なコラボレーションを利用して,低品質な入力の影響を効果的に軽減する。 rrfと呼ばれる画像復元ブランチと認識器の特徴が融合される2つのブランチの特徴表現を強化するため、機能融合モジュールが提案されている。 認識ネットワーク構造を変更することなく,提案手法は,テキストZoomデータセットにおけるベンチマークデータセットと低解像度画像の認識精度を高めるために,ベースライン法よりも有意に優れていることを示す。

Although recent works based on deep learning have made progress in improving recognition accuracy on scene text recognition, how to handle low-quality text images in end-to-end deep networks remains a research challenge. In this paper, we propose an Iterative Fusion based Recognizer (IFR) for low quality scene text recognition, taking advantage of refined text images input and robust feature representation. IFR contains two branches which focus on scene text recognition and low quality scene text image recovery respectively. We utilize an iterative collaboration between two branches, which can effectively alleviate the impact of low quality input. A feature fusion module is proposed to strengthen the feature representation of the two branches, where the features from the Recognizer are Fused with image Restoration branch, referred to as RRF. Without changing the recognition network structure, extensive quantitative and qualitative experimental results show that the proposed method significantly outperforms the baseline methods in boosting the recognition accuracy of benchmark datasets and low resolution images in TextZoom dataset.
翻訳日:2021-08-16 13:07:41 公開日:2021-08-13
# 実世界の対向パッチ攻撃に対する自律運転のための意味セグメンテーションのロバスト性評価

Evaluating the Robustness of Semantic Segmentation for Autonomous Driving against Real-World Adversarial Patch Attacks ( http://arxiv.org/abs/2108.06179v1 )

ライセンス: Link先を確認
Federico Nesti, Giulio Rossolini, Saasha Nair, Alessandro Biondi, Giorgio Buttazzo(参考訳) ディープラーニングと畳み込みニューラルネットワークは、オブジェクト検出やセマンティックセグメンテーション(ss)など、コンピュータビジョンタスクで印象的なパフォーマンスを実現する。 しかし、近年の研究では、そのようなモデルの敵対的摂動に対する弱さが示されている。 代わりに、自律運転のような現実のシナリオでは、知覚パイプライン全体と敵対するように最適化された物理的なオブジェクト(例えば、看板やプリント可能なパッチ)である現実世界の敵の例(RWAE)により多くの注意を払わなければならない。 本稿では,デジタルおよび実世界の敵対パッチの効果を検証し,一般的なSSモデルのロバスト性を詳細に評価する。 これらのパッチは、新しい損失関数に富んだ強力な攻撃で作成されている。 まず、ssに対応するために、eot(expectation over transformation)パラダイムを拡張して、cityscapesデータセットに関する調査を行う。 そこで,シーン特異的攻撃と呼ばれる新たな攻撃最適化を提案する。 このような攻撃は、CARLA駆動シミュレータを利用して、提案したEOTベースの攻撃の実際の3D環境への転送性を向上させる。 最後に, 実環境における攻撃の可能性を評価するために, 屋外運転シナリオにおいて, 逆境パッチを含む印刷された物理的看板をテストした。 発掘実験により、提案された攻撃の定式化は、SSのためのデジタルと現実世界の両方の敵パッチを構築するために、以前の作業より優れていることが明らかになった。 同時に、実験結果は、これらの攻撃が現実世界において特に効果が低いことを示し、それゆえ、自律運転のためのssモデルに対する敵意攻撃の実際的妥当性を疑問視した。

Deep learning and convolutional neural networks allow achieving impressive performance in computer vision tasks, such as object detection and semantic segmentation (SS). However, recent studies have shown evident weaknesses of such models against adversarial perturbations. In a real-world scenario instead, like autonomous driving, more attention should be devoted to real-world adversarial examples (RWAEs), which are physical objects (e.g., billboards and printable patches) optimized to be adversarial to the entire perception pipeline. This paper presents an in-depth evaluation of the robustness of popular SS models by testing the effects of both digital and real-world adversarial patches. These patches are crafted with powerful attacks enriched with a novel loss function. Firstly, an investigation on the Cityscapes dataset is conducted by extending the Expectation Over Transformation (EOT) paradigm to cope with SS. Then, a novel attack optimization, called scene-specific attack, is proposed. Such an attack leverages the CARLA driving simulator to improve the transferability of the proposed EOT-based attack to a real 3D environment. Finally, a printed physical billboard containing an adversarial patch was tested in an outdoor driving scenario to assess the feasibility of the studied attacks in the real world. Exhaustive experiments revealed that the proposed attack formulations outperform previous work to craft both digital and real-world adversarial patches for SS. At the same time, the experimental results showed how these attacks are notably less effective in the real world, hence questioning the practical relevance of adversarial attacks to SS models for autonomous/assisted driving.
翻訳日:2021-08-16 13:07:23 公開日:2021-08-13
# 地域別マルチスケール特徴抽出を用いたcnnによる2段階駐車スロット検出

CNN-based Two-Stage Parking Slot Detection Using Region-Specific Multi-Scale Feature Extraction ( http://arxiv.org/abs/2108.06185v1 )

ライセンス: Link先を確認
Quang Huy Bui and Jae Kyu Suhr(参考訳) 自動駐車システムは、利用可能な駐車スロットの検出から始める。 駐車スロット検出性能はディープラーニング技術によって劇的に向上した。 深層学習に基づく物体検出法は1段階と2段階に分類できる。 2段階のアプローチが一般の物体検出において1段階のアプローチを上回っていることはよく知られているが、駐車スロット検出においても同様に行われている。 これは2段方式が駐車スロット検出に十分特化していないためであると考えられる。 そこで本研究では,地域別マルチスケール特徴抽出を用いた2段駐車スロット検出器を提案する。 提案手法は,第1段階において,その中央,長さ,方向を推定し,駐車場の入口をエリア提案とする。 本手法の第2段階は、所望の情報を含む特定領域を指定し、特徴を抽出する。 すなわち、位置と方向の特徴は、位置情報と方向情報を含む特定の領域のみから分離して抽出される。 さらに、マルチレゾリューション特徴マップを利用して、位置付けと分類の両精度を高める。 高分解能特徴マップは詳細な情報(位置と方向)を抽出し、別の低解像度特徴マップは意味情報(タイプと占有)を抽出するために使われる。 実験では,提案手法を2つの大規模公共駐車場スロット検出データセットを用いて定量的に評価した。

Autonomous parking systems start with the detection of available parking slots. Parking slot detection performance has been dramatically improved by deep learning techniques. Deep learning-based object detection methods can be categorized into one-stage and two-stage approaches. Although it is well-known that the two-stage approach outperforms the one-stage approach in general object detection, they have performed similarly in parking slot detection so far. We consider this is because the two-stage approach has not yet been adequately specialized for parking slot detection. Thus, this paper proposes a highly specialized two-stage parking slot detector that uses region-specific multi-scale feature extraction. In the first stage, the proposed method finds the entrance of the parking slot as a region proposal by estimating its center, length, and orientation. The second stage of this method designates specific regions that most contain the desired information and extracts features from them. That is, features for the location and orientation are separately extracted from only the specific regions that most contain the locational and orientational information. In addition, multi-resolution feature maps are utilized to increase both positioning and classification accuracies. A high-resolution feature map is used to extract detailed information (location and orientation), while another low-resolution feature map is used to extract semantic information (type and occupancy). In experiments, the proposed method was quantitatively evaluated with two large-scale public parking slot detection datasets and outperformed previous methods, including both one-stage and two-stage approaches.
翻訳日:2021-08-16 13:06:55 公開日:2021-08-13
# 3次元点雲のセマンティックセグメンテーションのためのゼロショット生成学習

Generative Zero-Shot Learning for Semantic Segmentation of 3D Point Cloud ( http://arxiv.org/abs/2108.06230v1 )

ライセンス: Link先を確認
Bj\"orn Michele, Alexandre Boulch, Gilles Puy, Renaud Marlet(参考訳) 2d画像のゼロショット学習(zsl)に関する研究は数多く行われているが、その3dデータへの応用は、分類に限定されたいくつかの方法を除いて、まだ最新かつ希少である。 本稿では,ZSLと一般化ZSL(GZSL)を3次元データ上に生成し,分類とセマンティックセグメンテーションを両立させる手法を提案する。 インダクティブZSLとインダクティブGZSLの両方に対して,ModelNet40分類における技術状況に到達または向上することを示す。 セマンティックセグメンテーションのために、我々はS3DIS、ScanNet、SemanticKITTIを用いて、この新しいZSLタスクを評価するための3つのベンチマークを作成しました。 実験の結果,本手法は強いベースラインよりも優れており,さらに本手法を提案する。

While there has been a number of studies on Zero-Shot Learning (ZSL) for 2D images, its application to 3D data is still recent and scarce, with just a few methods limited to classification. We present the first generative approach for both ZSL and Generalized ZSL (GZSL) on 3D data, that can handle both classification and, for the first time, semantic segmentation. We show that it reaches or outperforms the state of the art on ModelNet40 classification for both inductive ZSL and inductive GZSL. For semantic segmentation, we created three benchmarks for evaluating this new ZSL task, using S3DIS, ScanNet and SemanticKITTI. Our experiments show that our method outperforms strong baselines, which we additionally propose for this task.
翻訳日:2021-08-16 13:06:34 公開日:2021-08-13
# RGB-D Salient Object Detectionのためのモーダル適応型Gated Recoding Network

Modal-Adaptive Gated Recoding Network for RGB-D Salient Object Detection ( http://arxiv.org/abs/2108.06281v1 )

ライセンス: Link先を確認
Feng Dong, Jinchao Zhu, Xian Fang, Qiu Yu(参考訳) RGB-D情報に基づくマルチモーダル・サリエント物体検出モデルは,実世界のロバスト性を向上する。 しかしながら、機能融合フェーズにおいて効果的なマルチモーダル情報を適応的にバランスさせることは、相変わらず自明である。 本稿では,2つのモードの情報妥当性を評価し,その影響のバランスをとるために,GRNet(GRNet)を提案する。 フレームワークは,認識フェーズ,復号混合フェーズ,特徴統合フェーズの3つのフェーズに分けられる。 まず、知覚エンコーダを用いて、マルチレベルな単一モーダル特徴を抽出し、マルチモーダルなセマンティック比較分析の基礎となる。 次に、無効な情報を抑制し、効果的なモード特徴を再コーディングミキサーとハイブリッド分岐デコーダに転送するモード適応ゲートユニット(mgu)を提案する。 リコーディングミキサーは、バランスの取れたマルチモーダル情報をリコーディングしてミキシングする。 最後に、ハイブリッドブランチデコーダは、オプションエッジガイダンスストリーム(OEGS)のガイダンスの下で、マルチレベル機能統合を完成させる。 8つの人気のあるベンチマークの実験と分析により、我々のフレームワークは9つの最先端メソッドに対して好適に機能することを確認した。

The multi-modal salient object detection model based on RGB-D information has better robustness in the real world. However, it remains nontrivial to better adaptively balance effective multi-modal information in the feature fusion phase. In this letter, we propose a novel gated recoding network (GRNet) to evaluate the information validity of the two modes, and balance their influence. Our framework is divided into three phases: perception phase, recoding mixing phase and feature integration phase. First, A perception encoder is adopted to extract multi-level single-modal features, which lays the foundation for multi-modal semantic comparative analysis. Then, a modal-adaptive gate unit (MGU) is proposed to suppress the invalid information and transfer the effective modal features to the recoding mixer and the hybrid branch decoder. The recoding mixer is responsible for recoding and mixing the balanced multi-modal information. Finally, the hybrid branch decoder completes the multi-level feature integration under the guidance of an optional edge guidance stream (OEGS). Experiments and analysis on eight popular benchmarks verify that our framework performs favorably against 9 state-of-art methods.
翻訳日:2021-08-16 13:06:19 公開日:2021-08-13
# 意味セグメンテーションの領域適応のためのデュアルパス学習

Dual Path Learning for Domain Adaptation of Semantic Segmentation ( http://arxiv.org/abs/2108.06337v1 )

ライセンス: Link先を確認
Yiting Cheng, Fangyun Wei, Jianmin Bao, Dong Chen, Fang Wen, Wenqiang Zhang(参考訳) セマンティックセグメンテーションのためのドメイン適応は、大規模なピクセル単位のアノテーションの必要性を軽減することができる。 近年,画像と画像の翻訳を組み合わせた自己教師あり学習(SSL)が適応的セグメンテーションにおいて大きな効果を示している。 最も一般的なプラクティスは、イメージ翻訳とともにSSLを実行し、単一のドメイン(ソースまたはターゲット)を適切に整列させることである。 しかし、この単一ドメインパラダイムでは、画像翻訳によって引き起こされる不可避な視覚不整合は、その後の学習に影響を与える可能性がある。 本稿では,ソース領域とターゲット領域で実行されるドメイン適応フレームワークが画像変換とsslの観点からほぼ相補的であるという観測に基づいて,視覚不整合を緩和する新しいデュアルパス学習(dpl)フレームワークを提案する。 具体的には、dplはソースドメインとターゲットドメインの2つの補完的かつインタラクティブな1ドメイン適応パイプラインを含んでいる。 dplの推論は非常に単純で、対象領域内の1つのセグメンテーションモデルのみを採用する。 2経路画像変換や2経路適応セグメンテーションといった新しい技術が提案され、2経路を相互に対話的に促進する。 GTA5$\rightarrow$CityscapesとSynTHIA$\rightarrow$Cityscapesのシナリオの実験は、最先端の手法よりもDPLモデルの方が優れていることを示している。 コードとモデルは、 \url{https://github.com/royee182/dpl} で利用可能である。

Domain adaptation for semantic segmentation enables to alleviate the need for large-scale pixel-wise annotations. Recently, self-supervised learning (SSL) with a combination of image-to-image translation shows great effectiveness in adaptive segmentation. The most common practice is to perform SSL along with image translation to well align a single domain (the source or target). However, in this single-domain paradigm, unavoidable visual inconsistency raised by image translation may affect subsequent learning. In this paper, based on the observation that domain adaptation frameworks performed in the source and target domain are almost complementary in terms of image translation and SSL, we propose a novel dual path learning (DPL) framework to alleviate visual inconsistency. Concretely, DPL contains two complementary and interactive single-domain adaptation pipelines aligned in source and target domain respectively. The inference of DPL is extremely simple, only one segmentation model in the target domain is employed. Novel technologies such as dual path image translation and dual path adaptive segmentation are proposed to make two paths promote each other in an interactive manner. Experiments on GTA5$\rightarrow$Cityscapes and SYNTHIA$\rightarrow$Cityscapes scenarios demonstrate the superiority of our DPL model over the state-of-the-art methods. The code and models are available at: \url{https://github.com/royee182/DPL}
翻訳日:2021-08-16 13:05:59 公開日:2021-08-13
# TDM:解釈可能性向上による信頼できる意思決定

TDM: Trustworthy Decision-Making via Interpretability Enhancement ( http://arxiv.org/abs/2108.06080v1 )

ライセンス: Link先を確認
Daoming Lyu, Fangkai Yang, Hugh Kwon, Wen Dong, Levent Yilmaz, Bo Liu(参考訳) 人間ロボットによる対話的な意思決定はますます普及しており、信頼は自律性への依存を決定する上で重要な要素である。 しかし、我々の理解を超えたシステムを信頼することは合理的ではなく、典型的な機械学習とデータ駆動意思決定は解釈可能性を妨げるブラックボックスパラダイムである。 したがって、解釈可能性認識戦略によって強化された計算的信頼度の高い意思決定機構を確立することが重要である。 そこで我々は,象徴的計画と逐次的意思決定を統合したTDM(Trustworthy Decision-Making)フレームワークを提案する。 このフレームワークは、複雑な高レベルな複合タスクをもたらす解釈可能なサブタスクを学習し、提案した信頼度を使って形式的に評価できる。 TDMは設計によるサブタスクレベルの解釈を可能にし、学習したサブタスクから最適なシンボリックプランに収束する。 さらに、TDMに基づくアルゴリズムを導入して、シンボル計画と他のシーケンシャル決定アルゴリズムとの統一性を実証し、両方の利点を享受する。 実験結果は,サブタスクの解釈性を改善しつつ,信頼スコアに基づく計画の有効性を検証する。

Human-robot interactive decision-making is increasingly becoming ubiquitous, and trust is an influential factor in determining the reliance on autonomy. However, it is not reasonable to trust systems that are beyond our comprehension, and typical machine learning and data-driven decision-making are black-box paradigms that impede interpretability. Therefore, it is critical to establish computational trustworthy decision-making mechanisms enhanced by interpretability-aware strategies. To this end, we propose a Trustworthy Decision-Making (TDM) framework, which integrates symbolic planning into sequential decision-making. The framework learns interpretable subtasks that result in a complex, higher-level composite task that can be formally evaluated using the proposed trust metric. TDM enables the subtask-level interpretability by design and converges to an optimal symbolic plan from the learned subtasks. Moreover, a TDM-based algorithm is introduced to demonstrate the unification of symbolic planning with other sequential-decision making algorithms, reaping the benefits of both. Experimental results validate the effectiveness of trust-score-based planning while improving the interpretability of subtasks.
翻訳日:2021-08-16 13:04:11 公開日:2021-08-13
# マルコフ拡散による適応的正定値学習

Adaptive Positive-Unlabelled Learning via Markov Diffusion ( http://arxiv.org/abs/2108.06158v1 )

ライセンス: Link先を確認
Paola Stolfi, Andrea Mastropietro, Giuseppe Pasculli, Paolo Tieri, Davide Vergni(参考訳) positive-unlabelled (pu) learningは、ポジティブなインスタンスのセットのみがラベル付けされ、残りのデータセットがラベル付けされていない機械学習設定である。 ラベルなしのインスタンスは、未特定の正のサンプルまたは真の負のサンプルである。 長年にわたり、PU学習に対処する多くのソリューションが提案されてきた。 いくつかのテクニックは、未ラベルのサンプルを負のものと見なし、ノイズの多い負の集合を持つバイナリ分類に問題を還元する一方、別の手法は、潜在的な負の例の集合を検出し、後に教師付き機械学習戦略(二段階の手法)を適用することを目指している。 この研究で提案されたアプローチは後者のカテゴリに該当し、半教師付き方式で機能する: 以前の研究に動機づけられ、インスパイアされたマルコフ拡散プロセスは、未ラベルのインスタンスに擬ラベルを割り当てるために使われる。 その後、新たに割り当てられたクラスを利用する機械学習モデルをトレーニングする。 このアルゴリズムの主な目的は、元来問題のない正のインスタンスを含む可能性のあるインスタンスの集合を特定することである。

Positive-Unlabelled (PU) learning is the machine learning setting in which only a set of positive instances are labelled, while the rest of the data set is unlabelled. The unlabelled instances may be either unspecified positive samples or true negative samples. Over the years, many solutions have been proposed to deal with PU learning. Some techniques consider the unlabelled samples as negative ones, reducing the problem to a binary classification with a noisy negative set, while others aim to detect sets of possible negative examples to later apply a supervised machine learning strategy (two-step techniques). The approach proposed in this work falls in the latter category and works in a semi-supervised fashion: motivated and inspired by previous works, a Markov diffusion process with restart is used to assign pseudo-labels to unlabelled instances. Afterward, a machine learning model, exploiting the newly assigned classes, is trained. The principal aim of the algorithm is to identify a set of instances which are likely to contain positive instances that were originally unlabelled.
翻訳日:2021-08-16 13:03:55 公開日:2021-08-13
# グラフ畳み込みネットワークにおける構造脆弱性の理解

Understanding Structural Vulnerability in Graph Convolutional Networks ( http://arxiv.org/abs/2108.06280v1 )

ライセンス: Link先を確認
Liang Chen, Jintang Li, Qibiao Peng, Yang Liu, Zibin Zheng and Carl Yang(参考訳) 近年の研究では、グラフ畳み込みネットワーク(GCN)がグラフ構造に対する敵対攻撃に対して脆弱であることが示されている。 このような構造的敵攻撃に対する堅牢性を改善するために複数の研究が提案されているが、この攻撃が成功した理由は不明である。 本研究は,GCNの非ロバストアグリゲーションスキーム(すなわち重み付き平均)による構造逆例を理論的,実証的に証明する。 具体的には,集合スキームのロバスト性を定量的に測定できるブレークダウンポイントを用いて解析を行った。 重要な洞察は、重み付き平均がGCNの基本設計であるように、破壊点が低く、単一のエッジを注入することで出力を劇的に変化させることができることである。 高分解点(中央値、トリミング平均など)の集約方式を採用することで、構造攻撃に対するgcnのロバスト性が著しく向上する可能性が示唆された。 4つの実世界のデータセットに関する広範囲な実験により、そのような単純だが効果的な方法が最先端モデルと比較して最も頑健な性能が得られることが示されている。

Recent studies have shown that Graph Convolutional Networks (GCNs) are vulnerable to adversarial attacks on the graph structure. Although multiple works have been proposed to improve their robustness against such structural adversarial attacks, the reasons for the success of the attacks remain unclear. In this work, we theoretically and empirically demonstrate that structural adversarial examples can be attributed to the non-robust aggregation scheme (i.e., the weighted mean) of GCNs. Specifically, our analysis takes advantage of the breakdown point which can quantitatively measure the robustness of aggregation schemes. The key insight is that weighted mean, as the basic design of GCNs, has a low breakdown point and its output can be dramatically changed by injecting a single edge. We show that adopting the aggregation scheme with a high breakdown point (e.g., median or trimmed mean) could significantly enhance the robustness of GCNs against structural attacks. Extensive experiments on four real-world datasets demonstrate that such a simple but effective method achieves the best robustness performance compared to state-of-the-art models.
翻訳日:2021-08-16 13:03:37 公開日:2021-08-13
# 連続的バックプロップ:持続的ランダム性を伴う確率的勾配降下

Continual Backprop: Stochastic Gradient Descent with Persistent Randomness ( http://arxiv.org/abs/2108.06325v1 )

ライセンス: Link先を確認
Shibhansh Dohare, A. Rupam Mahmood, Richard S. Sutton(参考訳) ニューラルネットワークにおける学習のためのバックプロップアルゴリズムは、確率的勾配降下と、小さなランダムウェイトによる初期化の2つのメカニズムを使用しており、後者は前者の有効性に必須である。 連続的な学習設定では、Backpropは最初はうまく機能するが、時間とともに性能は低下する。 確率的勾配降下だけでは連続学習が不十分であり、初期ランダム性は初期学習のみを可能にするが連続学習はできない。 私たちの知る限りでは、私たちの結果はバックプロップの学習能力の低下を示す最初の結果です。 この問題に対処するために,新しい生成・テストプロセスを用いて,勾配降下に伴うランダムな特徴を連続的に注入するアルゴリズムを提案する。 これを連続バックプロップアルゴリズムと呼ぶ。 Backpropとは異なり、Continuous Backpropは教師付き学習と強化学習の両方に継続的に適応可能であることを示す。 今後,連続学習が一般化するにつれて,ランダム初期化の利点が学習中に存在するような,連続的バックプロップのような手法が不可欠になることを期待する。

The Backprop algorithm for learning in neural networks utilizes two mechanisms: first, stochastic gradient descent and second, initialization with small random weights, where the latter is essential to the effectiveness of the former. We show that in continual learning setups, Backprop performs well initially, but over time its performance degrades. Stochastic gradient descent alone is insufficient to learn continually; the initial randomness enables only initial learning but not continual learning. To the best of our knowledge, ours is the first result showing this degradation in Backprop's ability to learn. To address this issue, we propose an algorithm that continually injects random features alongside gradient descent using a new generate-and-test process. We call this the Continual Backprop algorithm. We show that, unlike Backprop, Continual Backprop is able to continually adapt in both supervised and reinforcement learning problems. We expect that as continual learning becomes more common in future applications, a method like Continual Backprop will be essential where the advantages of random initialization are present throughout learning.
翻訳日:2021-08-16 13:03:18 公開日:2021-08-13
# Co-GAIL:人間-ロボット協調のための多様な戦略を学ぶ

Co-GAIL: Learning Diverse Strategies for Human-Robot Collaboration ( http://arxiv.org/abs/2108.06038v1 )

ライセンス: Link先を確認
Chen Wang, Claudia P\'erez-D'Arpino, Danfei Xu, Li Fei-Fei, C. Karen Liu, Silvio Savarese(参考訳) 本稿では,人間とロボットの協調実験から人間とロボットの協調政策を学ぶ方法を提案する。 効果的なロボットアシスタントは、デモで示された多様な人間の行動に対処することを学び、オンラインタスク実行中に人間が戦略を調整すると頑健になる。 本手法は,対話型学習プロセスにおいて,人間ポリシーとロボットポリシーを協調的に最適化する。人間ポリシーは,実証から多種多様な協調行動を生成することを学習し,ロボットポリシーは人間の協力者の意図しない潜在戦略を推定することによって支援する。 2次元戦略ゲーム、人間-ロボットハンドオーバタスク、多段階協調操作タスクにおいて、シミュレーションによる評価と実際の人間のオペレーターによる実行の両方において、この方法が代替案を上回る。 Supplementary Materials and Video at https://sites.google.com/view/co-gail-web/home

We present a method for learning a human-robot collaboration policy from human-human collaboration demonstrations. An effective robot assistant must learn to handle diverse human behaviors shown in the demonstrations and be robust when the humans adjust their strategies during online task execution. Our method co-optimizes a human policy and a robot policy in an interactive learning process: the human policy learns to generate diverse and plausible collaborative behaviors from demonstrations while the robot policy learns to assist by estimating the unobserved latent strategy of its human collaborator. Across a 2D strategy game, a human-robot handover task, and a multi-step collaborative manipulation task, our method outperforms the alternatives in both simulated evaluations and when executing the tasks with a real human operator in-the-loop. Supplementary materials and videos at https://sites.google.com/view/co-gail-web/home
翻訳日:2021-08-16 13:02:59 公開日:2021-08-13
# 表現型ニューラルテキスト音声の音質向上

Enhancing audio quality for expressive Neural Text-to-Speech ( http://arxiv.org/abs/2108.06270v1 )

ライセンス: Link先を確認
Abdelhamid Ezzerg, Adam Gabrys, Bartosz Putrycz, Daniel Korzekwa, Daniel Saez-Trigueros, David McHardy, Kamil Pokora, Jakub Lachowicz, Jaime Lorenzo-Trueba, Viacheslav Klimkov(参考訳) 最近のテキスト音声合成システム(TTS)は、人間の録音に類似した品質の音声を生成できるため、人工音声合成は自然性において大きな飛躍を遂げてきた。 しかし、全ての話し方はモデル化が簡単ではない: 非常に表現力の高い音声は、生成した音声の表現性とその信号品質との間にトレードオフがあるように見えるため、最近のTSアーキテクチャでさえも依然として困難である。 本稿では,高表現率音声の信号品質を向上させるために,追加データを用いることなく活用できる一連の手法を提案する。 提案手法は, 学習中の自己回帰ループの粒度調整, 音響モデルにおける生成適応ネットワークの利用, 音響モデルとニューラルボコーダの両方における変分オートエンコーダの使用を含む。 その結果,これらの手法を組み合わせることで,表現力のある有名人声のMUSHRAスコアにおいて,ベースラインシステムと録音との知覚自然性のギャップを39%縮めることがわかった。

Artificial speech synthesis has made a great leap in terms of naturalness as recent Text-to-Speech (TTS) systems are capable of producing speech with similar quality to human recordings. However, not all speaking styles are easy to model: highly expressive voices are still challenging even to recent TTS architectures since there seems to be a trade-off between expressiveness in a generated audio and its signal quality. In this paper, we present a set of techniques that can be leveraged to enhance the signal quality of a highly-expressive voice without the use of additional data. The proposed techniques include: tuning the autoregressive loop's granularity during training; using Generative Adversarial Networks in acoustic modelling; and the use of Variational Auto-Encoders in both the acoustic model and the neural vocoder. We show that, when combined, these techniques greatly closed the gap in perceived naturalness between the baseline system and recordings by 39% in terms of MUSHRA scores for an expressive celebrity voice.
翻訳日:2021-08-16 13:02:43 公開日:2021-08-13
# 高速移動物体の非イメージングリアルタイム検出と追跡

Non-imaging real-time detection and tracking of fast-moving objects ( http://arxiv.org/abs/2108.06009v1 )

ライセンス: Link先を確認
Fengming Zhou, Xuelei Shi, Jie Chen, Tianhang Tang and Yiguang Liu(参考訳) 高速移動物体のリアルタイム検出と追跡は様々な分野で大きな成功を収めている。 しかし,多くの既存手法,特に低コスト手法は,リアルタイム・長期オブジェクト検出・追跡が困難である。 ここでは, 高速移動物体検出と追跡をリアルタイムに実現するための2段階を含む非画像化戦略と, 1) アダマールパターン列を最適化するための輪郭モーメントに基づく手法を提案する。 そして、単画素イメージング技術に基づいて物体の投影曲線を再構成する。 被写体位置情報を含む投影曲線は、単画素検出器によって収集された測定値により直接再構成される; 2) 投影曲線における最も速い変化位置は、一階の勾配を解いて得られる。 勾配微分は、突然の変化位置を持つ微分曲線を計算するために、2つの一階勾配で用いられる。 最後に、高速移動対象の境界情報を得ることができる。 22,000Hzのデジタルマイクロミラーデバイスを用いて, サンプリングレート1.28%で毎秒105フレームの時間分解能が得られることを示す。 提案手法の検出と追跡アルゴリズムは計算効率が高い。 最先端手法と比較して,本手法はサンプリング率を低くすることができる。 さらに、この戦略は各フレーム毎に1MB以上のデータを取得し、オブジェクトをリアルタイムに高速に移動させ、長期的な検出と追跡を行うことができる。

Real-time detection and tracking of fast-moving objects have achieved great success in various fields. However, many existing methods, especially low-cost ones, are difficult to achieve real-time and long-term object detection and tracking. Here, a non-imaging strategy is proposed, including two stages, to realize fast-moving object detection and tracking in real-time and for the long term: 1) a contour-moments-based method is proposed to optimize the Hadamard pattern sequence. And then reconstructing projection curves of the object based on single-pixel imaging technology. The projection curve, which including the object location information, is reconstructed directly with the measurements collected by a single-pixel detector; 2) The fastest changing position in the projection curve can be obtained by solving first-order gradients. A gradient differential is used in two first-order gradients to calculate a differential curve with the sudden change positions. Finally, we can obtain the boundary information of the fast-moving object. We experimentally demonstrate that our approach can achieve a temporal resolution of 105 frames per second at a 1.28% sampling rate by using a 22,000 Hz digital micro-mirror device. The detection and tracking algorithm of the proposed strategy is computationally efficient. Compared with the state-of-the-art methods, our approach can make the sampling rate lower. Additionally, the strategy acquires not more than 1MB of data for each frame, which is capable of fast-moving object real-time and long-term detection and tracking.
翻訳日:2021-08-16 13:02:01 公開日:2021-08-13
# svc-ongoing: シグネチャ検証競争

SVC-onGoing: Signature Verification Competition ( http://arxiv.org/abs/2108.06090v1 )

ライセンス: Link先を確認
Ruben Tolosana, Ruben Vera-Rodriguez, Carlos Gonzalez-Garcia, Julian Fierrez, Aythami Morales, Javier Ortega-Garcia, Juan Carlos Ruiz-Garcia, Sergio Romero-Tapiador, Santiago Rengifo, Miguel Caruana, Jiajia Jiang, Songxuan Lai, Lianwen Jin, Yecheng Zhu, Javier Galbally, Moises Diaz, Miguel Angel Ferrer, Marta Gomez-Barrero, Ilya Hodashinsky, Konstantin Sarin, Artem Slezkin, Marina Bardamova, Mikhail Svetlakov, Mohammad Saleem, Cintia Lia Szucs, Bence Kovari, Falk Pulsmeyer, Mohamad Wehbi, Dario Zanca, Sumaiya Ahmad, Sarthak Mishra, Suraiya Jabin(参考訳) 本稿では,DeepSignDBやSVC2021_EvalDBといった大規模公開データベースや標準実験プロトコルを使用したオープンな共通プラットフォームにおいて,研究者が自身のシステムを最先端技術に対して容易にベンチマークすることができるオンライン署名検証のコンペティションであるSVC-onGoingを紹介する。 SVC-onGoing は ICDAR 2021 Competition on On-Line Signature Verification (SVC 2021) をベースとしている。 SVC-onGoingの目標は、一般的なシナリオ(オフィス/モバイル)におけるオンライン署名検証システムの限界を評価し、大規模なパブリックデータベースを通じて入力(スタイラス/フィンガー)を書くことである。 競技では3つの異なるタスクが考慮され、各タスクにランダムと熟練した偽造が同時に考慮されるように、現実的なシナリオをシミュレートする。 svc-ongoingにより得られた結果は,従来の手法と比較して,深層学習手法の可能性が高いことを証明した。 特に、ベストシグネチャ検証システムは、3.33%(タスク1)、7.41%(タスク2)、6.04%(タスク3)の等しいエラー率(eer)値を得た。 この分野での今後の研究は、署名取得時に複数のモバイルデバイスと指を使用するSVC-onGoingのモバイルシナリオにおいて、署名検証システムの性能向上を目的としている。

This article presents SVC-onGoing, an on-going competition for on-line signature verification where researchers can easily benchmark their systems against the state of the art in an open common platform using large-scale public databases, such as DeepSignDB and SVC2021_EvalDB, and standard experimental protocols. SVC-onGoing is based on the ICDAR 2021 Competition on On-Line Signature Verification (SVC 2021), which has been extended to allow participants anytime. The goal of SVC-onGoing is to evaluate the limits of on-line signature verification systems on popular scenarios (office/mobile) and writing inputs (stylus/finger) through large-scale public databases. Three different tasks are considered in the competition, simulating realistic scenarios as both random and skilled forgeries are simultaneously considered on each task. The results obtained in SVC-onGoing prove the high potential of deep learning methods in comparison with traditional methods. In particular, the best signature verification system has obtained Equal Error Rate (EER) values of 3.33% (Task 1), 7.41% (Task 2), and 6.04% (Task 3). Future studies in the field should be oriented to improve the performance of signature verification systems on the challenging mobile scenarios of SVC-onGoing in which several mobile devices and the finger are used during the signature acquisition.
翻訳日:2021-08-16 13:01:38 公開日:2021-08-13
# Jasmine: サイバー犯罪に対する新たなアクティブな学習アプローチ

Jasmine: A New Active Learning Approach to Combat Cybercrime ( http://arxiv.org/abs/2108.06238v1 )

ライセンス: Link先を確認
Jan Klein, Sandjai Bhulai, Mark Hoogendoorn, Rob van der Mei(参考訳) 過去10年間、サイバー犯罪の出現はサイバーセキュリティの研究を称賛してきた。 しかし,侵入検知手法の展開は短命である。 この理由の1つは、現実的な評価データセットが欠如していることにある。 これは、サイバーアナリストがネットワーク接続を分類するのに要する膨大な労力によって引き起こされる。 これにより、(i)ラベル付きデータの小さなセットから学習できるメソッド、(ii)ラベルなしデータの大規模なセットを予測できるメソッド、(iii)特別に選択されたラベルなしデータインスタンスのみのラベルを要求するメソッドの必要性が高まった。 したがって、アクティブラーニング(AL)手法は興味深い。 これらのアプローチでは、クエリ関数によってspeci?fic unlabeledインスタンスを選択し、全体的なclassi?cationパフォーマンスを改善することが期待されている。 結果のクエリ観察は、人間の専門家によってラベル付けされ、ラベル付きセットに追加される。 本稿では,Jasmineと呼ばれるハイブリッドAL手法を提案する。 まず、各観測値がクエリにどの程度適しているか、すなわち、クラスi?cationを向上する確率を決定する。 これらの特性は不確実性スコアと異常スコアである。 次に、Jasmineは動的更新を導入した。 これにより、モデルが不確かで異常でランダムに選択された観測のバランスを調整することができる。 この目的のためにJasmineは、ラベル付けプロセスで最高のクエリ戦略を学ぶことができる。 これは、すべて静的で所定のクエリ機能を持つサイバーセキュリティにおける他のALメソッドとは対照的である。 動的更新,すなわちJasmineは,不確実性のみを問合せする,異常や修正された組み合わせのみを問合せするよりも,良質で堅牢な結果が得られることを示す。

Over the past decade, the advent of cybercrime has accelarated the research on cybersecurity. However, the deployment of intrusion detection methods falls short. One of the reasons for this is the lack of realistic evaluation datasets, which makes it a challenge to develop techniques and compare them. This is caused by the large amounts of effort it takes for a cyber analyst to classify network connections. This has raised the need for methods (i) that can learn from small sets of labeled data, (ii) that can make predictions on large sets of unlabeled data, and (iii) that request the label of only specially selected unlabeled data instances. Hence, Active Learning (AL) methods are of interest. These approaches choose speci?fic unlabeled instances by a query function that are expected to improve overall classi?cation performance. The resulting query observations are labeled by a human expert and added to the labeled set. In this paper, we propose a new hybrid AL method called Jasmine. Firstly, it determines how suitable each observation is for querying, i.e., how likely it is to enhance classi?cation. These properties are the uncertainty score and anomaly score. Secondly, Jasmine introduces dynamic updating. This allows the model to adjust the balance between querying uncertain, anomalous and randomly selected observations. To this end, Jasmine is able to learn the best query strategy during the labeling process. This is in contrast to the other AL methods in cybersecurity that all have static, predetermined query functions. We show that dynamic updating, and therefore Jasmine, is able to consistently obtain good and more robust results than querying only uncertainties, only anomalies or a ?fixed combination of the two.
翻訳日:2021-08-16 13:00:48 公開日:2021-08-13
# ロボット工学における安全学習: 学習に基づく制御から安全強化学習へ

Safe Learning in Robotics: From Learning-Based Control to Safe Reinforcement Learning ( http://arxiv.org/abs/2108.06266v1 )

ライセンス: Link先を確認
Lukas Brunke, Melissa Greeff, Adam W. Hall, Zhaocong Yuan, Siqi Zhou, Jacopo Panerati, Angela P. Schoellig (University of Toronto Institute for Aerospace Studies, University of Toronto Robotics Institute, Vector Institute for Artificial Intelligence)(参考訳) この半減期は、コントロールと強化の両方の学習コミュニティから、現実世界のロボット展開のための安全な学習方法への貢献が急増している。 本稿では、制御理論と強化学習研究で使用される言語とフレームワークの統合に焦点をあて、不確実性の下で安全な意思決定を実現するために機械学習を用いた最近の進歩を簡潔に、包括的にレビューする。 不確定なダイナミクスを学習することで、パフォーマンスを安全に向上させる学習ベースの制御アプローチ、安全性や堅牢性を促進する強化学習アプローチ、学習した制御ポリシーの安全性を正式に証明する手法などです。 データと学習に基づくロボット制御の手法が勢いを増し続けており、研究者は、人間の近くで操作する場合など、安全性が不可欠である現実のシナリオにおいて、いつ、どのようにそれらを活用するかを理解する必要がある。 ロボット学習の分野を今後数年間で推進するオープン課題を浮き彫りにして,制御と強化学習のアプローチを公平に比較するための,現実的な物理ベースのベンチマークの必要性を強調した。

The last half-decade has seen a steep rise in the number of contributions on safe learning methods for real-world robotic deployments from both the control and reinforcement learning communities. This article provides a concise but holistic review of the recent advances made in using machine learning to achieve safe decision making under uncertainties, with a focus on unifying the language and frameworks used in control theory and reinforcement learning research. Our review includes: learning-based control approaches that safely improve performance by learning the uncertain dynamics, reinforcement learning approaches that encourage safety or robustness, and methods that can formally certify the safety of a learned control policy. As data- and learning-based robot control methods continue to gain traction, researchers must understand when and how to best leverage them in real-world scenarios where safety is imperative, such as when operating in close proximity to humans. We highlight some of the open challenges that will drive the field of robot learning in the coming years, and emphasize the need for realistic physics-based benchmarks to facilitate fair comparisons between control and reinforcement learning approaches.
翻訳日:2021-08-16 12:59:55 公開日:2021-08-13
# (参考訳) クロスサンプル相互情報最小化によるバイアス不変表現の学習

Learning Bias-Invariant Representation by Cross-Sample Mutual Information Minimization ( http://arxiv.org/abs/2108.05449v2 )

ライセンス: CC BY 4.0
Wei Zhu, Haitian Zheng, Haofu Liao, Weijian Li, Jiebo Luo(参考訳) ディープラーニングアルゴリズムはトレーニングデータから知識を抽出するので、データセットのバイアス情報を継承する可能性が高い。 結果として、得られたモデルは一般化が悪く、現実の応用において決定過程を誤解させる結果となった。 本稿では,対象タスクが誤用するバイアス情報を,CSAD法を用いて除去することを提案する。 CSADは、特徴抽出器が生み出す潜在表現から切り離されたターゲット特徴とバイアス特徴を明示的に抽出し、ターゲット特徴とバイアス特徴の相関関係を発見して除去する。 相関測定は, 対向的偏り評価において重要な役割を担い, クロスサンプル型相互情報推定器によって行われる。 さらに,協調コンテンツと局所構造表現学習を提案し,相互情報量の推定と性能向上を図る。 我々は,提案手法の最先端手法に対する利点を検証するために,公開データセットの徹底的な実験を行った。

Deep learning algorithms mine knowledge from the training data and thus would likely inherit the dataset's bias information. As a result, the obtained model would generalize poorly and even mislead the decision process in real-life applications. We propose to remove the bias information misused by the target task with a cross-sample adversarial debiasing (CSAD) method. CSAD explicitly extracts target and bias features disentangled from the latent representation generated by a feature extractor and then learns to discover and remove the correlation between the target and bias features. The correlation measurement plays a critical role in adversarial debiasing and is conducted by a cross-sample neural mutual information estimator. Moreover, we propose joint content and local structural representation learning to boost mutual information estimation for better performance. We conduct thorough experiments on publicly available datasets to validate the advantages of the proposed method over state-of-the-art approaches.
翻訳日:2021-08-16 11:28:57 公開日:2021-08-13
# (参考訳) 単眼3次元物体検出のためのプログレッシブ座標変換

Progressive Coordinate Transforms for Monocular 3D Object Detection ( http://arxiv.org/abs/2108.05793v2 )

ライセンス: CC BY 4.0
Li Wang, Li Zhang, Yi Zhu, Zhi Zhang, Tong He, Mu Li, Xiangyang Xue(参考訳) 3D空間における物体の認識とローカライズは、AIエージェントが周囲の環境を知覚する重要な能力である。 高価なlidarポイント雲では大きな進歩を遂げているが、単眼像のみを想定して3dオブジェクト検出には大きな課題がある。 この問題に対処するための代替手段はいくつかあるが、RGBと深度情報を融合する重いネットワークを備えていたり、数百万の擬似LiDARポイントを処理するのに実証的に効果がなかったりする。 詳細な検査により、これらの制限が不正確な物体の局在に根ざしていることが分かる。 本稿では,学習座標表現を容易にするための新しい,かつ軽量な手法である {\em progressive coordinate transforms} (pct) を提案する。 具体的には, 位置推定を段階的に洗練するために, 信頼度認識損失を伴う位置推定促進機構を導入する。 さらに、セマンティックイメージ表現はパッチ提案の使用を補うためにも利用される。 軽量でシンプルであるにもかかわらず、我々の戦略はkittiおよびwaymo open dataset monocular 3d detection benchmarksに優れた改善をもたらす。 同時に,提案するpctは,ほとんどの座標に基づく3d検出フレームワークに対して大きな一般化を示す。 https://github.com/amazon-research/progressive-coordinate-transforms。

Recognizing and localizing objects in the 3D space is a crucial ability for an AI agent to perceive its surrounding environment. While significant progress has been achieved with expensive LiDAR point clouds, it poses a great challenge for 3D object detection given only a monocular image. While there exist different alternatives for tackling this problem, it is found that they are either equipped with heavy networks to fuse RGB and depth information or empirically ineffective to process millions of pseudo-LiDAR points. With in-depth examination, we realize that these limitations are rooted in inaccurate object localization. In this paper, we propose a novel and lightweight approach, dubbed {\em Progressive Coordinate Transforms} (PCT) to facilitate learning coordinate representations. Specifically, a localization boosting mechanism with confidence-aware loss is introduced to progressively refine the localization prediction. In addition, semantic image representation is also exploited to compensate for the usage of patch proposals. Despite being lightweight and simple, our strategy leads to superior improvements on the KITTI and Waymo Open Dataset monocular 3D detection benchmarks. At the same time, our proposed PCT shows great generalization to most coordinate-based 3D detection frameworks. The code is available at: https://github.com/amazon-research/progressive-coordinate-transforms .
翻訳日:2021-08-16 11:08:36 公開日:2021-08-13
# (参考訳) 意味グラフから多様な記述を生成する

Generating Diverse Descriptions from Semantic Graphs ( http://arxiv.org/abs/2108.05659v2 )

ライセンス: CC BY-SA 4.0
Jiuzhou Han, Daniel Beck, Trevor Cohn(参考訳) 意味グラフからのテキスト生成は伝統的に決定論的手法で行われ、入力グラフが与えられたユニークな記述を生成する。 しかし、生成問題は許容可能なテキスト出力の範囲を認め、語彙的、構文的、意味的変化を示す。 この断絶に対処するため、主な貢献は2つある。 まず,エンコーダ-デコーダモデルに潜在変数を組み込んだ確率的グラフ-テキストモデルとそのアンサンブルでの使用を提案する。 第2に,生成した文の多様性を評価するために,複数参照環境での出力の多様性と品質を共同で評価する新しい自動評価指標を提案する。 我々は,WebNLGデータセットを英語とロシア語で評価し,様々な文の集合を生成する確率的モデルの集合を示すとともに,最先端のモデルに類似した品質を維持した。

Text generation from semantic graphs is traditionally performed with deterministic methods, which generate a unique description given an input graph. However, the generation problem admits a range of acceptable textual outputs, exhibiting lexical, syntactic and semantic variation. To address this disconnect, we present two main contributions. First, we propose a stochastic graph-to-text model, incorporating a latent variable in an encoder-decoder model, and its use in an ensemble. Second, to assess the diversity of the generated sentences, we propose a new automatic evaluation metric which jointly evaluates output diversity and quality in a multi-reference setting. We evaluate the models on WebNLG datasets in English and Russian, and show an ensemble of stochastic models produces diverse sets of generated sentences, while retaining similar quality to state-of-the-art models.
翻訳日:2021-08-16 10:50:39 公開日:2021-08-13
# 条件付きシーケンシャルスレート最適化

Conditional Sequential Slate Optimization ( http://arxiv.org/abs/2108.05618v2 )

ライセンス: Link先を確認
Yipeng Zhang, Mingjian Lu, Saratchandra Indrakanti, Manojkumar Rangasamy Kannadasan, Abraham Bagherjeiran(参考訳) 第1ページに表示されたユーザクエリにマッチする上位検索結果は、検索システムの有効性と知覚に極めて重要である。 検索ランキングシステムは通常、検索結果を独立したクエリ文書スコアで順序付けし、検索結果のスレートを生成する。 しかし、そのような一方的なスコアリング手法は、ユーザが敏感なドキュメント間の依存関係をキャプチャできないため、サブ最適スレートを生成する。 さらに,eコマース検索のような現実のアプリケーションの多くは,ビジネス目的や長期のユーザ保持目標のために,特定の流通基準をスレートレベルで強制する必要がある。 結果の一方的なスコアリングは、スレートに関してそのような目的の最適化を明示的にサポートしない。 したがって、スレート最適化問題の解法は、スレートレベルの分布基準に従うとともに、文書の最適選択と順序を考慮する必要がある。 そこで我々は,条件付きスレート最適化問題を解くために,従来のスレート最適化から拡張したハイブリッドフレームワークを提案する。 本稿では,従来のランク付け指標の最適化と,スレート内の文書の所定の分布基準を共同で学習する条件付きシーケンシャルスレート最適化(CSSO)を提案する。 提案手法は,eコマース検索結果の多様性の強化,トップ検索結果のバイアス軽減,結果のパーソナライズなど,現実的な課題に適用できる。 パブリックデータセットとeコマースデータセットによる実世界のデータに関する実験は、cssoが分布基準への順守という観点で、人気の高い比較ランキング手法を上回っていることを示している。

The top search results matching a user query that are displayed on the first page are critical to the effectiveness and perception of a search system. A search ranking system typically orders the results by independent query-document scores to produce a slate of search results. However, such unilateral scoring methods may fail to capture inter-document dependencies that users are sensitive to, thus producing a sub-optimal slate. Further, in practice, many real-world applications such as e-commerce search require enforcing certain distributional criteria at the slate-level, due to business objectives or long term user retention goals. Unilateral scoring of results does not explicitly support optimizing for such objectives with respect to a slate. Hence, solutions to the slate optimization problem must consider the optimal selection and order of the documents, along with adherence to slate-level distributional criteria. To that end, we propose a hybrid framework extended from traditional slate optimization to solve the conditional slate optimization problem. We introduce conditional sequential slate optimization (CSSO), which jointly learns to optimize for traditional ranking metrics as well as prescribed distribution criteria of documents within the slate. The proposed method can be applied to practical real world problems such as enforcing diversity in e-commerce search results, mitigating bias in top results and personalization of results. Experiments on public datasets and real-world data from e-commerce datasets show that CSSO outperforms popular comparable ranking methods in terms of adherence to distributional criteria while producing comparable or better relevance metrics.
翻訳日:2021-08-16 10:33:53 公開日:2021-08-13
# RW-Resnet:生波形を用いた新しい音声アンチスプーフィングモデル

RW-Resnet: A Novel Speech Anti-Spoofing Model Using Raw Waveform ( http://arxiv.org/abs/2108.05684v2 )

ライセンス: Link先を確認
Youxuan Ma, Zongze Ren, Shugong Xu(参考訳) 近年,TTS(Advanced Text-to-Speech)システムとVC(Voice conversion)システムによって生成される合成音声は,自動話者検証(ASV)システムに大きな打撃を与え,ASVシステムを保護するための合成音声検出システムの設計を促している。 本稿では,ResWavegram-Resnet(RW-Resnet)という新しい音声合成モデルを提案する。 モデルにはConv1D ResblocksとBackbone Resnet34という2つの部分が含まれている。 Conv1D Resblockは残コネクションを持つConv1Dブロックに基づいている。 まず最初に、生波形を入力として使用し、それを積み重ねたConv1D Resblocksに供給してResWavegramを得る。 従来の手法と比較して、ResWavegramは音声信号から全ての情報を保存し、特徴を抽出する能力が強い。 第2部では、抽出された特徴をspoofed又はbonafide決定のためにbackbone resnet34に供給する。 ASVspoof2019 論理アクセス (LA) コーパスを用いて提案した RW-Resnet の評価を行った。 実験の結果、RW-Resnetは他の最先端のアンチスプーフィングモデルよりも優れた性能を示し、合成音声攻撃の検出の有効性を示した。

In recent years, synthetic speech generated by advanced text-to-speech (TTS) and voice conversion (VC) systems has caused great harms to automatic speaker verification (ASV) systems, urging us to design a synthetic speech detection system to protect ASV systems. In this paper, we propose a new speech anti-spoofing model named ResWavegram-Resnet (RW-Resnet). The model contains two parts, Conv1D Resblocks and backbone Resnet34. The Conv1D Resblock is based on the Conv1D block with a residual connection. For the first part, we use the raw waveform as input and feed it to the stacked Conv1D Resblocks to get the ResWavegram. Compared with traditional methods, ResWavegram keeps all the information from the audio signal and has a stronger ability in extracting features. For the second part, the extracted features are fed to the backbone Resnet34 for the spoofed or bonafide decision. The ASVspoof2019 logical access (LA) corpus is used to evaluate our proposed RW-Resnet. Experimental results show that the RW-Resnet achieves better performance than other state-of-the-art anti-spoofing models, which illustrates its effectiveness in detecting synthetic speech attacks.
翻訳日:2021-08-16 10:33:29 公開日:2021-08-13