このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201022となっている論文です。

PDF登録状況(公開日: 20201022)

TitleAuthorsAbstract論文公表日・翻訳日
# キャビティ内の量子エミッタの暗黒状態半局在化

Dark state semilocalization of quantum emitters in a cavity ( http://arxiv.org/abs/2003.07179v2 )

ライセンス: Link先を確認
Thomas Botzung, David Hagenm\"uller, Stefan Sch\"utz, J\'er\^ome Dubail, Guido Pupillo, and Johannes Schachenmayer(参考訳) 我々は、損失のないキャビティモードに結合した量子エミッタの混乱したアンサンブルを研究する。 後者は、複数の非連続な部位に局在する性質を示す「ダーク」固有状態の局在性を変化させることが判明した。 準局所化状態を表し、標準局在化測度を用いて特徴付ける。 これらの状態がコヒーレントなエネルギー輸送に非常に効果的に寄与できることを示す。 本稿では,強い光物質結合を持つ系における暗黒状態の重要な役割について述べる。

We study a disordered ensemble of quantum emitters collectively coupled to a lossless cavity mode. The latter is found to modify the localization properties of the "dark" eigenstates, which exhibit a character of being localized on multiple, noncontiguous sites. We denote such states as semi-localized and characterize them by means of standard localization measures. We show that those states can very efficiently contribute to coherent energy transport. Our paper underlines the important role of dark states in systems with strong light-matter coupling.
翻訳日:2023-05-29 00:25:15 公開日:2020-10-22
# 極端時間相関のシミュレーション

Simulating extremal temporal correlations ( http://arxiv.org/abs/2004.14854v2 )

ライセンス: Link先を確認
Cornelia Spee, Costantino Budroni and Otfried G\"uhne(参考訳) 単一の量子系上の逐次測定から生じる相関は、ポリトープを形成する。 これはアロー・オブ・タイム(aot)の制約によって定義されており、測定設定の将来の選択は過去の結果に影響を与えない。 本稿では,aotポリトープの極端点をシミュレートするために必要な資源について論じる。そこでは物理系の最小次元,あるいは「内部記憶」を用いて資源を定量化する。 まず、対称性の下で極点の同値類を分析する。 第二に、AoTポリトープの与えられた極端点を得るのに必要な最小次元を特徴づける。 最後に,より長い列に対する次元感応時間不等式を,より短い列の不等式に基づいて導出する一般的な方法を提案し,不完全性に対するロバスト性について検討する。

The correlations arising from sequential measurements on a single quantum system form a polytope. This is defined by the arrow-of-time (AoT) constraints, meaning that future choices of measurement settings cannot influence past outcomes. We discuss the resources needed to simulate the extreme points of the AoT polytope, where resources are quantified in terms of the minimal dimension, or "internal memory" of the physical system. First, we analyze the equivalence classes of the extreme points under symmetries. Second, we characterize the minimal dimension necessary to obtain a given extreme point of the AoT polytope, including a lower scaling bound in the asymptotic limit of long sequences. Finally, we present a general method to derive dimension-sensitive temporal inequalities for longer sequences, based on inequalities for shorter ones, and investigate their robustness to imperfections.
翻訳日:2023-05-21 17:15:33 公開日:2020-10-22
# 局所ランダム行列理論に基づく固有状態熱化仮説のテスト

Test of Eigenstate Thermalization Hypothesis Based on Local Random Matrix Theory ( http://arxiv.org/abs/2005.06379v3 )

ライセンス: Link先を確認
Shoki Sugimoto, Ryusuke Hamazaki, and Masahito Ueda(参考訳) 固有状態熱化仮説(ETH)が局所的に相互作用する量子多体系に対して普遍的に成り立つことを検証する。 相互作用を伴うランダム行列アンサンブルを導入し、相互作用の異なる実現のための固有状態期待値の最大変動分布を数値的に得る。 この分布は、非局所相関を含む従来のランダム行列理論では得られないが、局所ハミルトニアンと可観測物のペアの圧倒的多数が指数的に小さなゆらぎでETHを満たすことを証明している。 ランダムマトリクスアンサンブルのエルゴード性は局所性によって崩壊する。

We verify that the eigenstate thermalization hypothesis (ETH) holds universally for locally interacting quantum many-body systems. Introducing random-matrix ensembles with interactions, we numerically obtain a distribution of maximum fluctuations of eigenstate expectation values for different realizations of the interactions. This distribution, which cannot be obtained from the conventional random matrix theory involving nonlocal correlations, demonstrates that an overwhelming majority of pairs of local Hamiltonians and observables satisfy the ETH with exponentially small fluctuations. The ergodicity of our random matrix ensembles breaks down due to locality.
翻訳日:2023-05-20 07:51:15 公開日:2020-10-22
# 巨大エミッタを用いた量子光学の衝突像

Collisional picture of quantum optics with giant emitters ( http://arxiv.org/abs/2006.08631v2 )

ライセンス: Link先を確認
Dario Cilluffo, Angelo Carollo, Salvatore Lorenzo, Jonathan A. Gross, G. Massimo Palma, Francesco Ciccarello(参考訳) 2体衝突の系列としてのエミッタとボソニック場の弱い相互作用を効果的に記述することは、従来の量子光学法と比べ、単純な直感的な図形と、ジョイントエミッタ-場力学の効率的な計算ツールを提供する。 ここで、この衝突のアプローチは多くのエミッタ(原子または共振器)に拡張され、それぞれが多くの結合点("giant"エミッタ)で場と相互作用する。 無視可能な遅延のレジームでは、各衝突を特に記述したユニタリはキラルな起源の寄与を特徴とし、効果的なハミルトニアンをもたらす。 この図は、任意の白色ノイズガウス状態における(一般にキラルな)導波路場に結合した巨大原子の集合のリンドブラッドマスター方程式(me)を導出するために適用され、単一の方程式に凝縮し、様々な量子光学および導波路qed mesを拡張する。 選択された光検出スキームに対応する実効ハミルトニアンおよびジャンプ作用素についても検討する。

The effective description of the weak interaction between an emitter and a bosonic field as a sequence of two-body collisions provides a simple intuitive picture compared to traditional quantum optics methods as well as an effective calculation tool of the joint emitter-field dynamics. Here, this collisional approach is extended to many emitters (atoms or resonators), each generally interacting with the field at many coupling points ("giant" emitter). In the regime of negligible delays, the unitary describing each collision in particular features a contribution of a chiral origin resulting in an effective Hamiltonian. The picture is applied to derive a Lindblad master equation (ME) of a set of giant atoms coupled to a (generally chiral) waveguide field in an arbitrary white-noise Gaussian state, which condenses into a single equation and extends a variety of quantum optics and waveguide-QED MEs. The effective Hamiltonian and jump operators corresponding to a selected photodetection scheme are also worked out.
翻訳日:2023-05-13 20:19:49 公開日:2020-10-22
# 半無限1次元ボース気体の密度分布と不純物の結合状態

Density profile of a semi-infinite one-dimensional Bose gas and bound states of the impurity ( http://arxiv.org/abs/2007.10771v2 )

ライセンス: Link先を確認
Aleksandra Petkovic, Benjamin Reichert, and Zoran Ristivojevic(参考訳) 1次元の弱相互作用ボソン系における境界の影響について検討する。 境界位置で完全に抑制されたボソン密度に強く影響する。 そこから離れて、平均場レベルでのヒーリング長さの順に距離にわたって密度が減少する。 量子ゆらぎは密度プロファイルを著しく変更する。 局所密度は境界からの距離の逆二乗として平均値に近づく。 境界からの任意の分離における密度プロファイルの解析式を計算する。 次に、不均一なボソン密度によって生じるポテンシャルにおける外部量子粒子(不純物)の局在化の問題を考える。 平均場レベルでは、境界状態のエネルギースペクトル、対応する波動関数、相互作用誘起局所化条件の正確な結果を求める。 ボーソン密度への量子的な寄与は、境界状態のエネルギー準位の小さな補正をもたらす。 しかし、不純物と境界の間の長距離カシミール的相互作用の存在は基本的に重要である。

We study the effect of the boundary on a system of weakly interacting bosons in one dimension. It strongly influences the boson density which is completely suppressed at the boundary position. Away from it, the density is depleted over the distances on the order of the healing length at the mean-field level. Quantum fluctuations modify the density profile considerably. The local density approaches the average one as an inverse square of the distance from the boundary. We calculate an analytic expression for the density profile at arbitrary separations from the boundary. We then consider the problem of localization of a foreign quantum particle (impurity) in the potential created by the inhomogeneous boson density. At the mean-field level, we find exact results for the energy spectrum of the bound states, the corresponding wave functions, and the condition for interaction-induced localization. The quantum contribution to the boson density gives rise to small corrections of the bound state energy levels. However, it is fundamentally important for the existence of a long-range Casimir-like interaction between the impurity and the boundary.
翻訳日:2023-05-08 20:58:17 公開日:2020-10-22
# 多因子PT対称進化におけるNo-signalingの局所保存

Local preservation of no-signaling in multiparty PT-symmetric evolutions ( http://arxiv.org/abs/2007.13461v2 )

ライセンス: Link先を確認
Asmita Kumari, Ujjwal Sen(参考訳) ノンシグナリング原理の違反は、PT対称性の進化、すなわち二部体の絡み合った状態のパリティと時間反転に関して対称であるハミルトニアンに由来する進化に生じる可能性がある。 非従来型内積を用いることで、違反を回避することができる。 物理状態ベクトル間の従来のディラック内積を利用する形式論においても、実固有値を持つpt対称非エルミートハミルトニアンに対応する進化の無符号原理の局所保存の例を得ることが可能であり、その二成分バージョンはこの原理に違反している。 この現象はgreenberger-horne-zeilinger状態を用いて既に見ることができる。 興味深いことに、一般化されたW状態は、そのような局所的な無署名保存をサポートしない。

Violation of the no-signaling principle may occur in PT-symmetric evolutions, that is, evolutions that stem from Hamiltonians that are symmetric with respect to parity and time-reversal, of bipartite entangled states. The violation can be avoided by using a non-conventional inner product. We show that even within the formalism that utilizes the conventional Dirac inner product between physical state vectors, it is possible to obtain instances of local preservation of the no-signaling principle for evolutions corresponding to PT-symmetric non-hermitian Hamiltonians with real eigenvalues, of multiparty entangled states, whose bipartite versions still violate the principle. The phenomenon can be witnessed already by using the Greenberger-Horne-Zeilinger state. Interestingly, the generalized W states do not support such a local preservation of no-signaling.
翻訳日:2023-05-08 02:48:47 公開日:2020-10-22
# 捕捉原子を有するオンチップキャビティqedのための効率良く結合したマイクロリング回路

Efficiently-coupled microring circuit for on-chip cavity QED with trapped atoms ( http://arxiv.org/abs/2008.04263v2 )

ライセンス: Link先を確認
Tzu-Han Chang, Xinchao Zhou, Ming Zhu, Brian M. Fields, Chen-Lung Hung(参考訳) 本稿では,共振器量子電磁力学 (qed) を捕捉原子で調整した効率良く結合したマイクロリング光回路の完全合成研究を行う。 マイクロリング構造は、広い周波数帯で高い真空中繊維縁結合効率を有する透明膜上に作製される。 さらに、バス導波路プーリ結合器は、両方のセシウムD線周波数におけるマイクロリングへの臨界結合を実現し、また、マイクロリングの上に2色のエバネッセント場トラップの格子を形成するセシウム「磁性」波長において高い結合効率を実現する。 提示されたプラットフォームは、堅牢な原子-ナノフォトニクスハイブリッド量子デバイスを実現する約束を持っている。

We present a complete fabrication study of an efficiently-coupled microring optical circuit tailored for cavity quantum electrodynamics (QED) with trapped atoms. The microring structures are fabricated on a transparent membrane with high in-vacuum fiber edge-coupling efficiency in a broad frequency band. In addition, a bus waveguide pulley coupler realizes critical coupling to the microrings at both of the cesium D-line frequencies, while high coupling efficiency is achieved at the cesium 'magic' wavelengths for creating a lattice of two-color evanescent field traps above a microring. The presented platform holds promises for realizing a robust atom-nanophotonics hybrid quantum device.
翻訳日:2023-05-06 15:59:53 公開日:2020-10-22
# 分散読み出しによる有機微結晶のパルス電子スピン共鳴

Pulsed Electron Spin Resonance of an Organic Microcrystal by Dispersive Readout ( http://arxiv.org/abs/2009.06933v2 )

ライセンス: Link先を確認
Ailsa Keyser, Jonathan Burnett, Sergey Kubatkin, Andrey Danilov, Mark Oxborrow, Sebastian de Graaf, Tobias Lindstr\"om(参考訳) 低温下での小型試料の高感度電子スピン共鳴(ESR)技術の開発のためのテストベッドシステムを構築した。 本システムでは, 窒化ニオブ薄膜平面型超伝導共振器を用いて, 極小の常磁性材料に結合する集中モード容積を有し, 最大400 mtの磁場に弾力性を有するように設計し, ピコリッター体積に10^{12}$スピンを含む有機ラジカルマイクロ結晶に対して65 mkで高共振性結合(c = 19$)を測定した。 共振器の分散周波数シフトによりスピン格子脱コヒーレンス速度を検出する。 このような技術は、量子情報の応用や、ごく少数のスピンのパルスESR尋問に適しており、例えば超伝導量子プロセッサの材料欠陥の表面化学に関する洞察を与えることができる。

We establish a testbed system for the development of high-sensitivity Electron Spin Resonance (ESR) techniques for small samples at cryogenic temperatures. Our system consists of a Niobium Nitride thin-film planar superconducting microresonator designed to have a concentrated mode volume to couple to a small amount of paramagnetic material, and to be resilient to magnetic fields of up to 400 mT. At 65 mK we measure high-cooperativity coupling ($C \approx 19$) to an organic radical microcrystal containing $10^{12}$ spins in a pico-litre volume. We detect the spin-lattice decoherence rate via the dispersive frequency shift of the resonator. Techniques such as these could be suitable for applications in quantum information as well as for pulsed ESR interrogation of very few spins and could provide insights into the surface chemistry of, for example, the material defects in superconducting quantum processors.
翻訳日:2023-05-02 04:37:57 公開日:2020-10-22
# 臨界量子スピン鎖における創発的普遍性:絡み合いビラソロ代数

Emergent universality in critical quantum spin chains: entanglement Virasoro algebra ( http://arxiv.org/abs/2009.11383v2 )

ライセンス: Link先を確認
Qi Hu, Adrian Franco-Rubio, Guifre Vidal(参考訳) エンタングルメントエントロピーとエンタングルメントスペクトルは、拡張多体系における量子エンタングルメントの特徴付けに広く用いられている。 システムの純粋な状態と領域への分割が与えられると、$a$ と $b$ は、$schmidt~ value$ の項で得られるか、または領域 $a$ に対する還元密度行列 $\rho_a$ の固有値 $\lambda_{\alpha}$ で得られる。 本稿では、$Schmidt~ vectors$ あるいは eigenvectors $|v_{\alpha}\rangle$ of $\rho_A$ に代えて注目する。 低エネルギー/長距離距離物理学が創発的共形場理論(CFT)によって記述される臨界量子スピン鎖の基底状態を考える。 シュミットベクトル $|v_{\alpha}\rangle$ は境界 CFT のヴィラソロ代数(元の CFT のカイラル版)の実現に対応する創発的普遍構造を示す。 実際、格子ハミルトン密度$h_{j,j+1}$の重み付き和$H_n$を領域$A$上に構築し、行列要素$\langle v_{\alpha}H_n |v_{\alpha'}\rangle$が有限サイズの補正まで普遍的であることを示す。 より具体的には、これらの行列要素は境界 cft における $h_n^{\tiny \text{cft}} = \frac 1 2 (l_n + l_{-n})$ の類似表現によって与えられる。 臨界イジング量子スピン鎖および他の(自由フェルミオン等価)モデルを用いて数値的な検証を行った。

Entanglement entropy and entanglement spectrum have been widely used to characterize quantum entanglement in extended many-body systems. Given a pure state of the system and a division into regions $A$ and $B$, they can be obtained in terms of the $Schmidt~ values$, or eigenvalues $\lambda_{\alpha}$ of the reduced density matrix $\rho_A$ for region $A$. In this paper we draw attention instead to the $Schmidt~ vectors$, or eigenvectors $|v_{\alpha}\rangle$ of $\rho_A$. We consider the ground state of critical quantum spin chains whose low energy/long distance physics is described by an emergent conformal field theory (CFT). We show that the Schmidt vectors $|v_{\alpha}\rangle$ display an emergent universal structure, corresponding to a realization of the Virasoro algebra of a boundary CFT (a chiral version of the original CFT). Indeed, we build weighted sums $H_n$ of the lattice Hamiltonian density $h_{j,j+1}$ over region $A$ and show that the matrix elements $\langle v_{\alpha}H_n |v_{\alpha'}\rangle$ are universal, up to finite-size corrections. More concretely, these matrix elements are given by an analogous expression for $H_n^{\tiny \text{CFT}} = \frac 1 2 (L_n + L_{-n})$ in the boundary CFT, where $L_n$'s are (one copy of) the Virasoro generators. We numerically confirm our results using the critical Ising quantum spin chain and other (free-fermion equivalent) models.
翻訳日:2023-05-01 04:37:16 公開日:2020-10-22
# ベースライン系誤り率とデコイ状態量子鍵分布プロトコルに対する後パルス効果

Afterpulsing Effect on the Baseline System Error Rate and on the Decoy-State Quantum Key Distribution Protocols ( http://arxiv.org/abs/2010.03358v2 )

ライセンス: Link先を確認
Christos Papapanos, Dimitris Zavitsanos, Giannis Giannoulis, Adam Raptakis, Christos Kouloumentas, Hercules Avramopoulos(参考訳) 量子鍵分布(QKD)プロトコルの実装量の1つを変更した場合の効率を予測することにはかなり関心がある。 装置の効率に影響を及ぼす重要な欠陥の1つは、前回の検出器での雪崩の後、閉じ込められたキャリアによって引き起こされた自発的な検出からなる後押し現象である。 様々なQKDプロトコルの書誌学において広く研究されているが、よく知られたデコイ状態のQKDプロトコルや二重検出器のみについてはあまり報告されていない。 本稿では,複数検出器のデコイ状態qkdプロトコルに対する後パルス効果を理論的に解析し,実世界でのデコイ状態qkdプロトコル実装のガイドとして使用できる結果を提供する。 ベースラインシステムのエラーレートとアフターパルス確率をつなぐ新しい公式が導出され、これはセットアップ関連の量のみからなるので、すべてのプロトコルに対して保持することができる。 デコイ状態qkdプロトコルに関連する量を分解する意義を論じる数値シミュレーションが行われており、弱い+真空デコイ状態qkdプロトコルを特徴とする。

There is considerable interest in predicting the efficiency of Quantum Key Distribution (QKD) protocols when one of their implementation quantities is modified. One significant imperfection that affects the efficiency of the setup is the afterpulse phenomenon which consists in the spontaneous detections triggered by trapped carriers after previous avalanches at the detectors. While it is widely studied in bibliography for various QKD protocols, it has been reported much more scarcely for the well-known decoy-state QKD protocols and for dual detectors only. We develop a theoretical analysis of afterpulsing effect on the decoy-state QKD protocols for multiple detectors, delivering results which can be used as a guide for every practical decoy-state QKD protocol implementation in real-world deployments. A new formula connecting the baseline system error rate and the afterpulse probability is derived which may hold for all protocols as it is consisted of only setup-related quantities. Numerical simulations addressing the significance of breaking down the quantities pertaining to the decoy-state QKD protocols are being made, focusing on the weak+vacuum decoy-state QKD protocol as a characteristic subcase.
翻訳日:2023-04-29 17:57:25 公開日:2020-10-22
# フィードバックインフラストラクチャを分散化!

Decentralize the feedback infrastructure! ( http://arxiv.org/abs/2010.03356v3 )

ライセンス: Link先を確認
Pedro Garcia Lopez(参考訳) インターネットの分散アーキテクチャは、人間のための仮想自由空間というテクノユートピアのビジョンを刺激した。 ピアツーピアシステム、コラボレーティブな創造(wikipedia)、オープンソースソフトウェア(Linux)、普遍的な共有知識、そして異論の希望がこの大きなビジョンに寄与した。 中央集権化はサイバー空間で支配され、巨大な技術企業が私たちのデータをコントロールし、リメディエーションとコントロールはいわゆる「共有」経済においてかつてないほど強力です。 インターネットは国によっても分断されており、多くの州は情報通信サービスに厳しい制御を課している。 XXI世紀は、人類の歴史における中央集権化と分散化の大きな衝突を目撃する。 そして大きな課題は、私たちの生活のあらゆる相互作用を仲介し、支配するコミュニケーションとフィードバック技術に関するものです。 フィードバックインフラストラクチャのソーシャル化やアンチモノポリー法を使ってビッグデータ企業を破る従来のアプローチとは異なり、この記事では、情報と通信インフラの分散化を提唱する。 この分散化の鍵は、データプラットフォーム間の相互運用性を実現する標準の作成である。 これにより、しっかりと確立された技術プレーヤーからの真の疎外と、小規模な第三者との競争が生まれる。 本稿では,コミュニケーション,共有,マッチング,評価サービスなど,オープンソース技術や標準上で構築可能な分散化されたオープンインフラストラクチャをスケッチする。

The decentralized architecture of Internet sparkled techno-utopian visions of a virtual freedom space for humanity. Peer-to-peer systems, collaborative creation (wikipedia), open source software (Linux), universal shared knowledge, and the hopes for disintermediation contributed to this major vision. However, the reality is bleak: centralization is reigning in the cyberspace, with huge technological corporations controlling our data, and re-intermediation and control are stronger than ever in the so-called "sharing" economy. The Internet is also fragmented by countries, with many states imposing heavy controls to information and communication services. The XXI century will witness the major clash between centralization and decentralization in human history. And the major struggle will be around the communication and feedback technologies that will intermediate and govern every interaction in our lives. Unlike previous approaches that propose to socialize the feedback infrastructure or to use anti-monopoly laws to break Big Tech companies, in this article we advocate for the decentralization of the information and communication infrastructure. And the key to this decentralization is the creation of standards enabling interoperability between data platforms. This will in turn produce a true disintermediation from well established technological players and open competition to small third parties. In this article, we sketch such a decentralized open infrastructure including communication, sharing, matchmaking, and reputation services that can be constructed over open source technologies and standards.
翻訳日:2023-04-29 17:57:04 公開日:2020-10-22
# 自律型量子吸収冷凍機

Autonomous quantum absorption refrigerators ( http://arxiv.org/abs/2010.06024v2 )

ライセンス: Link先を確認
Sreenath K. Manikandan, \'Etienne Jussiau, and Andrew N. Jordan(参考訳) 量子ドットによる共鳴トンネルの量子物理学を用いた量子吸収冷凍機を提案する。 低温・高温の貯留層はフェルミイオン鉛であり、トンネルは量子ドットを介して中央のフェルミイオンキャビティに結合し、(非常に高温の)中心キャビティから吸収された熱を、左側のコールド貯水池から右側のホット貯水池へ選択的に伝熱するための資源として用いる構成を提案する。 装置内の熱輸送は粒子-ホール対称であり、冷却の2つのレジームは点のエネルギーの関数として、貯水池のフェルミエネルギーに対して対称であり、それらをフェルミ準位以上の電子による熱伝達と、フェルミ準位以下のホールに関連付ける。 また, 点のエネルギーと線幅を微調整して冷却効果を最適化し, キャノット係数がゼロの冷却パワーで達成されるように, 輸送が熱力学的に可逆な状態に特徴付ける。

We propose a quantum absorption refrigerator using the quantum physics of resonant tunneling through quantum dots. The cold and hot reservoirs are fermionic leads, tunnel coupled via quantum dots to a central fermionic cavity, and we propose configurations in which the heat absorbed from the (very hot) central cavity is used as a resource to selectively transfer heat from the cold reservoir on the left, to the hot reservoir on the right. The heat transport in the device is particle---hole symmetric; we find two regimes of cooling as a function of the energy of the dots---symmetric with respect to the Fermi energy of the reservoirs---and we associate them to heat transfer by electrons above the Fermi level, and holes below the Fermi level, respectively. We also discuss optimizing the cooling effect by fine-tuning the energy of the dots as well as their linewidth, and characterize regimes where the transport is thermodynamically reversible such that Carnot Coefficent of Performance is achieved with zero cooling power delivered.
翻訳日:2023-04-29 06:59:20 公開日:2020-10-22
# 量子カオスのプローブによる1次および2次相転移の診断

Diagnosing First and Second Order Phase Transitions with Probes of Quantum Chaos ( http://arxiv.org/abs/2010.07478v2 )

ライセンス: Link先を確認
Kyoung-Bum Huh, Kazuki Ikeda, Viktor Jahnke, Keun-Young Kim(参考訳) 量子カオスの2つのプローブ(out-of-time-order correlator (otocs) とレベル間隔統計から得られる$r$-parameter)を用いて量子相転移を探索する。 特に、量子アニールや逆アニールに関連する$p$-spinモデルに対処する。 量子アニールは、量子デバイスの性能に欠かせない1次または2次相転移を引き起こす。 その結果, 基底状態の時間変動OTOCと対応する遷移点周辺の平均$r$-parameter変化挙動が相転移を診断することがわかった。 さらに、第1次(第2次)相転移の場合、突然(滑らかに)変化する量子遷移点での挙動により、相転移の順序(第1または第2次)を識別することができる。

We explore quantum phase transitions using two probes of quantum chaos: out-of-time-order correlators (OTOCs) and the $r$-parameter obtained from the level spacing statistics. In particular, we address $p$-spin models associated with quantum annealing or reverse annealing. Quantum annealing triggers first-order or second-order phase transitions, which is crucial for the performance of quantum devices. We find that the time-averaging OTOCs for the ground state and the average $r$-parameter change behavior around the corresponding transition points, diagnosing the phase transition. Furthermore, they can identify the order (first or second) of the phase transition by their behavior at the quantum transition point, which changes abruptly (smoothly) in the case of first-order (second-order) phase transitions.
翻訳日:2023-04-29 00:33:53 公開日:2020-10-22
# 古典的通信による量子状態検証

Classical Communication Enhanced Quantum State Verification ( http://arxiv.org/abs/2010.10011v2 )

ライセンス: Link先を確認
Wen-Hao Zhang, Xiao Liu, Peng Yin, Xing-Xiang Peng, Gong-Chu Li, Xiao-Ye Xu, Shang Yu, Zhi-Bo Hou, Yong-Jian Han, Jin-Shi Xu, Zong-Quan Zhou, Geng Chen, Chuan-Feng Li and Guang-Can Guo(参考訳) 量子状態検証は、特定のターゲット状態を生成するための量子デバイスの信頼性を特徴付ける効率的なアプローチを提供する。 特定の戦略のメリットの図形は、一定数の測定 n が与えられたとき、目標状態に対するテスト状態の推定不完全性$\epsilon$である。 絡み合った測定は、大域的最適戦略を構成し、 \epsilon が n に逆比例するスケーリングを達成する。 近年の進歩は、非適応的局所測定で同じスケーリングが可能であることを示しているが、その性能は、定数係数に制限された世界的最適値よりも悪い。 本研究では,古典的通信の導入により,適応的量子状態検証を実験的に実装する。 この実験では、定数は2.5から1.5に最小化されており、最適な非適応的局所戦略と比較して、特定の値を達成するためには60%の計測値しか必要とされない。 その結果、古典的コミュニケーションは量子状態検証の性能を著しく向上させ、さらにグローバルに最適境界に近づく効率をもたらすことが示された。

Quantum state verification provides an efficient approach to characterize the reliability of quantum devices for generating certain target states. The figure of merit of a specific strategy is the estimated infidelity $\epsilon$ of the tested state to the target state, given a certain number of performed measurements n. Entangled measurements constitute the globally optimal strategy and achieve the scaling that \epsilon is inversely proportional to n. Recent advances show that it is possible to achieve the same scaling simply with non-adaptive local measurements, however, the performance is still worse than the globally optimal bound up to a constant factor. In this work, by introducing classical communication, we experimentally implement an adaptive quantum state verification. The constant-factor is minimized from ~2.5 to 1.5 in this experiment, which means that only 60% measurements are required to achieve a certain value of \epsilon compared to optimal non-adaptive local strategy. Our results indicate that classical communication significantly enhances the performance of quantum state verification, and leads to an efficiency that further approaches the globally optimal bound.
翻訳日:2023-04-28 19:52:58 公開日:2020-10-22
# 量子導波路インピーダンス法の量子容量計算への応用

Application of a quantum wave impedance approach for a quantum capacitance calculation ( http://arxiv.org/abs/2010.11480v1 )

ライセンス: Link先を確認
O. I. Hryhorchak(参考訳) 量子波インピーダンス法の基礎となる複雑な幾何学のポテンシャル井戸における2次元電子ガス(2DEG)の量子容量の計算法を提案した。 この手法の応用は、無限長方形井戸と有限長方形井戸と放物的二重井戸の4つの異なる形のポテンシャル井戸に照らされた。 これらの井戸の量子容量がそのパラメータに依存することを示した。 前述のポテンシャル井戸に対する量子容量の数値計算を温度$T=0$で行い、その結果をグラフィカルに提示した。

A method for a calculation of quantum capacitance for a two-dimesional electron gas (2DEG) in potential wells of complicated geometry on the base of a quantum wave impedance technique was proposed. The application of this method was illustated on four different forms of potential wells: infinite and finit rectangular well, a finit rectangular double well and a parabolic double well. It was shown how a quantum capacitance of these wells depends on its parametres. Numerical calculations of a quantum capacitance for mentioned potential wells were made at temperature $T=0$ and the results were presented graphically.
翻訳日:2023-04-28 01:14:22 公開日:2020-10-22
# マイクロ波-光変換のための地上パルスキャビティ電気光学

Ground-state Pulsed Cavity Electro-optics for Microwave-to-optical Conversion ( http://arxiv.org/abs/2010.11392v1 )

ライセンス: Link先を確認
Wei Fu, Mingrui Xu, Xianwen Liu, Chang-Ling Zou, Changchun Zhong, Xu Han, Mohan Shen, Yuntao Xu, Risheng Cheng, Sihao Wang, Liang Jiang, Hong X. Tang(参考訳) 量子マイクロ波-光変換器(MO)の開発において、パラメトリック光駆動によって誘導される過度のノイズはミリケルビン温度において大きな課題である。 ここでは、強パルス光励起下での電気光学トランスデューサの量子基底状態における余分なノイズについて検討する。 集積型電気光学変換器は、超伝導共振器に結合した窒化アルミニウムマイクロリングの固有のポッケル効果を利用する。 希釈冷凍機の冷却電力を超えるピーク電力を持つパルス光ドライブをベース温度で適用し, 近接場マイクロ波熱励起(\bar{n}_\mathrm{e}=0.09\pm0.06$)を用いて, 効率的な双方向MO変換を観測した。 時間進化研究により、残留熱励起はチップファイバ界面から散乱した成層光の超伝導吸収によって支配されることが明らかになった。 本研究は, マイクロ波と光周波数の量子状態変換に向けた重要なステップである, 強い光駆動下でのキャビティ電気光学系におけるマイクロ波ノイズの抑制に光を当てた。

In the development of quantum microwave-to-optical (MO) converters, excessive noise induced by the parametric optical drive remains a major challenge at milli-Kelvin temperatures. Here we study the extraneous noise added to an electro-optic transducer in its quantum ground state under an intense pulsed optical excitation. The integrated electro-optical transducer leverages the inherent Pockels effect of aluminum nitride microrings, flip-chip bonded to a superconducting resonator. Applying a pulsed optical drive with peak power exceeding the cooling power of the dilution refrigerator at its base temperature, we observe efficient bi-directional MO conversion, with near-ground state microwave thermal excitation ($\bar{n}_\mathrm{e}=0.09\pm0.06$). Time evolution study reveals that the residual thermal excitation is dominated by the superconductor absorption of stray light scattered off the chip-fiber interface. Our results shed light on suppressing microwave noise in a cavity electro-optic system under intense optical drive, which is an essential step towards quantum state transduction between microwave and optical frequencies.
翻訳日:2023-04-28 01:13:04 公開日:2020-10-22
# パーミッション付きブロックチェーンのための第2層データガバナンス: プライバシ管理の課題

Second layer data governance for permissioned blockchains: the privacy management challenge ( http://arxiv.org/abs/2010.11677v1 )

ライセンス: Link先を確認
Paulo Henrique Alves, Isabella Z. Frajhof, Fernando A. Correia, Clarisse de Souza, Helio Lopes(参考訳) データプライバシは、インターネット時代のトレンドトピックです。 このような重要性から、データの収集、管理、処理、公開に多くの課題が生じた。 この意味で個人データが注目され、欧州連合のGDPRやブラジルのLGPDなど多くの規制が出現した。 この規制モデルは、利用者のデータを誤用や漏洩から保護し、必要に応じて企業から説明を求めることを目的としている。 新型コロナウイルス(covid-19)やエボラ出血熱(エボラ出血熱)のようなパンデミックの状況では、異なる組織間で健康データを共有することに関連する行動は、大規模な感染を避け、死者数を減らすための重要な動きを開発するために必要不可欠であった。 しかし、データ対象、すなわち、利用者は、データの使用、匿名化、データ削除の目的を要求する権利を有するべきである。 この意味において、許可されたブロックチェーン技術は、スマートコントラクトが管理する不変で統一された分散データベースを通じて、データのオーナシップ、透明性、セキュリティを提供する権利をユーザに与えるために登場します。 ブロックチェーンアプリケーションで議論されるガバナンスモデルは通常、最初のレイヤガバナンス、すなわちパブリックおよびパーミッションモデルに関するものだ。 しかし、この議論は表面的すぎるため、データ規則の遵守をカバーしていない。 そこで我々は,データ所有者と利害関係者,すなわち企業と政府機関の関係を整理するために,ユーザのプライバシと責務を保ちながら,パンデミック時に適用されるガバナンス分析フレームワークの原則に基づいて,認可ブロックチェーンのための第2層データガバナンスモデルを開発した。 法律の観点からは、データプライバシの懸念に関して、UE GDPRをベースとしています。

Data privacy is a trending topic in the internet era. Given such importance, many challenges emerged in order to collect, manage, process, and publish data. In this sense, personal data have got attention, and many regulations emerged, such as GDPR in the European Union and LGPD in Brazil. This regulation model aims to protect users' data from misusage and leakage and allow users to request an explanation from companies when needed. In pandemic situations, such as the COVID-19 and Ebola outbreak, the action related to sharing health data between different organizations is/ was crucial to develop a significant movement to avoid the massive infection and decrease the number of deaths. However, the data subject, i.e., the users, should have the right to request the purpose of data use, anonymization, and data deletion. In this sense, permissioned blockchain technology emerges to empower users to get their rights providing data ownership, transparency, and security through an immutable, unified, and distributed database ruled by smart contracts. The governance model discussed in blockchain applications is usually regarding the first layer governance, i.e., public and permissioned models. However, this discussion is too superficial, and they do not cover compliance with the data regulations. Therefore, in order to organize the relationship between data owners and the stakeholders, i.e., companies and governmental entities, we developed a second layer data governance model for permissioned blockchains based on the Governance Analytical Framework principles applied in pandemic situations preserving the users' privacy and their duties. From the law perspective, we based our model on the UE GDPR in regard to data privacy concerns.
翻訳日:2023-04-28 01:08:29 公開日:2020-10-22
# カオニオン原子によるカオン半径へのアクセス

Access to the kaon radius with kaonic atoms ( http://arxiv.org/abs/2010.11602v1 )

ライセンス: Link先を確認
Niklas Michel and Natalia S. Oreshkina(参考訳) 我々はカオニック原子のスペクトルからカオン半径を決定する方法を提案した。 核電荷範囲 Z = 1 - 100 のイオンに対するカオンサイズに対する最小の遷移と感度を解析し、有限核サイズ、有限カオンサイズ、リコイルおよび前次量子電気力学効果を考慮に入れた。 さらに、カオン質量と核ラジカルを抽出する機会は、カオン原子の遷移エネルギーの感度を調べることによって示される。

We put forward a method for determination of the kaon radius from the spectra of kaonic atoms. We analyze the few lowest transitions and their sensitivity to the size of the kaon for ions in the nuclear charge range Z = 1 - 100, taking into account finite-nuclear-size, finite-kaon-size, recoil and leading-order quantum-electrodynamic effects. Additionally, the opportunities of extracting the kaon mass and nuclear radii are demonstrated by examining the sensitivity of the transition energies in kaonic atoms.
翻訳日:2023-04-28 01:06:24 公開日:2020-10-22
# エヴェレット確率、ドイッチュ=ウォレスの定理と主原理

Everettian probabilities, the Deutsch-Wallace theorem and the Principal Principle ( http://arxiv.org/abs/2010.11591v1 )

ライセンス: Link先を確認
Harvey R. Brown and Gal Ben Porath(参考訳) 本稿では、物理学、特に量子力学における確率の性質について述べる。 1994年から2008年までの量子論におけるイタマール・ピトウスキーの確率に関する考え方の進化と、グライアソンの1957年の定理が生まれてくる規則の導出において果たした役割についての短い議論から始まった。 ピトフスキーの確率の擁護は、部分的信念の論理として、客観的な「変化」の存在に疑問を呈し、デーヴィッド・ルイスの有力な原理の状態が批判的に検討される物理学の確率に関する幅広い議論へと繋がる。 これに続いて、デビッド・ドイッチュとデビッド・ウォレスによるエベレット量子力学におけるドイッチュ=ウォレス(DW)の定理が導かれた。 ボルン規則の重要な決定論的導出の著者が、確率の意味に関する異なる見解を持っていることは注目すべきである。 この定理は、Meir Hemmo と Pitowsky による2007年の批判の主題であり、ジョン・アーマンによる最近の関連する研究とともに批判的に検討されている。 ここでの主論は、DW定理はウォレスやサイモン・サンダースの主張に反して、主原理の正当化を提供しないということである。 最後の節は、dw定理が冗長であるという最近の主張を分析し、エベレット多元数の「デビアント」分岐の確率を考慮に入れて補強された結論である。

This paper is concerned with the nature of probability in physics, and in quantum mechanics in particular. It starts with a brief discussion of the evolution of Itamar Pitowsky's thinking about probability in quantum theory from 1994 to 2008, and the role of Gleason's 1957 theorem in his derivation of the Born Rule. Pitowsky's defence of probability therein as a logic of partial belief leads us into a broader discussion of probability in physics, in which the existence of objective "chances" is questioned, and the status of David Lewis' influential Principal Principle is critically examined. This is followed by a sketch of the work by David Deutsch and David Wallace which resulted in the Deutsch-Wallace (DW) theorem in Everettian quantum mechanics. It is noteworthy that the authors of this important decision-theoretic derivation of the Born Rule have different views concerning the meaning of probability. The theorem, which was the subject of a 2007 critique by Meir Hemmo and Pitowsky, is critically examined, along with recent related work by John Earman. Here our main argument is that the DW theorem does not provide a justification of the Principal Principle, contrary to claims by Wallace and Simon Saunders. A final section analyses recent claims to the effect that that the DW theorem is redundant, a conclusion that seems to be reinforced by consideration of probabilities in "deviant' branches in the Everettian multiverse.
翻訳日:2023-04-28 01:06:15 公開日:2020-10-22
# 光貯蔵分光におけるその場アクスタークシフト検出

In-situ ac Stark shift Detection in Light Storage Spectroscopy ( http://arxiv.org/abs/2010.11513v1 )

ライセンス: Link先を確認
Deviprasath Palani, Daniel Hoenig, Leon Karpa(参考訳) 2光子遷移に関わる電子基底状態間のエネルギー的分裂を同時に決定しながら、蓄積光実験で観測される交流スタークシフトを測定する方法について報告する。 この目的のために、光貯蔵分光法における周波数マッチング効果を利用する。 実験の検索段階で適用した制御場の強度に線形依存性があることを見いだした。 同時に、光シフトは、電磁誘導透過(EIT)やコヒーレント集団トラップ(CPT)を用いた連続的な操作方式とは対照的に、信号場の強度に敏感であることも観察した。 本研究は,eitおよびcpt型デバイスを用いた将来の光ストレージ精度測定において重要であり,光電界への連続露光方式とは対照的に,信号場からの強度変動の影響を抑制することができる。

We report on a method for measuring ac Stark shifts observed in stored light experiments while simultaneously determining the energetic splitting between the electronic ground states involved in the two-photon transition. To this end we make use of the frequency matching effect in light storage spectroscopy. We find a linear dependence on the intensity of the control field applied during the retrieval phase of the experiment. At the same time, we observe that the light shift is insensitive to the intensity of the signal field which is in contrast to continuously operated schemes using electromagnetically induced transparency (EIT) or coherent population trapping (CPT). Our results may be of importance for future light storage-based precision measurements with EIT and CPT-type devices where, in contrast to schemes using continuous exposure to optical fields, the impact of intensity fluctuations from the signal field can be suppressed.
翻訳日:2023-04-28 01:05:18 公開日:2020-10-22
# 時間相関強調雑音の存在下でのランダム化ベンチマーク

Randomized benchmarking in the presence of time-correlated dephasing noise ( http://arxiv.org/abs/2010.11498v1 )

ライセンス: Link先を確認
Jiaan Qi and Hui Khoon Ng(参考訳) ランダム化ベンチマークは、量子コンピューティングデバイスにおけるゲート操作の品質を計測する、ポピュラーで実装が容易な実験手法として登場した。 典型的なランダム化ベンチマーク手法では、ゲートのベンチマークシーケンスが長くなるにつれて忠実度が指数関数的に減少し、ゲートの忠実度を推定するために減衰速度が用いられる。 しかし、忠実度が指数関数的に減衰するのは、ゲートの時間非依存または静的ノイズの仮定に依存しており、ゲート列上のノイズには相関や大きなドリフトはなく、多くの状況において十分満足な条件である。 しかしながら、標準指数減衰からの偏差は、通常、ノイズの時間的相関によって観測されているが、正確な偏差のメカニズムはまだ完全には解明されていない。 本研究では,時間関連雑音のランダム化ベンチマーク,特に時間関連劣化雑音の正確な解法性について検討し,指数的崩壊からの偏差が期待できる状況を明らかにする。

Randomized benchmarking has emerged as a popular and easy-to-implement experimental technique for gauging the quality of gate operations in quantum computing devices. A typical randomized benchmarking procedure identifies the exponential decay in the fidelity as the benchmarking sequence of gates increases in length, and the decay rate is used to estimate the fidelity of the gate. That the fidelity decays exponentially, however, relies on the assumption of time-independent or static noise in the gates, with no correlations or significant drift in the noise over the gate sequence, a well-satisfied condition in many situations. Deviations from the standard exponential decay, however, have been observed, usually attributed to some amount of time correlations in the noise, though the precise mechanisms for deviation have yet to be fully explored. In this work, we examine this question of randomized benchmarking for time-correlated noise---specifically for time-correlated dephasing noise for exact solvability---and elucidate the circumstances in which a deviation from exponential decay can be expected.
翻訳日:2023-04-28 01:05:04 公開日:2020-10-22
# 連続モード形式を用いた光子付加コヒーレント状態

Photon-added coherent states using the continuous-mode formalism ( http://arxiv.org/abs/2010.11846v1 )

ライセンス: Link先を確認
J. T. Francis and M. S. Tame(参考訳) コヒーレント状態と同じモードへの光子の追加は、二次スクイージングやサブポアソニアン光子数分布を含む興味深い特徴を持つ非古典的状態を生成する。 光子付加コヒーレント(pac)状態の圧縮性は、量子センシング応用において潜在的に有利である。 これまでの理論的研究では、PAC状態の単一モード処理が用いられてきた。 ここでは、PAC状態パルスをモデル化するための連続モードアプローチを用いる。 時間的およびスペクトル的重なりを重畳した単一光子・コヒーレント状態波束の特性について検討した。 完全重なりがなくても、状態はポアソン数分布、二階量子相関、弱コヒーレント状態の二次スキューズを示す。 また、導波路の伝搬損失や、PAC状態パルスの忠実度およびその他の特性の影響について検討する。

The addition of a photon into the same mode as a coherent state produces a nonclassical state that has interesting features, including quadrature squeezing and a sub-Poissonian photon-number distribution. The squeezed nature of photon-added coherent (PAC) states potentially offers an advantage in quantum sensing applications. Previous theoretical works have employed a single-mode treatment of PAC states. Here, we use a continuous-mode approach that allows us to model PAC state pulses. We study the properties of a single-photon and coherent state wavepacket superimposed with variable temporal and spectral overlap. We show that, even without perfect overlap, the state exhibits a sub-Poissonian number distribution, second-order quantum correlations and quadrature squeezing for a weak coherent state. We also include propagation loss in waveguides and study how the fidelity and other properties of PAC state pulses are affected.
翻訳日:2023-04-28 00:57:50 公開日:2020-10-22
# レイリー散乱の量子論

Quantum theory of Rayleigh scattering ( http://arxiv.org/abs/2010.11845v1 )

ライセンス: Link先を確認
A. P. Vinogradov, V. Yu. Shishkov, I. V. Doronin, E. S. Andrianov, A. A. Pukhov, and A. A. Lisyansky(参考訳) 我々は原子レイリー散乱の量子理論を開発する。 散乱は、選択された自由空間モードから他の自由空間モードの貯水池への入射光子の緩和と考えられている。 出現する貯水池状態のさらなる励起は散乱光として扱われる。 散乱中に励起原子と入射光子の絡み合った状態が形成されることを示す。 絡み合いのため、光子が原子に完全に吸収されることはない。 選択したモード周波数が任意の原子遷移周波数と一致しない場合でも、散乱光スペクトルは選択したモードの周波数で最大となることを示す。 散乱光の線幅は1つの原子の自発的な放出よりもずっと小さいため、この過程は弾性的と見なすことができる。 発達した理論は仮想レベルの現象論的概念を使わない。

We develop a quantum theory of atomic Rayleigh scattering. Scattering is considered as a relaxation of incident photons from a selected mode of free space to the reservoir of the other free space modes. Additional excitations of the reservoir states which appear are treated as scattered light. We show that an entangled state of the excited atom and the incident photon is formed during the scattering. Due to entanglement, a photon is never completely absorbed by the atom. We show that even if the selected mode frequency is incommensurable with any atomic transition frequency, the scattered light spectrum has a maximum at the frequency of the selected mode. The linewidth of scattered light is much smaller than that of the spontaneous emission of a single atom, therefore, the process can be considered as elastic. The developed theory does not use the phenomenological concept of virtual level.
翻訳日:2023-04-28 00:57:35 公開日:2020-10-22
# 最大エンタングルおよびGHzクロックオンデマンド光子対源

Maximally entangled and GHz-clocked on-demand photon pair source ( http://arxiv.org/abs/2010.11817v1 )

ライセンス: Link先を確認
Caspar Hopfmann, Weijie Nie, Nand Lal Sharma, Carmen Weigelt, Fei Ding and Oliver G. Schmidt(参考訳) 2光子励起を用いた液滴エッチングGaAs量子ドットを用いた1GHz帯,最大エンタングルおよびオンデマンド光子対光源を提案する。 これらのギャップマイクロレンセンハンスデバイスと、その実質的な明るさ、最大$0.95 \pm 0.01$の生のエンタングルメントフィディティ、最大$0.93 \pm 0.01$のポスト選択された光子不一致性を用いることにより、量子リピータベースの長距離量子エンタングルメント分布スキームの適合性を示す。 偏光選択性2光子相関の完全セットと時間分解された香港・奥羽・マンデル干渉の包括的調査は、一般的に用いられる間接的手法とは対照的に、光子抽出や励起効率などの量を決定する革新的な方法を促進する。

We present a 1 GHz-clocked, maximally entangled and on-demand photon pair source based on droplet etched GaAs quantum dots using two-photon excitation. By employing these GaP microlensenhanced devices in conjunction with their substantial brightness, raw entanglement fidelities of up to $0.95 \pm 0.01$ and post-selected photon indistinguishabilities of up to $0.93 \pm 0.01$, the suitability for quantum repeater based long range quantum entanglement distribution schemes is shown. Comprehensive investigations of a complete set of polarization selective two-photon correlations as well as time resolved Hong-Ou-Mandel interferences facilitate innovative methods that determine quantities such as photon extraction and excitation efficiencies as well as pure dephasing directly - opposed to commonly employed indirect techniques.
翻訳日:2023-04-28 00:57:00 公開日:2020-10-22
# 強駆動量子ビットの量子化振動による高原ダイナミクス

Plateau dynamics with quantized oscillations of a strongly driven qubit ( http://arxiv.org/abs/2010.11785v1 )

ライセンス: Link先を確認
Yejia Chen, Zhiguo L\"u, Yiying Yan, Hang Zheng(参考訳) 本研究では, 量子化振動を有する台地である強駆動二段系(tls)の動的時空局在を, 解析的および透過的手法である逆回転ハイブリッド回転波(chrw)法によって検討した。 このアプローチは単一のパラメータを持つユニタリ変換に基づいており、回転項と反回転項を等しい足取りで扱う。 ユニタリトランスフォーメーション表現において、それはエキゾチック・プラトー現象の生成に重要な貢献をする変換ハミルトニアンで示される多重調和項であることが分かる。 数値的精度の計算結果と他のいくつかの手法との比較により,多調波の集合効果を考慮した解析公式によるCHRWの結果が数値結果とよく一致していることが示され,強駆動TLSの動的進化の一般的な傾向だけでなく,プラトーの興味深い現象も示される。 CHRW法はジグザグ台地とアームチェア台地という2種類の台地パターンを明らかにする。 このプラトー現象は、周波数が駆動周波数の2倍の周期パターンを有し、その数に一定の正確な値の量子発振を有する。 さらに、TLSの関連する駆動パラメータによって決定されるすべての台地で高速発振が生成される。 主な成果は以下の通りである。 (i)大振幅振動子の場合、すべての偶数高調波の集団効果が、量子化振動を伴うジグザグ高原の発生に寄与することが判明する。 (ii)小型振動子の場合、強駆動下でのトンネルのコヒーレント破壊のダイナミクスは、オッドハーモニックな効果、すなわち完全な破壊ではなく2階構造を持つアームチェア台地を含むことで正確に示される。

We present an interesting dynamical temporal localization of a strongly driven two-level system (TLS), a plateau with quantized oscillation, by an analytical and transparent method, the counter-rotating-hybridized rotating-wave (CHRW) method. This approach, which is based on unitary transformations with a single parameter, treats the rotating and counter-rotating terms on equal footing. In the unitarily transformed representation, we find that it is the multiple-harmonic terms shown in the transformed Hamiltonian that make a crucial contribution to the generation of the exotic plateau phenomenon. By comparing the results of the numerically exact calculation and several other methods, we show that the CHRW results obtained by analytical formalism involving the collective effects of multiple harmonics are in good agreement with the numerical results, which illustrates not only the general tendency of the dynamical evolution of strongly driven TLS, but also the interesting phenomena of plateaus. The developed CHRW method reveals two kinds of plateau patterns: zigzag plateau and armchair plateau. The plateau phenomenon has a periodical pattern whose frequency is double the driving frequency, and possesses quantized oscillations the number of which has a certain, precise value. Besides, fast oscillation is produced on every plateau which is determined by the relevant driving parameters of the TLS. Our main results are as follows: (i) in the large-amplitude oscillatory case, it turns out that the collective effects of all even harmonics contribute to the generation of zigzag plateau with quantized oscillation; (ii) in the small-amplitude oscillatory case, the dynamics of the coherent destruction of tunneling under strong driving is exactly exhibited by including the odd-harmonic effect, namely, armchair plateau possessing a two-stair structure rather than the complete destruction.
翻訳日:2023-04-28 00:55:43 公開日:2020-10-22
# Tsallis相対作用素エントロピーに基づく量子コヒーレンスの量子化

Quantifying quantum coherence based on the Tsallis relative operator entropy ( http://arxiv.org/abs/2010.11707v1 )

ライセンス: Link先を確認
Meng-Li Guo, Zhi-Xiang Jin, Bo Li, Bin Hu and Shao-Ming Fei(参考訳) コヒーレンス(coherence)は、量子物理学の基本成分であり、量子情報処理における重要な資源である。 量子コヒーレンスの定量化は非常に重要である。 我々は、Tsallis相対作用素エントロピーに基づくコヒーレンス量化器の族を示す。 フルタ (Linear Algebra Appl. 381 (2004) 219] によって導かれるヒルベルト空間作用素におけるシャノンの不等式とその逆作用素は、ツァリリス相対作用素エントロピーのパラメータで拡張される。 これらの量化器は、明確に定義されたコヒーレンス測度の標準基準をすべて満たしており、特別な場合として既存のコヒーレンス測度を含む。 量子コヒーレンスの測度の間の関係を示す詳細な例が与えられる。

Coherence is a fundamental ingredient in quantum physics and a key resource in quantum information processing. The quantification of quantum coherence is of great importance. We present a family of coherence quantifiers based on the Tsallis relative operator entropy. Shannon inequality and its reverse one in Hilbert space operators derived by Furuta [Linear Algebra Appl. 381 (2004) 219] are extended in terms of the parameter of the Tsallis relative operator entropy. These quantifiers are shown to satisfy all the standard criteria for a well-defined measure of coherence and include some existing coherence measures as special cases. Detailed examples are given to show the relations among the measures of quantum coherence.
翻訳日:2023-04-28 00:55:07 公開日:2020-10-22
# raspberry pi auto-aligner: レーザービームの自動アライメントのための機械学習

The Raspberry Pi Auto-aligner: Machine Learning for Automated Alignment of Laser Beams ( http://arxiv.org/abs/2010.15246v1 )

ライセンス: Link先を確認
Renju S. Mathew, Roshan O'Donnell, Danielle Pizzey, and Ifan G. Hughes(参考訳) 自動ビームアライメント最適化のための新しい解法を提案する。 このデバイスはraspberry piコンピュータ、ステッパーモーター、商用光メカニクスと電子機器、オープンソースの機械学習アルゴリズムm-loopをベースにしている。 装置の動作に必要なカスタムハードウェアの図面図を作成し,性能判定のための診断技術について検討する。 ビーム自動調整装置は、通常20分程度の反復時間で、手動で最適化されたファイバアライメントから単一モード光ファイバへのレーザビームのアライメントを改善するために使用されてきた。 デバイス性能を示すために,このような測定の例を示す。

We present a novel solution to automated beam alignment optimization. This device is based on a Raspberry Pi computer, stepper motors, commercial optomechanics and electronic devices, and the open source machine learning algorithm M-LOOP. We provide schematic drawings for the custom hardware necessary to operate the device and discuss diagnostic techniques to determine the performance. The beam auto-aligning device has been used to improve the alignment of a laser beam into a single-mode optical fiber from manually optimized fiber alignment with an iteration time of typically 20~minutes. We present example data of one such measurement to illustrate device performance.
翻訳日:2023-04-28 00:49:16 公開日:2020-10-22
# 量子デバイス用超高真空包装と表面クリーニング

Ultrahigh Vacuum Packaging and Surface Cleaning for Quantum Devices ( http://arxiv.org/abs/2010.12090v1 )

ライセンス: Link先を確認
M. Mergenthaler, S. Paredes, P. M\"uller, C. M\"uller, S. Filipp, M. Sandberg, J. Hertzberg, V. P. Adiga, M. Brink, A. Fuhrer(参考訳) 本稿では,超高真空(uhv)パッケージの設計,実装,性能について述べる。 UHVローディングは、測定パッケージに封入する前に、アニール、紫外線照射、イオンミリング、および量子デバイスの表面通過を可能にする。 このパッケージは、チタンゲッタ層によるアクティブポンプにより極低温への移行中に真空を保持する。 uhv-packageの底装希釈冷凍機に真空負荷した後, システムの処理能力を特徴とし, 平均t$_1=84〜\mu$sとt$^{echo}_2=134〜\mu$sでフラックス可変量子ビットの測定を行った。

We describe design, implementation and performance of an ultra-high vacuum (UHV) package for superconducting qubit chips or other surface sensitive quantum devices. The UHV loading procedure allows for annealing, ultra-violet light irradiation, ion milling and surface passivation of quantum devices before sealing them into a measurement package. The package retains vacuum during the transfer to cryogenic temperatures by active pumping with a titanium getter layer. We characterize the treatment capabilities of the system and present measurements of flux tunable qubits with an average T$_1=84~\mu$s and T$^{echo}_2=134~\mu$s after vacuum-loading these samples into a bottom loading dilution refrigerator in the UHV-package.
翻訳日:2023-04-28 00:48:25 公開日:2020-10-22
# 量子ビット割り当てにおけるアフィンループ変換の効果の検討

Exploring the Impact of Affine Loop Transformations in Qubit Allocation ( http://arxiv.org/abs/2010.11999v1 )

ライセンス: Link先を確認
Martin Kong(参考訳) 量子コンパイラ変換や量子ビット割り当て技術の多くは、ピープホールにフォーカスするか、複数の外部パラメータに依存するスライディングウィンドウに依存している。 したがって、グローバル最適化基準はまだ不足している。 本稿では、量子ビット割り当てとマッピングの文脈におけるアフィンループ変換の相乗効果と影響について考察する。 この目標を念頭に、我々は、アフィン関係で直接記述できる量子回路のためのドメイン固有言語とソース・トゥ・ソース・コンパイラを実装した。 文献から得られた8つの量子回路, 3つの異なる結合グラフ, 4つのアフィン変換(冥王星依存距離最小化とフェウトリエ最小遅延アルゴリズムを含む), 4つの量子ビットアロケータについて広範な評価を行った。 この結果から,大域的最適化基準を用いたアフィン変換は,量子量子ビットマッピングアルゴリズムを用いて,回路深さ,サイズ,割り当て時間を削減できることを示す。

Most quantum compiler transformations and qubit allocation techniques to date are either peep-hole focused or rely on sliding windows that depend on a number of external parameters. Thus, global optimization criteria are still lacking. In this paper we explore the synergies and impact of affine loop transformations in the context of qubit allocation and mapping. With this goal in mind, we have implemented a domain specific language and source-to-source compiler for quantum circuits that can be directly described with affine relations. We conduct an extensive evaluation spanning 8 quantum circuits taken from the literature, 3 distinct coupling graphs, 4 affine transformations (including the Pluto dependence distance minimization and Feautrier's minimum latency algorithms), and 4 qubit allocators. Our results demonstrate that affine transformations using global optimization criteria can cooperate effectively in several scenarios with quantum qubit mapping algorithms to reduce the circuit depth, size and allocation time.
翻訳日:2023-04-28 00:48:02 公開日:2020-10-22
# 量子暗号セキュリティの主張は空白か?

Are quantum cryptographic security claims vacuous? ( http://arxiv.org/abs/2010.11961v1 )

ライセンス: Link先を確認
Joseph M. Renes and Renato Renner(参考訳) 量子暗号における中心的な主張は、関連する情報処理システムが量子物理学の法則に従うという仮定に基づいて、秘密性が厳密に証明できるということである。 この主張はBernstein (arXiv:1803.04520) によって最近反論された。 物理学の法則は、物理キャリアにエンコードされた古典的情報の、避けられない漏えいも伴うかもしれない、と彼は主張する。 量子鍵分布のセキュリティの主張は、最終的な秘密鍵の計算がその価値を漏らすため、空白になる。 しかし、この短い注記で説明するように、バーンスタインの推論は物理学の「古典的」な理解に基づいている。 フォールトトレラント量子計算に関する既知の定理から従えば、量子物理学は彼の結論を回避できる。

A central claim in quantum cryptography is that secrecy can be proved rigorously, based on the assumption that the relevant information-processing systems obey the laws of quantum physics. This claim has recently been challenged by Bernstein (arXiv:1803.04520). He argues that the laws of physics may also entail an unavoidable leakage of any classical information encoded in physical carriers. The security claim of quantum key distribution would then be vacuous, as the computation of the final secret key would leak its value. However, as we explain in this short note, Bernstein's reasoning is based on a too "classical" understanding of physics. It follows from known theorems about fault-tolerant quantum computation that quantum physics avoids his conclusion.
翻訳日:2023-04-28 00:47:11 公開日:2020-10-22
# ねじれのないツイストロニクスのシミュレーション

Simulating twistronics without a twist ( http://arxiv.org/abs/1912.12736v2 )

ライセンス: Link先を確認
Tymoteusz Salamon, Alessio Celi, Ravindra W. Chhajlany, Ir\'en\'ee Fr\'erot, Maciej Lewenstein, Leticia Tarruell, Debraj Rakshit(参考訳) グラフェンの2つの単分子層の回転的不一致またはねじれは、電子的性質に強く影響する。 構造的には、ねじれは大きな周期的スーパーセル構造につながり、それによって興味をそそる強い相関行動をサポートすることができる。 本稿では、超低温原子を光学格子に閉じ込めたツイスト二層系を合成エミュレートする、高度に調整可能なスキームを提案する。 この方式では、物理的二層やねじれは直接実現されない。 代わりに、2つの合成層がコヒーレント結合された内部原子状態を利用して生成され、超セル構造が空間依存ラマンカップリングとして生成される。 この概念を説明するために、我々は合成正方形二層格子に焦点をあて、ある種のマジックスーパーセル周期性の下で準フラットバンドとディラックコーンスペクトルを調整可能であることを示す。 これらの特徴の出現は摂動解析を用いて説明される。 本提案は最先端実験手法を用いて実装でき,冷原子量子シミュレータにおけるマジックアングル二層グラフェンに類似したハイブリダイゼーション物理学を伴う強相関フラットバンドの制御研究への道を開く。

Rotational misalignment or twisting of two mono-layers of graphene strongly influences its electronic properties. Structurally, twisting leads to large periodic supercell structures, which in turn can support intriguing strongly correlated behaviour. Here, we propose a highly tunable scheme to synthetically emulate twisted bilayer systems with ultracold atoms trapped in an optical lattice. In our scheme, neither a physical bilayer nor twist is directly realized. Instead, two synthetic layers are produced exploiting coherently-coupled internal atomic states, and a supercell structure is generated \emph{via} a spatially-dependent Raman coupling. To illustrate this concept, we focus on a synthetic square bilayer lattice and show that it leads to tunable quasi-flatbands and Dirac cone spectra under certain magic supercell periodicities. The appearance of these features are explained using a perturbative analysis. Our proposal can be implemented using available state-of-the-art experimental techniques, and opens the route towards the controlled study of strongly-correlated flat band accompanied by hybridization physics akin to magic angle bilayer graphene in cold atom quantum simulators.
翻訳日:2023-01-17 08:11:32 公開日:2020-10-22
# プルーニングニューラル信条伝播デコーダ

Pruning Neural Belief Propagation Decoders ( http://arxiv.org/abs/2001.07464v2 )

ライセンス: Link先を確認
Andreas Buchberger, Christian H\"ager, Henry D. Pfister, Laurent Schmalen, Alexandre Graell i Amat(参考訳) Nachmaniらによって最近導入された、ニューラル信念伝播(BP)デコードに基づく、短い線形ブロック符号の近距離最大化(ML)デコードについて検討する。 この手法は従来のBP復号法よりも大幅に優れているが、基礎となるパリティチェック行列は依然として全体の性能を制限している。 本稿では,過完全パリティチェック行列を,機械学習を用いた(ニューラル)BPデコードに調整する手法を提案する。 タンナーグラフの重みは、デコーディングにおける連結チェックノード(CN)の重要性を示す指標であり、重要でないCNをプルークするために使用される。 プルーニングはイテレーションに縛られていないため、最終的なデコーダは各イテレーションで異なるパリティチェック行列を使用する。 Reed-Muller と short Low-density parity-check 符号に対して,デコーダの複雑さを低減しつつ,ML 性能の 0.27 dB と 1.5 dB で性能を実現する。

We consider near maximum-likelihood (ML) decoding of short linear block codes based on neural belief propagation (BP) decoding recently introduced by Nachmani et al.. While this method significantly outperforms conventional BP decoding, the underlying parity-check matrix may still limit the overall performance. In this paper, we introduce a method to tailor an overcomplete parity-check matrix to (neural) BP decoding using machine learning. We consider the weights in the Tanner graph as an indication of the importance of the connected check nodes (CNs) to decoding and use them to prune unimportant CNs. As the pruning is not tied over iterations, the final decoder uses a different parity-check matrix in each iteration. For Reed-Muller and short low-density parity-check codes, we achieve performance within 0.27 dB and 1.5 dB of the ML performance while reducing the complexity of the decoder.
翻訳日:2023-01-08 00:36:59 公開日:2020-10-22
# HRFA:高解像度機能ベースの攻撃

HRFA: High-Resolution Feature-based Attack ( http://arxiv.org/abs/2001.07631v2 )

ライセンス: Link先を確認
Zhixing Ye, Sizhe Chen, Peidong Zhang, Chengjin Sun, Xiaolin Huang(参考訳) 敵対的攻撃は、入力に知覚不能な摂動を加えることによって、ディープニューラルネットワーク(DNN)の脆弱性を明らかにするために長い間開発されてきた。 ほとんどのメソッドは通常のノイズのような摂動を生成するが、それは解釈可能ではなく意味的な意味を持たない。 本稿では,高分解能特徴ベース攻撃(HRFA)を提案する。 HRFAは、画像の潜在特徴表現、すなわち、勾配が被害者のDNNを介して伝播するだけでなく、特徴空間を画像空間にマッピングする生成モデルを通じて攻撃を行う。 このようにhrfaは、高分解能、現実的、ノイズフリーな逆の例を生成し、それゆえ複数のノイズベースの防御を回避できる。 実験では, HRFAの有効性を, BigGAN と StyleGAN を用いて対象分類と顔検証タスクをそれぞれ攻撃することによって検証した。 HRFAの利点は、高い品質、高い信頼性、高い攻撃成功率から検証される。

Adversarial attacks have long been developed for revealing the vulnerability of Deep Neural Networks (DNNs) by adding imperceptible perturbations to the input. Most methods generate perturbations like normal noise, which is not interpretable and without semantic meaning. In this paper, we propose High-Resolution Feature-based Attack (HRFA), yielding authentic adversarial examples with up to $1024 \times 1024$ resolution. HRFA exerts attack by modifying the latent feature representation of the image, i.e., the gradients back propagate not only through the victim DNN, but also through the generative model that maps the feature space to the image space. In this way, HRFA generates adversarial examples that are in high-resolution, realistic, noise-free, and hence is able to evade several denoising-based defenses. In the experiment, the effectiveness of HRFA is validated by attacking the object classification and face verification tasks with BigGAN and StyleGAN, respectively. The advantages of HRFA are verified from the high quality, high authenticity, and high attack success rate faced with defenses.
翻訳日:2023-01-07 23:27:10 公開日:2020-10-22
# 集合関数を用いた離散信号処理

Discrete Signal Processing with Set Functions ( http://arxiv.org/abs/2001.10290v2 )

ライセンス: Link先を確認
Markus P\"uschel and Chris Wendler(参考訳) 集合関数は有限集合 n のパワーセット(すべての部分集合の集合)によってインデックスづけされた関数(または信号)であり、多くの応用領域において基本かつユビキタスであり、例えば、セマンティック画像分割のための損失関数を形式的に記述または定量化するために、センサーネットワークにおけるセンサーのインフォメーションは、レコメンダシステムにおけるアイテムの集合の有用性、ゲーム理論における協調ゲーム、コンビネータオークションにおける入札者などに使われる。 特に、部分モジュラ函数のサブクラスは多くの最適化や機械学習問題で発生する。 本稿では,集合関数に対する新しいシフト不変線形信号処理フレームワークである離散集合信号処理(sp)を導出する。 離散集合 sp は集合和と差分演算から得られるシフトの異なる概念を考える。 各シフトに対して、シフト不変フィルタ、畳み込み、フーリエ変換、周波数応答の関連概念を提供する。 我々は,多変量相互情報を離散集合スペクトルの特別な場合として定義し,周波数順序付けを動機付ける一般化カバレッジ関数の概念を用いて,フレームワークの直観を提供する。 我々の研究は、集合関数の解析と処理のための新しいツールセット、特に指数関数の性質を扱うためのツールセットを提供する。 サブモジュール関数最適化における圧縮と、組合せオークションにおける選好誘導のためのサンプリングの2つのプロトタイプ応用と実験を示す。

Set functions are functions (or signals) indexed by the powerset (set of all subsets) of a finite set N. They are fundamental and ubiquitous in many application domains and have been used, for example, to formally describe or quantify loss functions for semantic image segmentation, the informativeness of sensors in sensor networks the utility of sets of items in recommender systems, cooperative games in game theory, or bidders in combinatorial auctions. In particular, the subclass of submodular functions occurs in many optimization and machine learning problems. In this paper, we derive discrete-set signal processing (SP), a novel shift-invariant linear signal processing framework for set functions. Discrete-set SP considers different notions of shift obtained from set union and difference operations. For each shift it provides associated notions of shift-invariant filters, convolution, Fourier transform, and frequency response. We provide intuition for our framework using the concept of generalized coverage function that we define, identify multivariate mutual information as a special case of a discrete-set spectrum, and motivate frequency ordering. Our work brings a new set of tools for analyzing and processing set functions, and, in particular, for dealing with their exponential nature. We show two prototypical applications and experiments: compression in submodular function optimization and sampling for preference elicitation in combinatorial auctions.
翻訳日:2023-01-06 03:07:53 公開日:2020-10-22
# dyadic特徴表現を用いた極端アルゴリズム選択

Extreme Algorithm Selection With Dyadic Feature Representation ( http://arxiv.org/abs/2001.10741v2 )

ライセンス: Link先を確認
Alexander Tornede, Marcel Wever, Eyke H\"ullermeier(参考訳) アルゴリズム選択(AS)は、アルゴリズム問題の特定のインスタンス、例えばSAT問題の解法を選択するのに最も適したアルゴリズムの固定された集合からアルゴリズムを選択することを扱う。 ASのベンチマークスイートは通常、少なくとも10のアルゴリズムからなる候補セットから構成されるが、アルゴリズムの選択とハイパーパラメータ最適化の問題を組み合わせると、候補の数は難解になり、効果的なメタモデルを学ぶのを妨げ、オンラインのパフォーマンス評価に費用がかかる。 そこで本研究では,数千の候補アルゴリズムの固定集合を考慮し,メタ学習を容易にする極端アルゴリズム選択(xas)の設定を提案する。 我々は、XAS設定に対する最先端AS技術の適用性を評価し、問題インスタンスとアルゴリズムの両方を記述するダイアド特徴表現を活用するアプローチを提案する。 後者は,様々な指標において,現在の技術状況よりも大幅に改善されている。

Algorithm selection (AS) deals with selecting an algorithm from a fixed set of candidate algorithms most suitable for a specific instance of an algorithmic problem, e.g., choosing solvers for SAT problems. Benchmark suites for AS usually comprise candidate sets consisting of at most tens of algorithms, whereas in combined algorithm selection and hyperparameter optimization problems the number of candidates becomes intractable, impeding to learn effective meta-models and thus requiring costly online performance evaluations. Therefore, here we propose the setting of extreme algorithm selection (XAS) where we consider fixed sets of thousands of candidate algorithms, facilitating meta learning. We assess the applicability of state-of-the-art AS techniques to the XAS setting and propose approaches leveraging a dyadic feature representation in which both problem instances and algorithms are described. We find the latter to improve significantly over the current state of the art in various metrics.
翻訳日:2023-01-05 20:43:43 公開日:2020-10-22
# 高次元ベイズ最適化のための線形埋め込みの再検討

Re-Examining Linear Embeddings for High-Dimensional Bayesian Optimization ( http://arxiv.org/abs/2001.11659v2 )

ライセンス: Link先を確認
Benjamin Letham, Roberto Calandra, Akshara Rai, Eytan Bakshy(参考訳) ベイズ最適化(BO)は、高価なブラックボックス関数を最適化する一般的な手法である。 BOの重要な課題は、サンプル効率を維持しながら高次元パラメータ空間にスケールすることだ。 既存の文献で考慮される解は、高次元空間を低次元多様体(しばしばランダム線型埋め込み)に埋め込むことである。 本稿では,boに対する線形埋め込みの利用に関するいくつかの重要な問題と誤解を明らかにする。 文献から線形埋め込みの特性について検討し、現在のアプローチにおける設計選択が性能に悪影響を及ぼすことを示す。 本研究では,これらの問題に適切に対処することで,ロボットの歩行ポリシーの学習など,さまざまな問題に対するBOの線形埋め込みの有効性が著しく向上することを示す。

Bayesian optimization (BO) is a popular approach to optimize expensive-to-evaluate black-box functions. A significant challenge in BO is to scale to high-dimensional parameter spaces while retaining sample efficiency. A solution considered in existing literature is to embed the high-dimensional space in a lower-dimensional manifold, often via a random linear embedding. In this paper, we identify several crucial issues and misconceptions about the use of linear embeddings for BO. We study the properties of linear embeddings from the literature and show that some of the design choices in current approaches adversely impact their performance. We show empirically that properly addressing these issues significantly improves the efficacy of linear embeddings for BO on a range of problems, including learning a gait policy for robot locomotion.
翻訳日:2023-01-05 05:54:14 公開日:2020-10-22
# 対称性の逆学習

Inverse Learning of Symmetries ( http://arxiv.org/abs/2002.02782v2 )

ライセンス: Link先を確認
Mario Wieser, Sonali Parbhoo, Aleksander Wieczorek, Volker Roth(参考訳) 対称性変換は、深い潜伏変数モデルでしばしば記述される不変性を引き起こす。 化学空間のような多くの複雑な領域では、不変性は観測できるが、対応する対称性変換は解析的に定式化することはできない。 まず, 2つの潜在部分空間からなるモデルを用いて対称性変換を学習し, 1つ目の部分空間が対象を捉え, 2番目の部分空間が残りの不変情報を取り込む。 本手法は,連続的な相互情報レギュラーと組み合わせた深層情報ボトルネックに基づく。 従来の手法とは異なり、連続ドメインにおける相互情報の最小化という課題に焦点を当てる。 この目的のために、相関行列の相互情報の計算と、客観的変数変換を組み合わせて基礎とする。 広範な実験により,本モデルが人工および分子データセットの最先端手法よりも優れていることが証明された。

Symmetry transformations induce invariances which are frequently described with deep latent variable models. In many complex domains, such as the chemical space, invariances can be observed, yet the corresponding symmetry transformation cannot be formulated analytically. We propose to learn the symmetry transformation with a model consisting of two latent subspaces, where the first subspace captures the target and the second subspace the remaining invariant information. Our approach is based on the deep information bottleneck in combination with a continuous mutual information regulariser. Unlike previous methods, we focus on the challenging task of minimising mutual information in continuous domains. To this end, we base the calculation of mutual information on correlation matrices in combination with a bijective variable transformation. Extensive experiments demonstrate that our model outperforms state-of-the-art methods on artificial and molecular datasets.
翻訳日:2023-01-03 03:51:20 公開日:2020-10-22
# 時系列からのストレンジアトラクタの深部復元

Deep reconstruction of strange attractors from time series ( http://arxiv.org/abs/2002.05909v3 )

ライセンス: Link先を確認
William Gilpin(参考訳) 物理的システムの実験的測定は、しばしば限られた数の独立したチャネルを持ち、必須の動的変数は観測されないままである。 しかし、実験データから潜在力学を教師なしで推測する多くの一般的な方法は、測定値が基礎となる系よりも内在次元が高いと暗黙的に仮定している。 ここでは、低次元の時系列のみから隠れた支配座標を推定しなければならない反対限について検討する。 カオス的誘引器の部分観察のための古典的解析手法に着想を得て,新しい遅延空間損失関数を訓練したオートエンコーダからなる一変量および多変量時系列の一般的な埋め込み手法を導入する。 提案手法は,既存の技術よりも,合成システムや現実システムの奇妙な魅力を再構築し,確率的システムの一貫した予測表現を生成することを示す。 本研究では, 患者心電図, 家庭電気利用, 神経スパイク, オールド・フェイスフル・ガイザーの噴火などの多様なシステムにおける動的アトラクションの発見に, 本手法の探索データ解析への応用を実証する。

Experimental measurements of physical systems often have a limited number of independent channels, causing essential dynamical variables to remain unobserved. However, many popular methods for unsupervised inference of latent dynamics from experimental data implicitly assume that the measurements have higher intrinsic dimensionality than the underlying system---making coordinate identification a dimensionality reduction problem. Here, we study the opposite limit, in which hidden governing coordinates must be inferred from only a low-dimensional time series of measurements. Inspired by classical analysis techniques for partial observations of chaotic attractors, we introduce a general embedding technique for univariate and multivariate time series, consisting of an autoencoder trained with a novel latent-space loss function. We show that our technique reconstructs the strange attractors of synthetic and real-world systems better than existing techniques, and that it creates consistent, predictive representations of even stochastic systems. We conclude by using our technique to discover dynamical attractors in diverse systems such as patient electrocardiograms, household electricity usage, neural spiking, and eruptions of the Old Faithful geyser---demonstrating diverse applications of our technique for exploratory data analysis.
翻訳日:2023-01-01 04:40:20 公開日:2020-10-22
# GANのTop-kトレーニング: 悪いサンプルをスローすることでGANのパフォーマンスを向上させる

Top-k Training of GANs: Improving GAN Performance by Throwing Away Bad Samples ( http://arxiv.org/abs/2002.06224v4 )

ライセンス: Link先を確認
Samarth Sinha, Zhengli Zhao, Anirudh Goyal, Colin Raffel, Augustus Odena(参考訳) 生成型敵ネットワーク(gan)のトレーニングアルゴリズムに単純な(一行のコード)修正を導入し、計算コストを増加させることなく結果を大幅に改善する: ジェネレータパラメータを更新するとき、批評家が'least real'と評するバッチの要素から勾配寄与をゼロにする。 様々な GAN 変種の実験を通して、この 'top-k update' 手順が一般的に適用可能な改善であることを示す。 改良の性質を理解するため,ガウシアン混合データセットの広範な解析を行い,いくつかの興味深い現象を発見する。 中でも、最悪のスコーリングバッチ要素を使用して勾配更新が計算されると、サンプルを最も近いモードから押し出すことができる。 また,本手法を最近のGAN変種に適用し,CIFAR-10における条件付きFIDを9.21から8.57に改善する。

We introduce a simple (one line of code) modification to the Generative Adversarial Network (GAN) training algorithm that materially improves results with no increase in computational cost: When updating the generator parameters, we simply zero out the gradient contributions from the elements of the batch that the critic scores as `least realistic'. Through experiments on many different GAN variants, we show that this `top-k update' procedure is a generally applicable improvement. In order to understand the nature of the improvement, we conduct extensive analysis on a simple mixture-of-Gaussians dataset and discover several interesting phenomena. Among these is that, when gradient updates are computed using the worst-scoring batch elements, samples can actually be pushed further away from their nearest mode. We also apply our method to recent GAN variants and improve state-of-the-art FID for conditional generation from 9.21 to 8.57 on CIFAR-10.
翻訳日:2023-01-01 04:14:45 公開日:2020-10-22
# ロバスト量子化:すべてをルールする1つのモデル

Robust Quantization: One Model to Rule Them All ( http://arxiv.org/abs/2002.07686v3 )

ライセンス: Link先を確認
Moran Shkolnik, Brian Chmiel, Ron Banner, Gil Shomron, Yury Nahshan, Alex Bronstein, Uri Weiser(参考訳) ニューラルネットワーク量子化法は、トレーニング中に量子化過程をシミュレートすることが多く、トレーニングされたモデルはターゲットのビット幅と正確な量子化の方法に依存する。 ロバスト量子化は、データ型と量子化ポリシーの異なるクラスに対する耐性を改善した代替アプローチを提供する。 量子化プロセスが静的ではなく、異なる状況や実装に対応するように変更できる新しいエキサイティングなアプリケーションを開く。 この問題に対処するため,幅広い量子化プロセスに対して,モデルに固有のロバスト性を提供する手法を提案する。 提案手法は理論的議論に動機付けられ,様々なビット幅と量子化ポリシで動作可能な単一汎用モデルを格納することができる。 異なるイメージネットモデルにおいて,提案手法の有効性を検証する。

Neural network quantization methods often involve simulating the quantization process during training, making the trained model highly dependent on the target bit-width and precise way quantization is performed. Robust quantization offers an alternative approach with improved tolerance to different classes of data-types and quantization policies. It opens up new exciting applications where the quantization process is not static and can vary to meet different circumstances and implementations. To address this issue, we propose a method that provides intrinsic robustness to the model against a broad range of quantization processes. Our method is motivated by theoretical arguments and enables us to store a single generic model capable of operating at various bit-widths and quantization policies. We validate our method's effectiveness on different ImageNet models.
翻訳日:2022-12-30 19:07:29 公開日:2020-10-22
# 人物再同定のためのクロスレゾリューション・adversarial dual network

Cross-Resolution Adversarial Dual Network for Person Re-Identification and Beyond ( http://arxiv.org/abs/2002.09274v2 )

ライセンス: Link先を確認
Yu-Jhe Li, Yun-Chun Chen, Yen-Yu Lin, Yu-Chiang Frank Wang(参考訳) 人物再識別(re-ID)は、同一人物の画像をカメラビューでマッチングすることを目的としている。 カメラと関心のある人の距離が異なるため、解像度ミスマッチが期待でき、現実のシナリオではリID性能が低下する。 この問題を解決するために,クロスレゾリューションな人物のリIDに対処し,解像度の異なる画像のクエリを可能にする,新たな生成逆ネットワークを提案する。 対戦型学習手法を進歩させることで,低解像度入力画像の欠落した詳細を復元しながら,解像度不変の画像表現を学習する。 得られた特徴は、解像度不変性の保存とre-ID指向の識別詳細の回復によるre-ID性能の向上に共同で適用することができる。 5つの標準人物のre-IDベンチマークによる大規模な実験結果から,本手法の有効性と最先端アプローチよりも優れていることが確認された。 さらに,2台の車載リIDベンチマークによる実験結果から,クロスレゾリューション視覚タスクにおけるモデルの一般化を確認した。 半教師付き設定の拡張は、実世界のシナリオやアプリケーションに対する提案手法の使用をさらに支援します。

Person re-identification (re-ID) aims at matching images of the same person across camera views. Due to varying distances between cameras and persons of interest, resolution mismatch can be expected, which would degrade re-ID performance in real-world scenarios. To overcome this problem, we propose a novel generative adversarial network to address cross-resolution person re-ID, allowing query images with varying resolutions. By advancing adversarial learning techniques, our proposed model learns resolution-invariant image representations while being able to recover the missing details in low-resolution input images. The resulting features can be jointly applied for improving re-ID performance due to preserving resolution invariance and recovering re-ID oriented discriminative details. Extensive experimental results on five standard person re-ID benchmarks confirm the effectiveness of our method and the superiority over the state-of-the-art approaches, especially when the input resolutions are not seen during training. Furthermore, the experimental results on two vehicle re-ID benchmarks also confirm the generalization of our model on cross-resolution visual tasks. The extensions of semi-supervised settings further support the use of our proposed approach to real-world scenarios and applications.
翻訳日:2022-12-30 14:22:31 公開日:2020-10-22
# 特徴ランク付けによる単純でスケーラブルなk-meansクラスタリング

Simple and Scalable Sparse k-means Clustering via Feature Ranking ( http://arxiv.org/abs/2002.08541v2 )

ライセンス: Link先を確認
Zhiyue Zhang, Kenneth Lange, Jason Xu(参考訳) 教師なし学習の基本的なアクティビティであるクラスタリングは、機能空間が高次元である場合、非常に難しい。 幸運なことに、多くの現実的なシナリオでは、クラスタの識別に関係している機能はごくわずかである。 これにより、計算複雑性の高い外部アルゴリズム内のk平均に依存するスパースクラスタリング技術の開発が動機となった。 現在の技術では、縮小パラメータを慎重にチューニングし、スケーラビリティをさらに制限する必要がある。 本稿では,より直感的で,実装が簡単で,最先端のアルゴリズムと競合する,スパースk平均クラスタリングのための新しいフレームワークを提案する。 我々のアルゴリズムは一貫性と収束の保証を享受している。 本手法は属性のサブセットのクラスタリングや部分的に観測されたデータ設定などのタスク固有のアルゴリズムに容易に一般化する。 トリソミックマウスにおけるタンパク質の発現に関するケーススタディを含む、シミュレーション実験と実データベンチマークを通じて、これらの貢献を徹底的に紹介する。

Clustering, a fundamental activity in unsupervised learning, is notoriously difficult when the feature space is high-dimensional. Fortunately, in many realistic scenarios, only a handful of features are relevant in distinguishing clusters. This has motivated the development of sparse clustering techniques that typically rely on k-means within outer algorithms of high computational complexity. Current techniques also require careful tuning of shrinkage parameters, further limiting their scalability. In this paper, we propose a novel framework for sparse k-means clustering that is intuitive, simple to implement, and competitive with state-of-the-art algorithms. We show that our algorithm enjoys consistency and convergence guarantees. Our core method readily generalizes to several task-specific algorithms such as clustering on subsets of attributes and in partially observed data settings. We showcase these contributions thoroughly via simulated experiments and real data benchmarks, including a case study on protein expression in trisomic mice.
翻訳日:2022-12-30 06:42:47 公開日:2020-10-22
# 階層クラスタリングにおける厳密な推論のためのデータ構造とアルゴリズム

Data Structures & Algorithms for Exact Inference in Hierarchical Clustering ( http://arxiv.org/abs/2002.11661v3 )

ライセンス: Link先を確認
Craig S. Greenberg, Sebastian Macaluso, Nicholas Monath, Ji-Ah Lee, Patrick Flaherty, Kyle Cranmer, Andrew McGregor, Andrew McCallum(参考訳) 階層的クラスタリングは、系統樹、概念の分類、がんのサブタイプ、粒子物理学における粒子崩壊のカスケードなど、データに有意義な構造を発見するためにしばしば用いられる基本的なタスクである。 通常、近似アルゴリズムは階層的クラスタリングの組合せ数のために推論に使用される。 既存の手法とは対照的に、新しいトレリスデータ構造に基づく階層クラスタリングにおける \emph{exact} 推論のための新しい動的プログラミングアルゴリズムを提案し、サブ階層とクラスタの分割関数、最大極大階層、限界確率を正確に計算できることを証明した。 我々のアルゴリズムは、各(2n-3)を明示的に考慮するよりも超指数的に効率的であるn$要素のパワーセットに比例する時間と空間でスケールする。 階層の可能性がある また、正確なアルゴリズムが実現不可能になった大きなデータセットに対しては、他のベンチマークと比較可能なスパーストレリスに基づく近似アルゴリズムを導入します。 厳密な手法は粒子物理学におけるデータ解析や、がんゲノム学における遺伝子発現の相関に関係しており、我々のアルゴリズムが欲望やビーム探索のベースラインを上回っている分野の例を示す。 さらに,合成データによるDasguptaのコストも考慮する。

Hierarchical clustering is a fundamental task often used to discover meaningful structures in data, such as phylogenetic trees, taxonomies of concepts, subtypes of cancer, and cascades of particle decays in particle physics. Typically approximate algorithms are used for inference due to the combinatorial number of possible hierarchical clusterings. In contrast to existing methods, we present novel dynamic-programming algorithms for \emph{exact} inference in hierarchical clustering based on a novel trellis data structure, and we prove that we can exactly compute the partition function, maximum likelihood hierarchy, and marginal probabilities of sub-hierarchies and clusters. Our algorithms scale in time and space proportional to the powerset of $N$ elements which is super-exponentially more efficient than explicitly considering each of the (2N-3)!! possible hierarchies. Also, for larger datasets where our exact algorithms become infeasible, we introduce an approximate algorithm based on a sparse trellis that compares well to other benchmarks. Exact methods are relevant to data analyses in particle physics and for finding correlations among gene expression in cancer genomics, and we give examples in both areas, where our algorithms outperform greedy and beam search baselines. In addition, we consider Dasgupta's cost with synthetic data.
翻訳日:2022-12-28 14:53:15 公開日:2020-10-22
# RNNPool:RAM制約推論のための効率的な非線形プール

RNNPool: Efficient Non-linear Pooling for RAM Constrained Inference ( http://arxiv.org/abs/2002.11921v2 )

ライセンス: Link先を確認
Oindrila Saha, Aditya Kusupati, Harsha Vardhan Simhadri, Manik Varma, Prateek Jain(参考訳) コンピュータビジョンタスク用に設計された標準畳み込みニューラルネットワーク(cnns)は、大きな中間活性化マップを持つ傾向がある。 これらは大きなワーキングメモリを必要とするため、通常はエッジでの推論に使用されるリソース制約のあるデバイスへのデプロイには適さない。 プーリングやストライド畳み込みによる画像の加重サンプリングはこの問題に対処できるが、標準的なプーリング演算子による特徴写像の集約による精度の大幅な低下につながる。 本稿では,リカレントニューラルネットワーク(recurrent neural networks:rnns)に基づく新たなプーリングオペレータであるrnnpoolを提案する。 実証的な評価は、画像分類や顔検出といった標準的な視覚タスクに適用した場合、RNNPool層がMobileNetsやDenseNetといったさまざまなアーキテクチャの複数のブロックを効果的に置き換えることができることを示している。 すなわち、RNNPoolは、同等の精度を維持しながら、推論の計算複雑性とピークメモリ使用量を著しく削減することができる。 我々は、RNNPoolを標準のS3FDアーキテクチャで使用し、256KB以下のRAMを持つARM Cortex-M4クラスマイクロコントローラの最先端MAPを実現する。 コードはhttps://github.com/Microsoft/EdgeMLで公開されている。

Standard Convolutional Neural Networks (CNNs) designed for computer vision tasks tend to have large intermediate activation maps. These require large working memory and are thus unsuitable for deployment on resource-constrained devices typically used for inference on the edge. Aggressively downsampling the images via pooling or strided convolutions can address the problem but leads to a significant decrease in accuracy due to gross aggregation of the feature map by standard pooling operators. In this paper, we introduce RNNPool, a novel pooling operator based on Recurrent Neural Networks (RNNs), that efficiently aggregates features over large patches of an image and rapidly downsamples activation maps. Empirical evaluation indicates that an RNNPool layer can effectively replace multiple blocks in a variety of architectures such as MobileNets, DenseNet when applied to standard vision tasks like image classification and face detection. That is, RNNPool can significantly decrease computational complexity and peak memory usage for inference while retaining comparable accuracy. We use RNNPool with the standard S3FD architecture to construct a face detection method that achieves state-of-the-art MAP for tiny ARM Cortex-M4 class microcontrollers with under 256 KB of RAM. Code is released at https://github.com/Microsoft/EdgeML.
翻訳日:2022-12-28 07:57:00 公開日:2020-10-22
# フィードフォワード画像操作のためのstylegan2蒸留

StyleGAN2 Distillation for Feed-forward Image Manipulation ( http://arxiv.org/abs/2003.03581v2 )

ライセンス: Link先を確認
Yuri Viazovetskyi, Vladimir Ivashkin, Evgeny Kashin(参考訳) StyleGAN2は、現実的な画像を生成する最先端のネットワークである。 さらに、遅延空間の方向を乱すように明示的に訓練され、様々な遅延因子による効率的な画像操作を可能にした。 既存のイメージを編集するには、あるイメージをStyleGAN2の潜在空間に埋め込む必要がある。 バックプロパゲーションによる潜在コード最適化は、実世界の画像の質的埋め込みに一般的に用いられるが、多くのアプリケーションでは制限的に遅い。 本稿では,StyleGAN2の特定の画像操作を,ペアで訓練した画像間ネットワークに蒸留する方法を提案する。 結果として得られるパイプラインは、未ペアデータに基づいてトレーニングされた既存のGANに代わるものだ。 我々は、性別スワップ、老化/回復、スタイル転送、イメージモーフィングといった人間の顔の変換結果を提供する。 本手法による生成品質は,これらのタスクにおけるstylegan2バックプロパゲーションと現在の最先端手法に匹敵する。

StyleGAN2 is a state-of-the-art network in generating realistic images. Besides, it was explicitly trained to have disentangled directions in latent space, which allows efficient image manipulation by varying latent factors. Editing existing images requires embedding a given image into the latent space of StyleGAN2. Latent code optimization via backpropagation is commonly used for qualitative embedding of real world images, although it is prohibitively slow for many applications. We propose a way to distill a particular image manipulation of StyleGAN2 into image-to-image network trained in paired way. The resulting pipeline is an alternative to existing GANs, trained on unpaired data. We provide results of human faces' transformation: gender swap, aging/rejuvenation, style transfer and image morphing. We show that the quality of generation using our method is comparable to StyleGAN2 backpropagation and current state-of-the-art methods in these particular tasks.
翻訳日:2022-12-25 19:59:28 公開日:2020-10-22
# PLOP: 自律走行のための確率論的ポリノミアル物体軌道計画

PLOP: Probabilistic poLynomial Objects trajectory Planning for autonomous driving ( http://arxiv.org/abs/2003.08744v3 )

ライセンス: Link先を確認
Thibault Buhet, and Emilie Wirbel and Andrei Bursuc and Xavier Perrotton(参考訳) 都市環境で安全に航行するには、自動運転車(自走車)が周囲、特に他の道路利用者(隣人)の行動や意図を理解し、予測する必要がある。 多くの場合、すべての道路利用者(例えば、右折や左折、障害物回避の異なる方法など)に複数の決定選択が受け入れられ、非常に不確実でマルチモーダルな決定空間につながる。 ここで我々は,確率的枠組みを通じて,自走車と隣人の両方に対する,複数の実現可能な将来の軌跡の予測に焦点をあてる。 私たちは条件付き模倣学習アルゴリズムに依存しており、ego車両(例えば「右折」)のナビゲーションコマンドによって条件付けされている。 当社のモデルでは,エゴ車両の前面カメラ画像と,ライダー点雲から算出した鳥眼ビューグリッドを過去の物体と現在の物体の検出により処理し,エゴ車両とその周辺地域の複数の軌道を生成する。 私たちのアプローチは計算効率が高く、オンボードセンサーのみに依存します。 提案手法を,公開データセット上でオフラインで評価し,最新性能を達成し,オンラインシミュレーション実験におけるアーキテクチャ選択の影響を調査し,実車制御のための予備的洞察を示す。

To navigate safely in urban environments, an autonomous vehicle (ego vehicle) must understand and anticipate its surroundings, in particular the behavior and intents of other road users (neighbors). Most of the times, multiple decision choices are acceptable for all road users (e.g., turn right or left, or different ways of avoiding an obstacle), leading to a highly uncertain and multi-modal decision space. We focus here on predicting multiple feasible future trajectories for both ego vehicle and neighbors through a probabilistic framework. We rely on a conditional imitation learning algorithm, conditioned by a navigation command for the ego vehicle (e.g., "turn right"). Our model processes ego vehicle front-facing camera images and bird-eye view grid, computed from Lidar point clouds, with detections of past and present objects, in order to generate multiple trajectories for both ego vehicle and its neighbors. Our approach is computationally efficient and relies only on on-board sensors. We evaluate our method offline on the publicly available dataset nuScenes, achieving state-of-the-art performance, investigate the impact of our architecture choices on online simulated experiments and show preliminary insights for real vehicle control
翻訳日:2022-12-25 08:25:54 公開日:2020-10-22
# ニューラルプログラム合成による構成規則の学習

Learning Compositional Rules via Neural Program Synthesis ( http://arxiv.org/abs/2003.05562v2 )

ライセンス: Link先を確認
Maxwell I. Nye, Armando Solar-Lezama, Joshua B. Tenenbaum, Brenden M. Lake(参考訳) 言語を含む人間の推論の多くの側面は、ごくわずかなデータから学習ルールを必要とする。 人間は、非常に少数の例から体系的なルールを学び、これらのルールを組み合わせて構成規則ベースのシステムを作ることができる。 一方、現在のニューラルアーキテクチャは、特にトレーニングから系統的に異なる方法で評価された場合、構成的に一般化できないことが多い。 本稿では,少数の例からルールシステム全体を学習するニューロシンボリックモデルを提案する。 入力からの出力を直接予測する代わりに、我々は、ニューラルネットワーク合成文献の技法に基づいて、前例の集合を規定する規則の明示的な体系を誘導するようにモデルを訓練する。 我々のルール合成アプローチは、人間の学習を評価するための人工的な命令学習ドメイン、SCANチャレンジデータセット、および幅広い人間の言語に対する数語から整数への学習ルールベースの翻訳である。

Many aspects of human reasoning, including language, require learning rules from very little data. Humans can do this, often learning systematic rules from very few examples, and combining these rules to form compositional rule-based systems. Current neural architectures, on the other hand, often fail to generalize in a compositional manner, especially when evaluated in ways that vary systematically from training. In this work, we present a neuro-symbolic model which learns entire rule systems from a small set of examples. Instead of directly predicting outputs from inputs, we train our model to induce the explicit system of rules governing a set of previously seen examples, drawing upon techniques from the neural program synthesis literature. Our rule-synthesis approach outperforms neural meta-learning techniques in three domains: an artificial instruction-learning domain used to evaluate human learning, the SCAN challenge datasets, and learning rule-based translations of number words into integers for a wide range of human languages.
翻訳日:2022-12-24 13:38:57 公開日:2020-10-22
# 絵画データセットにおける視覚リンク検索と知識発見

Visual link retrieval and knowledge discovery in painting datasets ( http://arxiv.org/abs/2003.08476v2 )

ライセンス: Link先を確認
Giovanna Castellano and Eufemia Lella and Gennaro Vessio(参考訳) 視覚芸術は、我々の社会の文化的、歴史的、経済的成長にとって決定的に重要である。 視覚芸術におけるほとんどの分析の構成要素の1つは、異なる芸術家と絵画学校の間の類似性関係を見つけることである。 美術史家の視覚芸術の理解を深めるために,デジタル絵画データセットにおける視覚的リンク検索と知識発見の枠組みを提案する。 深層畳み込みニューラルネットワークを用いて特徴抽出と、デジタル絵画間のリンクを検索する完全に教師なし隣人機構により、ビジュアルリンク検索を実現する。 歴史的知識発見は、アーティスト間の影響を研究することができるグラフ解析を行うことによって達成される。 人気アーティストによる絵を収集するデータベース実験により,本手法の有効性が示された。 教師なしの戦略は、メタデータが不足したり、利用できないり、収集が難しい場合に特に興味深い。

Visual arts are of inestimable importance for the cultural, historic and economic growth of our society. One of the building blocks of most analysis in visual arts is to find similarity relationships among paintings of different artists and painting schools. To help art historians better understand visual arts, this paper presents a framework for visual link retrieval and knowledge discovery in digital painting datasets. Visual link retrieval is accomplished by using a deep convolutional neural network to perform feature extraction and a fully unsupervised nearest neighbor mechanism to retrieve links among digitized paintings. Historical knowledge discovery is achieved by performing a graph analysis that makes it possible to study influences among artists. An experimental evaluation on a database collecting paintings by very popular artists shows the effectiveness of the method. The unsupervised strategy makes the method interesting especially in cases where metadata are scarce, unavailable or difficult to collect.
翻訳日:2022-12-22 12:59:22 公開日:2020-10-22
# デジタル絵画クラスタリングのための深部畳み込み埋め込み

Deep convolutional embedding for digitized painting clustering ( http://arxiv.org/abs/2003.08597v2 )

ライセンス: Link先を確認
Giovanna Castellano and Gennaro Vessio(参考訳) アートワークのクラスタリングはいくつかの理由から難しい。 一方で、ドメイン知識と視覚知覚によって意味のあるパターンを認識することは極めて困難である。 一方, 従来のクラスタリング法や特徴量削減法を高次元画素空間に適用することは有効ではない。 これらの問題に対処するため,デジタル絵画クラスタリングに深層畳み込み埋め込みモデルを用いて,この潜在特徴空間におけるクラスタセントロイドの集合を見つけるタスクと,原入力データを抽象的な潜在空間にマッピングするタスクを協調的に最適化する手法を提案する。 定量的および定性的な実験結果から,提案手法の有効性が示された。 このモデルは、同じ問題に対して他の最先端のディープクラスタリングアプローチよりも優れている。 提案手法は,絵画データセットにおける視覚的リンク検索や歴史的知識発見など,美術関連タスクに有用である。

Clustering artworks is difficult for several reasons. On the one hand, recognizing meaningful patterns in accordance with domain knowledge and visual perception is extremely difficult. On the other hand, applying traditional clustering and feature reduction techniques to the highly dimensional pixel space can be ineffective. To address these issues, we propose to use a deep convolutional embedding model for digitized painting clustering, in which the task of mapping the raw input data to an abstract, latent space is jointly optimized with the task of finding a set of cluster centroids in this latent feature space. Quantitative and qualitative experimental results show the effectiveness of the proposed method. The model is also capable of outperforming other state-of-the-art deep clustering approaches to the same problem. The proposed method can be useful for several art-related tasks, in particular visual link retrieval and historical knowledge discovery in painting datasets.
翻訳日:2022-12-22 04:25:07 公開日:2020-10-22
# ソーシャルメディア上でのCOVID-19:Twitterの会話における誤情報の分析

COVID-19 on Social Media: Analyzing Misinformation in Twitter Conversations ( http://arxiv.org/abs/2003.12309v4 )

ライセンス: Link先を確認
Karishma Sharma, Sungyong Seo, Chuizheng Meng, Sirisha Rambhatla, Yan Liu(参考訳) 現在進行中のコロナウイルス(COVID-19)パンデミックは、現在のグローバル化世界の相互接続性を強調している。 ソーシャル・ディスタンシング・ポリシーの確立に伴い、仮想コミュニケーションは情報(ミス)の重要な源となっている。 ニュースにソーシャルメディアプラットフォームを頼りにする人が増え、誤った情報を特定し、新型コロナウイルス(covid-19)に関するオンライン会話の性質を明らかにすることが重要な課題になっている。 この目的のために、2020年3月1日からTwitter APIを使用して、COVID-19に関連するストリーミングデータを収集しました。 事実チェックソースに基づいて,信頼できない,誤解を招くコンテンツを特定し,誤報ツイートで促進される物語と,これらのツイートとのエンゲージメントの分布を調べた。 さらに,著名な誤情報ツイートの拡散パターンの例を示す。 この分析はパブリックアクセス可能なダッシュボード(https://usc-melady.github.io/COVID-19-Tweet-Analysis)で公開され、2020年3月1日から6月5日までTwitter上でのCOVID-19に関するオンライン談話と誤情報を追跡する。 ダッシュボードには、特定された偽情報ツイートの日次リストと、COVID-19 Twitterの話題、感情、トレンドなどが提供されている。 ダッシュボードは、オンラインで共有される情報の性質と品質の可視化を改善し、データセットから抽出された洞察と情報へのリアルタイムアクセスを提供する。

The ongoing Coronavirus (COVID-19) pandemic highlights the inter-connectedness of our present-day globalized world. With social distancing policies in place, virtual communication has become an important source of (mis)information. As increasing number of people rely on social media platforms for news, identifying misinformation and uncovering the nature of online discourse around COVID-19 has emerged as a critical task. To this end, we collected streaming data related to COVID-19 using the Twitter API, starting March 1, 2020. We identified unreliable and misleading contents based on fact-checking sources, and examined the narratives promoted in misinformation tweets, along with the distribution of engagements with these tweets. In addition, we provide examples of the spreading patterns of prominent misinformation tweets. The analysis is presented and updated on a publically accessible dashboard (https://usc-melady.github.io/COVID-19-Tweet-Analysis) to track the nature of online discourse and misinformation about COVID-19 on Twitter from March 1 - June 5, 2020. The dashboard provides a daily list of identified misinformation tweets, along with topics, sentiments, and emerging trends in the COVID-19 Twitter discourse. The dashboard is provided to improve visibility into the nature and quality of information shared online, and provide real-time access to insights and information extracted from the dataset.
翻訳日:2022-12-19 22:14:54 公開日:2020-10-22
# EvolveGraph:動的リレーショナル推論を用いたマルチエージェント軌道予測

EvolveGraph: Multi-Agent Trajectory Prediction with Dynamic Relational Reasoning ( http://arxiv.org/abs/2003.13924v4 )

ライセンス: Link先を確認
Jiachen Li and Fan Yang and Masayoshi Tomizuka and Chiho Choi(参考訳) 多エージェントインタラクションシステムは、純粋な物理システムから複雑な社会力学システムまで、世界に広く普及している。 多くのアプリケーションでは、状況の効果的な理解とインタラクティブエージェントの正確な軌道予測が意思決定や計画といった下流タスクにおいて重要な役割を果たす。 本稿では,多種多種多様な対話エージェント間の潜在相互作用グラフによる関係構造認識と予測を行う汎用的軌道予測フレームワーク(EvolveGraph)を提案する。 将来の行動の不確実性を考慮すると、モデルはマルチモーダルな予測仮説を提供するように設計されている。 基礎となる相互作用は急変しても進化する可能性があり、進化の異なるモダリティは異なる結果をもたらす可能性があるため、動的な関係推論と適応的に相互作用グラフを進化させる必要性に対処できる。 また,トレーニング効率の向上と収束の促進に加えて,モデル性能の向上を目的とした2段階のトレーニングパイプラインを導入する。 提案手法は, 各種領域における物理シミュレーションと実世界の複数のベンチマークデータセットを用いて評価する。 実験結果から,本手法は予測精度の点で最先端性能を実現することを示す。

Multi-agent interacting systems are prevalent in the world, from pure physical systems to complicated social dynamic systems. In many applications, effective understanding of the situation and accurate trajectory prediction of interactive agents play a significant role in downstream tasks, such as decision making and planning. In this paper, we propose a generic trajectory forecasting framework (named EvolveGraph) with explicit relational structure recognition and prediction via latent interaction graphs among multiple heterogeneous, interactive agents. Considering the uncertainty of future behaviors, the model is designed to provide multi-modal prediction hypotheses. Since the underlying interactions may evolve even with abrupt changes, and different modalities of evolution may lead to different outcomes, we address the necessity of dynamic relational reasoning and adaptively evolving the interaction graphs. We also introduce a double-stage training pipeline which not only improves training efficiency and accelerates convergence, but also enhances model performance. The proposed framework is evaluated on both synthetic physics simulations and multiple real-world benchmark datasets in various areas. The experimental results illustrate that our approach achieves state-of-the-art performance in terms of prediction accuracy.
翻訳日:2022-12-18 00:38:13 公開日:2020-10-22
# CNNに基づく距離予測とグラフベースのマッチング戦略を用いたセルセグメンテーションと追跡

Cell Segmentation and Tracking using CNN-Based Distance Predictions and a Graph-Based Matching Strategy ( http://arxiv.org/abs/2004.01486v4 )

ライセンス: Link先を確認
Tim Scherr, Katharina L\"offler, Moritz B\"ohland, Ralf Mikut(参考訳) 顕微鏡画像シーケンス中の細胞の正確なセグメンテーションと追跡は、例えば組織、臓器または有機体全体の発達を研究するための生体医学研究において重要なタスクである。 しかし、信号対雑音比の低い画像における接触細胞のセグメンテーションは依然として難しい問題である。 本稿では,顕微鏡画像における接触細胞のセグメンテーション法を提案する。 距離マップにインスパイアされた新しい細胞境界の表現を用いることで, 触覚細胞だけでなく, 近接細胞をトレーニングプロセスで利用することができる。 さらに、この表現は、アノテーションエラーに対して顕著に堅牢であり、未表現または未含の細胞型を含むトレーニングデータに含まれる顕微鏡画像のセグメンテーションに対して有望な結果を示す。 提案した近接距離の予測には、2つのデコーダパスを持つ適応型U-Net畳み込みニューラルネットワーク(CNN)を用いる。 さらに,提案手法をセルトラッキングの課題に適用するために,グラフベースのセルトラッキングアルゴリズムを適用した。 適応された追跡アルゴリズムは、コスト関数の移動推定を含み、短いフレーム列にセグメントマスクを欠いたトラックをリリンクする。 我々は, IEEE ISBI 2020 Cell Tracking Challenge (http://celltrackingchallenge.net/) において, KIT-Sch-GEチームとして, 多様なデータセットを対象とした単一セグメンテーションモデルを用いた2つのトップパフォーマンスを含む3つのランキングを達成した。

The accurate segmentation and tracking of cells in microscopy image sequences is an important task in biomedical research, e.g., for studying the development of tissues, organs or entire organisms. However, the segmentation of touching cells in images with a low signal-to-noise-ratio is still a challenging problem. In this paper, we present a method for the segmentation of touching cells in microscopy images. By using a novel representation of cell borders, inspired by distance maps, our method is capable to utilize not only touching cells but also close cells in the training process. Furthermore, this representation is notably robust to annotation errors and shows promising results for the segmentation of microscopy images containing in the training data underrepresented or not included cell types. For the prediction of the proposed neighbor distances, an adapted U-Net convolutional neural network (CNN) with two decoder paths is used. In addition, we adapt a graph-based cell tracking algorithm to evaluate our proposed method on the task of cell tracking. The adapted tracking algorithm includes a movement estimation in the cost function to re-link tracks with missing segmentation masks over a short sequence of frames. Our combined tracking by detection method has proven its potential in the IEEE ISBI 2020 Cell Tracking Challenge (http://celltrackingchallenge.net/) where we achieved as team KIT-Sch-GE multiple top three rankings including two top performances using a single segmentation model for the diverse data sets.
翻訳日:2022-12-17 04:36:41 公開日:2020-10-22
# 一般連続学習のための暗黒体験--強固でシンプルなベースライン

Dark Experience for General Continual Learning: a Strong, Simple Baseline ( http://arxiv.org/abs/2004.07211v2 )

ライセンス: Link先を確認
Pietro Buzzega, Matteo Boschini, Angelo Porrello, Davide Abati, Simone Calderara(参考訳) 継続的学習は多くのアプローチと評価設定に影響を与えているが、その大半は、データストリームがタスクのシーケンスとして形作られず、オフライントレーニングが実行不可能である、実用的なシナリオの性質を見落としている。 タスク境界がぼやけ、ドメインとクラス分布が徐々にあるいは突然にシフトする、一般的な連続学習(gcl)に取り組んでいます。 我々の単純なベースラインであるダーク・エクスペリエンス・リプレイは、最適化軌道を通じてサンプリングされたネットワークのロジットと一致し、過去との一貫性を促進する。 標準ベンチマークと新しいgcl評価設定(mnist-360)の両方を広範囲に分析することにより、このような単純なベースラインが統合アプローチよりも優れ、限られた資源を活用できることを示した。 我々は、目的の一般化能力をさらに探求し、その正規化は単なるパフォーマンス以上の有益であることを示す。

Continual Learning has inspired a plethora of approaches and evaluation settings; however, the majority of them overlooks the properties of a practical scenario, where the data stream cannot be shaped as a sequence of tasks and offline training is not viable. We work towards General Continual Learning (GCL), where task boundaries blur and the domain and class distributions shift either gradually or suddenly. We address it through mixing rehearsal with knowledge distillation and regularization; our simple baseline, Dark Experience Replay, matches the network's logits sampled throughout the optimization trajectory, thus promoting consistency with its past. By conducting an extensive analysis on both standard benchmarks and a novel GCL evaluation setting (MNIST-360), we show that such a seemingly simple baseline outperforms consolidated approaches and leverages limited resources. We further explore the generalization capabilities of our objective, showing its regularization being beneficial beyond mere performance.
翻訳日:2022-12-13 02:55:47 公開日:2020-10-22
# LNMap: 潜時空間における非線形マッピングによるバイリンガル語彙誘導における同型推定からの逸脱

LNMap: Departures from Isomorphic Assumption in Bilingual Lexicon Induction Through Non-Linear Mapping in Latent Space ( http://arxiv.org/abs/2004.13889v2 )

ライセンス: Link先を確認
Tasnim Mohiuddin, M Saiful Bari, and Shafiq Joty(参考訳) bli(bilingual lexicon induction)の成功法と支配的手法のほとんどはマッピングベースであり、線形写像関数は、異なる言語の単語埋め込み空間が類似した幾何学的構造(すなわち、概同型)を示すと仮定して学習される。 しかし、近年のいくつかの研究は、近縁言語でも一般的には成立しないという単純な仮定を批判している。 本稿では,bliの言語間埋め込みを学ぶための,新しい半教師付き手法を提案する。 我々のモデルは同型仮定とは独立であり、2つの独立に訓練されたオートエンコーダの潜在空間における非線形写像を用いる。 資源豊かで低リソースな言語を2つのデータセットから構成した15の異なる言語対(両方向)に関する広範な実験を通じて,本手法が既存のモデルよりも優れた性能を示すことを示す。 アブレーション研究は、異なるモデル成分の重要性と非線形マッピングの必要性を示している。

Most of the successful and predominant methods for bilingual lexicon induction (BLI) are mapping-based, where a linear mapping function is learned with the assumption that the word embedding spaces of different languages exhibit similar geometric structures (i.e., approximately isomorphic). However, several recent studies have criticized this simplified assumption showing that it does not hold in general even for closely related languages. In this work, we propose a novel semi-supervised method to learn cross-lingual word embeddings for BLI. Our model is independent of the isomorphic assumption and uses nonlinear mapping in the latent space of two independently trained auto-encoders. Through extensive experiments on fifteen (15) different language pairs (in both directions) comprising resource-rich and low-resource languages from two different datasets, we demonstrate that our method outperforms existing models by a good margin. Ablation studies show the importance of different model components and the necessity of non-linear mapping.
翻訳日:2022-12-08 22:17:10 公開日:2020-10-22
# 役に立つ批評を学ぶには? モデルベースアクション・gradient-estimatorポリシー最適化

How to Learn a Useful Critic? Model-based Action-Gradient-Estimator Policy Optimization ( http://arxiv.org/abs/2004.14309v2 )

ライセンス: Link先を確認
Pierluca D'Oro, Wojciech Ja\'skowski(参考訳) 連続制御のための決定論的・政治的アクター批判アルゴリズムは、アクターの動作を批評家にプラグインし、アクターのジャコビアン行列を入力アクションの勾配にチェーンすることで得られるアクション値勾配を上昇させることによりアクターを改善する。 しかし、グラデーションの代わりに、批評家は通常、期待されるリターンを正確に予測するように訓練されているだけであり、それ自体は政策最適化には役に立たない。 本稿では,行動-価値勾配を明示的に学習する政策勾配の理論に基づくモデルに基づくアクター-クリティックアルゴリズムであるmageを提案する。 MAGEは、時間差学習において勾配目標を計算するために学習力学を通して逆伝播し、政策改善のために調整された批評家に繋がる。 一連のムジョコ連続制御タスクについて,モデルフリーおよびモデルベースベースラインと比較して,アルゴリズムの効率性を示す。

Deterministic-policy actor-critic algorithms for continuous control improve the actor by plugging its actions into the critic and ascending the action-value gradient, which is obtained by chaining the actor's Jacobian matrix with the gradient of the critic with respect to input actions. However, instead of gradients, the critic is, typically, only trained to accurately predict expected returns, which, on their own, are useless for policy optimization. In this paper, we propose MAGE, a model-based actor-critic algorithm, grounded in the theory of policy gradients, which explicitly learns the action-value gradient. MAGE backpropagates through the learned dynamics to compute gradient targets in temporal difference learning, leading to a critic tailored for policy improvement. On a set of MuJoCo continuous-control tasks, we demonstrate the efficiency of the algorithm in comparison to model-free and model-based state-of-the-art baselines.
翻訳日:2022-12-08 10:17:03 公開日:2020-10-22
# 凝縮映画:文脈埋め込みによるストーリーベース検索

Condensed Movies: Story Based Retrieval with Contextual Embeddings ( http://arxiv.org/abs/2005.04208v2 )

ライセンス: Link先を確認
Max Bain, Arsha Nagrani, Andrew Brown, Andrew Zisserman(参考訳) この作品の目標は、映画の物語構造を長距離に理解することである。 映画全体を考える代わりに、映画の「キーシーン」から学び、完全なストーリーラインを凝縮して見ることを提案する。 この目的のために、以下の3つの貢献をしている。 (i)各シーンには、シーンの高レベルな意味的記述、キャラクターの対面トラック、映画に関するメタデータが付随する、3k映画からの重要場面からなるコンデンス映画データセット(cmd)を作成する。 データセットはスケーラブルで、YouTubeから自動的に取得され、誰でもダウンロードして利用できる。 また、映画数において、既存の映画データセットよりも桁違いに大きい。 (ii) データセット上でのテキスト・ビデオ検索のためのディープネットワークベースラインを提供し、文字・音声・視覚的手がかりを1つのビデオ埋め込みに組み合わせ、そして最後に (iii)他のビデオクリップからのコンテキストの追加により検索性能が向上することを示す。

Our objective in this work is long range understanding of the narrative structure of movies. Instead of considering the entire movie, we propose to learn from the `key scenes' of the movie, providing a condensed look at the full storyline. To this end, we make the following three contributions: (i) We create the Condensed Movies Dataset (CMD) consisting of the key scenes from over 3K movies: each key scene is accompanied by a high level semantic description of the scene, character face-tracks, and metadata about the movie. The dataset is scalable, obtained automatically from YouTube, and is freely available for anybody to download and use. It is also an order of magnitude larger than existing movie datasets in the number of movies; (ii) We provide a deep network baseline for text-to-video retrieval on our dataset, combining character, speech and visual cues into a single video embedding; and finally (iii) We demonstrate how the addition of context from other video clips improves retrieval performance.
翻訳日:2022-12-05 12:52:39 公開日:2020-10-22
# 潜在共通要因を有する時系列における因果特徴選択に必要な十分条件

Necessary and sufficient conditions for causal feature selection in time series with latent common causes ( http://arxiv.org/abs/2005.08543v3 )

ライセンス: Link先を確認
Atalanti A. Mastakouri, Bernhard Sch\"olkopf, Dominik Janzing(参考訳) 時系列における直接的および間接的原因の同定と潜在変数の存在下での条件について検討し,いくつかのグラフ制約下で必要十分であることが証明された。 我々の理論結果と推定アルゴリズムは, 観測対象時系列の原因であるか否かを判定するために, 観測対象時系列毎に2つの条件独立性テストを必要とする。 実データと同様にシミュレーションでの実験結果を提供する。 以上の結果より,本手法は極めて低い偽陽性率と比較的低い偽陰性率をもたらすことが示唆された。

We study the identification of direct and indirect causes on time series and provide conditions in the presence of latent variables, which we prove to be necessary and sufficient under some graph constraints. Our theoretical results and estimation algorithms require two conditional independence tests for each observed candidate time series to determine whether or not it is a cause of an observed target time series. We provide experimental results in simulations, as well as real data. Our results show that our method leads to very low false positives and relatively low false negative rates, outperforming the widely used Granger causality.
翻訳日:2022-12-02 00:06:15 公開日:2020-10-22
# カラービジュアルイリュージョン:統計に基づく計算モデル

Color Visual Illusions: A Statistics-based Computational Model ( http://arxiv.org/abs/2005.08772v2 )

ライセンス: Link先を確認
Elad Hirsch, Ayellet Tal(参考訳) 視覚錯視は、神経科学の入力駆動パラダイムによって議論されているように、現実世界の画像のパッチの可能性によって説明できる。 しかし、これらの説明を広く支持するデータもツールも過去には存在しなかった。 ビッグデータの時代は、入力駆動アプローチを研究する新しい機会を開く。 大規模なデータセットから学ぶと、パッチの可能性を計算するツールを導入します。 このツールを応用して,アプローチを支援するモデルを提案し,光度と色覚の錯覚を統一的に説明する。 さらに,本モデルでは,同じツールを用いて自然画像の視覚錯覚を逆方向に生成する。

Visual illusions may be explained by the likelihood of patches in real-world images, as argued by input-driven paradigms in Neuro-Science. However, neither the data nor the tools existed in the past to extensively support these explanations. The era of big data opens a new opportunity to study input-driven approaches. We introduce a tool that computes the likelihood of patches, given a large dataset to learn from. Given this tool, we present a model that supports the approach and explains lightness and color visual illusions in a unified manner. Furthermore, our model generates visual illusions in natural images, by applying the same tool, reversely.
翻訳日:2022-12-01 23:58:47 公開日:2020-10-22
# 安定かつ表現的繰り返し視覚モデル

Stable and expressive recurrent vision models ( http://arxiv.org/abs/2005.11362v2 )

ライセンス: Link先を確認
Drew Linsley, Alekh Karkada Ashok, Lakshmi Narasimhan Govindarajan, Rex Liu, and Thomas Serre(参考訳) プライメートビジョンは、信頼できる知覚のために繰り返し処理に依存する。 文献の増大は、リカレント接続が古典的なコンピュータビジョン課題における視覚モデルの学習効率と一般化を改善することを示唆している。 なぜ、現在の大規模な課題はフィードフォワードネットワークに支配されているのか? 我々は,nステップモデルの学習にo(n)メモリ複雑度を有する"back-propagation through time"(bptt)という標準アルゴリズムによって,反復的視覚モデルの有効性がボトルネックとなっていることを実証する。 したがって、リカレントビジョンモデルの設計はメモリ制約によって制限され、フィードフォワードモデルの膨大なキャパシティと競合するか、粒度と複雑なダイナミクスによってこの欠陥を補うかの選択肢が選択される。 本稿では,反復処理のステップでo(1)メモリ複雑度を一定にすることで,これらの問題を緩和する新しい学習アルゴリズム「contractor recurrent back-propagation(c-rbp)」を開発した。 BPTT学習モデルでは不可能な合成輪郭追跡タスクにおいて,C-RBPでトレーニングした繰り返し視覚モデルが長距離空間依存性を検出することを実証した。 さらに,c-rbpで訓練された再帰的視覚モデルを用いて,大容量のパオプティカルセグメンテーションms-cocoチャレンジが,自由パラメータの少ない先行フィードフォワードアプローチよりも優れていることを示す。 C-RBPは、拡張的リカレントダイナミクスの恩恵を受けるあらゆるアプリケーションのための汎用学習アルゴリズムである。 コードとデータはhttps://github.com/c-rbp.com/で入手できる。

Primate vision depends on recurrent processing for reliable perception. A growing body of literature also suggests that recurrent connections improve the learning efficiency and generalization of vision models on classic computer vision challenges. Why then, are current large-scale challenges dominated by feedforward networks? We posit that the effectiveness of recurrent vision models is bottlenecked by the standard algorithm used for training them, "back-propagation through time" (BPTT), which has O(N) memory-complexity for training an N step model. Thus, recurrent vision model design is bounded by memory constraints, forcing a choice between rivaling the enormous capacity of leading feedforward models or trying to compensate for this deficit through granular and complex dynamics. Here, we develop a new learning algorithm, "contractor recurrent back-propagation" (C-RBP), which alleviates these issues by achieving constant O(1) memory-complexity with steps of recurrent processing. We demonstrate that recurrent vision models trained with C-RBP can detect long-range spatial dependencies in a synthetic contour tracing task that BPTT-trained models cannot. We further show that recurrent vision models trained with C-RBP to solve the large-scale Panoptic Segmentation MS-COCO challenge outperform the leading feedforward approach, with fewer free parameters. C-RBP is a general-purpose learning algorithm for any application that can benefit from expansive recurrent dynamics. Code and data are available at https://github.com/c-rbp.
翻訳日:2022-11-30 08:41:34 公開日:2020-10-22
# 予測的不確実性を改善する構造的な深いガウス過程

Beyond the Mean-Field: Structured Deep Gaussian Processes Improve the Predictive Uncertainties ( http://arxiv.org/abs/2005.11110v2 )

ライセンス: Link先を確認
Jakob Lindinger, David Reeb, Christoph Lippert, Barbara Rakitsch(参考訳) 深いガウス過程は複数のガウス過程をカスケードすることで教師あり学習のための確率的データ表現を学ぶ。 このモデルファミリーは柔軟な予測分布を約束しているが、正確な推論はできない。 近似推論技術は、収束の速度と計算効率に対して後方分布と密接に類似する能力を交換する。 我々は,すべてのグローバル潜在変数をマージングアウトすることで高速収束を達成しつつ,潜在過程間の共分散を維持できるガウス変分系を提案する。 この限界化が一般の共分散に対してどのようにできるのかを証明した後、計算効率を達成するために経験的に最も重要であると分かったものに制限します。 新しいアプローチの効率的な実装を提供し、いくつかのベンチマークデータセットに適用します。 優れた結果をもたらし、最先端の代替品よりも精度とキャリブレーションされた不確実性推定とのバランスが良くなる。

Deep Gaussian Processes learn probabilistic data representations for supervised learning by cascading multiple Gaussian Processes. While this model family promises flexible predictive distributions, exact inference is not tractable. Approximate inference techniques trade off the ability to closely resemble the posterior distribution against speed of convergence and computational efficiency. We propose a novel Gaussian variational family that allows for retaining covariances between latent processes while achieving fast convergence by marginalising out all global latent variables. After providing a proof of how this marginalisation can be done for general covariances, we restrict them to the ones we empirically found to be most important in order to also achieve computational efficiency. We provide an efficient implementation of our new approach and apply it to several benchmark datasets. It yields excellent results and strikes a better balance between accuracy and calibrated uncertainty estimates than its state-of-the-art alternatives.
翻訳日:2022-11-30 08:31:31 公開日:2020-10-22
# 事前学習モデルと音声強調を用いた低資源話者のための雑音ロバストTS

Noise Robust TTS for Low Resource Speakers using Pre-trained Model and Speech Enhancement ( http://arxiv.org/abs/2005.12531v2 )

ライセンス: Link先を確認
Dongyang Dai, Li Chen, Yuping Wang, Mu Wang, Rui Xia, Xuchen Song, Zhiyong Wu, Yuxuan Wang(参考訳) ディープニューラルネットワークの普及により、音声合成タスクは、近年、エンドツーエンドエンコーダ-デコーダフレームワークに基づいて大幅に改善されている。 音声合成技術を活用した応用が、私たちの日常生活で広く利用されている。 ロバスト音声合成モデルは、多くの収集作業を必要とする高品質でカスタマイズされたデータに依存する。 パーソナライズされた音声の合成にインターネットから容易に得ることができる低品質で低リソースな音声データを活用する方法について検討する価値がある。 本稿では,話者埋め込みと雑音表現をそれぞれモデル話者と雑音情報に対する条件入力として用いたエンドツーエンド音声合成モデルを提案する。 まず、音声合成モデルをマルチスピーカクリーンなデータとノイズの多い拡張データの両方で事前訓練し、次に、ノイズの多い低リソースな新しい話者データに事前学習モデルを適応させ、最後に、クリーンな音声条件を設定することにより、新しい話者のクリーンな音声を合成することができる。 実験結果から,提案手法により生成した音声は,事前学習した複数話者音声合成モデルを直接微調整する手法よりも,主観評価が優れていることがわかった。

With the popularity of deep neural network, speech synthesis task has achieved significant improvements based on the end-to-end encoder-decoder framework in the recent days. More and more applications relying on speech synthesis technology have been widely used in our daily life. Robust speech synthesis model depends on high quality and customized data which needs lots of collecting efforts. It is worth investigating how to take advantage of low-quality and low resource voice data which can be easily obtained from the Internet for usage of synthesizing personalized voice. In this paper, the proposed end-to-end speech synthesis model uses both speaker embedding and noise representation as conditional inputs to model speaker and noise information respectively. Firstly, the speech synthesis model is pre-trained with both multi-speaker clean data and noisy augmented data; then the pre-trained model is adapted on noisy low-resource new speaker data; finally, by setting the clean speech condition, the model can synthesize the new speaker's clean voice. Experimental results show that the speech generated by the proposed approach has better subjective evaluation results than the method directly fine-tuning pre-trained multi-speaker speech synthesis model with denoised new speaker data.
翻訳日:2022-11-28 23:37:50 公開日:2020-10-22
# スペクトル領域における機械学習

Machine learning in spectral domain ( http://arxiv.org/abs/2005.14436v2 )

ライセンス: Link先を確認
Lorenzo Giambagli, Lorenzo Buffoni, Timoteo Carletti, Walter Nocentini, Duccio Fanelli(参考訳) ディープニューラルネットワークは通常、適切な最適化プロトコルを介して既存のリンクの重みを調整することで、ノードの空間でトレーニングされる。 本稿では,学習過程を相互空間に固定する,根本的に新しいアプローチを提案する。 具体的には、トレーニングはスペクトル領域に作用し、直接空間における移動作用素の固有値と固有ベクトルを修正しようとする。 提案手法はダクタブルであり、線形あるいは非線形の分類器を返すように調整できる。 固有値の調整は、固有ベクトルエントリを凍結するときに、標準メソッド {\it restricted} で得られるものよりも優れたパフォーマンスを、同じ数の自由パラメータで操作させる。 固有値のチューニングは、実際にニューラルネットワークのグローバルなトレーニングの実行に対応しており、効果的な情報処理が依存する集合モードの促進(参照阻害)を行う手順である。 これは、対リンクに関連する重みの局所的な変調を実装する学習に対する通常のアプローチと異なる。 興味深いことに、固有値に制限されたスペクトル学習は、ニューラルネットワークを直接空間でトレーニングする際に得られる予測された重みの分布を、チューニングすべきパラメータに制限なく返す。 このことから, 固有値に結合したスペクトル学習は, 従来の機械学習手法と併用して, 深層ニューラルネットワークの事前学習にも応用できると考えられた。 固有ベクトルを異なる非直交基底に変えることで、直接空間におけるネットワークのトポロジーが変化し、例えば貯水池計算のような他のフレームワークにスペクトル学習戦略をエクスポートすることができる。

Deep neural networks are usually trained in the space of the nodes, by adjusting the weights of existing links via suitable optimization protocols. We here propose a radically new approach which anchors the learning process to reciprocal space. Specifically, the training acts on the spectral domain and seeks to modify the eigenvalues and eigenvectors of transfer operators in direct space. The proposed method is ductile and can be tailored to return either linear or non-linear classifiers. Adjusting the eigenvalues, when freezing the eigenvectors entries, yields performances which are superior to those attained with standard methods {\it restricted} to a operate with an identical number of free parameters. Tuning the eigenvalues correspond in fact to performing a global training of the neural network, a procedure which promotes (resp. inhibits) collective modes on which an effective information processing relies. This is at variance with the usual approach to learning which implements instead a local modulation of the weights associated to pairwise links. Interestingly, spectral learning limited to the eigenvalues returns a distribution of the predicted weights which is close to that obtained when training the neural network in direct space, with no restrictions on the parameters to be tuned. Based on the above, it is surmised that spectral learning bound to the eigenvalues could be also employed for pre-training of deep neural networks, in conjunction with conventional machine-learning schemes. Changing the eigenvectors to a different non-orthogonal basis alters the topology of the network in direct space and thus allows to export the spectral learning strategy to other frameworks, as e.g. reservoir computing.
翻訳日:2022-11-26 23:04:04 公開日:2020-10-22
# クープマン演算子理論によるニューラルネットワークの最適化

Optimizing Neural Networks via Koopman Operator Theory ( http://arxiv.org/abs/2006.02361v3 )

ライセンス: Link先を確認
Akshunna S. Dogra, William T Redman(参考訳) 非線形力学系の基盤となるダイナミクスを発見するための強力なフレームワークであるクープマン作用素理論は、最近ニューラルネットワークのトレーニングと密接に関連していることが示されている。 この作業では、この接続を利用するための第一歩を踏み出します。 クープマン作用素理論は線形理論であるため、ネットワーク重みとバイアスの進化におけるその実装の成功は、特に最適化が本質的に非凸問題であるディープネットワークの文脈において、加速トレーニングの約束を提供する。 クープマン演算子理論法は,非自明な訓練時間におけるフィードフォワード,完全連結深層ネットワークの重みとバイアスの正確な予測を可能にする。 このウィンドウで、我々のアプローチは、複雑性解析に従って、様々な勾配降下法(例えばAdam、Adadelta、Adagrad)よりも10倍高速であることがわかった。 最後に、動的システムとニューラルネットワーク理論のこのエキサイティングな交叉において、オープンな疑問を強調する。 今後の課題として,ネットワークの幅広いクラスと,より多くのトレーニングインターバルに結果を拡大するための追加手法を強調する。

Koopman operator theory, a powerful framework for discovering the underlying dynamics of nonlinear dynamical systems, was recently shown to be intimately connected with neural network training. In this work, we take the first steps in making use of this connection. As Koopman operator theory is a linear theory, a successful implementation of it in evolving network weights and biases offers the promise of accelerated training, especially in the context of deep networks, where optimization is inherently a non-convex problem. We show that Koopman operator theoretic methods allow for accurate predictions of weights and biases of feedforward, fully connected deep networks over a non-trivial range of training time. During this window, we find that our approach is >10x faster than various gradient descent based methods (e.g. Adam, Adadelta, Adagrad), in line with our complexity analysis. We end by highlighting open questions in this exciting intersection between dynamical systems and neural network theory. We highlight additional methods by which our results could be expanded to broader classes of networks and larger training intervals, which shall be the focus of future work.
翻訳日:2022-11-25 18:02:08 公開日:2020-10-22
# 視覚知覚のためのテクスチャ補間

Texture Interpolation for Probing Visual Perception ( http://arxiv.org/abs/2006.03698v2 )

ライセンス: Link先を確認
Jonathan Vacher, Aida Davila, Adam Kohn, Ruben Coen-Cagli(参考訳) テクスチャ合成モデルは視覚処理を理解するための重要なツールである。 特に、神経関連の特徴に基づく統計的アプローチは、視覚知覚やニューラルコーディングの側面を理解するのに役立っている。 新しいディープラーニングベースのアプローチは、合成テクスチャの品質をさらに向上させる。 しかし、なぜ深いテクスチャ合成が上手く機能するのかはいまだ不明であり、この新しい枠組みの視覚知覚を探索するための応用は少ない。 本稿では, テクスチャの深層畳み込みニューラルネットワーク(cnn)活性化の分布を楕円分布によりよく記述するので, 最適輸送理論に従えば, それらの平均と共分散の制約は新たなテクスチャサンプルを生成するのに十分であることを示す。 次に,任意のテクスチャ間を補間するために,最適移動距離から生じる自然測地線(すなわち2点間の最短経路)を提案する。 他のcnnベースのアプローチと比較して、この補間法はテクスチャ知覚の幾何学とより密接に一致しているように見え、我々の数学的枠組みはその統計的性質を研究するのに適している。 人間の観察者における補間パラメータに関連する知覚尺度と、マカクザルの視覚野の異なる領域の神経感度を計測し、本手法を適用した。

Texture synthesis models are important tools for understanding visual processing. In particular, statistical approaches based on neurally relevant features have been instrumental in understanding aspects of visual perception and of neural coding. New deep learning-based approaches further improve the quality of synthetic textures. Yet, it is still unclear why deep texture synthesis performs so well, and applications of this new framework to probe visual perception are scarce. Here, we show that distributions of deep convolutional neural network (CNN) activations of a texture are well described by elliptical distributions and therefore, following optimal transport theory, constraining their mean and covariance is sufficient to generate new texture samples. Then, we propose the natural geodesics (ie the shortest path between two points) arising with the optimal transport metric to interpolate between arbitrary textures. Compared to other CNN-based approaches, our interpolation method appears to match more closely the geometry of texture perception, and our mathematical framework is better suited to study its statistical nature. We apply our method by measuring the perceptual scale associated to the interpolation parameter in human observers, and the neural sensitivity of different areas of visual cortex in macaque monkeys.
翻訳日:2022-11-25 04:19:36 公開日:2020-10-22
# リプシッツ境界とラプラシアン平滑化によるロバストトレーニング

Lipschitz Bounds and Provably Robust Training by Laplacian Smoothing ( http://arxiv.org/abs/2006.03712v3 )

ライセンス: Link先を確認
Vishaal Krishnan, Abed AlRahman Al Makdah, Fabio Pasqualetti(参考訳) 本研究では,逆摂動に対する堅牢性を証明可能なモデルで学習するグラフベースの学習フレームワークを提案する。 正規化に基づくアプローチとは対照的に、逆ロバストな学習問題をリプシッツ制約付き損失最小化の一つとして定式化し、関連するラグランジアンの鞍点が重み付きラプラス作用素を持つポアソン方程式によって特徴づけられることを示した。 さらに、ラプラス作用素の重み付けはリプシッツ制約に対するラグランジュ乗算器によって与えられ、これは摂動に対する最小子の感度を変調する。 次に、入力空間のグラフに基づく離散化とラグランジアンの鞍点に収束する原始双対アルゴリズムを用いて、証明可能なロバストなトレーニングスキームを設計する。 本分析は,制約強化重み付けと対角学習による楕円演算子間の新たな関係を確立する。 また,リプシッツ定数の損失制約最小化問題として定式化した最小化器のロバスト性向上に関する予備問題についても検討した。 そこで我々は, 勾配$p$-norm最小化問題を用いて, リプシッツ定数最小化に近づき, 基本リプシッツ下限値を評価する手法を提案する。 結論として, 目的とする名目性能に対して, 損失関数とデータ分布のみに依存する逆摂動に対する感度に根本的な限界があること, そして, この限界を超える堅牢性の改善は名目性能を犠牲にしてのみ達成できることを示した。 我々のトレーニングスキームは、性能の制約と−損益性の両方で、これらの境界を確実に達成します。

In this work we propose a graph-based learning framework to train models with provable robustness to adversarial perturbations. In contrast to regularization-based approaches, we formulate the adversarially robust learning problem as one of loss minimization with a Lipschitz constraint, and show that the saddle point of the associated Lagrangian is characterized by a Poisson equation with weighted Laplace operator. Further, the weighting for the Laplace operator is given by the Lagrange multiplier for the Lipschitz constraint, which modulates the sensitivity of the minimizer to perturbations. We then design a provably robust training scheme using graph-based discretization of the input space and a primal-dual algorithm to converge to the Lagrangian's saddle point. Our analysis establishes a novel connection between elliptic operators with constraint-enforced weighting and adversarial learning. We also study the complementary problem of improving the robustness of minimizers with a margin on their loss, formulated as a loss-constrained minimization problem of the Lipschitz constant. We propose a technique to obtain robustified minimizers, and evaluate fundamental Lipschitz lower bounds by approaching Lipschitz constant minimization via a sequence of gradient $p$-norm minimization problems. Ultimately, our results show that, for a desired nominal performance, there exists a fundamental lower bound on the sensitivity to adversarial perturbations that depends only on the loss function and the data distribution, and that improvements in robustness beyond this bound can only be made at the expense of nominal performance. Our training schemes provably achieve these bounds both under constraints on performance and~robustness.
翻訳日:2022-11-25 03:54:17 公開日:2020-10-22
# 予測と制御のための安定線形力学系のメモリ効率学習

Memory-Efficient Learning of Stable Linear Dynamical Systems for Prediction and Control ( http://arxiv.org/abs/2006.03937v3 )

ライセンス: Link先を確認
Giorgos Mamakoukas, Orest Xherija, and T. D. Murphey(参考訳) データから安定した線形力学系(lds)を学ぶには、再構成誤差を最小化し、学習した表現の安定性を強制するモデルを作成する必要がある。 安定なldss学習のための新しいアルゴリズムを提案する。 本稿では,安定行列の最近のキャラクタリゼーションを用いて,各ステップにおける安定性を確保し,勾配方向を用いた復元誤差を反復的に改善する最適化手法を提案する。 入力を持つldssに適用すると、現在の安定なldss学習法とは対照的に、状態と制御行列の両方を更新し、解空間を拡大し、再構成誤差の低いモデルを可能にする。 本研究では,画像系列から動的テクスチャの学習やロボットマニピュレータの制御など,シミュレーションや実験にアルゴリズムを適用した。 提案手法は,既存手法と比較して,復元誤差のオーダー・オブ・マグニチュード改善を実現し,制御性能の点で優れた結果が得られる。 さらに、O(n^2)空間の複雑さは競合する選択肢のO(n^4)と比べて明らかにメモリ効率が良く、他の方法が失敗すると高次元のシステムにスケールする。

Learning a stable Linear Dynamical System (LDS) from data involves creating models that both minimize reconstruction error and enforce stability of the learned representation. We propose a novel algorithm for learning stable LDSs. Using a recent characterization of stable matrices, we present an optimization method that ensures stability at every step and iteratively improves the reconstruction error using gradient directions derived in this paper. When applied to LDSs with inputs, our approach---in contrast to current methods for learning stable LDSs---updates both the state and control matrices, expanding the solution space and allowing for models with lower reconstruction error. We apply our algorithm in simulations and experiments to a variety of problems, including learning dynamic textures from image sequences and controlling a robotic manipulator. Compared to existing approaches, our proposed method achieves an orders-of-magnitude improvement in reconstruction error and superior results in terms of control performance. In addition, it is provably more memory-efficient, with an O(n^2) space complexity compared to O(n^4) of competing alternatives, thus scaling to higher-dimensional systems when the other methods fail.
翻訳日:2022-11-24 21:42:51 公開日:2020-10-22
# 連続学習とストリーミングのための2レベル最適化によるcoresets

Coresets via Bilevel Optimization for Continual Learning and Streaming ( http://arxiv.org/abs/2006.03875v2 )

ライセンス: Link先を確認
Zal\'an Borsos, Mojm\'ir Mutn\'y, Andreas Krause(参考訳) コアセットは、モデルトレーニングに十分な小さなデータ要約である。 リソース制約下での大規模データストリームの効率的な処理を可能にする。 しかし、既存の構成はk平均やロジスティック回帰のような単純なモデルに限られている。 本研究では,濃度制約付き二レベル最適化による新しいコアセット構成を提案する。 我々のフレームワークがディープニューラルネットワークのコアセットを効率的に生成できることを示し、連続学習やストリーミング設定における経験的メリットを示す。

Coresets are small data summaries that are sufficient for model training. They can be maintained online, enabling efficient handling of large data streams under resource constraints. However, existing constructions are limited to simple models such as k-means and logistic regression. In this work, we propose a novel coreset construction via cardinality-constrained bilevel optimization. We show how our framework can efficiently generate coresets for deep neural networks, and demonstrate its empirical benefits in continual learning and in streaming settings.
翻訳日:2022-11-24 21:06:05 公開日:2020-10-22
# DiffGCN: 微分演算子と代数的多重グリッドプールによるグラフ畳み込みネットワーク

DiffGCN: Graph Convolutional Networks via Differential Operators and Algebraic Multigrid Pooling ( http://arxiv.org/abs/2006.04115v2 )

ライセンス: Link先を確認
Moshe Eliasof, Eran Treister(参考訳) Graph Convolutional Networks(GCNs)は、ポイントクラウドやメッシュなどの非順序データの処理に有効であることが示されている。 本研究では,有限差分と代数的マルチグリッドフレームワークから着想を得た,グラフ畳み込み,プーリング,アンプールのための新しいアプローチを提案する。 我々は、離散化微分作用素に基づいて、グラフ質量、勾配およびラプラシアンを利用するパラメータ化畳み込みカーネルを形成する。 このように、パラメータ化はグラフ構造に依存しず、微分作用素としてのネットワーク畳み込みの意味にのみ依存する。 入力の階層的表現を可能にするために,非構造格子上の偏微分方程式を解くために主に用いられる代数的マルチグリッド法に基づくプーリングおよびアンプール演算を提案する。 提案手法のモチベーションと説明のために,標準的な畳み込みニューラルネットワークと比較し,通常の格子の場合の類似点と関係を示す。 提案手法は分類や部分分割などの様々な実験において, 技術結果よりも同等以上の結果が得られることを示す。 また,提案手法の計算コストを他のGCNと比較した。

Graph Convolutional Networks (GCNs) have shown to be effective in handling unordered data like point clouds and meshes. In this work we propose novel approaches for graph convolution, pooling and unpooling, inspired from finite differences and algebraic multigrid frameworks. We form a parameterized convolution kernel based on discretized differential operators, leveraging the graph mass, gradient and Laplacian. This way, the parameterization does not depend on the graph structure, only on the meaning of the network convolutions as differential operators. To allow hierarchical representations of the input, we propose pooling and unpooling operations that are based on algebraic multigrid methods, which are mainly used to solve partial differential equations on unstructured grids. To motivate and explain our method, we compare it to standard convolutional neural networks, and show their similarities and relations in the case of a regular grid. Our proposed method is demonstrated in various experiments like classification and part-segmentation, achieving on par or better than state of the art results. We also analyze the computational cost of our method compared to other GCNs.
翻訳日:2022-11-24 08:05:30 公開日:2020-10-22
# モンテカルロ法による深部能動推論剤

Deep active inference agents using Monte-Carlo methods ( http://arxiv.org/abs/2006.04176v2 )

ライセンス: Link先を確認
Zafeirios Fountas, Noor Sajid, Pedro A.M. Mediano, Karl Friston(参考訳) 能動推論は生物学的知性を理解するためのベイズ的枠組みである。 基礎となる理論は、自由エネルギーの最小化という一つの命令の下に知覚と行動をもたらす。 しかし、インテリジェンスを説明するための理論的有用性にもかかわらず、計算の実装は低次元および理想化された状況に限られている。 本稿では,複数形態のモンテカルロサンプリング(mc)を用いて,複雑な連続状態空間で動作する深層アクティブ推論エージェントを構築するためのニューラルアーキテクチャを提案する。 そこで我々は,能動的推論に斬新な手法をいくつか紹介する。 以下を含む。 i)mc木探索による自由エネルギー最適政策の選択 二 フィードフォワード「居住型」ネットワークを介してこの最適な政策分布を近似すること。 iii)mcドロップアウトと最後に、将来のパラメータ信念更新の予測 四 状態遷移精度(ハイエンドの注意形態)を最適化すること。 本手法により,エージェントは報酬ベースと関連するタスク性能を維持しつつ,効率的に環境力学を学ぶことができる。 dspritesデータセットに基づいた新しいトイ環境でこれを説明し、アクティブな推論エージェントが状態遷移のモデリングに適した不連続表現を自動的に生成することを示す。 より複雑な動物-ai環境では、エージェント(同じニューラルアーキテクチャを使用して)が将来の状態遷移やアクション(すなわち計画)をシミュレートし、視覚入力の一時的な停止を許す。 これらの結果は、MC手法を備えた深層能動推論が、生物学的にインスパイアされた知的エージェントを開発する柔軟なフレームワークを提供することを示している。

Active inference is a Bayesian framework for understanding biological intelligence. The underlying theory brings together perception and action under one single imperative: minimizing free energy. However, despite its theoretical utility in explaining intelligence, computational implementations have been restricted to low-dimensional and idealized situations. In this paper, we present a neural architecture for building deep active inference agents operating in complex, continuous state-spaces using multiple forms of Monte-Carlo (MC) sampling. For this, we introduce a number of techniques, novel to active inference. These include: i) selecting free-energy-optimal policies via MC tree search, ii) approximating this optimal policy distribution via a feed-forward `habitual' network, iii) predicting future parameter belief updates using MC dropouts and, finally, iv) optimizing state transition precision (a high-end form of attention). Our approach enables agents to learn environmental dynamics efficiently, while maintaining task performance, in relation to reward-based counterparts. We illustrate this in a new toy environment, based on the dSprites data-set, and demonstrate that active inference agents automatically create disentangled representations that are apt for modeling state transitions. In a more complex Animal-AI environment, our agents (using the same neural architecture) are able to simulate future state transitions and actions (i.e., plan), to evince reward-directed navigation - despite temporary suspension of visual input. These results show that deep active inference - equipped with MC methods - provides a flexible framework to develop biologically-inspired intelligent agents, with applications in both machine learning and cognitive science.
翻訳日:2022-11-24 07:47:30 公開日:2020-10-22
# BERT:早期退社による高速でロバストな推論

BERT Loses Patience: Fast and Robust Inference with Early Exit ( http://arxiv.org/abs/2006.04152v3 )

ライセンス: Link先を確認
Wangchunshu Zhou and Canwen Xu and Tao Ge and Julian McAuley and Ke Xu and Furu Wei(参考訳) 本稿では,プレトレーニング言語モデル(PLM)の効率性とロバスト性を同時に向上するプラグイン・アンド・プレイ手法として,簡単かつ効果的な推論手法であるPatience-based Early Exitを提案する。 そこで本手法では,PLMの各層に内部分類器を結合させ,事前定義されたステップ数に対して内部分類器の中間予測が変化しない場合の推論を動的に停止する。 我々のアプローチは、モデルを少ない層で予測できるため、推論効率を向上させる。 一方,albertモデルを用いた実験により,複数の分類器の過度な思考と予測の活用を防止し,既存手法と比較して精度と頑健性を向上させることができた。

In this paper, we propose Patience-based Early Exit, a straightforward yet effective inference method that can be used as a plug-and-play technique to simultaneously improve the efficiency and robustness of a pretrained language model (PLM). To achieve this, our approach couples an internal-classifier with each layer of a PLM and dynamically stops inference when the intermediate predictions of the internal classifiers remain unchanged for a pre-defined number of steps. Our approach improves inference efficiency as it allows the model to make a prediction with fewer layers. Meanwhile, experimental results with an ALBERT model show that our method can improve the accuracy and robustness of the model by preventing it from overthinking and exploiting multiple classifiers for prediction, yielding a better accuracy-speed trade-off compared to existing early exit methods.
翻訳日:2022-11-24 07:20:30 公開日:2020-10-22
# MiniVoxにおける完全オンライン学習問題としての話者ダイアリゼーション

Speaker Diarization as a Fully Online Learning Problem in MiniVox ( http://arxiv.org/abs/2006.04376v3 )

ライセンス: Link先を確認
Baihan Lin, Xinxin Zhang(参考訳) 完全オンライン学習環境において,事前登録や事前学習を行うことなく,リアルタイム多話者ダイアリゼーションと認識を行う機械学習フレームワークを提案する。 私たちの貢献は2倍です。 まず,完全オンライン話者ダイアリゼーション問題を評価するための新しいベンチマークを提案する。 マルチ話者音声ストリームの無限構成を生成する実験環境であるMiniVoxを自動的にキュレートするために,実世界の発話データセットを構築した。 次に,オンライン学習の実践的課題について考察し,半教師付き・自己教師型学習法に基づく解を導入した。 さらに,従来の腕の表現を拡張可能なコンテキストバンディットで新しいものに転送することで,新規ユーザの追加のコールドスタート問題を対話的に処理可能なwebベースの認識システムを提供する。 提案手法は,オンラインMiniVoxフレームワークにおいて頑健な性能を示した。

We proposed a novel machine learning framework to conduct real-time multi-speaker diarization and recognition without prior registration and pretraining in a fully online learning setting. Our contributions are two-fold. First, we proposed a new benchmark to evaluate the rarely studied fully online speaker diarization problem. We built upon existing datasets of real world utterances to automatically curate MiniVox, an experimental environment which generates infinite configurations of continuous multi-speaker speech stream. Second, we considered the practical problem of online learning with episodically revealed rewards and introduced a solution based on semi-supervised and self-supervised learning methods. Additionally, we provided a workable web-based recognition system which interactively handles the cold start problem of new user's addition by transferring representations of old arms to new ones with an extendable contextual bandit. We demonstrated that our proposed method obtained robust performance in the online MiniVox framework.
翻訳日:2022-11-24 00:06:41 公開日:2020-10-22
# mEBAL:アイリンク検出とアテンションレベル推定のためのマルチモーダルデータベース

mEBAL: A Multimodal Database for Eye Blink Detection and Attention Level Estimation ( http://arxiv.org/abs/2006.05327v2 )

ライセンス: Link先を確認
Roberto Daza, Aythami Morales, Julian Fierrez, Ruben Tolosana(参考訳) 本研究は,視線点滅検出と注意レベル推定のためのマルチモーダルデータベースであるmEBALを提案する。 点眼頻度は認知活動と関連しており、注意レベル推定、神経変性疾患の分析、誤認識、運転疲労検出、顔反偽造など多くのタスクに対して、点眼の自動検出が提案されている。 しかし、この分野の既存のデータベースやアルゴリズムのほとんどは、数百のサンプルと顔カメラのような個々のセンサーを含む実験に限られている。 提案するmEBALは,取得センサやサンプルの点から,従来のデータベースを改善している。 特に、顔のジェスチャーを捉えるNear Infrared(NIR)とRGBカメラと、ユーザの認知活動と点滅イベントを捉えるElectroencephalography(EEG)バンドの3つの異なるセンサーが同時に検討されている。 mEBALの規模については,38名の異なる学生から6000名のサンプルとそれに対応する注意レベルを抽出し,難易度の高いeラーニング課題を多数実施した。 mEBALの提示に加えて、以下の予備実験も実施する。 一 顔画像を用いた畳み込みニューラルネットワーク(cnn)による瞬目検出、及び 二 視線点滅頻度に基づく学生の注意レベル推定

This work presents mEBAL, a multimodal database for eye blink detection and attention level estimation. The eye blink frequency is related to the cognitive activity and automatic detectors of eye blinks have been proposed for many tasks including attention level estimation, analysis of neuro-degenerative diseases, deception recognition, drive fatigue detection, or face anti-spoofing. However, most existing databases and algorithms in this area are limited to experiments involving only a few hundred samples and individual sensors like face cameras. The proposed mEBAL improves previous databases in terms of acquisition sensors and samples. In particular, three different sensors are simultaneously considered: Near Infrared (NIR) and RGB cameras to capture the face gestures and an Electroencephalography (EEG) band to capture the cognitive activity of the user and blinking events. Regarding the size of mEBAL, it comprises 6,000 samples and the corresponding attention level from 38 different students while conducting a number of e-learning tasks of varying difficulty. In addition to presenting mEBAL, we also include preliminary experiments on: i) eye blink detection using Convolutional Neural Networks (CNN) with the facial images, and ii) attention level estimation of the students based on their eye blink frequency.
翻訳日:2022-11-23 15:30:00 公開日:2020-10-22
# インスタンス特異的ラベル平滑化としての自己蒸留

Self-Distillation as Instance-Specific Label Smoothing ( http://arxiv.org/abs/2006.05065v2 )

ライセンス: Link先を確認
Zhilu Zhang and Mert R. Sabuncu(参考訳) 近年,多世代自己蒸留が一般化を改善できることが実証されている。 この興味深い観察にもかかわらず、強化の理由はよく分かっていない。 本稿では,多世代自己蒸留の性能向上が教師の予測の多様性の増大に関連していることを実験的に実証する。 このことを念頭に置いて,教師の学習を記憶的MAP推定として解釈し,教師の予測がインスタンス固有の正規化を可能にする。 筆者らの枠組みは, 予測不確実性を規則化し, 予測不確実性に加えて, 予測多様性の重要性を示唆する手法であるラベルスムーシングに, 自己蒸留を理論的に関連付けることを可能にする。 複数のデータセットとニューラルネットワークアーキテクチャを用いて,予測多様性の有用性を示す実験結果を示す。 最後に、個別に訓練された教師モデルを必要としない予測的多様性を促進する新しいインスタンス固有ラベル平滑化手法を提案する。 提案手法の実証評価を行い,古典的なラベルの平滑化に優れることを示す。

It has been recently demonstrated that multi-generational self-distillation can improve generalization. Despite this intriguing observation, reasons for the enhancement remain poorly understood. In this paper, we first demonstrate experimentally that the improved performance of multi-generational self-distillation is in part associated with the increasing diversity in teacher predictions. With this in mind, we offer a new interpretation for teacher-student training as amortized MAP estimation, such that teacher predictions enable instance-specific regularization. Our framework allows us to theoretically relate self-distillation to label smoothing, a commonly used technique that regularizes predictive uncertainty, and suggests the importance of predictive diversity in addition to predictive uncertainty. We present experimental results using multiple datasets and neural network architectures that, overall, demonstrate the utility of predictive diversity. Finally, we propose a novel instance-specific label smoothing technique that promotes predictive diversity without the need for a separately trained teacher model. We provide an empirical evaluation of the proposed method, which, we find, often outperforms classical label smoothing.
翻訳日:2022-11-23 13:43:20 公開日:2020-10-22
# ランダム座標Descent-Langevin Monte Carloの可変化

Variance reduction for Random Coordinate Descent-Langevin Monte Carlo ( http://arxiv.org/abs/2006.06068v4 )

ライセンス: Link先を確認
Zhiyan Ding and Qin Li(参考訳) ログ・コンケーブ分布関数からのサンプリングはベイズ統計学や機械学習に広く応用されるコア問題である。 ほとんどの勾配自由法は収束速度が遅いが、高速収束を提供するランゲヴィン・モンテカルロ (LMC) は勾配の計算を必要とする。 実際には、有限差分近似を代理として使用し、高次元では高価である。 各イテレーションの計算コストを削減する自然な戦略は、ランダム座標降下(rcd)や同時摂動確率近似(spsa)のようなランダム勾配近似を利用することである。 盲目的にRCDを適用すると、最も一般的な設定では目標を達成できない反例を示す。 ランダム性によって引き起こされる高い分散は、より多くのイテレーションが必要であり、これによって各イテレーションの節約のバランスが取れます。 次に,無作為座標平均降下法(rcad)と呼ばれる新しい分散低減法を導入し,過減衰および過減衰lmcと組み込む。 RCAD-O-LMCとRCAD-U-LMCと呼ばれる。 これらの手法は依然としてランダム勾配近似の枠組みに置かれており、各反復の計算コストは低い。 しかし、rcadを使用することで分散が減少するので、従来の過減衰および過減衰したlmcと同じ反復数に収束する。 これは全体として計算の節約につながる。

Sampling from a log-concave distribution function is one core problem that has wide applications in Bayesian statistics and machine learning. While most gradient free methods have slow convergence rate, the Langevin Monte Carlo (LMC) that provides fast convergence requires the computation of gradients. In practice one uses finite-differencing approximations as surrogates, and the method is expensive in high-dimensions. A natural strategy to reduce computational cost in each iteration is to utilize random gradient approximations, such as random coordinate descent (RCD) or simultaneous perturbation stochastic approximation (SPSA). We show by a counter-example that blindly applying RCD does not achieve the goal in the most general setting. The high variance induced by the randomness means a larger number of iterations are needed, and this balances out the saving in each iteration. We then introduce a new variance reduction approach, termed Randomized Coordinates Averaging Descent (RCAD), and incorporate it with both overdamped and underdamped LMC. The methods are termed RCAD-O-LMC and RCAD-U-LMC respectively. The methods still sit in the random gradient approximation framework, and thus the computational cost in each iteration is low. However, by employing RCAD, the variance is reduced, so the methods converge within the same number of iterations as the classical overdamped and underdamped LMC. This leads to a computational saving overall.
翻訳日:2022-11-23 05:15:04 公開日:2020-10-22
# covid-19-ct-cxr:covid-19の胸部x線およびct画像集

COVID-19-CT-CXR: a freely accessible and weakly labeled chest X-ray and CT image collection on COVID-19 from biomedical literature ( http://arxiv.org/abs/2006.06177v2 )

ライセンス: Link先を確認
Yifan Peng, Yu-Xing Tang, Sungwon Lee, Yingying Zhu, Ronald M. Summers, Zhiyong Lu(参考訳) 世界保健の脅威は、新型コロナウイルスの感染拡大だ。 胸部X線 (CXR) とCTスキャン (CT) の大規模なデータセットが存在するが、患者のプライバシのために現在利用できる新型コロナウイルス画像コレクションはほとんどない。 同時に、バイオメディカル文献では、新型コロナウイルス関連記事が急速に増えている。 ここでは、新型コロナウイルスcxrとct画像の公開データベースであるcovid-19-ct-cxrを、pubmed central open access(pmc-oa)サブセットからcovid-19関連記事から自動的に抽出する。 記事中の図形,関連キャプション,関連図形記述を抽出し,複合図形をサブフィギュアに分離した。 また、他のフィギュアタイプと区別し、それに応じて分類する深層学習モデルも設計した。 最終データベースには1,327個のCTと263個のCXR画像(2020年5月9日現在)が含まれている。 COVID-19-CT-CXRの有用性を実証するために,4つのケーススタディを行った。 1) COVID-19-CT-CXRは、追加のトレーニングデータとして、インフルエンザと非インフルエンザの分類におけるDL性能の向上に寄与することが示され、(2) インフルエンザのCT画像を収集し、DLベースラインを訓練し、CT上のCOVID-19、インフルエンザまたは正常またはその他の種類の疾患の診断を識別すること、(3) 未診断の1クラス分類器を非新型コロナウイルスのCXRから訓練し、異常検出を行い、CXRを検出する。 (4) テキストマイニングキャプションと図形説明から, インフルエンザの臨床症状と臨床所見を比較し, 疾患の鑑別について検討した。 我々の研究は既存の資源を補完するものであり、新型コロナウイルスのパンデミックの医療画像分析に貢献できることを願っている。 データセット、コード、DLモデルはhttps://github.com/ncbi-nlp/COVID-19-CT-CXRで公開されている。

The latest threat to global health is the COVID-19 outbreak. Although there exist large datasets of chest X-rays (CXR) and computed tomography (CT) scans, few COVID-19 image collections are currently available due to patient privacy. At the same time, there is a rapid growth of COVID-19-relevant articles in the biomedical literature. Here, we present COVID-19-CT-CXR, a public database of COVID-19 CXR and CT images, which are automatically extracted from COVID-19-relevant articles from the PubMed Central Open Access (PMC-OA) Subset. We extracted figures, associated captions, and relevant figure descriptions in the article and separated compound figures into subfigures. We also designed a deep-learning model to distinguish them from other figure types and to classify them accordingly. The final database includes 1,327 CT and 263 CXR images (as of May 9, 2020) with their relevant text. To demonstrate the utility of COVID-19-CT-CXR, we conducted four case studies. (1) We show that COVID-19-CT-CXR, when used as additional training data, is able to contribute to improved DL performance for the classification of COVID-19 and non-COVID-19 CT. (2) We collected CT images of influenza and trained a DL baseline to distinguish a diagnosis of COVID-19, influenza, or normal or other types of diseases on CT. (3) We trained an unsupervised one-class classifier from non-COVID-19 CXR and performed anomaly detection to detect COVID-19 CXR. (4) From text-mined captions and figure descriptions, we compared clinical symptoms and clinical findings of COVID-19 vs. those of influenza to demonstrate the disease differences in the scientific publications. We believe that our work is complementary to existing resources and hope that it will contribute to medical image analysis of the COVID-19 pandemic. The dataset, code, and DL models are publicly available at https://github.com/ncbi-nlp/COVID-19-CT-CXR.
翻訳日:2022-11-22 14:26:03 公開日:2020-10-22
# 複雑環境における副作用の回避

Avoiding Side Effects in Complex Environments ( http://arxiv.org/abs/2006.06547v2 )

ライセンス: Link先を確認
Alexander Matt Turner, Neale Ratzlaff, Prasad Tadepalli(参考訳) 報酬関数の仕様は難しい場合がある。 ウィジェットを作るエージェントに報いるのは簡単だが、負の副作用の多さを罰することは難しい。 玩具環境では,ランダムに生成された目標を達成する能力のシフトをペナルティにすることで副作用を回避できる。 このアプローチをConwayのGame of Lifeに基づいて,大規模でランダムに生成された環境に拡張する。 1つのランダムに生成された報酬関数の最適値を保存することで、AUPはエージェントに指定されたタスクを完了させ、多くの副作用を避けるとともに、控えめなオーバーヘッドを発生させる。 ビデオとコードはhttps://avoiding-side- effectss.github.io/で入手できる。

Reward function specification can be difficult. Rewarding the agent for making a widget may be easy, but penalizing the multitude of possible negative side effects is hard. In toy environments, Attainable Utility Preservation (AUP) avoided side effects by penalizing shifts in the ability to achieve randomly generated goals. We scale this approach to large, randomly generated environments based on Conway's Game of Life. By preserving optimal value for a single randomly generated reward function, AUP incurs modest overhead while leading the agent to complete the specified task and avoid many side effects. Videos and code are available at https://avoiding-side-effects.github.io/.
翻訳日:2022-11-22 13:48:12 公開日:2020-10-22
# サブサンプル類似性クエリによるDBSCANの高速化

Faster DBSCAN via subsampled similarity queries ( http://arxiv.org/abs/2006.06743v2 )

ライセンス: Link先を確認
Heinrich Jiang, Jennifer Jang, Jakub {\L}\k{a}cki(参考訳) DBSCANは密度に基づくクラスタリングアルゴリズムとして人気がある。 データセットの$\epsilon$-neighborhoodグラフを計算し、高次ノードの接続されたコンポーネントを使用してクラスタを決定する。 しかし、全近傍グラフは、O(n^2)$の最悪の複雑性で計算するには高すぎるかもしれない。 本稿では,サブサンプルである$\epsilon$-neighborhoodグラフに基づいてクラスタをクラスタ化する,SNG-DBSCANという単純な変種を提案する。 手順のランタイムは$o(sn^2)$であり、$s$はサンプリングレートである。 いくつかの自然理論的な仮定の下で、$s \approx \log n/n$ は統計的クラスタ回復を保証するのに十分であることを示す。 大規模なデータセットでは、近隣グラフの0.1\%程度のサブサンプリングが可能で、Scikit-LernのDBSCANの実装と比較して200倍以上のスピードアップと250倍のRAM消費が削減され、競争力のあるクラスタリング性能を維持している。

DBSCAN is a popular density-based clustering algorithm. It computes the $\epsilon$-neighborhood graph of a dataset and uses the connected components of the high-degree nodes to decide the clusters. However, the full neighborhood graph may be too costly to compute with a worst-case complexity of $O(n^2)$. In this paper, we propose a simple variant called SNG-DBSCAN, which clusters based on a subsampled $\epsilon$-neighborhood graph, only requires access to similarity queries for pairs of points and in particular avoids any complex data structures which need the embeddings of the data points themselves. The runtime of the procedure is $O(sn^2)$, where $s$ is the sampling rate. We show under some natural theoretical assumptions that $s \approx \log n/n$ is sufficient for statistical cluster recovery guarantees leading to an $O(n\log n)$ complexity. We provide an extensive experimental analysis showing that on large datasets, one can subsample as little as $0.1\%$ of the neighborhood graph, leading to as much as over 200x speedup and 250x reduction in RAM consumption compared to scikit-learn's implementation of DBSCAN, while still maintaining competitive clustering performance.
翻訳日:2022-11-22 12:39:19 公開日:2020-10-22
# ニューラル分類器の動的安定無限幅限界

Dynamically Stable Infinite-Width Limits of Neural Classifiers ( http://arxiv.org/abs/2006.06574v2 )

ライセンス: Link先を確認
Eugene A. Golikov(参考訳) 最近の研究は、無限幅(1)平均場(mf)と(2)定数神経接核(ntk)近似の限界でニューラルネットワークのトレーニングを研究するための2つの異なるアプローチに焦点を当てている。 これらの2つのアプローチは、ネットワーク層の幅で異なるハイパーパラメータのスケーリングを持ち、結果として異なる無限幅制限モデルを持つ。 本稿では,神経モデルの極限挙動がネットワーク幅を持つハイパーパラメータのスケーリングに依存するかを検討するための一般的な枠組みを提案する。 私たちのフレームワークでは、既存のmfとntkのリミットに対するスケーリングや、対応するモデルの動的に安定したリミット動作につながる他のスケーリングの数を導き出します。 しかし、これらのスケーリングによって引き起こされるのは有限個の異なる極限モデルのみである。 各異なる極限モデルは、接カーネルの初期化や定常性におけるロジットと接カーネルの境界性のような特性のユニークな組み合わせに対応する。 既存のMFおよびNTK制限モデルと1つの新しい極限モデルは、有限幅モデルによって示されるほとんどの特性を満たす。 また、上記の全ての特性を満たす新しい初期化補正平均場極限を提案し、対応するモデルは有限幅モデルの簡単な修正である。

Recent research has been focused on two different approaches to studying neural networks training in the limit of infinite width (1) a mean-field (MF) and (2) a constant neural tangent kernel (NTK) approximations. These two approaches have different scaling of hyperparameters with the width of a network layer and as a result, different infinite-width limit models. We propose a general framework to study how the limit behavior of neural models depends on the scaling of hyperparameters with network width. Our framework allows us to derive scaling for existing MF and NTK limits, as well as an uncountable number of other scalings that lead to a dynamically stable limit behavior of corresponding models. However, only a finite number of distinct limit models are induced by these scalings. Each distinct limit model corresponds to a unique combination of such properties as boundedness of logits and tangent kernels at initialization or stationarity of tangent kernels. Existing MF and NTK limit models, as well as one novel limit model, satisfy most of the properties demonstrated by finite-width models. We also propose a novel initialization-corrected mean-field limit that satisfies all properties noted above, and its corresponding model is a simple modification for a finite-width model.
翻訳日:2022-11-22 10:12:34 公開日:2020-10-22
# ロバスト属性に対する滑らかな幾何学

Smoothed Geometry for Robust Attribution ( http://arxiv.org/abs/2006.06643v2 )

ライセンス: Link先を確認
Zifan Wang, Haofan Wang, Shakul Ramkumar, Matt Fredrikson, Piotr Mardziel and Anupam Datta(参考訳) 特徴帰属はディープニューラルネットワーク(dnn)の振る舞いを説明する一般的なツールであるが、最近は近くの入力に対して異なる説明を生み出す攻撃に対して脆弱であることが示されている。 この堅牢性の欠如は、敵対的な説明が安全性と信頼性を損なう可能性がある高リスクアプリケーションにおいて特に問題となる。 最近の研究で提示されたこれらの攻撃の幾何学的理解に基づいて、ロバストな勾配に基づく帰属につながるモデルの勾配上のリプシッツ連続性条件を特定し、滑らかさは複数の帰属法をまたぐ攻撃能力にも関係しているかもしれないことを観察する。 これらの攻撃を緩和するために,dnnにおけるこれらの条件を促進する安価な正規化手法と,再訓練を必要としない確率的平滑化手法を提案する。 様々な画像モデルを用いた実験により,これらの緩和効果はアトリビューションのロバスト性に一貫して改善し,実大規模モデルに対するこれらの攻撃において滑らかな形状が果たす役割を確認できた。

Feature attributions are a popular tool for explaining the behavior of Deep Neural Networks (DNNs), but have recently been shown to be vulnerable to attacks that produce divergent explanations for nearby inputs. This lack of robustness is especially problematic in high-stakes applications where adversarially-manipulated explanations could impair safety and trustworthiness. Building on a geometric understanding of these attacks presented in recent work, we identify Lipschitz continuity conditions on models' gradient that lead to robust gradient-based attributions, and observe that smoothness may also be related to the ability of an attack to transfer across multiple attribution methods. To mitigate these attacks in practice, we propose an inexpensive regularization method that promotes these conditions in DNNs, as well as a stochastic smoothing technique that does not require re-training. Our experiments on a range of image models demonstrate that both of these mitigations consistently improve attribution robustness, and confirm the role that smooth geometry plays in these attacks on real, large-scale models.
翻訳日:2022-11-22 10:10:47 公開日:2020-10-22
# トラクタブルカウンターファクト推論のための深部構造因果モデル

Deep Structural Causal Models for Tractable Counterfactual Inference ( http://arxiv.org/abs/2006.06485v2 )

ライセンス: Link先を確認
Nick Pawlowski, Daniel C. Castro, Ben Glocker(参考訳) ディープラーニングコンポーネントを用いた構造因果モデル(scms)構築のための汎用フレームワークを定式化する。 提案手法は,既存の深い因果学習手法から欠落する対実的推論の重要なステップである外因性雑音変数の抽出可能な推論を可能にするために,正規化フローと変分推論を用いる。 我々のフレームワークは、MNIST上に構築された合成データセットと、実際の脳MRIスキャンの医療データセットに基づいて検証されている。 実験結果から,パールの3段階の因果関係(結合,介入,反事実)すべてに可能な深層scmの訓練に成功し,画像応用などにおける因果的疑問に答えるための強力な新しいアプローチが得られた。 実験のコードはhttps://github.com/biomedia-mira/deepscm.com/で閲覧できます。

We formulate a general framework for building structural causal models (SCMs) with deep learning components. The proposed approach employs normalising flows and variational inference to enable tractable inference of exogenous noise variables - a crucial step for counterfactual inference that is missing from existing deep causal learning methods. Our framework is validated on a synthetic dataset built on MNIST as well as on a real-world medical dataset of brain MRI scans. Our experimental results indicate that we can successfully train deep SCMs that are capable of all three levels of Pearl's ladder of causation: association, intervention, and counterfactuals, giving rise to a powerful new approach for answering causal questions in imaging applications and beyond. The code for all our experiments is available at https://github.com/biomedia-mira/deepscm.
翻訳日:2022-11-22 10:01:26 公開日:2020-10-22
# 対面しよう:確率的マルチモーダル・インターロカクター・アウェアによるdyadic設定における顔ジェスチャの生成

Let's Face It: Probabilistic Multi-modal Interlocutor-aware Generation of Facial Gestures in Dyadic Settings ( http://arxiv.org/abs/2006.09888v2 )

ライセンス: Link先を確認
Patrik Jonell, Taras Kucherenko, Gustav Eje Henter, Jonas Beskow(参考訳) より自然な対面インタラクションを可能にするために、会話エージェントは彼らの振る舞いを対話者に適応する必要がある。 この重要な側面の1つは、例えば顔のジェスチャーなど、エージェントの適切な非言語行動の生成であり、ここでは表情と頭の動きとして定義される。 既存のジェスチャ生成システムは、非言語行動の合成において、インターロカタからのマルチモーダルキューを使用しない。 典型的には、繰り返し動作や非生き残り動作のリスクを負う決定論的手法を用いる。 本稿では,高表現率の火炎パラメータで表される対話型顔ジェスチャをdyadic会話で合成する確率的手法を提案する。 私たちの貢献は イ マルチパーティのビデオ及び音声記録から特徴抽出する方法であって、3Dアバターにおける表現及び音声の独立的な制御及び操作を可能にする表現であること。 b) 最近の流れの正規化に基づく運動合成法であるmoglowの拡張は、インターロカクタからのマルチモーダル信号を入力として、その後、インターロカクタ対応のジェスチャーを出力する。 c) 入力モダリティの使用と相対的重要性を評価する主観的評価。 その結果,モデルが対話者からの入力をうまく活用し,より適切な行動を生成することがわかった。 https://jonepatr.github.io/lets_face_it。

To enable more natural face-to-face interactions, conversational agents need to adapt their behavior to their interlocutors. One key aspect of this is generation of appropriate non-verbal behavior for the agent, for example facial gestures, here defined as facial expressions and head movements. Most existing gesture-generating systems do not utilize multi-modal cues from the interlocutor when synthesizing non-verbal behavior. Those that do, typically use deterministic methods that risk producing repetitive and non-vivid motions. In this paper, we introduce a probabilistic method to synthesize interlocutor-aware facial gestures - represented by highly expressive FLAME parameters - in dyadic conversations. Our contributions are: a) a method for feature extraction from multi-party video and speech recordings, resulting in a representation that allows for independent control and manipulation of expression and speech articulation in a 3D avatar; b) an extension to MoGlow, a recent motion-synthesis method based on normalizing flows, to also take multi-modal signals from the interlocutor as input and subsequently output interlocutor-aware facial gestures; and c) a subjective evaluation assessing the use and relative importance of the input modalities. The results show that the model successfully leverages the input from the interlocutor to generate more appropriate behavior. Videos, data, and code available at: https://jonepatr.github.io/lets_face_it.
翻訳日:2022-11-22 09:36:30 公開日:2020-10-22
# 視覚・言語表現学習のための大規模学習

Large-Scale Adversarial Training for Vision-and-Language Representation Learning ( http://arxiv.org/abs/2006.06195v2 )

ライセンス: Link先を確認
Zhe Gan, Yen-Chun Chen, Linjie Li, Chen Zhu, Yu Cheng, Jingjing Liu(参考訳) VILLAは視覚と言語(V+L)表現学習のための大規模対人訓練における最初の試みである。 VILLAは2つの訓練段階から構成される。 (i)課題非依存の対向前訓練、続いて (ii)タスク固有の敵の微調整。 画像画素とテキストトークンに逆摂動を追加する代わりに,各モダリティの埋め込み空間で逆行訓練を行うことを提案する。 大規模トレーニングを実現するため,我々は「自由」な対人訓練戦略を採用し,KL分割型正規化と組み合わせて,埋め込み空間における高次不変性を促進する。 VILLAを現在のベストパフォーマンスV+Lモデルに適用し、視覚質問応答、ビジュアルコモンセンス推論、画像テキスト検索、参照表現理解、ビジュアルエンタテインメント、NLVR2など、幅広いタスクにおいて、その技術の新たな状態を達成する。

We present VILLA, the first known effort on large-scale adversarial training for vision-and-language (V+L) representation learning. VILLA consists of two training stages: (i) task-agnostic adversarial pre-training; followed by (ii) task-specific adversarial finetuning. Instead of adding adversarial perturbations on image pixels and textual tokens, we propose to perform adversarial training in the embedding space of each modality. To enable large-scale training, we adopt the "free" adversarial training strategy, and combine it with KL-divergence-based regularization to promote higher invariance in the embedding space. We apply VILLA to current best-performing V+L models, and achieve new state of the art on a wide range of tasks, including Visual Question Answering, Visual Commonsense Reasoning, Image-Text Retrieval, Referring Expression Comprehension, Visual Entailment, and NLVR2.
翻訳日:2022-11-22 09:29:12 公開日:2020-10-22
# アジャイルな人間の行動模倣と拡張モーション合成のための残留力制御

Residual Force Control for Agile Human Behavior Imitation and Extended Motion Synthesis ( http://arxiv.org/abs/2006.07364v2 )

ライセンス: Link先を確認
Ye Yuan, Kris Kitani(参考訳) 強化学習は、モーションキャプチャデータからヒューマノイド制御ポリシーを学習することで、現実的な人間の行動の合成に大いに期待されている。 しかし、バレエダンスのような洗練された人間のスキルを再現したり、複雑な遷移を伴う長期人間の行動を安定的に模倣することは依然として非常に困難である。 主な困難は、ヒューマノイドモデルと実際の人間の間の力学ミスマッチである。 つまり、実際の人間の動きは、ヒューマノイドモデルでは物理的に不可能かもしれない。 動的ミスマッチを克服するために,行動空間に外部残留力を加えることによってヒューマノイド制御ポリシーを補強する新しい手法である残留力制御(rfc)を提案する。 トレーニング中、rfcベースのポリシーは、ダイナミクスのミスマッチを補うためにヒューマノイドに残留力を適用することを学び、基準動作を模倣する。 広い範囲の動的運動実験により,本手法が収束速度と学習運動の質において最先端の手法よりも優れていることを証明した。 特に、RFCによって強化された物理ベースの仮想キャラクタを紹介し、ピロエット、アラベスク、ジェットのような高度にアジャイルなバレエダンスの動きを実行できる。 さらに,マルチモーダルな無限水平運動をタスクガイダンスやユーザ入力なしで合成するために,キネマティックポリシーとRFCベースのポリシーを併用した二重政治制御フレームワークを提案する。 大規模動作データセット(human3.6m)から学習し,様々な長期動作を生成する,初のヒューマノイド制御手法である。 コードとビデオはhttps://www.ye-yuan.com/rfc.com/で入手できる。

Reinforcement learning has shown great promise for synthesizing realistic human behaviors by learning humanoid control policies from motion capture data. However, it is still very challenging to reproduce sophisticated human skills like ballet dance, or to stably imitate long-term human behaviors with complex transitions. The main difficulty lies in the dynamics mismatch between the humanoid model and real humans. That is, motions of real humans may not be physically possible for the humanoid model. To overcome the dynamics mismatch, we propose a novel approach, residual force control (RFC), that augments a humanoid control policy by adding external residual forces into the action space. During training, the RFC-based policy learns to apply residual forces to the humanoid to compensate for the dynamics mismatch and better imitate the reference motion. Experiments on a wide range of dynamic motions demonstrate that our approach outperforms state-of-the-art methods in terms of convergence speed and the quality of learned motions. Notably, we showcase a physics-based virtual character empowered by RFC that can perform highly agile ballet dance moves such as pirouette, arabesque and jet\'e. Furthermore, we propose a dual-policy control framework, where a kinematic policy and an RFC-based policy work in tandem to synthesize multi-modal infinite-horizon human motions without any task guidance or user input. Our approach is the first humanoid control method that successfully learns from a large-scale human motion dataset (Human3.6M) and generates diverse long-term motions. Code and videos are available at https://www.ye-yuan.com/rfc.
翻訳日:2022-11-22 02:12:49 公開日:2020-10-22
# 立方体パーシステンスを用いた時間変化fMRIデータのトポロジーの解明

Uncovering the Topology of Time-Varying fMRI Data using Cubical Persistence ( http://arxiv.org/abs/2006.07882v2 )

ライセンス: Link先を確認
Bastian Rieck, Tristan Yates, Christian Bock, Karsten Borgwardt, Guy Wolf, Nicholas Turk-Browne, Smita Krishnaswamy(参考訳) 機能的磁気共鳴イメージング(fMRI)は、人間の認知過程を理解する上で重要な技術である。 fMRI測定から得られたデータは、時間とともに変化するボリュームデータセットをもたらす。 しかし、そのようなデータを解析することは、脳内の情報がどのように表現されるかにおいて、大きなノイズと個人間変動のために困難を呈する。 この課題に対処するために,fmriデータセット内の各時点を,そのデータに存在する高次元空隙などの位相的特徴の永続化図としてエンコードする新しいトポロジカルアプローチを提案する。 この表現は自然にボクセル・バイ・ボクセル対応に依存しず、雑音に頑健である。 これらの時間変化の持続図は、参加者間で有意義なグルーピングを見つけるためにクラスタ化され、特定のタスクを行う被験者の脳内状態軌跡の研究にも有用であることを示す。 ここでは,映画「一部曇り」を視聴する参加者のグループに対して,クラスタリングと軌道解析の手法を適用した。 同じ映画を見ている大人と子供の脳状態軌跡と全体的トポロジカルな活動に有意な差が認められた。

Functional magnetic resonance imaging (fMRI) is a crucial technology for gaining insights into cognitive processes in humans. Data amassed from fMRI measurements result in volumetric data sets that vary over time. However, analysing such data presents a challenge due to the large degree of noise and person-to-person variation in how information is represented in the brain. To address this challenge, we present a novel topological approach that encodes each time point in an fMRI data set as a persistence diagram of topological features, i.e. high-dimensional voids present in the data. This representation naturally does not rely on voxel-by-voxel correspondence and is robust to noise. We show that these time-varying persistence diagrams can be clustered to find meaningful groupings between participants, and that they are also useful in studying within-subject brain state trajectories of subjects performing a particular task. Here, we apply both clustering and trajectory analysis techniques to a group of participants watching the movie 'Partly Cloudy'. We observe significant differences in both brain state trajectories and overall topological activity between adults and children watching the same movie.
翻訳日:2022-11-21 12:56:56 公開日:2020-10-22
# 局所的決定境界の近似による予測

Explaining Predictions by Approximating the Local Decision Boundary ( http://arxiv.org/abs/2006.07985v2 )

ライセンス: Link先を確認
Georgios Vlassopoulos, Tim van Erven, Henry Brighton and Vlado Menkovski(参考訳) 不透明な機械学習モデルのための正確なモデル非依存の説明の構築は、依然として困難な課題である。 画像のような高次元データの分類モデルは本質的に複雑であることが多い。 この複雑さを減らすために、個々の予測は、より単純な局所的サロゲートモデルか、あるいは予測が他のクラスの予測とどのように対照的かを伝えることによって、ローカルに説明できる。 しかし、既存のアプローチは下記のように不足している。 a) 非線型高次元データに意味のない(ユークリッド)計量を用いて局所性を測定すること b) 分類精度に最適化された分類器の最も関連する特徴である決定境界の説明を試みていないこと。 c) ユーザに対して意味のある属性を指定する自由を与えない。 我々はこれらの問題を,局所的決定境界近似(DBA)の新しい手順で解決する。 有意義なメトリックを構築するために、変分オートエンコーダを訓練し、符号化されたデータ表現のユークリッド潜在空間を学習する。 属性アノテーションを利用して、潜在空間をユーザにとって意味のある属性にマップすることで、解釈性を課します。 説明可能性アプローチの評価が難しいのは、根拠となる真実がないことである。 我々は、人工的に生成された虹彩画像を用いた新しいベンチマークデータセットを導入し、そのクラスを局所的に決定する潜在属性を復元できることを示す。 我々はさらに,表データとceleba画像データセットに対するアプローチを評価した。

Constructing accurate model-agnostic explanations for opaque machine learning models remains a challenging task. Classification models for high-dimensional data, like images, are often inherently complex. To reduce this complexity, individual predictions may be explained locally, either in terms of a simpler local surrogate model or by communicating how the predictions contrast with those of another class. However, existing approaches still fall short in the following ways: a) they measure locality using a (Euclidean) metric that is not meaningful for non-linear high-dimensional data; or b) they do not attempt to explain the decision boundary, which is the most relevant characteristic of classifiers that are optimized for classification accuracy; or c) they do not give the user any freedom in specifying attributes that are meaningful to them. We address these issues in a new procedure for local decision boundary approximation (DBA). To construct a meaningful metric, we train a variational autoencoder to learn a Euclidean latent space of encoded data representations. We impose interpretability by exploiting attribute annotations to map the latent space to attributes that are meaningful to the user. A difficulty in evaluating explainability approaches is the lack of a ground truth. We address this by introducing a new benchmark data set with artificially generated Iris images, and showing that we can recover the latent attributes that locally determine the class. We further evaluate our approach on tabular data and on the CelebA image data set.
翻訳日:2022-11-21 09:58:59 公開日:2020-10-22
# ニューラル実行エンジン:サブルーチンの実行を学習する

Neural Execution Engines: Learning to Execute Subroutines ( http://arxiv.org/abs/2006.08084v3 )

ライセンス: Link先を確認
Yujun Yan, Kevin Swersky, Danai Koutra, Parthasarathy Ranganathan, Milad Hashemi(参考訳) アルゴリズム推論を再現するニューラルネットワークのトレーニングには多大な努力が払われているが、これらのアルゴリズムの根底にある抽象概念を学ばないことが多い。 これは、制限されたトレーニングセットの外にあるデータ分布、すなわちより大きな入力と見えないデータに一般化できないことが証明されている。 これらの一般化問題を、ソート、最短経路、最小幅木といった一般的なアルゴリズムを構成する数値サブルーチンのレベルで研究する。 まず,トランスフォーマティブ・シーケンス・ツー・シーケンス・モデルは数のリストのソートのようなサブルーチンを学習できるが,リストの長さがトレーニングセットに含まれるものよりも大きくなると,そのパフォーマンスは急速に低下する。 これは、特に入力数が数値的に類似している場合に、長い列との忠実性を失う注意重みによるものである。 そこで本研究では,学習範囲の外側を,様々なアルゴリズムでほぼ完璧に近い精度で強く一般化する学習条件マスク機構を提案する。 第二に,非知覚データに一般化するために,バイナリ表現による数値のエンコーディングは,加算や乗算などの下流タスクで訓練された後にリッチな構造を持つ組込みに繋がることを示す。 これにより、トレーニング中に見えない数値を忠実に補間することで、埋め込みが行方不明データを処理することができる。

A significant effort has been made to train neural networks that replicate algorithmic reasoning, but they often fail to learn the abstract concepts underlying these algorithms. This is evidenced by their inability to generalize to data distributions that are outside of their restricted training sets, namely larger inputs and unseen data. We study these generalization issues at the level of numerical subroutines that comprise common algorithms like sorting, shortest paths, and minimum spanning trees. First, we observe that transformer-based sequence-to-sequence models can learn subroutines like sorting a list of numbers, but their performance rapidly degrades as the length of lists grows beyond those found in the training set. We demonstrate that this is due to attention weights that lose fidelity with longer sequences, particularly when the input numbers are numerically similar. To address the issue, we propose a learned conditional masking mechanism, which enables the model to strongly generalize far outside of its training range with near-perfect accuracy on a variety of algorithms. Second, to generalize to unseen data, we show that encoding numbers with a binary representation leads to embeddings with rich structure once trained on downstream tasks like addition or multiplication. This allows the embedding to handle missing data by faithfully interpolating numbers not seen during training.
翻訳日:2022-11-21 02:13:25 公開日:2020-10-22
# 部分パラメータに対するタスク固有適応によるメタラーニングの収束

Convergence of Meta-Learning with Task-Specific Adaptation over Partial Parameters ( http://arxiv.org/abs/2006.09486v3 )

ライセンス: Link先を確認
Kaiyi Ji, Jason D. Lee, Yingbin Liang, H. Vincent Poor(参考訳) モデル非依存メタ学習(maml)はメタ学習の実践において非常に成功したアルゴリズムであるが、タスク固有の適応の内ループとメタ初期化トレーニングの外ループの両方でモデルパラメータを更新できるため、計算コストが高い。 より効率的なアルゴリズムANIL(内ループをほとんど含まない)は、最近Raghuらによって提案され、内部ループ内のパラメータの小さなサブセットだけを適応させるため、広範囲な実験によって示されたMAMLよりも計算コストが大幅に低い。 しかし、アニルの理論的収束はまだ研究されていない。 本稿では,2つの代表的な内部ループ損失ジオメトリ,すなわち強凸性と非凸性の下での anil の収束率と計算複雑性を特徴付ける。 このような幾何学的性質がANILの全体的な収束性能に大きく影響することを示す。 例えば、anilは、内側ループ勾配降下ステップの数n$の増加に伴って、強凸内側ループ損失の収束速度が速くなるが、n$の増加に伴って非凸内側ループ損失の収束速度が遅くなる。 さらに,我々の複雑性解析は,MAMLによるANILの効率向上に関する理論的定量化を提供する。 標準的な数ショットメタラーニングベンチマークの実験は、我々の理論的な結果を検証する。

Although model-agnostic meta-learning (MAML) is a very successful algorithm in meta-learning practice, it can have high computational cost because it updates all model parameters over both the inner loop of task-specific adaptation and the outer-loop of meta initialization training. A more efficient algorithm ANIL (which refers to almost no inner loop) was proposed recently by Raghu et al. 2019, which adapts only a small subset of parameters in the inner loop and thus has substantially less computational cost than MAML as demonstrated by extensive experiments. However, the theoretical convergence of ANIL has not been studied yet. In this paper, we characterize the convergence rate and the computational complexity for ANIL under two representative inner-loop loss geometries, i.e., strongly-convexity and nonconvexity. Our results show that such a geometric property can significantly affect the overall convergence performance of ANIL. For example, ANIL achieves a faster convergence rate for a strongly-convex inner-loop loss as the number $N$ of inner-loop gradient descent steps increases, but a slower convergence rate for a nonconvex inner-loop loss as $N$ increases. Moreover, our complexity analysis provides a theoretical quantification on the improved efficiency of ANIL over MAML. The experiments on standard few-shot meta-learning benchmarks validate our theoretical findings.
翻訳日:2022-11-20 20:31:39 公開日:2020-10-22
# 後部ネットワーク:密度に基づく擬似関数によるOODサンプルのない不確かさ推定

Posterior Network: Uncertainty Estimation without OOD Samples via Density-Based Pseudo-Counts ( http://arxiv.org/abs/2006.09239v2 )

ライセンス: Link先を確認
Bertrand Charpentier, Daniel Z\"ugner, Stephan G\"unnemann(参考訳) 安全で信頼性の高いシステムを構築するためには,アレオータと認識の不確かさの正確な推定が不可欠である。 ドロップアウト法やアンサンブル法のような従来の手法は、異なるサブモデルから確率予測をサンプリングすることで不確実性を推定し、推論時間における不確実性を遅くする。 近年の研究では、ニューラルネットワークを用いた確率予測による事前分布のパラメータを直接予測することで、この欠点に対処している。 このアプローチは正確な不確実性推定を示しているが、分布内データに対して任意のターゲットパラメータを定義する必要があり、トレーニング時に分布外(ood)データが知られているという非現実的前提を定めている。 本研究では,提案するPosterior Network (PostNet) を提案する。これは正規化フローを用いて,予測確率よりも個々の閉形式後部分布を推定する。 postnetが学んだ後方分布は、トレーニング時にoodデータにアクセスする必要なしに、分布内および分布外データの不確実性を正確に反映している。 PostNetは、OODの検出とデータセットシフトによる不確実な校正において、最先端の成果を達成する。

Accurate estimation of aleatoric and epistemic uncertainty is crucial to build safe and reliable systems. Traditional approaches, such as dropout and ensemble methods, estimate uncertainty by sampling probability predictions from different submodels, which leads to slow uncertainty estimation at inference time. Recent works address this drawback by directly predicting parameters of prior distributions over the probability predictions with a neural network. While this approach has demonstrated accurate uncertainty estimation, it requires defining arbitrary target parameters for in-distribution data and makes the unrealistic assumption that out-of-distribution (OOD) data is known at training time. In this work we propose the Posterior Network (PostNet), which uses Normalizing Flows to predict an individual closed-form posterior distribution over predicted probabilites for any input sample. The posterior distributions learned by PostNet accurately reflect uncertainty for in- and out-of-distribution data -- without requiring access to OOD data at training time. PostNet achieves state-of-the art results in OOD detection and in uncertainty calibration under dataset shifts.
翻訳日:2022-11-20 19:26:32 公開日:2020-10-22
# 重み付きQMIX:深層マルチエージェント強化学習のための単調値関数の分解

Weighted QMIX: Expanding Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2006.10800v2 )

ライセンス: Link先を確認
Tabish Rashid, Gregory Farquhar, Bei Peng, Shimon Whiteson(参考訳) qmixは、集中トレーニングと分散実行パラダイムにおける協同marlのための一般的なq$学習アルゴリズムである。 分散化を容易にするために、QMIXは、各エージェントのユーティリティの単調混合であることを示す$Q$-値のジョイントアクションを制限する。 しかし、この制限は、エージェントのアクションに対する順序付けが他のエージェントのアクションに依存することができる値関数を表現するのを防ぐ。 この表現制限を解析するために、まず目的QMIXオプティミクスを定式化し、QMIXをまずQ$学習目標を計算し、次にQMIXで表現可能な空間に投影する演算子とみなすことができる。 このプロジェクションは表現可能な$q$-valueを返します。 特に、この投射は$q^*$にアクセスしても最適方針の回復に失敗し得ることが示され、これは主に各合同行動に置かれる等しい重み付けが原因である。 私たちは、より良い共同アクションをより重要視するために、投影に重み付けを導入することで、これを正します。 2つの重み付けスキームを提案し、それらが任意のジョイントアクション$Q$-値に対して正しい最大作用を回復することを証明する。 解析結果と表計算結果に基づいて,CW (Centrally-Weighted) QMIXとOW (Optimistically-Weighted) QMIXという2種類のスケーラブルなアルゴリズムを導入し,捕食者前処理とマルチエージェントのStarCraftベンチマークの両方の性能向上を実証した。

QMIX is a popular $Q$-learning algorithm for cooperative MARL in the centralised training and decentralised execution paradigm. In order to enable easy decentralisation, QMIX restricts the joint action $Q$-values it can represent to be a monotonic mixing of each agent's utilities. However, this restriction prevents it from representing value functions in which an agent's ordering over its actions can depend on other agents' actions. To analyse this representational limitation, we first formalise the objective QMIX optimises, which allows us to view QMIX as an operator that first computes the $Q$-learning targets and then projects them into the space representable by QMIX. This projection returns a representable $Q$-value that minimises the unweighted squared error across all joint actions. We show in particular that this projection can fail to recover the optimal policy even with access to $Q^*$, which primarily stems from the equal weighting placed on each joint action. We rectify this by introducing a weighting into the projection, in order to place more importance on the better joint actions. We propose two weighting schemes and prove that they recover the correct maximal action for any joint action $Q$-values, and therefore for $Q^*$ as well. Based on our analysis and results in the tabular setting, we introduce two scalable versions of our algorithm, Centrally-Weighted (CW) QMIX and Optimistically-Weighted (OW) QMIX and demonstrate improved performance on both predator-prey and challenging multi-agent StarCraft benchmark tasks.
翻訳日:2022-11-19 13:32:43 公開日:2020-10-22
# 最適化問題に対する小型品質対応サロゲートの自動学習

Automatically Learning Compact Quality-aware Surrogates for Optimization Problems ( http://arxiv.org/abs/2006.10815v2 )

ライセンス: Link先を確認
Kai Wang, Bryan Wilder, Andrew Perrault, Milind Tambe(参考訳) 未知パラメータによる最適化問題を解くには、未知パラメータの値を予測するために予測モデルを学び、それらの値を使って問題を解く必要がある。 近年の研究では、モデルトレーニングパイプラインのレイヤーとして最適化問題を含めると、未観測パラメータの予測結果が、より高い意思決定品質につながることが示されている。 残念なことに、このプロセスは、最適化問題は各トレーニングイテレーションで解決され、差別化されなければならないため、大きな計算コストを伴っている。 これらの欠点に対処するために、メタ変数の観点から実現可能な空間を表現して、大きな最適化問題の低次元サロゲートモデルを学習し、それぞれが元の変数の線形結合である。 低次元のサーロゲートモデルをエンドツーエンドに訓練し、予測モデルと共同で達成する。 一 トレーニング及び推論時間を大幅に短縮すること、及び 二 より円滑な空間における最適化及び学習において、より重要な変数に注目して、性能を改善すること。 実験では,非凸逆モデリングタスク,サブモジュールレコメンデーションタスク,凸ポートフォリオ最適化タスクにおいて,これらの改善を実証する。

Solving optimization problems with unknown parameters often requires learning a predictive model to predict the values of the unknown parameters and then solving the problem using these values. Recent work has shown that including the optimization problem as a layer in the model training pipeline results in predictions of the unobserved parameters that lead to higher decision quality. Unfortunately, this process comes at a large computational cost because the optimization problem must be solved and differentiated through in each training iteration; furthermore, it may also sometimes fail to improve solution quality due to non-smoothness issues that arise when training through a complex optimization layer. To address these shortcomings, we learn a low-dimensional surrogate model of a large optimization problem by representing the feasible space in terms of meta-variables, each of which is a linear combination of the original variables. By training a low-dimensional surrogate model end-to-end, and jointly with the predictive model, we achieve: i) a large reduction in training and inference time; and ii) improved performance by focusing attention on the more important variables in the optimization and learning in a smoother space. Empirically, we demonstrate these improvements on a non-convex adversary modeling task, a submodular recommendation task and a convex portfolio optimization task.
翻訳日:2022-11-19 13:06:59 公開日:2020-10-22
# 政策勾配法の運用者視点

An operator view of policy gradient methods ( http://arxiv.org/abs/2006.11266v3 )

ライセンス: Link先を確認
Dibya Ghosh, Marlos C. Machado, Nicolas Le Roux(参考訳) ポリシー改善演算子 $\mathcal{i}$ は、任意のポリシー $\pi$ をよりよい1ドルの$\mathcal{i}\pi$ にマッピングし、投影演算子 $\mathcal{p}$ は、実現可能なポリシーの集合において$\mathcal{i}\pi$ の最適な近似を求める。 我々はこのフレームワークを使って、REINFORCEやPPOといった従来のポリシー勾配メソッドの演算子ベースのバージョンを導入します。 また、期待されるリターンの新たなグローバルな下限を提案するために、 $\mathcal{I}$ と $\mathcal{P}$ の役割の理解を深める。 この新たな視点により、ポリシーベースと価値ベースの方法のギャップをさらに橋渡しすることができ、例えば、ベルマン最適演算子と強固さを、同じコインの2つの側面として見ることができる。

We cast policy gradient methods as the repeated application of two operators: a policy improvement operator $\mathcal{I}$, which maps any policy $\pi$ to a better one $\mathcal{I}\pi$, and a projection operator $\mathcal{P}$, which finds the best approximation of $\mathcal{I}\pi$ in the set of realizable policies. We use this framework to introduce operator-based versions of traditional policy gradient methods such as REINFORCE and PPO, which leads to a better understanding of their original counterparts. We also use the understanding we develop of the role of $\mathcal{I}$ and $\mathcal{P}$ to propose a new global lower bound of the expected return. This new perspective allows us to further bridge the gap between policy-based and value-based methods, showing how REINFORCE and the Bellman optimality operator, for example, can be seen as two sides of the same coin.
翻訳日:2022-11-19 03:21:22 公開日:2020-10-22
# wav2vec 2.0: 表現の自己教師付き学習のためのフレームワーク

wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations ( http://arxiv.org/abs/2006.11477v3 )

ライセンス: Link先を確認
Alexei Baevski, Henry Zhou, Abdelrahman Mohamed, Michael Auli(参考訳) 音声のみから強力な表現を学習し、書き起こされた音声を微調整することで、概念的にシンプルでありながら、最高の半教師付き手法よりも優れていることを示す。 wav2vec 2.0は、潜在空間における音声入力をマスクし、相互に学習される潜在表現の量子化上で定義された対照的なタスクを解決する。 Librispeechのラベル付きデータを使った実験はクリーン/他のテストセットで1.8/3.3 WERを達成した。 ラベル付きデータの量を1時間に下げる場合、wav2vec 2.0は100時間サブセットで100倍少ないラベル付きデータを使用しながら、過去の技術状態よりも優れる。 ラベル付きデータのわずか10分と53k時間での事前トレーニングを使用すれば、4.8/8.2 WERが得られる。 これは限られたラベル付きデータによる音声認識の実現可能性を示す。

We show for the first time that learning powerful representations from speech audio alone followed by fine-tuning on transcribed speech can outperform the best semi-supervised methods while being conceptually simpler. wav2vec 2.0 masks the speech input in the latent space and solves a contrastive task defined over a quantization of the latent representations which are jointly learned. Experiments using all labeled data of Librispeech achieve 1.8/3.3 WER on the clean/other test sets. When lowering the amount of labeled data to one hour, wav2vec 2.0 outperforms the previous state of the art on the 100 hour subset while using 100 times less labeled data. Using just ten minutes of labeled data and pre-training on 53k hours of unlabeled data still achieves 4.8/8.2 WER. This demonstrates the feasibility of speech recognition with limited amounts of labeled data.
翻訳日:2022-11-18 22:28:57 公開日:2020-10-22
# 転校学習の理論について--課題多様性の重要性

On the Theory of Transfer Learning: The Importance of Task Diversity ( http://arxiv.org/abs/2006.11650v2 )

ライセンス: Link先を確認
Nilesh Tripuraneni, Michael I. Jordan, Chi Jin(参考訳) 本研究では,異なるタスク間で共有される特徴表現を学習することで,表現学習による伝達学習の統計的保証を実現する。 これにより、個別に学習するよりもはるかに少ないデータで新しいタスクを学ぶことができる。 形式的には、$t+1$タスクは、一般的な関数クラス$\mathcal{F} \circ \mathcal{H}$で、$f_j$は$\mathcal{F}$で、$h$は$\mathcal{H}$で共有表現である。 c(\cdot)$ を関数クラスの複雑性測度とすると、(1) 様々なトレーニングタスクに対して、最初の $t$ トレーニングタスクで共有表現を学ぶために必要なサンプル複雑性は、機能表現からの信号への明示的なアクセスがないにもかかわらず、$c(\mathcal{h}) + t c(\mathcal{f})$ となる。 以上の結果は,一般のタスクや特徴,損失モデルに適用可能なタスクの多様性という新しい概念と,ガウス複素数に対する新しい連鎖則に依存する。 最後に,文献に重要ないくつかのモデルを用いて,汎用フレームワークの有用性を示す。

We provide new statistical guarantees for transfer learning via representation learning--when transfer is achieved by learning a feature representation shared across different tasks. This enables learning on new tasks using far less data than is required to learn them in isolation. Formally, we consider $t+1$ tasks parameterized by functions of the form $f_j \circ h$ in a general function class $\mathcal{F} \circ \mathcal{H}$, where each $f_j$ is a task-specific function in $\mathcal{F}$ and $h$ is the shared representation in $\mathcal{H}$. Letting $C(\cdot)$ denote the complexity measure of the function class, we show that for diverse training tasks (1) the sample complexity needed to learn the shared representation across the first $t$ training tasks scales as $C(\mathcal{H}) + t C(\mathcal{F})$, despite no explicit access to a signal from the feature representation and (2) with an accurate estimate of the representation, the sample complexity needed to learn a new task scales only with $C(\mathcal{F})$. Our results depend upon a new general notion of task diversity--applicable to models with general tasks, features, and losses--as well as a novel chain rule for Gaussian complexities. Finally, we exhibit the utility of our general framework in several models of importance in the literature.
翻訳日:2022-11-18 22:21:33 公開日:2020-10-22
# Asymptotically Optimal Exact Minibatch Metropolis-Hastings

Asymptotically Optimal Exact Minibatch Metropolis-Hastings ( http://arxiv.org/abs/2006.11677v3 )

ライセンス: Link先を確認
Ruqi Zhang and A. Feder Cooper and Christopher De Sa(参考訳) metropolis-hastings (mh) はよく使われるmcmcアルゴリズムであるが、データセット全体の計算を必要とするため、大規模なデータセットでは難解である。 本稿では,サブサンプルを用いてスケーリングを実現するミニバッチMH法について検討する。 既存の minibatch mh メソッドは、ほとんどが不正確である(つまり、ターゲット分布を変更する可能性がある)ことを観察し、この不正確性が推論において任意に大きなエラーを引き起こす可能性があることを示した。 本稿では,そのバッチサイズと理論的に保証された収束率との間の調整可能なトレードオフを露呈する,新しい最小バッチMH手法TunaMHを提案する。 我々は, バッチサイズにおいて, どんなミニバッチMH法でも, 高速収束を保証しつつ, 精度を維持するために必要となる限界を低く証明し, バッチサイズに関してTunaMHが漸近的に最適であることを示す。 経験的に、tunamhは、ロバスト線形回帰、切断されたガウス混合、ロジスティック回帰に関する他の厳密なミニバッチmh法よりも優れていることを示している。

Metropolis-Hastings (MH) is a commonly-used MCMC algorithm, but it can be intractable on large datasets due to requiring computations over the whole dataset. In this paper, we study minibatch MH methods, which instead use subsamples to enable scaling. We observe that most existing minibatch MH methods are inexact (i.e. they may change the target distribution), and show that this inexactness can cause arbitrarily large errors in inference. We propose a new exact minibatch MH method, TunaMH, which exposes a tunable trade-off between its batch size and its theoretically guaranteed convergence rate. We prove a lower bound on the batch size that any minibatch MH method must use to retain exactness while guaranteeing fast convergence-the first such bound for minibatch MH-and show TunaMH is asymptotically optimal in terms of the batch size. Empirically, we show TunaMH outperforms other exact minibatch MH methods on robust linear regression, truncated Gaussian mixtures, and logistic regression.
翻訳日:2022-11-18 22:20:10 公開日:2020-10-22
# アフィン対称性とニューラルネットワークの識別性

Affine symmetries and neural network identifiability ( http://arxiv.org/abs/2006.11727v2 )

ライセンス: Link先を確認
Verner Vla\v{c}i\'c and Helmut B\"olcskei(参考訳) 例えば、関数 $f:\mathbb{R}^m\to\mathbb{R}^n$ と非線形性を $\rho$ とする。 すべてのフィードフォワードニューラルネットワークのアーキテクチャ、重み、バイアスを、$\rho$で$f$に設定できますか? 既存の文献では、ある「汎用性条件」を満たすネットワークを見つけることにのみ関心があるので、答えはイエスであるべきだと示唆している。 さらに、同定されたネットワークは非線形性の対称性によって相互に関連している。 例えば、$\tanh$関数は奇数であるため、ニューロンの入出力重みの符号を反転しても、ネットワークの出力マップは変化しない。 しかし、ヒッヘルトとして知られる結果は、単層ネットワーク、または特定の構造的仮定を満たすネットワーク(完全な接続性など)、および特定の非線形性に適用される。 一般性を高めるために,複雑なアフィン対称性を持つ任意の非線形性について検討し,その対称性を用いて,同じ関数 f$ を発生させるリッチなネットワーク群を求めることができることを示した。 この方法で得られる集合は、実のところ、(つまり、$f$ を生じさせるすべてのネットワークを含む)徹底的であるが、ネットワーク $\mathcal{a}$ "内部対称性なし" が存在しなければ、同一に 0 の関数が得られる。 したがって、この結果は線型作用素のランク-零性定理の類似と解釈できる。 さらに、そのようなネットワーク$\mathcal{a}$が存在しない「$\tanh$-型」非線形性(tanh関数自身を含む)のクラスを示し、これらの非線形性の完全一般性における識別可能性問題を解く。 最後に、このクラスは任意に複雑な対称性を持つ非線形性を含むことを示す。

We address the following question of neural network identifiability: Suppose we are given a function $f:\mathbb{R}^m\to\mathbb{R}^n$ and a nonlinearity $\rho$. Can we specify the architecture, weights, and biases of all feed-forward neural networks with respect to $\rho$ giving rise to $f$? Existing literature on the subject suggests that the answer should be yes, provided we are only concerned with finding networks that satisfy certain "genericity conditions". Moreover, the identified networks are mutually related by symmetries of the nonlinearity. For instance, the $\tanh$ function is odd, and so flipping the signs of the incoming and outgoing weights of a neuron does not change the output map of the network. The results known hitherto, however, apply either to single-layer networks, or to networks satisfying specific structural assumptions (such as full connectivity), as well as to specific nonlinearities. In an effort to answer the identifiability question in greater generality, we consider arbitrary nonlinearities with potentially complicated affine symmetries, and we show that the symmetries can be used to find a rich set of networks giving rise to the same function $f$. The set obtained in this manner is, in fact, exhaustive (i.e., it contains all networks giving rise to $f$) unless there exists a network $\mathcal{A}$ "with no internal symmetries" giving rise to the identically zero function. This result can thus be interpreted as an analog of the rank-nullity theorem for linear operators. We furthermore exhibit a class of "$\tanh$-type" nonlinearities (including the tanh function itself) for which such a network $\mathcal{A}$ does not exist, thereby solving the identifiability question for these nonlinearities in full generality. Finally, we show that this class contains nonlinearities with arbitrarily complicated symmetries.
翻訳日:2022-11-18 11:57:48 公開日:2020-10-22
# 勾配降下を用いた一層ニューラルネットワーク学習のための超多項下限法

Superpolynomial Lower Bounds for Learning One-Layer Neural Networks using Gradient Descent ( http://arxiv.org/abs/2006.12011v2 )

ライセンス: Link先を確認
Surbhi Goel, Aravind Gollakota, Zhihan Jin, Sushrut Karmalkar, Adam Klivans(参考訳) 勾配降下を用いたガウス分布に関して一層ニューラルネットワークを学習する最初の超多項下限を証明した。 一層ニューラルネットワークでラベル付けされたサンプルへのアクセスを前提とした多項式時間において, 勾配降下法を用いて訓練した分類器は, 誤差が小さいことを証明した。 分類において、任意の統計的クエリ(SQ)アルゴリズム(勾配降下を含む)が多項式時間で小さなテスト誤差を達成できないという、より強い結果を与える。 以前の作業は、小さなバッチサイズで実行され、鋭いアクティベーションが必要で、クエリの特定のクラスに適用される。 我々の下限は ReLU や sigmoid を含む幅広いアクティベーションのクラスに当てはまる。 この結果の核心は、球対称分布の全てに対して正確に直交する単純なニューラルネットワークのファミリーを新規に構築することに依存している。

We prove the first superpolynomial lower bounds for learning one-layer neural networks with respect to the Gaussian distribution using gradient descent. We show that any classifier trained using gradient descent with respect to square-loss will fail to achieve small test error in polynomial time given access to samples labeled by a one-layer neural network. For classification, we give a stronger result, namely that any statistical query (SQ) algorithm (including gradient descent) will fail to achieve small test error in polynomial time. Prior work held only for gradient descent run with small batch sizes, required sharp activations, and applied to specific classes of queries. Our lower bounds hold for broad classes of activations including ReLU and sigmoid. The core of our result relies on a novel construction of a simple family of neural networks that are exactly orthogonal with respect to all spherically symmetric distributions.
翻訳日:2022-11-18 05:29:01 公開日:2020-10-22
# 階層型パッチVAE-GAN:単一サンプルから映像を生成する

Hierarchical Patch VAE-GAN: Generating Diverse Videos from a Single Sample ( http://arxiv.org/abs/2006.12226v3 )

ライセンス: Link先を確認
Shir Gur, Sagie Benaim, Lior Wolf(参考訳) 一つのビデオサンプルから多様で斬新なビデオを生成する作業について考察する。 近年,訓練時間に1つのサンプルのみを与えられた多様な画像を生成するための新しい階層的パッチガン法が提案されている。 ビデオに移行しても、これらのアプローチは多様なサンプルの生成に失敗し、しばしばトレーニングビデオに似たサンプル生成に崩壊する。 本稿では,新しいパッチベース変分オートエンコーダ (vae) を導入することで,より多様な生成が可能となる。 このツールを使用して,新しい階層的ビデオ生成方式を構築した。粗いスケールでは,パッチベイが採用され,サンプルの多様性が保証される。 その後、より微細なスケールで、パッチGANが細部をレンダリングし、高品質なビデオを生成する。 提案手法は画像領域とより困難な映像領域の両方において多種多様なサンプルを生成することを示す。

We consider the task of generating diverse and novel videos from a single video sample. Recently, new hierarchical patch-GAN based approaches were proposed for generating diverse images, given only a single sample at training time. Moving to videos, these approaches fail to generate diverse samples, and often collapse into generating samples similar to the training video. We introduce a novel patch-based variational autoencoder (VAE) which allows for a much greater diversity in generation. Using this tool, a new hierarchical video generation scheme is constructed: at coarse scales, our patch-VAE is employed, ensuring samples are of high diversity. Subsequently, at finer scales, a patch-GAN renders the fine details, resulting in high quality videos. Our experiments show that the proposed method produces diverse samples in both the image domain, and the more challenging video domain.
翻訳日:2022-11-18 05:20:57 公開日:2020-10-22
# 特徴表現の形状は? データセット、アーキテクチャ、トレーニングの探索

What shapes feature representations? Exploring datasets, architectures, and training ( http://arxiv.org/abs/2006.12433v2 )

ライセンス: Link先を確認
Katherine L. Hermann and Andrew K. Lampinen(参考訳) 自然主義的な学習問題では、モデルの入力には幅広い特徴が含まれており、いくつかは手元にあるタスクに有用である。 有用な機能のうち、どのモデルが使われているのか? タスクに依存しない機能のうち、モデルが何を表すのか? これらの質問に対する答えは、モデルの意思決定の基礎を理解するのに重要であり、また、元のトレーニングタスクを超えて、汎用的で適応可能な表現を学ぶモデルを構築するのにも重要である。 入力特徴のタスク関連性を直接制御できる合成データセットを用いて,これらの質問について検討する。 2つの特徴が冗長にラベルを予測した場合、そのモデルは1を優先的に表現し、その嗜好は訓練されていないモデルから最も線形にデオード可能なものを反映する。 トレーニング中、タスク関連機能が強化され、タスク関連機能が部分的に抑制される。 興味深いことに、より簡単で弱い予測機能は、より強い予測を抑圧するが、より難しいものである。 さらに、簡単な機能と難しい機能の両方を認識するために訓練されたモデルは、簡単な機能のみを使用するモデルと最もよく似た表現を学ぶ。 さらに、簡単な機能はハードな機能よりも、モデル全体の一貫性のある表現につながります。 最後に、モデルは異なるタスクで訓練されたモデルよりも、訓練されていないモデルと表現上の類似性が大きい。 結果は、モデルがどの特徴を表すかを決定する複雑なプロセスに注目します。

In naturalistic learning problems, a model's input contains a wide range of features, some useful for the task at hand, and others not. Of the useful features, which ones does the model use? Of the task-irrelevant features, which ones does the model represent? Answers to these questions are important for understanding the basis of models' decisions, as well as for building models that learn versatile, adaptable representations useful beyond the original training task. We study these questions using synthetic datasets in which the task-relevance of input features can be controlled directly. We find that when two features redundantly predict the labels, the model preferentially represents one, and its preference reflects what was most linearly decodable from the untrained model. Over training, task-relevant features are enhanced, and task-irrelevant features are partially suppressed. Interestingly, in some cases, an easier, weakly predictive feature can suppress a more strongly predictive, but more difficult one. Additionally, models trained to recognize both easy and hard features learn representations most similar to models that use only the easy feature. Further, easy features lead to more consistent representations across model runs than do hard features. Finally, models have greater representational similarity to an untrained model than to models trained on a different task. Our results highlight the complex processes that determine which features a model represents.
翻訳日:2022-11-18 05:13:16 公開日:2020-10-22
# 対流緩和障壁の再検討:ニューラルネットワーク検証のための強化された単一ニューロン緩和

The Convex Relaxation Barrier, Revisited: Tightened Single-Neuron Relaxations for Neural Network Verification ( http://arxiv.org/abs/2006.14076v2 )

ライセンス: Link先を確認
Christian Tjandraatmadja and Ross Anderson and Joey Huchette and Will Ma and Krunal Patel and Juan Pablo Vielma(参考訳) 我々は,ReLUニューロンに対する新たな凸緩和法により,伝搬最適化と線形最適化に基づくニューラルネットワーク検証アルゴリズムの有効性を向上する。 ReLUの単変量入力空間のみに焦点をあてる以前の単一ニューロン緩和とは異なり、本手法はReLUより前のアフィン前活性化関数の多変量入力空間を考える。 部分モジュラリティと凸幾何学の結果を用いて、この多変量入力がボックス領域上にあるとき、最も厳密な凸緩和を明示的に記述する。 本研究は, 自然凸緩和障壁として提案されている単変量-入出力緩和よりも, 凸緩和がかなり強いことを示す。 緩和を説明するには指数関数的な不等式を必要とするが、線形時間に分離できるため、必要に応じて最適化アルゴリズムに効率的に組み込むことができる。 この新たな緩和に基づいて、ニューラルネットワーク検証のための2つの多項式時間アルゴリズムを設計する: 緩和の完全なパワーを利用する線形プログラミングベースのアルゴリズムと、既存のアプローチを一般化する高速な伝播アルゴリズムである。 いずれの場合も,計算量の増加を控えめに考えると,強化された緩和により,類似アルゴリズムに比べてインスタンス数が有意に多いことの検証が可能となる。

We improve the effectiveness of propagation- and linear-optimization-based neural network verification algorithms with a new tightened convex relaxation for ReLU neurons. Unlike previous single-neuron relaxations which focus only on the univariate input space of the ReLU, our method considers the multivariate input space of the affine pre-activation function preceding the ReLU. Using results from submodularity and convex geometry, we derive an explicit description of the tightest possible convex relaxation when this multivariate input is over a box domain. We show that our convex relaxation is significantly stronger than the commonly used univariate-input relaxation which has been proposed as a natural convex relaxation barrier for verification. While our description of the relaxation may require an exponential number of inequalities, we show that they can be separated in linear time and hence can be efficiently incorporated into optimization algorithms on an as-needed basis. Based on this novel relaxation, we design two polynomial-time algorithms for neural network verification: a linear-programming-based algorithm that leverages the full power of our relaxation, and a fast propagation algorithm that generalizes existing approaches. In both cases, we show that for a modest increase in computational effort, our strengthened relaxation enables us to verify a significantly larger number of instances compared to similar algorithms.
翻訳日:2022-11-17 09:32:41 公開日:2020-10-22
# ブラックボックス分類器の生成因果説明

Generative causal explanations of black-box classifiers ( http://arxiv.org/abs/2006.13913v2 )

ライセンス: Link先を確認
Matthew O'Shaughnessy, Gregory Canal, Marissa Connor, Mark Davenport, Christopher Rozell(参考訳) 学習した低次元データ表現に基づいてブラックボックス分類器の因果後説明を生成する手法を開発した。 この説明は、学習潜在因子の変化が分類器出力統計の変化をもたらすという意味で因果関係である。 これらの説明を構築するために、生成モデルと因果影響の情報理論的尺度を活用した学習フレームワークを設計する。 我々の目的関数は、生成モデルがデータ分布を忠実に表現し、潜在因子が分類器出力に大きな因果関係を持つように促す。 本手法は,グローバルな説明と局所的な説明の両方を学習し,クラス確率と勾配を許容する分類器と互換性があり,ラベル付き属性や因果構造に関する知識を必要としない。 慎重に制御されたテストケースを用いて、目的の機能を照らす直感を提供する。 次に,画像認識タスクにおける本手法の実用性を示す。

We develop a method for generating causal post-hoc explanations of black-box classifiers based on a learned low-dimensional representation of the data. The explanation is causal in the sense that changing learned latent factors produces a change in the classifier output statistics. To construct these explanations, we design a learning framework that leverages a generative model and information-theoretic measures of causal influence. Our objective function encourages both the generative model to faithfully represent the data distribution and the latent factors to have a large causal influence on the classifier output. Our method learns both global and local explanations, is compatible with any classifier that admits class probabilities and a gradient, and does not require labeled attributes or knowledge of causal structure. Using carefully controlled test cases, we provide intuition that illuminates the function of our objective. We then demonstrate the practical utility of our method on image recognition tasks.
翻訳日:2022-11-17 09:06:37 公開日:2020-10-22
# 複数の最善の腕で後悔する

On Regret with Multiple Best Arms ( http://arxiv.org/abs/2006.14785v2 )

ライセンス: Link先を確認
Yinglun Zhu and Robert Nowak(参考訳) 本研究では,複数腕のバンディット設定における最良/近位最適アームの存在に関する後悔的最小化問題について検討した。 我々は、アーム/アクションの数が時間軸に匹敵する、あるいははるかに大きい場合を考え、バンディット・インスタンスの構造について仮定しない。 私たちの目標は、問題の未知の硬さ、すなわち最高の腕の数に自動的に適応できるアルゴリズムを設計することです。 我々の設定は、アクション空間が巨大で、基盤となるインスタンス/構造に関する情報が利用できない、バンディットアルゴリズムの多くの現代的な応用を捉えている。 まず, 硬度レベルに依存しない適応アルゴリズムを提案し, 理論的にはその不備境界を導出する。 その結果,(1) アルゴリズムが全ての硬度レベルに対して同時に極小化できないこと,(2) アルゴリズムがパレート最適となるレート関数を達成できること,などが示唆された。 最適なアームの期待される報酬に関するさらなる知識により、全ての硬度レベルにおいて、ポリログ因子まで、最小限の最適化アルゴリズムを提案する。 実験結果は理論的な保証を検証し,従来の手法よりもアルゴリズムの利点を示す。

We study a regret minimization problem with the existence of multiple best/near-optimal arms in the multi-armed bandit setting. We consider the case when the number of arms/actions is comparable or much larger than the time horizon, and make no assumptions about the structure of the bandit instance. Our goal is to design algorithms that can automatically adapt to the unknown hardness of the problem, i.e., the number of best arms. Our setting captures many modern applications of bandit algorithms where the action space is enormous and the information about the underlying instance/structure is unavailable. We first propose an adaptive algorithm that is agnostic to the hardness level and theoretically derive its regret bound. We then prove a lower bound for our problem setting, which indicates: (1) no algorithm can be minimax optimal simultaneously over all hardness levels; and (2) our algorithm achieves a rate function that is Pareto optimal. With additional knowledge of the expected reward of the best arm, we propose another adaptive algorithm that is minimax optimal, up to polylog factors, over all hardness levels. Experimental results confirm our theoretical guarantees and show advantages of our algorithms over the previous state-of-the-art.
翻訳日:2022-11-16 20:54:31 公開日:2020-10-22
# 重ね合わせにおけるスーパーマスク

Supermasks in Superposition ( http://arxiv.org/abs/2006.14769v3 )

ライセンス: Link先を確認
Mitchell Wortsman, Vivek Ramanujan, Rosanne Liu, Aniruddha Kembhavi, Mohammad Rastegari, Jason Yosinski, Ali Farhadi(参考訳) 我々はスーパーマスク・イン・スーパーポジション(superposition,supsup)モデルを提案する。 我々のアプローチはランダムに初期化され固定されたベースネットワークを使用し、各タスクは優れた性能を達成するサブネットワーク(スーパーマスク)を見つける。 タスクのアイデンティティがテスト時に与えられる場合、正しいサブネットワークは最小限のメモリ使用量で取得できる。 供給されない場合、SupSupは勾配に基づく最適化を用いてタスクを推測し、出力エントロピーを最小化する学習スーパーマスクの線形重ね合わせを見つける。 実際には、2500のタスクの中でさえ、単一の勾配ステップが正しいマスクを特定するのに十分であることが多い。 有望な拡張も2つ紹介します。 まず、supsupモデルはタスクid情報なしで完全にトレーニングすることが可能であり、新しいデータについて不確実性があるときに検出し、新しいトレーニングディストリビューションのための追加のスーパーマスクを割り当てることができる。 最後に、成長するスーパーマスクの集合は、固定サイズのホップフィールドネットワークのアトラクターとして暗黙的に保存することで、一定サイズの貯水池に格納することができる。

We present the Supermasks in Superposition (SupSup) model, capable of sequentially learning thousands of tasks without catastrophic forgetting. Our approach uses a randomly initialized, fixed base network and for each task finds a subnetwork (supermask) that achieves good performance. If task identity is given at test time, the correct subnetwork can be retrieved with minimal memory usage. If not provided, SupSup can infer the task using gradient-based optimization to find a linear superposition of learned supermasks which minimizes the output entropy. In practice we find that a single gradient step is often sufficient to identify the correct mask, even among 2500 tasks. We also showcase two promising extensions. First, SupSup models can be trained entirely without task identity information, as they may detect when they are uncertain about new data and allocate an additional supermask for the new training distribution. Finally the entire, growing set of supermasks can be stored in a constant-sized reservoir by implicitly storing them as attractors in a fixed-sized Hopfield network.
翻訳日:2022-11-16 20:36:42 公開日:2020-10-22
# 関数勾配による統計的照会下限

Statistical-Query Lower Bounds via Functional Gradients ( http://arxiv.org/abs/2006.15812v2 )

ライセンス: Link先を確認
Surbhi Goel, Aravind Gollakota, Adam Klivans(参考訳) ガウス辺数(例えば、relu、sgmoid、sign)に関して非多項活性化を無知に学習するための最初の統計クエリ下限を与える。 ReLU回帰の特定の問題(等しくはReLUを学習する)に対して、許容値が$n^{-(1/\epsilon)^b}$の統計クエリアルゴリズムは、ある定数$b, c > 0$に対して少なくとも$2^{n^c} \epsilon$クエリを使用しなければならず、$n$は次元であり、$\epsilon$は精度パラメータであることを示す。 実数値学習問題では一般的ではない(相関学習とは対照的に)sq学習アルゴリズムは除外した。 本手法は,2層ニューラルネットワークで計算した関数のSQ次元上でのDiakonikolas et al. (COLT 2020) とGoel et al. (ICML 2020) による最近の下界の「増幅」のための勾配促進手順を含む。 重要な新しい成分は、ブースティング手順中に非標準凸関数を用いることである。 これはまた、一般的に研究されている2つの学習モデル、すなわち無依存学習と確率的概念の間の最善の還元をもたらす。

We give the first statistical-query lower bounds for agnostically learning any non-polynomial activation with respect to Gaussian marginals (e.g., ReLU, sigmoid, sign). For the specific problem of ReLU regression (equivalently, agnostically learning a ReLU), we show that any statistical-query algorithm with tolerance $n^{-(1/\epsilon)^b}$ must use at least $2^{n^c} \epsilon$ queries for some constant $b, c > 0$, where $n$ is the dimension and $\epsilon$ is the accuracy parameter. Our results rule out general (as opposed to correlational) SQ learning algorithms, which is unusual for real-valued learning problems. Our techniques involve a gradient boosting procedure for "amplifying" recent lower bounds due to Diakonikolas et al. (COLT 2020) and Goel et al. (ICML 2020) on the SQ dimension of functions computed by two-layer neural networks. The crucial new ingredient is the use of a nonstandard convex functional during the boosting procedure. This also yields a best-possible reduction between two commonly studied models of learning: agnostic learning and probabilistic concepts.
翻訳日:2022-11-15 14:11:44 公開日:2020-10-22
# 知識グラフからの効率的な論理ルール学習のためのルール階層の構築

Building Rule Hierarchies for Efficient Logical Rule Learning from Knowledge Graphs ( http://arxiv.org/abs/2006.16171v3 )

ライセンス: Link先を確認
Yulong Gu, Yu Guan, Paolo Missier(参考訳) 近年, 大規模知識グラフ(KG)から論理的ルールを抽出するために, 規則として規則を表現することによって, 新たな事実の解釈可能な推論と既知の事実の説明が可能であるという理由から, 多くのシステムが開発されている。 これらのシステムの中で、KGのサンプルパスを抽象化することで定数を含むインスタンス化されたルールを生成するウォークベース手法は、強い予測性能と表現性を示す。 しかし、可能なルールが大量にあるため、これらのシステムは計算資源がしばしば未提案のルールの生成と評価に費やされるようなスケールがうまくいかない。 本研究では,ルール階層を用いて非プロミケートルールを抽出する新しい手法を提案することで,そのようなスケーラビリティ問題に対処する。 アプローチは2つのフェーズで構成される。 まず、ルール階層はウォークベースのメソッドでは容易に利用できないため、一連の学習ルールから適切なルール階層を構築するために、サブスクライブフレームワークの集合を活用するルール階層フレームワーク(RHF)を構築しました。 次に、RHFを既存のルール学習者に適用し、生成した階層を利用して無関係かつ冗長なルールを除去する階層的プルーニング(HPM)の2つの方法の設計と実装を行う。 4つの公開ベンチマークデータセットに対する実験により、HPMの応用は、予測性能を損なうことなく、実行時だけでなく学習したルールの数も大幅に削減できる非プロミネーションルールの除去に有効であることを示す。

Many systems have been developed in recent years to mine logical rules from large-scale Knowledge Graphs (KGs), on the grounds that representing regularities as rules enables both the interpretable inference of new facts, and the explanation of known facts. Among these systems, the walk-based methods that generate the instantiated rules containing constants by abstracting sampled paths in KGs demonstrate strong predictive performance and expressivity. However, due to the large volume of possible rules, these systems do not scale well where computational resources are often wasted on generating and evaluating unpromising rules. In this work, we address such scalability issues by proposing new methods for pruning unpromising rules using rule hierarchies. The approach consists of two phases. Firstly, since rule hierarchies are not readily available in walk-based methods, we have built a Rule Hierarchy Framework (RHF), which leverages a collection of subsumption frameworks to build a proper rule hierarchy from a set of learned rules. And secondly, we adapt RHF to an existing rule learner where we design and implement two methods for Hierarchical Pruning (HPMs), which utilize the generated hierarchies to remove irrelevant and redundant rules. Through experiments over four public benchmark datasets, we show that the application of HPMs is effective in removing unpromising rules, which leads to significant reductions in the runtime as well as in the number of learned rules, without compromising the predictive performance.
翻訳日:2022-11-15 13:20:21 公開日:2020-10-22
# 初期学習規則化は雑音ラベルの記憶を抑える

Early-Learning Regularization Prevents Memorization of Noisy Labels ( http://arxiv.org/abs/2007.00151v2 )

ライセンス: Link先を確認
Sheng Liu, Jonathan Niles-Weed, Narges Razavian, Carlos Fernandez-Granda(参考訳) 本稿では,ノイズのあるアノテーションの存在下で深層学習による分類を行うための新しい枠組みを提案する。 ノイズのあるラベルでトレーニングを行うと、ディープニューラルネットワークがまず“早期学習”フェーズでトレーニングデータをクリーンなラベルに適合させ、最終的には偽ラベルでサンプルを記憶する。 我々は, 線形モデルにおいても, 早期学習と暗記が高次元分類タスクの基本現象であることを証明し, 理論的な説明を与える。 これらの知見を活かして,早期学習の進行を生かした雑音分類タスクの新しい手法を開発した。 学習中にモデル出力を使用してクリーンなラベルでサンプルを検出し、偽ラベルを無視または修正しようとする既存のアプローチとは対照的に、我々は異なる経路を採り、正規化を通じて早期学習に乗じる。 私たちのアプローチには2つの重要な要素があります。 まず,モデル出力に基づく目標確率を生成するために,半教師付き学習技術を活用する。 第二に、これらの目標に向けてモデルをステアリングする正規化項を設計し、偽ラベルの暗黙的に記憶を防止する。 結果として得られるフレームワークは、いくつかの標準ベンチマークや実世界のデータセットでノイズの多いアノテーションに対して堅牢性を提供する。

We propose a novel framework to perform classification via deep learning in the presence of noisy annotations. When trained on noisy labels, deep neural networks have been observed to first fit the training data with clean labels during an "early learning" phase, before eventually memorizing the examples with false labels. We prove that early learning and memorization are fundamental phenomena in high-dimensional classification tasks, even in simple linear models, and give a theoretical explanation in this setting. Motivated by these findings, we develop a new technique for noisy classification tasks, which exploits the progress of the early learning phase. In contrast with existing approaches, which use the model output during early learning to detect the examples with clean labels, and either ignore or attempt to correct the false labels, we take a different route and instead capitalize on early learning via regularization. There are two key elements to our approach. First, we leverage semi-supervised learning techniques to produce target probabilities based on the model outputs. Second, we design a regularization term that steers the model towards these targets, implicitly preventing memorization of the false labels. The resulting framework is shown to provide robustness to noisy annotations on several standard benchmarks and real-world datasets, where it achieves results comparable to the state of the art.
翻訳日:2022-11-15 04:26:34 公開日:2020-10-22
# 不確かさ認識モデルによる因果推論失敗の同定

Identifying Causal-Effect Inference Failure with Uncertainty-Aware Models ( http://arxiv.org/abs/2007.00163v2 )

ライセンス: Link先を確認
Andrew Jesson, S\"oren Mindermann, Uri Shalit and Yarin Gal(参考訳) 個人に対する最善の行動経路を推奨することは、個人レベルの因果効果推定の主要な応用である。 このアプリケーションは、意思決定者に対する不確実性の推定と伝達が不可欠である、ヘルスケアのような安全クリティカルな領域でしばしば必要となる。 個人レベルの因果推定に使用される最先端のニューラルネットワーク手法に不確実性推定を統合するための実践的アプローチを提案する。 因果効果の標準的な適用が失敗する高次元データに共通する「ノーオーバーラップ」の状況に対して,我々の手法が優雅に対処できることを示す。 さらに,本手法では,テスト分布が異なる共変量シフトを,実運用時に共通する列車分布に対処することができる。 このような共変量シフトが発生すると、不確かさを正しくモデル化することで、自信過剰で潜在的に有害な推奨を行うことを防げることが示された。 我々は、最先端のモデルで方法論を実証する。 共変量シフトと重複の欠如の両方の下で、我々の不確実性を備えた手法は、予測が信頼されないときに意思決定者に警告する。

Recommending the best course of action for an individual is a major application of individual-level causal effect estimation. This application is often needed in safety-critical domains such as healthcare, where estimating and communicating uncertainty to decision-makers is crucial. We introduce a practical approach for integrating uncertainty estimation into a class of state-of-the-art neural network methods used for individual-level causal estimates. We show that our methods enable us to deal gracefully with situations of "no-overlap", common in high-dimensional data, where standard applications of causal effect approaches fail. Further, our methods allow us to handle covariate shift, where test distribution differs to train distribution, common when systems are deployed in practice. We show that when such a covariate shift occurs, correctly modeling uncertainty can keep us from giving overconfident and potentially harmful recommendations. We demonstrate our methodology with a range of state-of-the-art models. Under both covariate shift and lack of overlap, our uncertainty-equipped methods can alert decisions makers when predictions are not to be trusted while outperforming their uncertainty-oblivious counterparts.
翻訳日:2022-11-14 22:01:20 公開日:2020-10-22
# 協調型マルチエージェント強化学習における暗黙のクレジットアサインメント

Learning Implicit Credit Assignment for Cooperative Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2007.02529v2 )

ライセンス: Link先を確認
Meng Zhou, Ziyu Liu, Pengwei Sui, Yixuan Li, Yuk Ying Chung(参考訳) 本研究では,完全協調環境下でのクレジット代入問題に暗黙的に対処することを目的としたマルチエージェントアクタ批判手法を提案する。 本研究の目的は,(1)中央集権的な批判者から導かれる政策勾配が,最適な協力による共同行動価値を最大化するための十分な情報を持ち,(2)訓練を通じて調査の継続レベルが強制される限り,エージェント間の信用割り当ては明示的な定式化を必要としないことである。 Under the centralized training with decentralized execution (CTDE) paradigm, we achieve the former by formulating the centralized critic as a hypernetwork such that a latent state representation is integrated into the policy gradients through its multiplicative association with the stochastic policies; to achieve the latter, we derive a simple technique called adaptive entropy regularization where magnitudes of the entropy gradients are dynamically rescaled based on the current policy stochasticity to encourage consistent levels of exploration. LICAと呼ばれるアルゴリズムは、マルチエージェント粒子環境や、StarCraft IIのマイクロマネジメントタスクのセットなど、いくつかのベンチマークで評価され、LICAが従来の手法よりも大幅に優れていることを示す。

We present a multi-agent actor-critic method that aims to implicitly address the credit assignment problem under fully cooperative settings. Our key motivation is that credit assignment among agents may not require an explicit formulation as long as (1) the policy gradients derived from a centralized critic carry sufficient information for the decentralized agents to maximize their joint action value through optimal cooperation and (2) a sustained level of exploration is enforced throughout training. Under the centralized training with decentralized execution (CTDE) paradigm, we achieve the former by formulating the centralized critic as a hypernetwork such that a latent state representation is integrated into the policy gradients through its multiplicative association with the stochastic policies; to achieve the latter, we derive a simple technique called adaptive entropy regularization where magnitudes of the entropy gradients are dynamically rescaled based on the current policy stochasticity to encourage consistent levels of exploration. Our algorithm, referred to as LICA, is evaluated on several benchmarks including the multi-agent particle environments and a set of challenging StarCraft II micromanagement tasks, and we show that LICA significantly outperforms previous methods.
翻訳日:2022-11-13 02:11:45 公開日:2020-10-22
# 粗大化によるグラフ埋め込みの高速化

Faster Graph Embeddings via Coarsening ( http://arxiv.org/abs/2007.02817v3 )

ライセンス: Link先を確認
Matthew Fahrbach, Gramoz Goranci, Richard Peng, Sushant Sachdeva, Chi Wang(参考訳) グラフ埋め込みは、グラフ構造化データ上のノード分類やリンク予測といった機械学習タスクのためのユビキタスツールである。 しかし、大規模グラフの埋め込みの計算は、関連する頂点の小さなサブセットだけに興味があるとしても、非常に非効率である。 これに対処するために,schur補数に基づく効率的なグラフ粗さ化手法を提案し,関連する頂点の埋め込み計算を行う。 これらの埋め込みは、非関係頂点上のガウス除去によって得られるシューア補グラフによって正確に保存されていることが証明される。 シュア補数計算は高価であるため、関連する頂点上の粗いグラフを生成するほぼ線形時間アルゴリズムを、各反復においてシュア補数と確実に一致させる。 グラフ上の予測タスクに関する実験は、グラフ全体ではなく粗いグラフへの埋め込みの計算が、精度を犠牲にすることなくかなりの時間節約をもたらすことを示している。

Graph embeddings are a ubiquitous tool for machine learning tasks, such as node classification and link prediction, on graph-structured data. However, computing the embeddings for large-scale graphs is prohibitively inefficient even if we are interested only in a small subset of relevant vertices. To address this, we present an efficient graph coarsening approach, based on Schur complements, for computing the embedding of the relevant vertices. We prove that these embeddings are preserved exactly by the Schur complement graph that is obtained via Gaussian elimination on the non-relevant vertices. As computing Schur complements is expensive, we give a nearly-linear time algorithm that generates a coarsened graph on the relevant vertices that provably matches the Schur complement in expectation in each iteration. Our experiments involving prediction tasks on graphs demonstrate that computing embeddings on the coarsened graph, rather than the entire graph, leads to significant time savings without sacrificing accuracy.
翻訳日:2022-11-13 02:09:42 公開日:2020-10-22
# 確率的シュタインの不一致

Stochastic Stein Discrepancies ( http://arxiv.org/abs/2007.02857v4 )

ライセンス: Link先を確認
Jackson Gorham, Anant Raj, Lester Mackey(参考訳) stein discrepancies (sds) は、正確な積分とサンプリングが難解な場合の近似推論における収束と非収束をモニターする。 しかし、スタインの不一致の計算は、しばしば確率項やポテンシャルの和であるスタイン作用素が評価に費用がかかる場合、禁止される。 この不足に対処するために、ステイン作用素のサブサンプリング近似に基づく確率的シュタイン差(ssd)が標準sdsの収束制御特性を確率 1 で継承することを示す。 その過程で、非有界領域上のスタイン変分勾配降下(SVGD)の収束を確立し、Liu (2017) の開問題を解決する。 偏りのあるマルコフ連鎖モンテカルロ(MCMC)ハイパーパラメータチューニング、近似MCMCサンプリング器選択、確率的SVGDによる実験では、SSDは標準SDに匹敵する推定を桁違いに少ない確率で行う。

Stein discrepancies (SDs) monitor convergence and non-convergence in approximate inference when exact integration and sampling are intractable. However, the computation of a Stein discrepancy can be prohibitive if the Stein operator - often a sum over likelihood terms or potentials - is expensive to evaluate. To address this deficiency, we show that stochastic Stein discrepancies (SSDs) based on subsampled approximations of the Stein operator inherit the convergence control properties of standard SDs with probability 1. Along the way, we establish the convergence of Stein variational gradient descent (SVGD) on unbounded domains, resolving an open question of Liu (2017). In our experiments with biased Markov chain Monte Carlo (MCMC) hyperparameter tuning, approximate MCMC sampler selection, and stochastic SVGD, SSDs deliver comparable inferences to standard SDs with orders of magnitude fewer likelihood evaluations.
翻訳日:2022-11-13 02:08:52 公開日:2020-10-22
# トラフィック予測のための適応グラフ畳み込みリカレントネットワーク

Adaptive Graph Convolutional Recurrent Network for Traffic Forecasting ( http://arxiv.org/abs/2007.02842v2 )

ライセンス: Link先を確認
Lei Bai and Lina Yao and Can Li and Xianzhi Wang and Can Wang(参考訳) 相関時系列データにおける複雑な空間的および時間的相関をモデル化することは、交通力学を理解し、進化する交通システムの将来状況を予測するのに不可欠である。 最近の研究は、事前に定義されたグラフの助けを借りて共有パターンをキャプチャする複雑なグラフニューラルネットワークアーキテクチャの設計に焦点を当てている。 本稿では,事前定義されたグラフを回避しつつ,トラフィック予測にノード固有パターンの学習が不可欠であると主張する。 そこで本研究では,グラフ畳み込みネットワーク(gcn)の拡張のための2つの適応モジュールを提案する。 1)ノード固有のパターンをキャプチャするノード適応パラメータ学習(NAPL)モジュール。 2)異なるトラヒック列間の相互依存性を自動的に推測するデータ適応グラフ生成(dagg)モジュール。 さらに,この2つのモジュールとリカレントネットワークに基づいて,トラヒック列のきめ細かな空間的および時間的相関を自動的に捉えるための適応型グラフ畳み込みリカレントネットワーク(agcrn)を提案する。 実世界の2つのトラヒックデータセットを用いた実験では,agcrnが空間接続に関するグラフを必要とせず,最先端技術を上回る有意なマージンを示した。

Modeling complex spatial and temporal correlations in the correlated time series data is indispensable for understanding the traffic dynamics and predicting the future status of an evolving traffic system. Recent works focus on designing complicated graph neural network architectures to capture shared patterns with the help of pre-defined graphs. In this paper, we argue that learning node-specific patterns is essential for traffic forecasting while the pre-defined graph is avoidable. To this end, we propose two adaptive modules for enhancing Graph Convolutional Network (GCN) with new capabilities: 1) a Node Adaptive Parameter Learning (NAPL) module to capture node-specific patterns; 2) a Data Adaptive Graph Generation (DAGG) module to infer the inter-dependencies among different traffic series automatically. We further propose an Adaptive Graph Convolutional Recurrent Network (AGCRN) to capture fine-grained spatial and temporal correlations in traffic series automatically based on the two modules and recurrent networks. Our experiments on two real-world traffic datasets show AGCRN outperforms state-of-the-art by a significant margin without pre-defined graphs about spatial connections.
翻訳日:2022-11-13 01:43:55 公開日:2020-10-22
# メタ変換ネットワーク埋め込みによるノベルラベルの少ないグラフ上のノード分類

Node Classification on Graphs with Few-Shot Novel Labels via Meta Transformed Network Embedding ( http://arxiv.org/abs/2007.02914v2 )

ライセンス: Link先を確認
Lin Lan, Pinghui Wang, Xuefeng Du, Kaikai Song, Jing Tao, Xiaohong Guan(参考訳) 1) グラフに出現する新規なラベルが存在すること, (2) 新規なラベルは分類器を訓練するための代表ノードが数個しかないこと,の2つの特徴を有する, グラフ上のノード分類の問題について検討した。 この問題の研究は指示的であり、オンラインのソーシャルネットワークで少数のユーザーしかいない新しく形成されたグループへの推薦など、多くのアプリケーションに対応している。 この問題を解決するために,(1)emph{structural module}は,各ノードにグラフ構造に応じた潜在表現を提供する。 2) 'emph{meta-learning module} は,グラフ構造とノードラベルの関係を,メタラーニング方式で事前知識として捉える。 さらに,メタ学習の直接的利用の欠如を解消する「emph{embedding transformation function」を導入する。 伝統的に、メタ学習された事前知識は、数発の新規ラベルの学習を容易にするために使用できる。 (3) \emph{optimization module} は、グラフ構造学習とメタ学習のバランスで上記の2つのモジュールを訓練するために、単純かつ効果的なスケジューリング戦略を用いる。 4つの実世界のデータセットに関する実験は、metatneが最先端のメソッドを大きく改善していることを示している。

We study the problem of node classification on graphs with few-shot novel labels, which has two distinctive properties: (1) There are novel labels to emerge in the graph; (2) The novel labels have only a few representative nodes for training a classifier. The study of this problem is instructive and corresponds to many applications such as recommendations for newly formed groups with only a few users in online social networks. To cope with this problem, we propose a novel Meta Transformed Network Embedding framework (MetaTNE), which consists of three modules: (1) A \emph{structural module} provides each node a latent representation according to the graph structure. (2) A \emph{meta-learning module} captures the relationships between the graph structure and the node labels as prior knowledge in a meta-learning manner. Additionally, we introduce an \emph{embedding transformation function} that remedies the deficiency of the straightforward use of meta-learning. Inherently, the meta-learned prior knowledge can be used to facilitate the learning of few-shot novel labels. (3) An \emph{optimization module} employs a simple yet effective scheduling strategy to train the above two modules with a balance between graph structure learning and meta-learning. Experiments on four real-world datasets show that MetaTNE brings a huge improvement over the state-of-the-art methods.
翻訳日:2022-11-13 01:42:55 公開日:2020-10-22
# 解くのが容易な微分方程式の学習

Learning Differential Equations that are Easy to Solve ( http://arxiv.org/abs/2007.04504v2 )

ライセンス: Link先を確認
Jacob Kelly, Jesse Bettencourt, Matthew James Johnson, David Duvenaud(参考訳) ニューラルネットワークによってパラメータ化された微分方程式は、トレーニングが進むにつれて数値的に解くのに高価になる。 我々は,学習のダイナミクスをより容易に解くように支援する手法を提案する。 具体的には, 解軌跡の高次導関数を用いて, 標準数値解法における時間コストの微分可能なサロゲートを導入する。 これらの微分はテイラーモードの自動微分で計算する。 この追加の客観的な最適化は、学習したダイナミクスを解決するのに要する時間コストに対して、モデルのパフォーマンスをトレードオフする。 提案手法は,教師付き分類,密度推定,時系列モデリングタスクにおけるモデルの精度がほぼ同じながら,かなり高速にトレーニングすることで実証する。

Differential equations parameterized by neural networks become expensive to solve numerically as training progresses. We propose a remedy that encourages learned dynamics to be easier to solve. Specifically, we introduce a differentiable surrogate for the time cost of standard numerical solvers, using higher-order derivatives of solution trajectories. These derivatives are efficient to compute with Taylor-mode automatic differentiation. Optimizing this additional objective trades model performance against the time cost of solving the learned dynamics. We demonstrate our approach by training substantially faster, while nearly as accurate, models in supervised classification, density estimation, and time-series modelling tasks.
翻訳日:2022-11-12 03:23:20 公開日:2020-10-22
# 離散非方向図形モデルの集合による逆学習推論

Adversarially-learned Inference via an Ensemble of Discrete Undirected Graphical Models ( http://arxiv.org/abs/2007.05033v3 )

ライセンス: Link先を確認
Adarsh K. Jeewajee, Leslie P. Kaelbling(参考訳) 無向グラフィカルモデルは確率変数上の合同確率分布のコンパクト表現である。 興味のある推論タスクを解決するために、任意のトポロジのグラフィカルモデルを経験的リスク最小化を用いて訓練することができる。 しかしながら、トレーニング中に見られなかった推論タスクを解決するためには、これらのモデル(EGM)を再訓練する必要があることが多い。 代わりに、無限大のグラフィカルモデル群(agms)を生成する推論非依存な逆訓練フレームワークを提案する。 アンサンブルはGANフレームワーク内でデータを生成するよう最適化され、これらのモデルの有限部分集合を用いて推論が行われる。 AGMは、後者が特に最適化された推論タスクにおいて、EGMと互換性がある。 最も重要な点として、AGMは、任意の条件付けを可能にするGibbsNetやVAEACといったディープニューラルネットワークと同様に、EGMと比較して、見当たらない推論タスクに対するはるかに優れた一般化を示している。 最後に、AGMは高速なデータサンプリングを可能にし、EGMからのGibbsサンプリングと競合する。

Undirected graphical models are compact representations of joint probability distributions over random variables. To solve inference tasks of interest, graphical models of arbitrary topology can be trained using empirical risk minimization. However, to solve inference tasks that were not seen during training, these models (EGMs) often need to be re-trained. Instead, we propose an inference-agnostic adversarial training framework which produces an infinitely-large ensemble of graphical models (AGMs). The ensemble is optimized to generate data within the GAN framework, and inference is performed using a finite subset of these models. AGMs perform comparably with EGMs on inference tasks that the latter were specifically optimized for. Most importantly, AGMs show significantly better generalization to unseen inference tasks compared to EGMs, as well as deep neural architectures like GibbsNet and VAEAC which allow arbitrary conditioning. Finally, AGMs allow fast data sampling, competitive with Gibbs sampling from EGMs.
翻訳日:2022-11-12 03:13:36 公開日:2020-10-22
# 経験リプレイにおける損失関数と非一様サンプリングの等価性

An Equivalence between Loss Functions and Non-Uniform Sampling in Experience Replay ( http://arxiv.org/abs/2007.06049v2 )

ライセンス: Link先を確認
Scott Fujimoto, David Meger, Doina Precup(参考訳) priorityd experience replay (per) は、時間差誤差に比例する非一様確率でサンプリングされた遷移からエージェントが学習する深い強化学習手法である。 非一様サンプリングデータで評価された損失関数は、同じ勾配で一様サンプリングされた損失関数に変換可能であることを示す。 驚いたことに、いくつかの環境ではPERを完全に新しい損失関数に置き換えることができる。 さらに、この関係は、一様にサンプリングされた損失関数の等価性を補正することでPERの新たな改善点を示唆している。 いくつかのMuJoCoおよびAtari環境におけるPERに対する修正の有効性と損失関数の等価性を示す。

Prioritized Experience Replay (PER) is a deep reinforcement learning technique in which agents learn from transitions sampled with non-uniform probability proportionate to their temporal-difference error. We show that any loss function evaluated with non-uniformly sampled data can be transformed into another uniformly sampled loss function with the same expected gradient. Surprisingly, we find in some environments PER can be replaced entirely by this new loss function without impact to empirical performance. Furthermore, this relationship suggests a new branch of improvements to PER by correcting its uniformly sampled loss function equivalent. We demonstrate the effectiveness of our proposed modifications to PER and the equivalent loss function in several MuJoCo and Atari environments.
翻訳日:2022-11-11 05:19:33 公開日:2020-10-22
# 音速・音速の同時予測のためのファインチューンロングフォーマ

Fine-Tune Longformer for Jointly Predicting Rumor Stance and Veracity ( http://arxiv.org/abs/2007.07803v2 )

ライセンス: Link先を確認
Anant Khandelwal(参考訳) ソーシャルメディアの利用が増加し、ニュースやイベントの人気がさらに高まったため、ウェブ上で噂が広まっていた。 ソーシャルメディアプラットフォームの普及と利用の増加により、膨大な量のデータが利用可能となり、このような大規模データを処理するための手作業はコストがかかり時間もかかるため、うわさがあるため、こうしたコンテンツの処理や検証に注目が集まっている。 多くの研究が、こうした出来事やニュースの議論スレッドにおける投稿のスタンスを特定することは、噂の真偽を特定するための重要な前段階であることを示している。 本稿では,SemEval 2019 RumorEval: Determining rumor veracity and support for rumor (SemEval 2019 Task 7)という,Reddit や Twit-ter など,さまざまなニュース記事から生じるソーシャルメディアの噂を含むマルチタスク学習フレームワークを提案する。 私たちの枠組みは2つの部分からなる。 a) フレームワークの下部は,会話スレッド内の各投稿に対するスタンスを分類し,マルチターン会話をモデル化し,隣接する投稿を各投稿に認識させることにより,噂を議論する。 b)上部は、底部から得られたスタント進化を伴う会話スレッドのうわさの正確性を予測する。 SemEval 2019 Task 7 データセットの実験結果から,提案手法は噂の定式化と妥当性予測の両方において,従来の手法よりも優れていることが示された。

Increased usage of social media caused the popularity of news and events which are not even verified, resulting in spread of rumors allover the web. Due to widely available social media platforms and increased usage caused the data to be available in huge amounts.The manual methods to process such large data is costly and time-taking, so there has been an increased attention to process and verify such content automatically for the presence of rumors. A lot of research studies reveal that to identify the stances of posts in the discussion thread of such events and news is an important preceding step before identify the rumor veracity. In this paper,we propose a multi-task learning framework for jointly predicting rumor stance and veracity on the dataset released at SemEval 2019 RumorEval: Determining rumor veracity and support for rumors(SemEval 2019 Task 7), which includes social media rumors stem from a variety of breaking news stories from Reddit as well as Twit-ter. Our framework consists of two parts: a) The bottom part of our framework classifies the stance for each post in the conversation thread discussing a rumor via modelling the multi-turn conversation and make each post aware of its neighboring posts. b) The upper part predicts the rumor veracity of the conversation thread with stance evolution obtained from the bottom part. Experimental results on SemEval 2019 Task 7 dataset show that our method outperforms previous methods on both rumor stance classification and veracity prediction
翻訳日:2022-11-10 05:46:18 公開日:2020-10-22
# 合成、実行、デバッグ: 神経プログラム合成のための学習から修復へ

Synthesize, Execute and Debug: Learning to Repair for Neural Program Synthesis ( http://arxiv.org/abs/2007.08095v2 )

ライセンス: Link先を確認
Kavi Gupta, Peter Ebert Christensen, Xinyun Chen, Dawn Song(参考訳) 深層学習技術の利用は、入力出力の例からプログラム合成において大きな進歩を遂げた。 しかし、プログラムセマンティクスがより複雑になると、仕様に整合したプログラムを合成することは依然として困難である。 本研究では,合成,実行,デバッグの段階を組み込んだニューラルプログラム生成フレームワークであるSEDを提案する。 sedは、ニューラルネットワークシンセサイザーに純粋に最終プログラムを生成するのではなく、まずneural program synthesizerコンポーネントを使用して初期プログラムを作成し、次にneural program debuggerを使用して生成されたプログラムを反復的に修復する。 デバッガコンポーネントの統合により、SEDは人間のプログラマのコーディングプロセスに似た実行結果と仕様に基づいてプログラムを変更することができる。 挑戦的な入出力プログラム合成ベンチマークであるKarelでは、SEDはニューラルプログラムシンセサイザー自体のエラー率をかなりのマージンで削減し、復号のための標準ビーム探索より優れている。

The use of deep learning techniques has achieved significant progress for program synthesis from input-output examples. However, when the program semantics become more complex, it still remains a challenge to synthesize programs that are consistent with the specification. In this work, we propose SED, a neural program generation framework that incorporates synthesis, execution, and debugging stages. Instead of purely relying on the neural program synthesizer to generate the final program, SED first produces initial programs using the neural program synthesizer component, then utilizes a neural program debugger to iteratively repair the generated programs. The integration of the debugger component enables SED to modify the programs based on the execution results and specification, which resembles the coding process of human programmers. On Karel, a challenging input-output program synthesis benchmark, SED reduces the error rate of the neural program synthesizer itself by a considerable margin, and outperforms the standard beam search for decoding.
翻訳日:2022-11-09 22:51:44 公開日:2020-10-22
# 確率的アクティブメタラーニング

Probabilistic Active Meta-Learning ( http://arxiv.org/abs/2007.08949v2 )

ライセンス: Link先を確認
Jean Kaddour, Steind\'or S{\ae}mundsson, Marc Peter Deisenroth(参考訳) データ効率の学習アルゴリズムは、データ収集が高価である、例えばロボット工学において、摩耗や裂け目によるデータ収集に不可欠である。 この問題に対処するために、メタ学習アルゴリズムはタスクに関する事前の経験を使用して、新しい関連するタスクを効率的に学習する。 通常、一連のトレーニングタスクは与えられたかランダムに選択される。 しかし、この設定は、実際の環境でモデルをスクラッチからトレーニングする際に自然に発生するシーケンシャルな性質を考慮していない。 本研究では,従来の経験に基づくタスク選択をメタ学習アルゴリズムに導入し,確率的潜在変数モデルを用いて学習者とアクティブメタ学習設定を概念化する。 シミュレーションロボット実験の強いベースラインと比較して,本手法がデータ効率を向上させるという実証的証拠を提供する。

Data-efficient learning algorithms are essential in many practical applications where data collection is expensive, e.g., in robotics due to the wear and tear. To address this problem, meta-learning algorithms use prior experience about tasks to learn new, related tasks efficiently. Typically, a set of training tasks is assumed given or randomly chosen. However, this setting does not take into account the sequential nature that naturally arises when training a model from scratch in real-life: how do we collect a set of training tasks in a data-efficient manner? In this work, we introduce task selection based on prior experience into a meta-learning algorithm by conceptualizing the learner and the active meta-learning setting using a probabilistic latent variable model. We provide empirical evidence that our approach improves data-efficiency when compared to strong baselines on simulated robotic experiments.
翻訳日:2022-11-09 13:11:48 公開日:2020-10-22
# DeepSVG:ベクターグラフィックスアニメーションのための階層型生成ネットワーク

DeepSVG: A Hierarchical Generative Network for Vector Graphics Animation ( http://arxiv.org/abs/2007.11301v3 )

ライセンス: Link先を確認
Alexandre Carlier, Martin Danelljan, Alexandre Alahi, Radu Timofte(参考訳) スケーラブルベクターグラフィックス(SVG)は、様々な解像度にスケールできるため、現代の2Dインターフェースではユビキタスである。 しかし、ラスタ化画像に適用された深層学習モデルの成功にもかかわらず、ベクトルグラフィックス表現学習と生成の問題は未解決のままである。 本研究では,複雑なSVGアイコンの生成と補間のための階層型生成ネットワークDeepSVGを提案する。 当社のアーキテクチャは,形状自体をエンコードする低レベルコマンドから,ハイレベルな形状を効果的に分離します。 ネットワークは、非自己回帰的な形状の集合を直接予測する。 本稿では,SVG操作のためのオープンソースライブラリとともに,新たな大規模データセットをリリースすることによって,複雑なSVGアイコン生成の課題を紹介する。 我々は,ネットワークが様々なベクトルグラフィックスを正確に再構築することを学び,補間や他の潜時空間操作をすることで,強力なアニメーションツールとして機能できることを実証した。 私たちのコードはhttps://github.com/alexandre01/deepsvgで利用可能です。

Scalable Vector Graphics (SVG) are ubiquitous in modern 2D interfaces due to their ability to scale to different resolutions. However, despite the success of deep learning-based models applied to rasterized images, the problem of vector graphics representation learning and generation remains largely unexplored. In this work, we propose a novel hierarchical generative network, called DeepSVG, for complex SVG icons generation and interpolation. Our architecture effectively disentangles high-level shapes from the low-level commands that encode the shape itself. The network directly predicts a set of shapes in a non-autoregressive fashion. We introduce the task of complex SVG icons generation by releasing a new large-scale dataset along with an open-source library for SVG manipulation. We demonstrate that our network learns to accurately reconstruct diverse vector graphics, and can serve as a powerful animation tool by performing interpolations and other latent space operations. Our code is available at https://github.com/alexandre01/deepsvg.
翻訳日:2022-11-07 22:46:52 公開日:2020-10-22
# 文脈に依存しない初期化によるメタラーニング

Meta-Learning with Context-Agnostic Initialisations ( http://arxiv.org/abs/2007.14658v2 )

ライセンス: Link先を確認
Toby Perrett, Alessandro Masullo, Tilo Burghardt, Majid Mirmehdi, Dima Damen(参考訳) メタラーニングアプローチは、ターゲットタスクの微調整に適した初期化を見つけることで、少数の問題に対処している。 多くの場合、トレーニングデータ(コンテキストと呼ぶ)の中に追加のプロパティがあり、ターゲットタスクとは無関係であり、特にトレーニング中に見えない新しいコンテキストの例を含んでいる場合、メタラーニングへの注意をそらす役割を果たします。 メタ学習プロセスにコンテキスト・逆成分を組み込むことで、この監視に対処する。 これにより、コンテキスト非依存とタスク一般化の両方を対象とする微調整の初期化が実現される。 我々は,3つのメタ学習アルゴリズムと2つの問題に対するアプローチを評価した。 文脈に依存しないメタラーニングはそれぞれのケースで結果を改善する。 まず,アルファベットを文脈として用い,全文の文字分類について報告する。 文字を未知のアルファベットから分類する場合、メソッドやタスク間で平均4.3%の改善が観察される。 次に,映像から個人化されたエネルギー消費予測のためのデータセットについて,参加者の知識を文脈として評価する。 文脈依存型メタラーニングは平均平均二乗誤差を30%減少させる。

Meta-learning approaches have addressed few-shot problems by finding initialisations suited for fine-tuning to target tasks. Often there are additional properties within training data (which we refer to as context), not relevant to the target task, which act as a distractor to meta-learning, particularly when the target task contains examples from a novel context not seen during training. We address this oversight by incorporating a context-adversarial component into the meta-learning process. This produces an initialisation for fine-tuning to target which is both context-agnostic and task-generalised. We evaluate our approach on three commonly used meta-learning algorithms and two problems. We demonstrate our context-agnostic meta-learning improves results in each case. First, we report on Omniglot few-shot character classification, using alphabets as context. An average improvement of 4.3% is observed across methods and tasks when classifying characters from an unseen alphabet. Second, we evaluate on a dataset for personalised energy expenditure predictions from video, using participant knowledge as context. We demonstrate that context-agnostic meta-learning decreases the average mean square error by 30%.
翻訳日:2022-11-05 20:28:43 公開日:2020-10-22
# 潜時空間形成によるオートエンコーダ画像の補間

Autoencoder Image Interpolation by Shaping the Latent Space ( http://arxiv.org/abs/2008.01487v2 )

ライセンス: Link先を確認
Alon Oring and Zohar Yakhini and Yacov Hel-Or(参考訳) オートエンコーダは、異なるタイプのデータセットを特徴付ける基礎となる要因を計算するための効果的なアプローチである。 オートエンコーダの潜在表現は、潜在ベクトルの凸結合をデコードすることでデータポイント間の補間を可能にするという文脈で研究されている。 しかし、この補間はしばしば、再建中に人工物や非現実的な結果をもたらす。 これらの矛盾は、潜在空間の構造と、そのような内挿された潜在ベクトルがデータ多様体から逸脱するためである。 本稿では,学習画像と整合する多様体を従えるように潜在表現を形作る正則化手法を提案し,その多様体を滑らかかつ局所凸に駆動する。 この正規化は、データポイント間の忠実な補間を可能にするだけでなく、オーバーフィットを避けたり、データ拡張のための新しいサンプルを作成するための一般的な正規化手法としても使用できる。

Autoencoders represent an effective approach for computing the underlying factors characterizing datasets of different types. The latent representation of autoencoders have been studied in the context of enabling interpolation between data points by decoding convex combinations of latent vectors. This interpolation, however, often leads to artifacts or produces unrealistic results during reconstruction. We argue that these incongruities are due to the structure of the latent space and because such naively interpolated latent vectors deviate from the data manifold. In this paper, we propose a regularization technique that shapes the latent representation to follow a manifold that is consistent with the training images and that drives the manifold to be smooth and locally convex. This regularization not only enables faithful interpolation between data points, as we show herein, but can also be used as a general regularization technique to avoid overfitting or to produce new samples for data augmentation.
翻訳日:2022-11-02 23:30:16 公開日:2020-10-22
# 表現学習のための機能正規化:統一理論的視点

Functional Regularization for Representation Learning: A Unified Theoretical Perspective ( http://arxiv.org/abs/2008.02447v3 )

ライセンス: Link先を確認
Siddhant Garg, Yingyu Liang(参考訳) 教師なしおよび自己教師なしの学習アプローチは、下流予測タスクの表現を学習するための重要なツールとなっている。 これらのアプローチは実際は広く使われており、印象的な経験的利益を達成するが、理論的な理解はほとんど遅れている。 このギャップを埋めるために,ラベルなしデータを用いた学習可能な関数による表現の正規化を前提とした,いくつかのアプローチを統一した視点を提案する。 本稿では,これらの手法のサンプル複雑性を分析するための識別的理論的枠組みを提案し,学習可能な正規化関数を実現するために(Balcan and Blum, 2010)の枠組みを一般化する。 サンプルの複雑性境界は、データの構造を利用するために慎重に選択された仮説クラスによって、これらの学習可能な正規化関数が仮説空間を歪め、必要なラベル付きデータの量を減らすことができることを示している。 次に,機能正規化の具体例を2つ提示する。1つはオートエンコーダ,もう1つはマスク付き自己スーパービジョンを用いて,このフレームワークを用いてラベル付きデータの複雑さの低減を定量化する。 分析を支援するための補完的な実証結果も提供する。

Unsupervised and self-supervised learning approaches have become a crucial tool to learn representations for downstream prediction tasks. While these approaches are widely used in practice and achieve impressive empirical gains, their theoretical understanding largely lags behind. Towards bridging this gap, we present a unifying perspective where several such approaches can be viewed as imposing a regularization on the representation via a learnable function using unlabeled data. We propose a discriminative theoretical framework for analyzing the sample complexity of these approaches, which generalizes the framework of (Balcan and Blum, 2010) to allow learnable regularization functions. Our sample complexity bounds show that, with carefully chosen hypothesis classes to exploit the structure in the data, these learnable regularization functions can prune the hypothesis space, and help reduce the amount of labeled data needed. We then provide two concrete examples of functional regularization, one using auto-encoders and the other using masked self-supervision, and apply our framework to quantify the reduction in the sample complexity bound of labeled data. We also provide complementary empirical results to support our analysis.
翻訳日:2022-11-02 06:34:23 公開日:2020-10-22
# コンフォーメータを用いた連続音声分離

Continuous Speech Separation with Conformer ( http://arxiv.org/abs/2008.05773v2 )

ライセンス: Link先を確認
Sanyuan Chen, Yu Wu, Zhuo Chen, Jian Wu, Jinyu Li, Takuya Yoshioka, Chengyi Wang, Shujie Liu, Ming Zhou(参考訳) 連続音声分離は、会話の書き起こしのような複雑な音声関連タスクにおいて重要な役割を果たす。 分離モデルは、混合音声から単一の話者信号を抽出する。 本稿では,自己照査に基づく手法でグローバル情報を収集することが音声分離に不可欠であると考えるため,分離システムにおける再帰的ニューラルネットワークの代わりにトランスフォーマとコンフォーマを用いる。 LibriCSSデータセットに基づいて、コンバータ分離モデルは、発話評価における双方向LSTM(BLSTM)からの単語誤り率(WER)の相対23.5%、連続評価における15.4%のWERの削減という、技術結果の状態を達成する。

Continuous speech separation plays a vital role in complicated speech related tasks such as conversation transcription. The separation model extracts a single speaker signal from a mixed speech. In this paper, we use transformer and conformer in lieu of recurrent neural networks in the separation system, as we believe capturing global information with the self-attention based method is crucial for the speech separation. Evaluating on the LibriCSS dataset, the conformer separation model achieves state of the art results, with a relative 23.5% word error rate (WER) reduction from bi-directional LSTM (BLSTM) in the utterance-wise evaluation and a 15.4% WER reduction in the continuous evaluation.
翻訳日:2022-10-30 23:40:51 公開日:2020-10-22
# push-saga:有向グラフ上の分散低減を伴う分散確率アルゴリズム

Push-SAGA: A decentralized stochastic algorithm with variance reduction over directed graphs ( http://arxiv.org/abs/2008.06082v2 )

ライセンス: Link先を確認
Muhammad I. Qureshi and Ran Xin and Soummya Kar and Usman A. Khan(参考訳) 本稿では,ノードの有向ネットワーク上の有限サム最小化のための分散確率一階法push-sagaを提案する。 Push-SAGAは、ノードレベルの分散化を組み合わせ、確率勾配による不確実性を排除し、ネットワークレベルの勾配追跡によりデータの分散特性に対処し、プッシュサムコンセンサスにより、有向通信リンクの課題に取り組む。 その結果,push-saga は滑らかかつ強凸問題に対する厳密解への線形収束を達成し,任意の強連結有向グラフ上の最初の線形収束確率アルゴリズムとなることがわかった。 また,push-sagaが中央集権化に比べて線形速度アップを達成し,ネットワークに依存しない収束率を達成する機構を特徴付ける。 強凸および非凸問題に対する数値実験により,プッシュサガの挙動と収束特性を明らかにした。

In this paper, we propose Push-SAGA, a decentralized stochastic first-order method for finite-sum minimization over a directed network of nodes. Push-SAGA combines node-level variance reduction to remove the uncertainty caused by stochastic gradients, network-level gradient tracking to address the distributed nature of the data, and push-sum consensus to tackle the challenge of directed communication links. We show that Push-SAGA achieves linear convergence to the exact solution for smooth and strongly convex problems and is thus the first linearly-convergent stochastic algorithm over arbitrary strongly connected directed graphs. We also characterize the regimes in which Push-SAGA achieves a linear speed-up compared to its centralized counterpart and achieves a network-independent convergence rate. We illustrate the behavior and convergence properties of Push-SAGA with the help of numerical experiments on strongly convex and non-convex problems.
翻訳日:2022-10-30 23:03:58 公開日:2020-10-22
# ニューラルシンボリックスタックマシンによる構成一般化

Compositional Generalization via Neural-Symbolic Stack Machines ( http://arxiv.org/abs/2008.06662v2 )

ライセンス: Link先を確認
Xinyun Chen, Chen Liang, Adams Wei Yu, Dawn Song, Denny Zhou(参考訳) 優れた成功を収めたにもかかわらず、既存のディープラーニングモデルは、構成的一般化の限界、構成規則を学習し、体系的な方法で見えないケースに適用する能力を明らかにしている。 そこで我々はNeural-Symbolic Stack Machine (NeSS)を提案する。 トレースを生成するニューラルネットワークが含まれており、シーケンス操作操作によって拡張されたシンボリックスタックマシンによって実行される。 NeSSは、ニューラルネットワークモデルの表現力と、シンボリックスタックマシンが支持する再帰を結合する。 実行トレースのトレーニング監督がなければ、nessは、言語駆動ナビゲーションタスクのスキャンベンチマーク、構成命令の数少ない学習タスク、合成機械翻訳ベンチマーク、文脈自由文法解析タスクの4つのドメインで100%一般化性能を達成している。

Despite achieving tremendous success, existing deep learning models have exposed limitations in compositional generalization, the capability to learn compositional rules and apply them to unseen cases in a systematic manner. To tackle this issue, we propose the Neural-Symbolic Stack Machine (NeSS). It contains a neural network to generate traces, which are then executed by a symbolic stack machine enhanced with sequence manipulation operations. NeSS combines the expressive power of neural sequence models with the recursion supported by the symbolic stack machine. Without training supervision on execution traces, NeSS achieves 100% generalization performance in four domains: the SCAN benchmark of language-driven navigation tasks, the task of few-shot learning of compositional instructions, the compositional machine translation benchmark, and context-free grammar parsing tasks.
翻訳日:2022-10-28 20:36:46 公開日:2020-10-22
# リニア値反復による効率のよい報酬非依存ナビゲーション

Provably Efficient Reward-Agnostic Navigation with Linear Value Iteration ( http://arxiv.org/abs/2008.07737v2 )

ライセンス: Link先を確認
Andrea Zanette, Alessandro Lazaric, Mykel J. Kochenderfer, Emma Brunskill(参考訳) 線形関数近似を用いたmdpにおける効率的学習のための理論的解析の進歩は進んでいるが、既存の研究の多くは、従来の探索フレームワークによる探索を可能にするための強力な仮定を成している。 通常、これらの仮定はバッチ設定で良いソリューションを見つけるために必要なものよりも強い。 本研究は,最小二乗反復型アルゴリズムでよく用いられる低固有なベルマン誤差というより標準的な概念の下で,線形空間が十分「探索可能」であるような近似値関数の学習に強いPAC保証を与える方法を示す。 そこで本研究では,無報酬設定のための計算可能なアルゴリズムを提示し,学習が完了したときのみ明らかにされる(線形)報酬関数に対して,最適に近いポリシーを学習する方法を示す。 この報奨関数が純粋な探索中に収集されたサンプルから推定される場合、我々はまた、この設定に対する結果のポリシーの性能について、同次PAC保証を提供する。

There has been growing progress on theoretical analyses for provably efficient learning in MDPs with linear function approximation, but much of the existing work has made strong assumptions to enable exploration by conventional exploration frameworks. Typically these assumptions are stronger than what is needed to find good solutions in the batch setting. In this work, we show how under a more standard notion of low inherent Bellman error, typically employed in least-square value iteration-style algorithms, we can provide strong PAC guarantees on learning a near optimal value function provided that the linear space is sufficiently "explorable". We present a computationally tractable algorithm for the reward-free setting and show how it can be used to learn a near optimal policy for any (linear) reward function, which is revealed only once learning has completed. If this reward function is also estimated from the samples gathered during pure exploration, our results also provide same-order PAC guarantees on the performance of the resulting policy for this setting.
翻訳日:2022-10-27 20:46:09 公開日:2020-10-22
# 英語フリーアソシエーションネットワークの解析によるリモートアソシエーションテストの効率的解のメカニズム

Analysis of English free association network reveals mechanisms of efficient solution of Remote Association Tests ( http://arxiv.org/abs/2008.12219v2 )

ライセンス: Link先を確認
O.V. Valba, A.S. Gorsky, S.K. Nechaev, and M.V. Tamm(参考訳) 英語自由連想ネットワークの構造と特性,および精神言語的遠隔関連テスト(rats)の解との関係について検討した。 本研究では,個々のRATの平均硬度が,自由結合ネットワーク上でのテストワード(刺激と応答)の相対的な位置によって決定されることを示す。 RATの解は、動詞が単語であり、リンクが単語の関連性であるネットワーク上での第1の通路探索問題として解釈できると論じる。 我々は、異なるヒューリスティック検索アルゴリズムを提案し、この解法は、刺激と応答を直接接続する「強い」ネットワークリンク(すなわち、強い関連性)によって支配され、そのような強いリンクを活性化する効率的な戦略であることを示す。 逆に、中級と硬質のRATを解く最も効率的なメカニズムは、「モデレート的に弱い」関連からなる。

We study correlations between the structure and properties of a free association network of the English language, and solutions of psycholinguistic Remote Association Tests (RATs). We show that average hardness of individual RATs is largely determined by relative positions of test words (stimuli and response) on the free association network. We argue that the solution of RATs can be interpreted as a first passage search problem on a network whose vertices are words and links are associations between words. We propose different heuristic search algorithms and demonstrate that in "easily-solving" RATs (those that are solved in 15 seconds by more than 64\% subjects) the solution is governed by "strong" network links (i.e. strong associations) directly connecting stimuli and response, and thus the efficient strategy consist in activating such strong links. In turn, the most efficient mechanism of solving medium and hard RATs consists of preferentially following sequence of "moderately weak" associations.
翻訳日:2022-10-24 08:21:04 公開日:2020-10-22
# 感情的嘘つき:偽クレーム分類のための拡張コーパスとディープラーニングモデル

Sentimental LIAR: Extended Corpus and Deep Learning Models for Fake Claim Classification ( http://arxiv.org/abs/2009.01047v2 )

ライセンス: Link先を確認
Bibek Upadhayay and Vahid Behzadan(参考訳) 私たちの日々の生活や文化におけるソーシャルメディアの統合は、人類の歴史の中で、情報の流れに素早く簡単にアクセスできるようになる。 しかし、本質的に監視されていないソーシャルメディアプラットフォームの性質により、偽情報や偽ニュースの拡散も容易になった。 さらに、そのようなプラットフォームにおける情報フローの量と速度は、手動による情報伝達の監督と制御を可能とします。 本稿では,ソーシャルメディア上での誤文クレームの自動検出のための新しい深層学習手法を提案する。 まず,感傷的LIARを紹介する。このLIARデータセットは,クレームの感情分析と感情分析に基づく特徴を加えることで,短いクレームのLIARデータセットを拡張する。 さらに,クレームを本物あるいは偽物として分類するためのbert-base言語モデルに基づく新しいディープラーニングアーキテクチャを提案する。 この結果から,センチメンタルLIARでトレーニングしたアーキテクチャでは70%の精度が得られ,従来報告したLIARベンチマークに比べて約30%の精度が向上した。

The rampant integration of social media in our every day lives and culture has given rise to fast and easier access to the flow of information than ever in human history. However, the inherently unsupervised nature of social media platforms has also made it easier to spread false information and fake news. Furthermore, the high volume and velocity of information flow in such platforms make manual supervision and control of information propagation infeasible. This paper aims to address this issue by proposing a novel deep learning approach for automated detection of false short-text claims on social media. We first introduce Sentimental LIAR, which extends the LIAR dataset of short claims by adding features based on sentiment and emotion analysis of claims. Furthermore, we propose a novel deep learning architecture based on the BERT-Base language model for classification of claims as genuine or fake. Our results demonstrate that the proposed architecture trained on Sentimental LIAR can achieve an accuracy of 70%, which is an improvement of ~30% over previously reported results for the LIAR benchmark.
翻訳日:2022-10-23 00:26:29 公開日:2020-10-22
# FleXOR: トレーニング可能なフラクショナル量子化

FleXOR: Trainable Fractional Quantization ( http://arxiv.org/abs/2009.04126v2 )

ライセンス: Link先を確認
Dongsoo Lee, Se Jung Kwon, Byeongwook Kim, Yongkweon Jeon, Baeseong Park and Jeongin Yun(参考訳) 2進法に基づく量子化が注目されているのは、各量子化ビットがルックアップテーブルを使用して復号化することなく直接計算に利用できるためである。 しかし、以前の試みでは量子化ビットの整数数のみを許容しており、圧縮比と精度の検索空間を制限している。 本稿では,量子化重みを圧縮し,各重みあたりのビット数の分数を求める暗号化アルゴリズム/アーキテクチャを提案する。 推論中の復号化は、ニューラルネットワークモデルに付加されたデジタルXORゲートネットワークによって実装され、XORゲートは、後方伝播のために$\tanh(x)$を利用して勾配計算を可能にする。 mnist,cifar-10,imagenetを用いて実験を行い,xorゲートの挿入がトレーニングによって量子化/暗号化されたビット決定を学習し,分数サブ1ビットの重みでも高い精度が得られることを示す。 その結果,提案手法は,バイナリニューラルネットワークよりも小型でモデル精度が高いことがわかった。

Quantization based on the binary codes is gaining attention because each quantized bit can be directly utilized for computations without dequantization using look-up tables. Previous attempts, however, only allow for integer numbers of quantization bits, which ends up restricting the search space for compression ratio and accuracy. In this paper, we propose an encryption algorithm/architecture to compress quantized weights so as to achieve fractional numbers of bits per weight. Decryption during inference is implemented by digital XOR-gate networks added into the neural network model while XOR gates are described by utilizing $\tanh(x)$ for backward propagation to enable gradient calculations. We perform experiments using MNIST, CIFAR-10, and ImageNet to show that inserting XOR gates learns quantization/encrypted bit decisions through training and obtains high accuracy even for fractional sub 1-bit weights. As a result, our proposed method yields smaller size and higher model accuracy compared to binary neural networks.
翻訳日:2022-10-20 08:46:24 公開日:2020-10-22
# gedi: 生成的判別器誘導シーケンス生成

GeDi: Generative Discriminator Guided Sequence Generation ( http://arxiv.org/abs/2009.06367v2 )

ライセンス: Link先を確認
Ben Krause, Akhilesh Deepak Gotmare, Bryan McCann, Nitish Shirish Keskar, Shafiq Joty, Richard Socher, Nazneen Fatema Rajani(参考訳) 大規模言語モデル(LM)は、現実的なテキストを生成するのに十分な自然言語の分布を模倣することができるが、それらが生成する分布領域を制御することは困難である。 特に問題となるのは、大規模なLMのトレーニングに使用されるデータセットには、大きな毒性、憎悪、偏見、負性が含まれていることである。 より小さなLMを生成的識別器として使用し,より安全で制御しやすい大規模なLMから生成する手法として,GeDiを提案する。 gediは2つのクラス条件分布(望ましい属性、または制御コード、望ましくない属性、またはアンチコントロールコード)を正規化することにより、ベイズルールを介して可能な全ての次のトークンの分類確率を計算することで、各ステップで生成を導く。 gediはartメソッドの状態よりも制御性が強く,生成速度も30倍以上高速であることが判明した。 さらに、わずか4つのトピックでgediをトレーニングすることで、単なるキーワードからゼロショットで新しいトピックを生成し、以前のコントロール可能なジェネレーションメソッドが持っていない新しい機能を解放できます。 最後に,gediは言語品質を犠牲にすることなく,gpt-2 (1.5bパラメータ) の毒性を著しく低下させることが可能であることを示す。

While large-scale language models (LMs) are able to imitate the distribution of natural language well enough to generate realistic text, it is difficult to control which regions of the distribution they generate. This is especially problematic because datasets used for training large LMs usually contain significant toxicity, hate, bias, and negativity. We propose GeDi as an efficient method for using smaller LMs as generative discriminators to guide generation from large LMs to make them safer and more controllable. GeDi guides generation at each step by computing classification probabilities for all possible next tokens via Bayes rule by normalizing over two class-conditional distributions; one conditioned on the desired attribute, or control code, and another conditioned on the undesired attribute, or anti control code. We find that GeDi gives stronger controllability than the state of the art method while also achieving generation speeds more than 30 times faster. Additionally, training GeDi on only four topics allows us to controllably generate new topics zero-shot from just a keyword, unlocking a new capability that previous controllable generation methods do not have. Lastly, we show that GeDi can make GPT-2 (1.5B parameters) significantly less toxic without sacrificing linguistic quality, making it by far the most practical existing method for detoxifying large language models while maintaining a fast generation speed.
翻訳日:2022-10-18 11:23:42 公開日:2020-10-22
# モバイルにおける大規模言語モデルのリアルタイム実行

Real-Time Execution of Large-scale Language Models on Mobile ( http://arxiv.org/abs/2009.06823v2 )

ライセンス: Link先を確認
Wei Niu, Zhenglun Kong, Geng Yuan, Weiwen Jiang, Jiexiong Guan, Caiwen Ding, Pu Zhao, Sijia Liu, Bin Ren, Yanzhi Wang(参考訳) 事前訓練された大規模言語モデルは、多くの自然言語処理(NLP)タスクにおいて高い精度を証明している。 しかし、ハードウェアプラットフォームの重量ストレージと計算速度の制限は、特にエッジコンピューティングの時代において、事前訓練されたモデルの人気を妨げている。 本稿では,特定のデバイスに適合する計算サイズに対して,BERTの最良のモデル構造を求める。 本稿では,最初のコンパイラアウェアニューラルアーキテクチャ最適化フレームワークを提案する。 当社のフレームワークは,モバイルデバイスのリソースおよびリアルタイム仕様に適合する特定モデルを保証し,BERT変種のような大規模トランスフォーマーモデルの実行をリアルタイムに行う。 我々は,モバイル端末上でのレイテンシの低いよく知られたベンチマークにおいて,複数のNLPタスクでモデルを評価し,競合する結果を得た。 具体的には、cpuの5.2倍、gpuの4.1倍、bertベースに比べて0.5-2%の精度損失がある。 全体的なフレームワークはTensorFlow-Liteと比較して7.8倍のスピードアップを実現しています。

Pre-trained large-scale language models have increasingly demonstrated high accuracy on many natural language processing (NLP) tasks. However, the limited weight storage and computational speed on hardware platforms have impeded the popularity of pre-trained models, especially in the era of edge computing. In this paper, we seek to find the best model structure of BERT for a given computation size to match specific devices. We propose the first compiler-aware neural architecture optimization framework. Our framework can guarantee the identified model to meet both resource and real-time specifications of mobile devices, thus achieving real-time execution of large transformer-based models like BERT variants. We evaluate our model on several NLP tasks, achieving competitive results on well-known benchmarks with lower latency on mobile devices. Specifically, our model is 5.2x faster on CPU and 4.1x faster on GPU with 0.5-2% accuracy loss compared with BERT-base. Our overall framework achieves up to 7.8x speedup compared with TensorFlow-Lite with only minor accuracy loss.
翻訳日:2022-10-18 05:32:24 公開日:2020-10-22
# マルチドメイン対話状態生成のための並列ネットワーク

Parallel Interactive Networks for Multi-Domain Dialogue State Generation ( http://arxiv.org/abs/2009.07616v3 )

ライセンス: Link先を確認
Junfan Chen, Richong Zhang, Yongyi Mao, Jie Xu(参考訳) 既存のマルチドメイン対話状態追跡(mdst)モデルでは、システムとユーザの発話の依存性が同じ順番と異なる順番で完全に考慮されていない。 本研究では,mdstの設計において,これらの依存関係の組込みが重要であり,これらの依存関係をモデル化するための並列ネットワーク (pin) を提案する。 具体的には、対話型エンコーダを統合し、インターン依存関係とクロスターン依存関係を共同でモデル化する。 スロットレベルのコンテキストを導入し、異なるスロットに対してより表現力のある特徴を抽出する。 また、分散コピー機構を利用して、履歴システム発話や履歴ユーザ発話から単語を選択的にコピーする。 実証的研究は提案されたPINモデルの優越性を実証した。

The dependencies between system and user utterances in the same turn and across different turns are not fully considered in existing multidomain dialogue state tracking (MDST) models. In this study, we argue that the incorporation of these dependencies is crucial for the design of MDST and propose Parallel Interactive Networks (PIN) to model these dependencies. Specifically, we integrate an interactive encoder to jointly model the in-turn dependencies and cross-turn dependencies. The slot-level context is introduced to extract more expressive features for different slots. And a distributed copy mechanism is utilized to selectively copy words from historical system utterances or historical user utterances. Empirical studies demonstrated the superiority of the proposed PIN model.
翻訳日:2022-10-17 23:53:44 公開日:2020-10-22
# ランダム化平滑化による信頼の証明

Certifying Confidence via Randomized Smoothing ( http://arxiv.org/abs/2009.08061v2 )

ライセンス: Link先を確認
Aounon Kumar, Alexander Levine, Soheil Feizi, Tom Goldstein(参考訳) ランダム化平滑化は、高次元の分類問題に対して優れた認定ロバスト性保証をもたらすことが示されている。 これは、平滑化分布下の入力点周辺の上位2つの最もよく似たクラスを予測し、分類器の予測のために認定半径を生成する確率を用いる。 しかし、ほとんどの平滑化手法は、基盤となる分類器(例えばディープニューラルネットワーク)が予測する信頼性に関する情報を与えない。 本研究では,平滑化分類器の予測信頼度を推定するための認証radiiを生成する手法を提案する。 信頼度を定量化するための概念として,クラスの平均予測スコアと,クラスの平均予測スコアが他のクラスよりも大きいマージンの2つを検討した。 我々は、ニーマン・ピアソン補題(ランダム化平滑化における鍵定理)を修正して、一定のしきい値以上の信頼が保証される認定半径を計算する手順を設計する。 CIFAR-10 と ImageNet のデータセットを用いた実験結果から,信頼度スコアの分布に関する情報を利用することで,無視するよりも精度の高い半径を達成できることが判明した。 これにより、入力点における基本分類器に関する追加情報が、平滑化分類器の認証保証の改善に役立つことを実証する。 実験用のコードはhttps://github.com/aounon/cdf-smoothing.comで入手できる。

Randomized smoothing has been shown to provide good certified-robustness guarantees for high-dimensional classification problems. It uses the probabilities of predicting the top two most-likely classes around an input point under a smoothing distribution to generate a certified radius for a classifier's prediction. However, most smoothing methods do not give us any information about the confidence with which the underlying classifier (e.g., deep neural network) makes a prediction. In this work, we propose a method to generate certified radii for the prediction confidence of the smoothed classifier. We consider two notions for quantifying confidence: average prediction score of a class and the margin by which the average prediction score of one class exceeds that of another. We modify the Neyman-Pearson lemma (a key theorem in randomized smoothing) to design a procedure for computing the certified radius where the confidence is guaranteed to stay above a certain threshold. Our experimental results on CIFAR-10 and ImageNet datasets show that using information about the distribution of the confidence scores allows us to achieve a significantly better certified radius than ignoring it. Thus, we demonstrate that extra information about the base classifier at the input point can help improve certified guarantees for the smoothed classifier. Code for the experiments is available at https://github.com/aounon/cdf-smoothing.
翻訳日:2022-10-17 08:25:20 公開日:2020-10-22
# Sanity-Checking Pruning Methods:ランダムチケットがジャックポットに勝つ

Sanity-Checking Pruning Methods: Random Tickets can Win the Jackpot ( http://arxiv.org/abs/2009.11094v2 )

ライセンス: Link先を確認
Jingtong Su, Yihang Chen, Tianle Cai, Tianhao Wu, Ruiqi Gao, Liwei Wang, Jason D. Lee(参考訳) ネットワークプルーニング(Network pruning)は、最小性能の低下を伴うテスト時間計算リソース要求の低減手法である。 プルーニングアルゴリズムの従来の知見は、(1)プルーニングメソッドはトレーニングデータからの情報を活用して優れたサブネットワークを見つける、(2)プルーニングされたネットワークのアーキテクチャは優れたパフォーマンスに不可欠であることを示唆している。 In this paper, we conduct sanity checks for the above beliefs on several recent unstructured pruning methods and surprisingly find that: (1) A set of methods which aims to find good subnetworks of the randomly-initialized network (which we call "initial tickets"), hardly exploits any information from the training data; (2) For the pruned networks obtained by these methods, randomly changing the preserved weights in each layer, while keeping the total number of preserved weights unchanged per layer, does not affect the final performance. これらの結果から,各層に対して一連の単純な \emph{data-independent} prune ratio を選択し,サブネットワークを得るために各層をランダムにプルーする(ランダムチケットと呼ぶ)。 実験の結果, ゼロショットランダムチケットは, 既存の「初期チケット」と比較して性能が良く, あるいは類似していることがわかった。 さらに,我々の衛生チェックをパスする既存のプルーニング手法を1つ同定する。 本研究では,この手法とランダムチケットの比率をハイブリッド化し,さらに改良した「ハイブリッドチケット」という手法を提案する。 (当社のコードはhttps://github.com/JingtongSu/sanity-checking-pruning)

Network pruning is a method for reducing test-time computational resource requirements with minimal performance degradation. Conventional wisdom of pruning algorithms suggests that: (1) Pruning methods exploit information from training data to find good subnetworks; (2) The architecture of the pruned network is crucial for good performance. In this paper, we conduct sanity checks for the above beliefs on several recent unstructured pruning methods and surprisingly find that: (1) A set of methods which aims to find good subnetworks of the randomly-initialized network (which we call "initial tickets"), hardly exploits any information from the training data; (2) For the pruned networks obtained by these methods, randomly changing the preserved weights in each layer, while keeping the total number of preserved weights unchanged per layer, does not affect the final performance. These findings inspire us to choose a series of simple \emph{data-independent} prune ratios for each layer, and randomly prune each layer accordingly to get a subnetwork (which we call "random tickets"). Experimental results show that our zero-shot random tickets outperform or attain a similar performance compared to existing "initial tickets". In addition, we identify one existing pruning method that passes our sanity checks. We hybridize the ratios in our random ticket with this method and propose a new method called "hybrid tickets", which achieves further improvement. (Our code is publicly available at https://github.com/JingtongSu/sanity-checking-pruning)
翻訳日:2022-10-15 21:50:36 公開日:2020-10-22
# 頭蓋内脳波における高周波振動(HFO)のリアルタイム検出のための電子ニューロモルフィックシステム

An electronic neuromorphic system for real-time detection of High Frequency Oscillations (HFOs) in intracranial EEG ( http://arxiv.org/abs/2009.11245v2 )

ライセンス: Link先を確認
Mohammadali Sharifshazileh (1 and 2), Karla Burelo (1 and 2), Johannes Sarnthein (2) and Giacomo Indiveri (1) ((1) Institute of Neuroinformatics, University of Zurich and ETH Zurich, (2) Klinik f\"ur Neurochirurgie, Universit\"atsSpital und Universit\"at Z\"urich)(参考訳) 本研究では,脳波記録ヘッドステージに信号-スパイク変換回路とマルチコアスパイクニューラルネットワーク(SNN)アーキテクチャを併用して,てんかん発生領域のバイオマーカーである高周波数振動(HFO)を記録,処理,検出するニューロモルフィックシステムを提案する。 この装置は標準の 0.18$\mu$m cmos 技術ノードを使用して製造され、総面積は 99mm$^{2} である。 てんかん手術を行った側頭葉てんかん9例から得られたieegのhfo検出への応用を実証した。 検出タスク中のチップの平均消費電力は614.3$\mu$wであった。 本稿では,HFOを確実に検出する方法について述べる。このシステムは,最先端の精度,特異性,感度(それぞれ78%,100%,33%)で術後発作を予測できる。 これは、イベントベースのプロセッサとスパイクニューラルネットワークを使用して、リアルタイムのオンチップで、頭蓋内データの関連特徴を特定するための最初の実現可能性研究である。 神経記録回路に「ニューロモーフィック・インテリジェンス」を提供することにより、提案されたアプローチは、手術室で直接hfo領域を検出し、てんかん手術の発作結果を改善するシステムの開発への道を開くだろう。

In this work, we present a neuromorphic system that combines for the first time a neural recording headstage with a signal-to-spike conversion circuit and a multi-core spiking neural network (SNN) architecture on the same die for recording, processing, and detecting High Frequency Oscillations (HFO), which are biomarkers for the epileptogenic zone. The device was fabricated using a standard 0.18$\mu$m CMOS technology node and has a total area of 99mm$^{2}$. We demonstrate its application to HFO detection in the iEEG recorded from 9 patients with temporal lobe epilepsy who subsequently underwent epilepsy surgery. The total average power consumption of the chip during the detection task was 614.3$\mu$W. We show how the neuromorphic system can reliably detect HFOs: the system predicts postsurgical seizure outcome with state-of-the-art accuracy, specificity and sensitivity (78%, 100%, and 33% respectively). This is the first feasibility study towards identifying relevant features in intracranial human data in real-time, on-chip, using event-based processors and spiking neural networks. By providing "neuromorphic intelligence" to neural recording circuits the approach proposed will pave the way for the development of systems that can detect HFO areas directly in the operation room and improve the seizure outcome of epilepsy surgery.
翻訳日:2022-10-15 15:16:46 公開日:2020-10-22
# 回転二元ニューラルネットワーク

Rotated Binary Neural Network ( http://arxiv.org/abs/2009.13055v3 )

ライセンス: Link先を確認
Mingbao Lin, Rongrong Ji, Zihan Xu, Baochang Zhang, Yan Wang, Yongjian Wu, Feiyue Huang, Chia-Wen Lin(参考訳) binary neural network (bnn) は、ディープニューラルネットワークの複雑さを減らすことに重点を置いている。 しかし、深刻な性能低下に悩まされる。 主要な障害の1つは、全精度重みベクトルとその二乗ベクトルの間の大きな量子化誤差である。 以前の作業では、角バイアスがほとんど触れられずに、標準ギャップの補償に焦点を当てていた。 本稿では,角偏差が量子化誤差に与える影響を初めて検討し,全精度重みベクトルとその二項化バージョンとの角度アライメントを考慮した回転二項ニューラルネットワーク(RBNN)を導入する。 各トレーニングエポックの開始時に,全精度重みベクトルを2進ベクトルに回転させて角バイアスを低減することを提案する。 さらに,大きな回転行列の学習が複雑になるのを避けるため,より小さい2つの回転行列を学習するバイローテーション式を導入する。 トレーニング段階では,二項化のための調整可能な回転重みベクトルを考案し,潜在的局所最適化から逃れる。 我々の回転は、情報ゲインを最大化する約50%のウェイトフリップにつながる。 最後に,逆勾配に対する符号関数のトレーニング対応近似を提案する。 CIFAR-10とImageNetの実験は、多くの最先端技術よりもRBNNの方が優れていることを示した。 ソースコード、実験的な設定、トレーニングログ、バイナリモデルはhttps://github.com/lmbxmu/RBNN.orgで公開されています。

Binary Neural Network (BNN) shows its predominance in reducing the complexity of deep neural networks. However, it suffers severe performance degradation. One of the major impediments is the large quantization error between the full-precision weight vector and its binary vector. Previous works focus on compensating for the norm gap while leaving the angular bias hardly touched. In this paper, for the first time, we explore the influence of angular bias on the quantization error and then introduce a Rotated Binary Neural Network (RBNN), which considers the angle alignment between the full-precision weight vector and its binarized version. At the beginning of each training epoch, we propose to rotate the full-precision weight vector to its binary vector to reduce the angular bias. To avoid the high complexity of learning a large rotation matrix, we further introduce a bi-rotation formulation that learns two smaller rotation matrices. In the training stage, we devise an adjustable rotated weight vector for binarization to escape the potential local optimum. Our rotation leads to around 50% weight flips which maximize the information gain. Finally, we propose a training-aware approximation of the sign function for the gradient backward. Experiments on CIFAR-10 and ImageNet demonstrate the superiorities of RBNN over many state-of-the-arts. Our source code, experimental settings, training logs and binary models are available at https://github.com/lmbxmu/RBNN.
翻訳日:2022-10-13 21:57:49 公開日:2020-10-22
# 発話レベルの対話理解:実証的研究

Utterance-level Dialogue Understanding: An Empirical Study ( http://arxiv.org/abs/2009.13902v5 )

ライセンス: Link先を確認
Deepanway Ghosal, Navonil Majumder, Rada Mihalcea, Soujanya Poria(参考訳) 近年のWeb等における会話データの豊富さは,対話理解に有効なNLPシステムを求めている。 完全な発話レベルの理解は、しばしば近くの発話によって定義される文脈理解を必要とする。 近年,様々な発話レベルの対話理解タスクに対して,様々なアプローチが提案されている。 これらのアプローチのほとんどは、効果的な理解のコンテキストを担っている。 本稿では,対話のさまざまな側面,すなわち感情,意図,対話行為の識別における文脈の役割を,最先端の対話理解手法をベースラインとして検討し,定量化する。 具体的には、与えられた発話の文脈を歪め、異なるタスクやベースラインに与える影響を研究するために、様々な摂動を用いる。 これにより、対話のさまざまな側面の基本的な文脈制御要因に関する洞察が得られます。 このような洞察は、より効果的な対話理解モデルを引き起こし、将来のテキスト生成アプローチをサポートする。 この作業に関する実装は、https://github.com/declare-lab/dialogue-understandingで利用可能である。

The recent abundance of conversational data on the Web and elsewhere calls for effective NLP systems for dialog understanding. Complete utterance-level understanding often requires context understanding, defined by nearby utterances. In recent years, a number of approaches have been proposed for various utterance-level dialogue understanding tasks. Most of these approaches account for the context for effective understanding. In this paper, we explore and quantify the role of context for different aspects of a dialogue, namely emotion, intent, and dialogue act identification, using state-of-the-art dialog understanding methods as baselines. Specifically, we employ various perturbations to distort the context of a given utterance and study its impact on the different tasks and baselines. This provides us with insights into the fundamental contextual controlling factors of different aspects of a dialogue. Such insights can inspire more effective dialogue understanding models, and provide support for future text generation approaches. The implementation pertaining to this work is available at https://github.com/declare-lab/dialogue-understanding.
翻訳日:2022-10-13 06:21:29 公開日:2020-10-22
# Augmentation-Wise Weight SharingによるオートAugmentの改善

Improving Auto-Augment via Augmentation-Wise Weight Sharing ( http://arxiv.org/abs/2009.14737v2 )

ライセンス: Link先を確認
Keyu Tian, Chen Lin, Ming Sun, Luping Zhou, Junjie Yan, Wanli Ouyang(参考訳) 自動拡張ポリシーの最近の進歩により、様々なタスクのパフォーマンスが大幅に向上した。 自動拡張検索の重要な要素は、報酬を返すために利用され、通常は何千回も実行される特定の拡張ポリシーの評価プロセスである。 完全なモデルトレーニングと検証を含む平易な評価プロセスは、時間がかかるでしょう。 効率を上げるために、多くの人は速度評価の信頼性を犠牲にする。 本稿では,モデルの強化トレーニングのダイナミクスについて考察する。 これにより、Augmentation-Wise Weight Sharing(AWS)に基づいた強力で効率的なプロキシタスクを設計して、高速かつ正確な評価プロセスをエレガントな方法で構築することが可能になるのです。 包括的な分析は、効果と効率の観点からこのアプローチの優位性を検証する。 提案手法は,既存の自動拡張検索法と比較して精度が優れている。 cifar-10では、トップ1エラー率1.24%を達成し、トレーニングデータなしでは、現在最もパフォーマンスの高いシングルモデルである。 ImageNetでは、ResNet-50でトップ-1エラー率20.36%を獲得し、ベースライン拡張で3.34%の絶対エラー率を削減した。

The recent progress on automatically searching augmentation policies has boosted the performance substantially for various tasks. A key component of automatic augmentation search is the evaluation process for a particular augmentation policy, which is utilized to return reward and usually runs thousands of times. A plain evaluation process, which includes full model training and validation, would be time-consuming. To achieve efficiency, many choose to sacrifice evaluation reliability for speed. In this paper, we dive into the dynamics of augmented training of the model. This inspires us to design a powerful and efficient proxy task based on the Augmentation-Wise Weight Sharing (AWS) to form a fast yet accurate evaluation process in an elegant way. Comprehensive analysis verifies the superiority of this approach in terms of effectiveness and efficiency. The augmentation policies found by our method achieve superior accuracies compared with existing auto-augmentation search methods. On CIFAR-10, we achieve a top-1 error rate of 1.24%, which is currently the best performing single model without extra training data. On ImageNet, we get a top-1 error rate of 20.36% for ResNet-50, which leads to 3.34% absolute error rate reduction over the baseline augmentation.
翻訳日:2022-10-12 22:27:21 公開日:2020-10-22
# 変動条件下での畳み込みニューラルネットワークによるホログラフィー推定

Homography Estimation with Convolutional Neural Networks Under Conditions of Variance ( http://arxiv.org/abs/2010.01041v2 )

ライセンス: Link先を確認
David Niblick, Avinash Kak(参考訳) 平面ホモグラフィ推定は、同時ローカライゼーションとマッピング(slam)や拡張現実(ar)など、多くのコンピュータビジョン問題の基礎となっている。 しかし、高分散条件は最先端のアルゴリズムでさえ矛盾する。 本稿では,より伝統的な特徴マッチングに基づくホモグラフィー推定手法を置き換えることを目的とした,畳み込みニューラルネットワーク(CNN)を用いた2つの手法の性能解析を行う。 提案手法の評価は, 有意な騒音, 照明シフト, 咬合の条件下での性能を測定することに焦点を当てた。 また、CNNを様々な騒音レベルに訓練する利点も測定する。 さらに,カラー画像の入力にグレースケール画像の代わりにカラー画像を使うことの効果をcnnと比較した。 最後に,SIFT,SURF,ORBを用いたベースライン特徴マッチングに基づくホモグラフィ推定法との比較を行った。 CNNは、ノイズに対してより堅牢であるように訓練できるが、ノイズのないケースでは精度が低い。 さらに、CNNは、特徴マッチングベースのものよりも、極端に分散した条件で大幅に性能が向上する。 カラー入力に関しては,カラープレーンにおける付加情報を利用するcnnアーキテクチャの変更がなければ,カラー入力やグレースケール入力による性能の差は無視できると結論づけた。 ノイズ破壊入力を訓練したCNNについて,CNNを特定の音の大きさに訓練すると,CNNが最高の性能を示す騒音レベルが「ゴルディロックゾーン」となることを示す。

Planar homography estimation is foundational to many computer vision problems, such as Simultaneous Localization and Mapping (SLAM) and Augmented Reality (AR). However, conditions of high variance confound even the state-of-the-art algorithms. In this report, we analyze the performance of two recently published methods using Convolutional Neural Networks (CNNs) that are meant to replace the more traditional feature-matching based approaches to the estimation of homography. Our evaluation of the CNN based methods focuses particularly on measuring the performance under conditions of significant noise, illumination shift, and occlusion. We also measure the benefits of training CNNs to varying degrees of noise. Additionally, we compare the effect of using color images instead of grayscale images for inputs to CNNs. Finally, we compare the results against baseline feature-matching based homography estimation methods using SIFT, SURF, and ORB. We find that CNNs can be trained to be more robust against noise, but at a small cost to accuracy in the noiseless case. Additionally, CNNs perform significantly better in conditions of extreme variance than their feature-matching based counterparts. With regard to color inputs, we conclude that with no change in the CNN architecture to take advantage of the additional information in the color planes, the difference in performance using color inputs or grayscale inputs is negligible. About the CNNs trained with noise-corrupted inputs, we show that training a CNN to a specific magnitude of noise leads to a "Goldilocks Zone" with regard to the noise levels where that CNN performs best.
翻訳日:2022-10-12 01:50:39 公開日:2020-10-22
# フェアネスアウェアハイパーパラメータ最適化のためのbanditに基づくアルゴリズム

A Bandit-Based Algorithm for Fairness-Aware Hyperparameter Optimization ( http://arxiv.org/abs/2010.03665v2 )

ライセンス: Link先を確認
Andr\'e F. Cruz, Pedro Saleiro, Catarina Bel\'em, Carlos Soares, Pedro Bizarro(参考訳) かなりの研究努力がアルゴリズムの公正性に向けて導かれてきたが、まだ大きなブレークスルーはない。 実際には、全ての可能な技術とハイパーパラメータを網羅的に探索し、最適な公平性-正確性トレードオフを見つける必要がある。 したがって、ML実践者のためのツールの欠如と相まって、実際のバイアス低減手法の採用は依然として少ない。 そこで本研究では,バンドイットをベースとするfairness-aware hyperparameter optimization (ho)アルゴリズムであるfairbandを提案する。 fairbandは概念的にはシンプルで、リソース効率が高く、実装が容易で、客観的なメトリクス、モデルタイプ、探索中のハイパーパラメータ空間の両方に依存しない。 さらに、フェアネスの概念をHOに導入することにより、現実のMLパイプラインへのフェアネス目標のシームレスかつ効率的な統合を可能にします。 実世界の4つの意思決定データセット上で,Fairbandと一般的なHO手法を比較した。 ハイパーパラメータ最適化により,fairbandはフェアネス・正確なトレードオフを効率的にナビゲートできることを示す。 さらに、追加のトレーニングコストがかからず、予測精度が比較的小さく、公平性が大幅に向上した構成を一貫して発見する。

Considerable research effort has been guided towards algorithmic fairness but there is still no major breakthrough. In practice, an exhaustive search over all possible techniques and hyperparameters is needed to find optimal fairness-accuracy trade-offs. Hence, coupled with the lack of tools for ML practitioners, real-world adoption of bias reduction methods is still scarce. To address this, we present Fairband, a bandit-based fairness-aware hyperparameter optimization (HO) algorithm. Fairband is conceptually simple, resource-efficient, easy to implement, and agnostic to both the objective metrics, model types and the hyperparameter space being explored. Moreover, by introducing fairness notions into HO, we enable seamless and efficient integration of fairness objectives into real-world ML pipelines. We compare Fairband with popular HO methods on four real-world decision-making datasets. We show that Fairband can efficiently navigate the fairness-accuracy trade-off through hyperparameter optimization. Furthermore, without extra training cost, it consistently finds configurations attaining substantially improved fairness at a comparatively small decrease in predictive accuracy.
翻訳日:2022-10-09 22:17:14 公開日:2020-10-22
# CDEvalSumm:ニューラルネットワークのクロスデータセット評価に関する実証的研究

CDEvalSumm: An Empirical Study of Cross-Dataset Evaluation for Neural Summarization Systems ( http://arxiv.org/abs/2010.05139v2 )

ライセンス: Link先を確認
Yiran Chen, Pengfei Liu, Ming Zhong, Zi-Yi Dou, Danqing Wang, Xipeng Qiu and Xuanjing Huang(参考訳) 教師なし事前学習知識で強化されたニューラルネットワークベースのモデルは、テキスト要約において印象的なパフォーマンスを達成した。 しかし、既存の評価方法はドメイン内設定に限定されており、要約者は同じデータセットで訓練され、評価される。 このアプローチは、異なる要約システムに対する一般化能力の理解を狭めることができると論じる。 本稿では,異なるデータセットの特性の詳細な分析を行い,各コーパスで訓練された要約器を領域外コーパスで評価するクロスデータセット設定における異なる要約モデルの性能について検討する。 異なる領域の5つのデータセットに対する11の代表的な要約システムの包括的研究により、モデルアーキテクチャと生成方法(抽象的および抽出的)がモデルの一般化能力に与える影響が明らかになった。 さらに,実験結果は既存の要約器の限界に光を当てた。 簡単な紹介と追加コードはhttps://github.com/zide05/cdevalsummにある。

Neural network-based models augmented with unsupervised pre-trained knowledge have achieved impressive performance on text summarization. However, most existing evaluation methods are limited to an in-domain setting, where summarizers are trained and evaluated on the same dataset. We argue that this approach can narrow our understanding of the generalization ability for different summarization systems. In this paper, we perform an in-depth analysis of characteristics of different datasets and investigate the performance of different summarization models under a cross-dataset setting, in which a summarizer trained on one corpus will be evaluated on a range of out-of-domain corpora. A comprehensive study of 11 representative summarization systems on 5 datasets from different domains reveals the effect of model architectures and generation ways (i.e. abstractive and extractive) on model generalization ability. Further, experimental results shed light on the limitations of existing summarizers. Brief introduction and supplementary code can be found in https://github.com/zide05/CDEvalSumm.
翻訳日:2022-10-08 13:25:37 公開日:2020-10-22
# コンテンツ配信システムにおけるニューラルエンハンスメント:最新技術と今後の展望

Neural Enhancement in Content Delivery Systems: The State-of-the-Art and Future Directions ( http://arxiv.org/abs/2010.05838v2 )

ライセンス: Link先を確認
Royson Lee, Stylianos I. Venieris, Nicholas D. Lane(参考訳) インターネット対応のスマートフォンとウルトラワイドディスプレイは、オンデマンド映画から360度ビデオ、ビデオ会議やライブストリーミングまで、さまざまなビジュアルアプリを変えつつある。 しかしながら、多様な能力を持つデバイス上で変動するネットワーク条件下での視覚的コンテンツの堅牢な配信は、いまだに未解決の問題である。 近年,超解像や画像強調などのタスクにおける深層学習の進歩は,低品質の画像から高品質な画像を生成する上で,前例のないパフォーマンスをもたらしている。 本稿では,高速応答時間と高画質を実現する上で重要な要素としてニューラルエンハンスメントを用いた最先端コンテンツ配信システムについて検討する。 まず,ニューラルエンハンスメントモデルの展開課題について述べる。 次に、さまざまなユースケースを対象とするシステムをカバーし、技術的課題を克服するための設計決定を分析する。 さらに,これらのシステムにおける経験の質をさらに向上させるため,深層学習研究の最新の知見に基づく有望な方向性を示す。

Internet-enabled smartphones and ultra-wide displays are transforming a variety of visual apps spanning from on-demand movies and 360-degree videos to video-conferencing and live streaming. However, robustly delivering visual content under fluctuating networking conditions on devices of diverse capabilities remains an open problem. In recent years, advances in the field of deep learning on tasks such as super-resolution and image enhancement have led to unprecedented performance in generating high-quality images from low-quality ones, a process we refer to as neural enhancement. In this paper, we survey state-of-the-art content delivery systems that employ neural enhancement as a key component in achieving both fast response time and high visual quality. We first present the deployment challenges of neural enhancement models. We then cover systems targeting diverse use-cases and analyze their design decisions in overcoming technical challenges. Moreover, we present promising directions based on the latest insights from deep learning research to further boost the quality of experience of these systems.
翻訳日:2022-10-08 08:10:29 公開日:2020-10-22
# 依存性レベルの包摂による生成のファクタリティ評価

Evaluating Factuality in Generation with Dependency-level Entailment ( http://arxiv.org/abs/2010.05478v2 )

ライセンス: Link先を確認
Tanya Goyal, Greg Durrett(参考訳) テキスト生成モデルの大幅な進歩にもかかわらず、深刻な制限は、入力の情報と実際に矛盾するテキストを生成する傾向にある。 近年,テキスト・エンタテインメント・システムを用いて事実の誤りを識別する方法が研究されているが,これらの文レベルのエンタテインメント・モデルは,生成フィルタリングとは異なる問題を解くために訓練されており,どの世代が非実数であるかをローカライズしていない。 本稿では,依存性弧のレベルに分解する包含の新たな定式化を提案する。 集約的な決定に焦点をあてるのではなく、生成した出力の個々の依存弧によって表される意味的関係が、入力によって支持されるかどうかを問う。 そこで,本課題における人間の判断は困難であり,既存の補足や副詞コーパスに基づいてデータを自動的に作成する手法を提案する。 実験により,このデータに基づいて学習した係り受け弧内包モデルにより,文レベルの手法や質問生成に基づく手法よりも,言い換えや要約の現実的矛盾を識別し,生成の誤り部分の局所化を図ることができることがわかった。

Despite significant progress in text generation models, a serious limitation is their tendency to produce text that is factually inconsistent with information in the input. Recent work has studied whether textual entailment systems can be used to identify factual errors; however, these sentence-level entailment models are trained to solve a different problem than generation filtering and they do not localize which part of a generation is non-factual. In this paper, we propose a new formulation of entailment that decomposes it at the level of dependency arcs. Rather than focusing on aggregate decisions, we instead ask whether the semantic relationship manifested by individual dependency arcs in the generated output is supported by the input. Human judgments on this task are difficult to obtain; we therefore propose a method to automatically create data based on existing entailment or paraphrase corpora. Experiments show that our dependency arc entailment model trained on this data can identify factual inconsistencies in paraphrasing and summarization better than sentence-level methods or those based on question generation, while additionally localizing the erroneous parts of the generation.
翻訳日:2022-10-08 06:42:35 公開日:2020-10-22
# BayReL:マルチオミクスデータ統合のためのベイズ関係学習

BayReL: Bayesian Relational Learning for Multi-omics Data Integration ( http://arxiv.org/abs/2010.05895v3 )

ライセンス: Link先を確認
Ehsan Hajiramezanali, Arman Hasanzadeh, Nick Duffield, Krishna R Narayanan, Xiaoning Qian(参考訳) 高スループット分子プロファイリング技術が高次元マルチオミクスデータを作成し、ゲノムスケールでの生体システムの系統的理解を可能にした。 異なるデータタイプにわたる分子相互作用の研究は、異なる分子のクラスにわたるシグナル伝達機構を明らかにするのに役立つ。 本稿では,マルチオミクスデータ型間の関係的相互作用を推定するベイズ表現学習手法を提案する。 本手法は,マルチオミクスデータ統合のためのベイズ関係学習 (bayrel) であり,同一分子群間の事前の既知の関係を利用して,対応するビュー毎にグラフとしてモデル化し,ビュー固有の潜在変数や,ビュー間のインタラクションをエンコードする多成分グラフを学習する。 いくつかの実世界のデータセットに対する実験により,既存のベースラインと比較して意味のある相互作用を推測するベイレLの性能が向上した。

High-throughput molecular profiling technologies have produced high-dimensional multi-omics data, enabling systematic understanding of living systems at the genome scale. Studying molecular interactions across different data types helps reveal signal transduction mechanisms across different classes of molecules. In this paper, we develop a novel Bayesian representation learning method that infers the relational interactions across multi-omics data types. Our method, Bayesian Relational Learning (BayReL) for multi-omics data integration, takes advantage of a priori known relationships among the same class of molecules, modeled as a graph at each corresponding view, to learn view-specific latent variables as well as a multi-partite graph that encodes the interactions across views. Our experiments on several real-world datasets demonstrate enhanced performance of BayReL in inferring meaningful interactions compared to existing baselines.
翻訳日:2022-10-08 06:22:06 公開日:2020-10-22
# チャットボットと人工知能: t5と言語トランスフォーマーアンサンブルによるテキスト分類による人間データ拡張

Chatbot Interaction with Artificial Intelligence: Human Data Augmentation with T5 and Language Transformer Ensemble for Text Classification ( http://arxiv.org/abs/2010.05990v2 )

ライセンス: Link先を確認
Jordan J. Bird, Anik\'o Ek\'art, Diego R. Faria(参考訳) 本稿では,タスク分類のための深層学習チャットボットの訓練へのアプローチとして,Chatbot Interaction with Artificial Intelligence (CI-AI)フレームワークを提案する。 このインテリジェントシステムは、自然言語処理のための古典的、注意深い、言語変換に基づく学習アプローチのために、大量のトレーニングデータを生成するために、人工パラフレーズを使用して、人為的なデータを拡張する。 人間は、機械のさらなる実行のために、タスク識別のためのコマンドと質問を言い換えるよう求められます。 コマンドと質問は、トレーニングと検証セットに分割される。 合計483件の反応が記録された。 第2に、トレーニングセットは、さらなるデータで拡張するために、T5モデルによって言い換えられる。 7つの最先端トランスフォーマーベースのテキスト分類アルゴリズム(BERT, DistilBERT, RoBERTa, DistilRoBERTa, XLM, XLM-RoBERTa, XLNet)を2つのエポックのトレーニングデータを微調整した後にベンチマークした。 トレーニングデータをT5モデルで拡張すると,すべてのモデルが改善され,分類精度が平均4.01%向上することがわかった。 最も優れた結果は、98.96%の分類精度を達成したT5拡張データに基づいて訓練されたRoBERTaモデルであった。 最後に、出力ラベル予測のロジスティック回帰による5つの最高のトランスフォーマーモデルのアンサンブルにより、人間の反応のデータセットにおいて99.59%の精度が得られた。 高いパフォーマンスのモデルにより、インテリジェントシステムはチャットボットのようなインターフェース(例えば「ロボットは会話ができるか?」など)を通じて人間のコマンドを社会的相互作用レベルで解釈することができ、非技術ユーザによるAIへのより良いアクセシビリティを実現することができる。

In this work, we present the Chatbot Interaction with Artificial Intelligence (CI-AI) framework as an approach to the training of deep learning chatbots for task classification. The intelligent system augments human-sourced data via artificial paraphrasing in order to generate a large set of training data for further classical, attention, and language transformation-based learning approaches for Natural Language Processing. Human beings are asked to paraphrase commands and questions for task identification for further execution of a machine. The commands and questions are split into training and validation sets. A total of 483 responses were recorded. Secondly, the training set is paraphrased by the T5 model in order to augment it with further data. Seven state-of-the-art transformer-based text classification algorithms (BERT, DistilBERT, RoBERTa, DistilRoBERTa, XLM, XLM-RoBERTa, and XLNet) are benchmarked for both sets after fine-tuning on the training data for two epochs. We find that all models are improved when training data is augmented by the T5 model, with an average increase of classification accuracy by 4.01%. The best result was the RoBERTa model trained on T5 augmented data which achieved 98.96% classification accuracy. Finally, we found that an ensemble of the five best-performing transformer models via Logistic Regression of output label predictions led to an accuracy of 99.59% on the dataset of human responses. A highly-performing model allows the intelligent system to interpret human commands at the social-interaction level through a chatbot-like interface (e.g. "Robot, can we have a conversation?") and allows for better accessibility to AI by non-technical users.
翻訳日:2022-10-08 05:49:34 公開日:2020-10-22
# 光空中画像変化検出のための深層学習に基づく教師なし自己学習アルゴリズム

Unsupervised Self-training Algorithm Based on Deep Learning for Optical Aerial Images Change Detection ( http://arxiv.org/abs/2010.07469v2 )

ライセンス: Link先を確認
Yuan Zhou, Xiangrui Li(参考訳) 光空中画像変化検出は地球観測において重要な課題であり、過去数十年にわたって広く研究されてきた。 一般に、優れた性能を有する教師付き変更検出方法は、手動アノテーションにより高コストで得られる大量のラベル付きトレーニングデータを必要とする。 本稿では,光学的空中画像変化検出のための教師なし自己学習アルゴリズム(USTA)を提案する。 変化ベクトル解析のような従来の手法は擬似ラベルを生成するために用いられる。 これらの擬似ラベルを用いて、よく設計された畳み込みニューラルネットワークを訓練する。 ネットワークは教師として、元のマルチテンポラルイメージを分類し、別の擬似ラベルを生成する。 次に、2組の疑似ラベルを用いて、教師と同じ構造を持つ学生ネットワークを共同で訓練する。 最終変更検出結果は、訓練された学生ネットワークによって得ることができる。 さらに、ネットワークのトレーニングプロセスにおいて、擬似ラベルにおける変更情報の利用を制御するための画像フィルタを設計する。 アルゴリズムの全プロセスは教師なしのプロセスであり、手動でラベルを付けない。 実データを用いた実験により,提案手法の競合性能を示す。

Optical aerial images change detection is an important task in earth observation and has been extensively investigated in the past few decades. Generally, the supervised change detection methods with superior performance require a large amount of labeled training data which is obtained by manual annotation with high cost. In this paper, we present a novel unsupervised self-training algorithm (USTA) for optical aerial images change detection. The traditional method such as change vector analysis is used to generate the pseudo labels. We use these pseudo labels to train a well designed convolutional neural network. The network is used as a teacher to classify the original multitemporal images to generate another set of pseudo labels. Then two set of pseudo labels are used to jointly train a student network with the same structure as the teacher. The final change detection result can be obtained by the trained student network. Besides, we design an image filter to control the usage of change information in the pseudo labels in the training process of the network. The whole process of the algorithm is an unsupervised process without manually marked labels. Experimental results on the real datasets demonstrate competitive performance of our proposed method.
翻訳日:2022-10-07 03:09:07 公開日:2020-10-22
# イベントから単眼深度を学習する

Learning Monocular Dense Depth from Events ( http://arxiv.org/abs/2010.08350v2 )

ライセンス: Link先を確認
Javier Hidalgo-Carri\'o, Daniel Gehrig and Davide Scaramuzza(参考訳) イベントカメラは、強度フレームの代わりに非同期イベントのストリームの形で輝度変化を出力する新しいセンサーである。 従来の画像センサと比較して、高時間分解能、高ダイナミックレンジ、動きのぼけがなく、帯域幅もはるかに低いという大きな利点がある。 近年、学習に基づくアプローチがイベントベースのデータに適用され、その可能性を解き放ち、単眼深度予測のような様々なタスクにおいて大きな進歩を遂げている。 既存のアプローチのほとんどは、標準的なフィードフォワードアーキテクチャを使用して、イベントストリームの時間的一貫性を生かしていないネットワーク予測を生成する。 本稿では,この課題を解決するための繰り返しアーキテクチャを提案し,標準フィードフォワード法よりも大幅に改善されていることを示す。 特に,本手法ではこれまでに示されていない単分子配置を用いて深度予測を行う。 我々は、CARLAシミュレータに記録されたイベントと深度マップを含む新しいデータセットを用いて、モデルを事前訓練する。 本手法をMVSEC(Multi Vehicle Stereo Event Camera Dataset)で検証する。 定量的実験では、過去の事象に基づく手法と比較して平均深度誤差が最大50%改善されている。

Event cameras are novel sensors that output brightness changes in the form of a stream of asynchronous events instead of intensity frames. Compared to conventional image sensors, they offer significant advantages: high temporal resolution, high dynamic range, no motion blur, and much lower bandwidth. Recently, learning-based approaches have been applied to event-based data, thus unlocking their potential and making significant progress in a variety of tasks, such as monocular depth prediction. Most existing approaches use standard feed-forward architectures to generate network predictions, which do not leverage the temporal consistency presents in the event stream. We propose a recurrent architecture to solve this task and show significant improvement over standard feed-forward methods. In particular, our method generates dense depth predictions using a monocular setup, which has not been shown previously. We pretrain our model using a new dataset containing events and depth maps recorded in the CARLA simulator. We test our method on the Multi Vehicle Stereo Event Camera Dataset (MVSEC). Quantitative experiments show up to 50% improvement in average depth error with respect to previous event-based methods.
翻訳日:2022-10-06 20:30:04 公開日:2020-10-22
# UCCAによる機械翻訳評価への意味構造の導入

Incorporate Semantic Structures into Machine Translation Evaluation via UCCA ( http://arxiv.org/abs/2010.08728v2 )

ライセンス: Link先を確認
Jin Xu, Yinuo Guo, Junfeng Hu(参考訳) コピー機構はニューラルパラフレーズネットワークやその他のテキスト生成タスクでよく使われており、入力シーケンスのいくつかの重要な単語が出力シーケンスに保存されている。 同様に、機械翻訳では、あるソーステキストのすべての良い翻訳に特定の単語やフレーズが現れることに気づき、これらの単語は重要な意味情報を伝達する傾向にある。 そこで本研究では,文中の重要な意味を持つ単語を意味コア語として定義する。 さらに,意味的重み付き文類似性(SWSS)というMT評価手法を提案する。 UCCAの力を利用してセマンティックコアワードを識別し、セマンティックコアワードの重複に基づいて文類似度スコアを算出する。 実験の結果,SWSS は語彙的類似性に基づく一般的な MT 評価指標の性能を一貫して改善できることがわかった。

Copying mechanism has been commonly used in neural paraphrasing networks and other text generation tasks, in which some important words in the input sequence are preserved in the output sequence. Similarly, in machine translation, we notice that there are certain words or phrases appearing in all good translations of one source text, and these words tend to convey important semantic information. Therefore, in this work, we define words carrying important semantic meanings in sentences as semantic core words. Moreover, we propose an MT evaluation approach named Semantically Weighted Sentence Similarity (SWSS). It leverages the power of UCCA to identify semantic core words, and then calculates sentence similarity scores on the overlap of semantic core words. Experimental results show that SWSS can consistently improve the performance of popular MT evaluation metrics which are based on lexical similarity.
翻訳日:2022-10-06 11:47:49 公開日:2020-10-22
# 機械学習のための確率線形解法

Probabilistic Linear Solvers for Machine Learning ( http://arxiv.org/abs/2010.09691v2 )

ライセンス: Link先を確認
Jonathan Wenger and Philipp Hennig(参考訳) 線形系は事実上全ての数値計算の基盤である。 機械学習は、そのようなシステムのスケール、特性構造、確率性、フィールドにおける不確実性の中心的な役割のために、特定の課題を提起する。 初期の研究を統一して、行列と逆行列と行列ベクトル積の観測から解を共同推論する確率線形解法のクラスを提案する。 このクラスは、可能なアルゴリズムの空間を制約し、ある条件下で共役勾配の方法を回復するデシデラタの基本集合から生じる。 不確かさを校正するために、事前のスペクトル情報を組み込む方法を示し、機械学習におけるそのような解法の可能性について実験的に示します。

Linear systems are the bedrock of virtually all numerical computation. Machine learning poses specific challenges for the solution of such systems due to their scale, characteristic structure, stochasticity and the central role of uncertainty in the field. Unifying earlier work we propose a class of probabilistic linear solvers which jointly infer the matrix, its inverse and the solution from matrix-vector product observations. This class emerges from a fundamental set of desiderata which constrains the space of possible algorithms and recovers the method of conjugate gradients under certain conditions. We demonstrate how to incorporate prior spectral information in order to calibrate uncertainty and experimentally showcase the potential of such solvers for machine learning.
翻訳日:2022-10-05 23:25:59 公開日:2020-10-22
# ChestX-Det10における胸部異常の検出

The Detection of Thoracic Abnormalities ChestX-Det10 Challenge Results ( http://arxiv.org/abs/2010.10298v2 )

ライセンス: Link先を確認
Jie Lian, Jingyu Liu, Yizhou Yu, Mengyuan Ding, Yaoci Lu, Yi Lu, Jie Cai, Deshou Lin, Miao Zhang, Zhe Wang, Kai He, Yijie Yu(参考訳) 胸部異常の発見はDeepwise AI Labによって行われている。 挑戦は2つのラウンドに分けられる。 本稿では,第2ラウンドに到達した6チームの結果について述べる。 この課題は、Deepwise AI Labが提案したChestX-Det10日付セットを採用する。 ChestX-Det10は、インスタンスレベルのアノテーションを備えた最初の胸部X線データセットである。 アノテーションはhttps://github.com/Deepwise-AILab/ChestX-Det10-Datasetにある。 この課題では、すべてのデータをトレーニング用の3001イメージとテスト用の542イメージにランダムに分割する。

The detection of thoracic abnormalities challenge is organized by the Deepwise AI Lab. The challenge is divided into two rounds. In this paper, we present the results of 6 teams which reach the second round. The challenge adopts the ChestX-Det10 dateset proposed by the Deepwise AI Lab. ChestX-Det10 is the first chest X-Ray dataset with instance-level annotations, including 10 categories of disease/abnormality of 3,543 images. The annotations are located at https://github.com/Deepwise-AILab/ChestX-Det10-Dataset. In the challenge, we randomly split all data into 3001 images for training and 542 images for testing.
翻訳日:2022-10-05 23:00:20 公開日:2020-10-22
# 変分ブースティングの統計的保証とアルゴリズム収束問題

Statistical Guarantees and Algorithmic Convergence Issues of Variational Boosting ( http://arxiv.org/abs/2010.09540v2 )

ライセンス: Link先を確認
Biraj Subhra Guha, Anirban Bhattacharya and Debdeep Pati(参考訳) ガウス混合変分系を新規に提案することにより,ベイズ変動促進のための統計的保証を提供する。 変動アルゴリズムとしてFrank-Wolfe最適化の関数バージョンを採用し、反復ブースティング更新の頻繁な特性について検討する。 近年の増進に関する文献と比較し、変分族と差分族の選択が最適化ルーチンの収束性と有限サンプル統計特性にどのように影響するかを述べる。 具体的には,データ生成分布に関して,昇降イテレートの確率的有界性を示す。 次にこれをアルゴリズムに統合して,明示的な収束率を提供します。

We provide statistical guarantees for Bayesian variational boosting by proposing a novel small bandwidth Gaussian mixture variational family. We employ a functional version of Frank-Wolfe optimization as our variational algorithm and study frequentist properties of the iterative boosting updates. Comparisons are drawn to the recent literature on boosting, describing how the choice of the variational family and the discrepancy measure affect both convergence and finite-sample statistical properties of the optimization routine. Specifically, we first demonstrate stochastic boundedness of the boosting iterates with respect to the data generating distribution. We next integrate this within our algorithm to provide an explicit convergence rate, ending with a result on the required number of boosting updates.
翻訳日:2022-10-05 20:54:38 公開日:2020-10-22
# 自己教師付き言語モデルによるコールドスタートアクティブラーニング

Cold-start Active Learning through Self-supervised Language Modeling ( http://arxiv.org/abs/2010.09535v2 )

ライセンス: Link先を確認
Michelle Yuan, Hsuan-Tien Lin, Jordan Boyd-Graber(参考訳) アクティブラーニングは、ラベルに最も重要な例を選択することで、アノテーションのコストを削減しようとしている。 通常、アクティブな学習戦略は分類モデルに基づいている。 例えば、不確実性サンプリングは、不適切なモデルの信頼度スコアに依存する。 コールドスタート環境では、モデル不安定性とデータ不足のため、アクティブラーニングは実用的ではない。 幸いなことに、現代のNLPは付加的な情報源を提供する。 トレーニング前の損失は、モデルを驚かせ、効率的な微調整のためにラベル付けすべき例を見つけることができる。 そこで我々は,言語モデル損失を分類の不確かさの指標として扱う。 bertでは,テキスト分類のラベリングコストを最小限に抑えるマスク付き言語モデリングロスに基づくシンプルな戦略を開発した。 他のベースラインと比較して,本手法はより少ないサンプリングイテレーションと計算時間で精度が高い。

Active learning strives to reduce annotation costs by choosing the most critical examples to label. Typically, the active learning strategy is contingent on the classification model. For instance, uncertainty sampling depends on poorly calibrated model confidence scores. In the cold-start setting, active learning is impractical because of model instability and data scarcity. Fortunately, modern NLP provides an additional source of information: pre-trained language models. The pre-training loss can find examples that surprise the model and should be labeled for efficient fine-tuning. Therefore, we treat the language modeling loss as a proxy for classification uncertainty. With BERT, we develop a simple strategy based on the masked language modeling loss that minimizes labeling costs for text classification. Compared to other baselines, our approach reaches higher accuracy within less sampling iterations and computation time.
翻訳日:2022-10-05 20:38:02 公開日:2020-10-22
# トンプソンサンプリングによる連合ベイズ最適化

Federated Bayesian Optimization via Thompson Sampling ( http://arxiv.org/abs/2010.10154v3 )

ライセンス: Link先を確認
Zhongxiang Dai, Kian Hsiang Low and Patrick Jaillet(参考訳) ベイズ最適化(BO)は、高価なブラックボックス関数を最適化するための顕著なアプローチである。 携帯電話のようなエッジデバイスの膨大な計算能力と、プライバシの懸念が相まって、一階最適化技術によるディープニューラルネットワーク(dnn)の協調トレーニングに焦点を当てた連合学習(fl)への関心が高まっている。 しかし、DNNのハイパーパラメータチューニングのような一般的な機械学習タスクには勾配へのアクセスがなく、したがってゼロ階数/ブラックボックスの最適化が必要である。 このことは、エージェントがこれらのブラックボックス最適化タスクで協力するために、BOをFL設定(FBO)に拡張する可能性を示唆している。 本稿では、FBOとFLの主な課題を原則的に克服するフェデレートトンプソンサンプリング(FTS)を提案する。 a) エージェント間で交換されるパラメータを自然に生成するBOで使用されるガウス過程代理モデルを近似するためにランダムなフーリエ特徴を用いる。 (b)トンプソンサンプリングに基づくFTSの設計により、交換すべきパラメータの数を大幅に削減し、 (c)不均一剤に対して頑健な理論的収束保証を提供し、これはflおよびfboの大きな課題である。 通信効率, 計算効率, 実用性能の観点から, FTS の有効性を実証的に実証した。

Bayesian optimization (BO) is a prominent approach to optimizing expensive-to-evaluate black-box functions. The massive computational capability of edge devices such as mobile phones, coupled with privacy concerns, has led to a surging interest in federated learning (FL) which focuses on collaborative training of deep neural networks (DNNs) via first-order optimization techniques. However, some common machine learning tasks such as hyperparameter tuning of DNNs lack access to gradients and thus require zeroth-order/black-box optimization. This hints at the possibility of extending BO to the FL setting (FBO) for agents to collaborate in these black-box optimization tasks. This paper presents federated Thompson sampling (FTS) which overcomes a number of key challenges of FBO and FL in a principled way: We (a) use random Fourier features to approximate the Gaussian process surrogate model used in BO, which naturally produces the parameters to be exchanged between agents, (b) design FTS based on Thompson sampling, which significantly reduces the number of parameters to be exchanged, and (c) provide a theoretical convergence guarantee that is robust against heterogeneous agents, which is a major challenge in FL and FBO. We empirically demonstrate the effectiveness of FTS in terms of communication efficiency, computational efficiency, and practical performance.
翻訳日:2022-10-05 06:10:50 公開日:2020-10-22
# データ・テキスト・ジェネレーションにおけるモデル非依存的強化学習による病的行動の補正

PARENTing via Model-Agnostic Reinforcement Learning to Correct Pathological Behaviors in Data-to-Text Generation ( http://arxiv.org/abs/2010.10866v2 )

ライセンス: Link先を確認
Cl\'ement Rebuffel, Laure Soulier, Geoffrey Scoutheeten, Patrick Gallinari(参考訳) 構造化データによって条件づけられた言語生成モデルでは、古典的トレーニングは、ほとんど常にモデルがデータセットの発散(幻覚や欠落)を拾い上げ、推論において自分自身の世代に誤って組み込むように導く。 本研究では,従来の強化学習に基づくアプローチの上に構築し,最近導入された親メトリックに依存したモデル非依存フレームワークが幻覚と欠落の両方を減らすのに有効であることを示す。 広く使われているWikiBIOとWebNLGベンチマークの評価は、最先端のモデルと比較して、このフレームワークの有効性を示している。

In language generation models conditioned by structured data, the classical training via maximum likelihood almost always leads models to pick up on dataset divergence (i.e., hallucinations or omissions), and to incorporate them erroneously in their own generations at inference. In this work, we build ontop of previous Reinforcement Learning based approaches and show that a model-agnostic framework relying on the recently introduced PARENT metric is efficient at reducing both hallucinations and omissions. Evaluations on the widely used WikiBIO and WebNLG benchmarks demonstrate the effectiveness of this framework compared to state-of-the-art models.
翻訳日:2022-10-04 23:50:53 公開日:2020-10-22
# 空間認識タスクを用いた複数チャンネル音声の同時除去のためのBERT

BERT for Joint Multichannel Speech Dereverberation with Spatial-aware Tasks ( http://arxiv.org/abs/2010.10892v2 )

ライセンス: Link先を確認
Yang Jiao(参考訳) 本研究では,2つの空間認識タスク(DOA推定と音声分離)を併用したマルチチャネル音声の重畳手法を提案する。 提案手法は,様々なフロントエンド音声強調タスクに対して十分一般的なシーケンスマッピング問題として,関連するタスクに対処する。 提案手法は、変換器(BERT)からの双方向エンコーダ表現の優れたシーケンスモデリング能力に着想を得たものである。 自己教師付き方式で事前学習から明示表現を利用する代わりに,教師付き方式で隠蔽表現を符号化したトランスフォーマーを利用する。 可変長発話の多チャンネルスペクトル等級とスペクトル位相情報の両方を符号化する。 実験の結果,提案手法の有効性が示された。

We propose a method for joint multichannel speech dereverberation with two spatial-aware tasks: direction-of-arrival (DOA) estimation and speech separation. The proposed method addresses involved tasks as a sequence to sequence mapping problem, which is general enough for a variety of front-end speech enhancement tasks. The proposed method is inspired by the excellent sequence modeling capability of bidirectional encoder representation from transformers (BERT). Instead of utilizing explicit representations from pretraining in a self-supervised manner, we utilizes transformer encoded hidden representations in a supervised manner. Both multichannel spectral magnitude and spectral phase information of varying length utterances are encoded. Experimental result demonstrates the effectiveness of the proposed method.
翻訳日:2022-10-04 23:14:04 公開日:2020-10-22
# 公開ニュースと金融市場への情報伝達の影響について

On the impact of publicly available news and information transfer to financial markets ( http://arxiv.org/abs/2010.12002v1 )

ライセンス: Link先を確認
Metod Jazbec, Barna P\'asztor, Felix Faltings, Nino Antulov-Fantulin, Petter N. Kolm(参考訳) 我々は、World Wide Webから金融市場への大規模公開ニュース記事の伝播と吸収を定量化する。 公開されている情報を抽出するために、Webの大部分をクロールする非営利組織であるCommon Crawlのニュースアーカイブを使用します。 我々は、米国企業の株価パフォーマンスを測定する株式市場指数であるS&P500指数における構成企業に関連するニュース記事を特定するための処理パイプラインを開発する。 機械学習技術を用いて,共通クロールニュースデータから感情スコアを抽出し,情報理論からツールを用いて公開ニュース記事から米国株式市場への情報伝達を定量化する。 さらに、シンプルな感情に基づくポートフォリオトレーディング戦略を用いて、ニュースベースの情報の経済的重要性を分析し、定量化する。 我々の発見は、World Wide Web上の公開ニュースにおけるその情報のサポートを提供しており、金融市場の出来事に統計的かつ経済的に重大な影響を与える。

We quantify the propagation and absorption of large-scale publicly available news articles from the World Wide Web to financial markets. To extract publicly available information, we use the news archives from the Common Crawl, a nonprofit organization that crawls a large part of the web. We develop a processing pipeline to identify news articles associated with the constituent companies in the S\&P 500 index, an equity market index that measures the stock performance of U.S. companies. Using machine learning techniques, we extract sentiment scores from the Common Crawl News data and employ tools from information theory to quantify the information transfer from public news articles to the U.S. stock market. Furthermore, we analyze and quantify the economic significance of the news-based information with a simple sentiment-based portfolio trading strategy. Our findings provides support for that information in publicly available news on the World Wide Web has a statistically and economically significant impact on events in financial markets.
翻訳日:2022-10-04 08:44:40 公開日:2020-10-22
# 音声聴取における無音音の聴取

Listening to Sounds of Silence for Speech Denoising ( http://arxiv.org/abs/2010.12013v1 )

ライセンス: Link先を確認
Ruilin Xu, Rundi Wu, Yuko Ishiwaka, Carl Vondrick, Changxi Zheng(参考訳) 本稿では,音声分析における長年の課題である,音声認識のための深層学習モデルを提案する。 我々のアプローチは、人間の発話に関する重要な観察に基づいており、各文または単語の間には、しばしば短い一時停止がある。 記録された音声信号において、これらの停止は、ノイズのみが存在する一連の期間を導入する。 単チャンネル音声のみを前提とした自動発声モデルの学習には,これらのサイレント区間を利用する。 時間とともにサイレント区間を検出することで、純粋なノイズだけでなく、時間的な特徴も露呈し、モデルが雑音力学を学習し、音声信号から抑制することができる。 提案手法は,音声入力のみを受け入れるもの(例えば音声入力のみを受け入れるもの)や,音声視覚入力に基づいて発音するもの(従って,より多くの情報を必要とするもの)など,いくつかの最先端の聴取方法よりも優れている。 また,本手法は,訓練中に見ない音声言語を発音するなど,優れた一般化特性を享受できることを示す。

We introduce a deep learning model for speech denoising, a long-standing challenge in audio analysis arising in numerous applications. Our approach is based on a key observation about human speech: there is often a short pause between each sentence or word. In a recorded speech signal, those pauses introduce a series of time periods during which only noise is present. We leverage these incidental silent intervals to learn a model for automatic speech denoising given only mono-channel audio. Detected silent intervals over time expose not just pure noise but its time-varying features, allowing the model to learn noise dynamics and suppress it from the speech signal. Experiments on multiple datasets confirm the pivotal role of silent interval detection for speech denoising, and our method outperforms several state-of-the-art denoising methods, including those that accept only audio input (like ours) and those that denoise based on audiovisual input (and hence require more information). We also show that our method enjoys excellent generalization properties, such as denoising spoken languages not seen during training.
翻訳日:2022-10-04 08:44:11 公開日:2020-10-22
# 異種確率変数の平均推定について

On Mean Estimation for Heteroscedastic Random Variables ( http://arxiv.org/abs/2010.11537v1 )

ライセンス: Link先を確認
Luc Devroye, Silvio Lattanzi, Gabor Lugosi, Nikita Zhivotovskiy(参考訳) 共通平均$\mu$ of $n$独立対称確率変数を、異なる標準偏差と未知の標準偏差で推定する問題を、$\sigma_1 \le \cdots \le\sigma_n$とする。 We show that, under some mild regularity assumptions on the distribution, there is a fully adaptive estimator $\widehat{\mu}$ such that it is invariant to permutations of the elements of the sample and satisfies that, up to logarithmic factors, with high probability, \[ |\widehat{\mu} - \mu| \lesssim \min\left\{\sigma_{m^*}, \frac{\sqrt{n}}{\sum_{i = \sqrt{n}}^n \sigma_i^{-1}} \right\}~, \] where the index $m^* \lesssim \sqrt{n}$ satisfies $m^* \approx \sqrt{\sigma_{m^*}\sum_{i = m^*}^n\sigma_i^{-1}}$.

We study the problem of estimating the common mean $\mu$ of $n$ independent symmetric random variables with different and unknown standard deviations $\sigma_1 \le \sigma_2 \le \cdots \le\sigma_n$. We show that, under some mild regularity assumptions on the distribution, there is a fully adaptive estimator $\widehat{\mu}$ such that it is invariant to permutations of the elements of the sample and satisfies that, up to logarithmic factors, with high probability, \[ |\widehat{\mu} - \mu| \lesssim \min\left\{\sigma_{m^*}, \frac{\sqrt{n}}{\sum_{i = \sqrt{n}}^n \sigma_i^{-1}} \right\}~, \] where the index $m^* \lesssim \sqrt{n}$ satisfies $m^* \approx \sqrt{\sigma_{m^*}\sum_{i = m^*}^n\sigma_i^{-1}}$.
翻訳日:2022-10-04 08:42:42 公開日:2020-10-22
# 低モデレート交通流におけるロバストな音声車計数

Robust Audio-Based Vehicle Counting in Low-to-Moderate Traffic Flow ( http://arxiv.org/abs/2010.11716v1 )

ライセンス: Link先を確認
Slobodan Djukanovi\'c, Ji\v{r}i Matas, Tuomas Virtanen(参考訳) 本稿では,1チャンネル音声を用いた低モジュレートトラフィックにおけるVC(Audio-based Vehicle counting)手法を提案する。 回帰問題としてvcを定式化した。つまり、車とマイクの距離を予測する。 提案した距離関数のミニマは、マイクを通過する車両に対応する。 VCは、予測距離における局所ミニマ検出を介して実行される。 本稿では,偽陽性と偽陰性の確率が一致した時点で最小値検出しきい値を設定し,車両総数で統計的に相互にキャンセルすることを提案する。 この方法は、ショート422ドル、20ドル/秒のワンチャネルサウンドファイルと、合計1421ドルの車両がマイクを通り過ぎている交通監視データセットでトレーニングされ、テストされる。 トレーニングで使用されていないトラフィックロケーションにおける相対的なVCエラーは、幅広い検出しきい値の範囲内で2 \%$以下である。 実験の結果, 新しい高周波パワー特性を導入することにより, 騒音環境における回帰精度が向上した。

The paper presents a method for audio-based vehicle counting (VC) in low-to-moderate traffic using one-channel sound. We formulate VC as a regression problem, i.e., we predict the distance between a vehicle and the microphone. Minima of the proposed distance function correspond to vehicles passing by the microphone. VC is carried out via local minima detection in the predicted distance. We propose to set the minima detection threshold at a point where the probabilities of false positives and false negatives coincide so they statistically cancel each other in total vehicle number. The method is trained and tested on a traffic-monitoring dataset comprising $422$ short, $20$-second one-channel sound files with a total of $ 1421 $ vehicles passing by the microphone. Relative VC error in a traffic location not used in the training is below $ 2 \%$ within a wide range of detection threshold values. Experimental results show that the regression accuracy in noisy environments is improved by introducing a novel high-frequency power feature.
翻訳日:2022-10-04 08:38:03 公開日:2020-10-22
# モデル強化強化学習を用いたタクシー車両の最適確率経路

Optimising Stochastic Routing for Taxi Fleets with Model Enhanced Reinforcement Learning ( http://arxiv.org/abs/2010.11738v1 )

ライセンス: Link先を確認
Shen Ren, Qianxiao Li, Liye Zhang, Zheng Qin and Bo Yang(参考訳) モビリティ・アズ・ア・サービス(maas: mobility-as-a-service)の将来は、リアルタイムかつ確率的な需要パターンに応じて、最適化されたインテリジェントな車両ルーティングによるライドシェアリング、ストリート配車、ライドシェアリングの統合システムを採用するだろう。 我々は,小中規模の道路網における確率的需要パターンを考慮し,道路配車サービスのための大型車両群における経路政策の最適化を目指す。 モデルベースディスパッチアルゴリズム、高性能モデルフリー強化学習ベースアルゴリズム、およびトップダウンアプローチとモデルフリー強化学習の両方の利点を組み合わせた新しいハイブリッドアルゴリズムが、 \emph{vacant} 車両をルートするために提案されている。 我々は,探索と搾取のバランスをとるために,近似ポリシー最適化と内在報酬と外在報酬を組み合わせた強化学習に基づくルーティングアルゴリズムを設計する。 提案したアルゴリズムを評価するために,大規模エージェントベース顕微鏡シミュレーションプラットフォームを用いたモデルフリー強化学習とハイブリッドアルゴリズムを用いて,人工道路ネットワークとコミュニティベースシンガポール道路ネットワークの両方において,実験的な要求により優れた性能を示す。

The future of mobility-as-a-Service (Maas)should embrace an integrated system of ride-hailing, street-hailing and ride-sharing with optimised intelligent vehicle routing in response to a real-time, stochastic demand pattern. We aim to optimise routing policies for a large fleet of vehicles for street-hailing services, given a stochastic demand pattern in small to medium-sized road networks. A model-based dispatch algorithm, a high performance model-free reinforcement learning based algorithm and a novel hybrid algorithm combining the benefits of both the top-down approach and the model-free reinforcement learning have been proposed to route the \emph{vacant} vehicles. We design our reinforcement learning based routing algorithm using proximal policy optimisation and combined intrinsic and extrinsic rewards to strike a balance between exploration and exploitation. Using a large-scale agent-based microscopic simulation platform to evaluate our proposed algorithms, our model-free reinforcement learning and hybrid algorithm show excellent performance on both artificial road network and community-based Singapore road network with empirical demands, and our hybrid algorithm can significantly accelerate the model-free learner in the process of learning.
翻訳日:2022-10-04 08:37:46 公開日:2020-10-22
# 都市音の分類 : 公平な比較に向けて

Urban Sound Classification : striving towards a fair comparison ( http://arxiv.org/abs/2010.11805v1 )

ライセンス: Link先を確認
Augustin Arnault, Baptiste Hanssens and Nicolas Riche(参考訳) 都市音の分類は目覚ましい進歩を遂げており、今でも音声パターン認識において活発な研究領域である。 特に、大都市への関心が高まっている騒音汚染の監視を可能にする。 この論文の貢献は2つある。 まず,都市騒音汚染のモニタリング支援を目的とした,DCASE 2020タスク5の入賞ソリューションを提案する。 バリデーション集合の粗く細かい分類に対して、マクロauprcは 0.82 / 0.62 である。 さらに、ESC-50とUS8kデータセットでそれぞれ89.7%と85.41%に達する。 第二に、公正な比較を見つけ、既存のモデルの性能を再現することは容易ではない。 再現性に寄与しないオリジナルの論文の結果を複写する著者もいる。 その結果、同じ入力表現、メトリクス、オプティマイザを用いて性能評価を行い、公正な比較を行った。 原論文で用いたデータ拡張を保存します。 このフレームワークがこの分野で新しいアーキテクチャを評価するのに役立つことを期待しています。 再現性を改善するため、コードはgithubリポジトリから入手できます。

Urban sound classification has been achieving remarkable progress and is still an active research area in audio pattern recognition. In particular, it allows to monitor the noise pollution, which becomes a growing concern for large cities. The contribution of this paper is two-fold. First, we present our DCASE 2020 task 5 winning solution which aims at helping the monitoring of urban noise pollution. It achieves a macro-AUPRC of 0.82 / 0.62 for the coarse / fine classification on validation set. Moreover, it reaches accuracies of 89.7% and 85.41% respectively on ESC-50 and US8k datasets. Second, it is not easy to find a fair comparison and to reproduce the performance of existing models. Sometimes authors copy-pasting the results of the original papers which is not helping reproducibility. As a result, we provide a fair comparison by using the same input representation, metrics and optimizer to assess performances. We preserve data augmentation used by the original papers. We hope this framework could help evaluate new architectures in this field. For better reproducibility, the code is available on our GitHub repository.
翻訳日:2022-10-04 08:37:25 公開日:2020-10-22
# 書き起こしが必要なのは、音楽のミックスをスコアで分けること

Transcription Is All You Need: Learning to Separate Musical Mixtures with Score as Supervision ( http://arxiv.org/abs/2010.11904v1 )

ライセンス: Link先を確認
Yun-Ning Hung, Gordon Wichern, Jonathan Le Roux(参考訳) ほとんどの音源分離システムは、訓練のために大量の音源の収集を必要とするが、入手は困難である。 本研究では,比較的入手が容易な楽譜を,音源分離システムを訓練するための弱いラベルとして用いる。 従来のスコア非定型分離法とは対照的に,本システムは分離したソースを必要とせず,スコアは推論に必要とせず,トレーニング対象としてのみ使用される。 本モデルは,各楽器の時間周波数マスクを出力するセパレータと,批評家として機能し,時間と周波数の両方を監督し,セパレータの学習を指導するトランクリプタから構成される。 トレーニング中にスコア情報を活用する別の方法として、ハーモニックマスク制約を導入し、スクリプタとセパレータの双方を微調整するための2つの新しい対向損失を提案する。 その結果, スコア情報の利用は時間的弱ラベルよりも優れており, 対立構造は分離と転写性能の両面でさらなる改善をもたらすことがわかった。

Most music source separation systems require large collections of isolated sources for training, which can be difficult to obtain. In this work, we use musical scores, which are comparatively easy to obtain, as a weak label for training a source separation system. In contrast with previous score-informed separation approaches, our system does not require isolated sources, and score is used only as a training target, not required for inference. Our model consists of a separator that outputs a time-frequency mask for each instrument, and a transcriptor that acts as a critic, providing both temporal and frequency supervision to guide the learning of the separator. A harmonic mask constraint is introduced as another way of leveraging score information during training, and we propose two novel adversarial losses for additional fine-tuning of both the transcriptor and the separator. Results demonstrate that using score information outperforms temporal weak-labels, and adversarial structures lead to further improvements in both separation and transcription performance.
翻訳日:2022-10-04 08:36:35 公開日:2020-10-22
# 量子サンプルの学習性と複雑さ

Learnability and Complexity of Quantum Samples ( http://arxiv.org/abs/2010.11983v1 )

ライセンス: Link先を確認
Murphy Yuezhen Niu, Andrew M. Dai, Li Li, Augustus Odena, Zhengli Zhao, Vadim Smelyanskyi, Hartmut Neven, and Sergio Boixo(参考訳) 量子回路が与えられた場合、量子コンピュータは古典的コンピュータよりも指数関数的に早く出力分布をサンプリングすることができる。 量子サンプル学習を通じて生成モデルに同様の指数的分離がまだ確立されていない: n-qubit 計算のサンプルが与えられたら、n の多項式を一定トレーニング時間でスケールする訓練パラメータを持つモデルを用いて、基礎となる量子分布を学習できるだろうか? 本稿では,Deep Boltzmann Machine (DBM), Generative Adversarial Networks (GANs), Long Short-Term Memory (LSTM), Autoregressive GANの4種類の生成モデルについて,深部ランダム回路で生成された量子データセットの学習について検討する。 量子サンプルの学習におけるLSTMの先行性能を実証し、ランダムな量子回路の量子分布の根底に存在する自己回帰構造を示す。 数値実験とDBMの場合の理論的証明は、nが増加するにつれて一定の精度を達成するために必要な学習エージェントパラメータの指数関数的に増加する複雑性を示す。 最後に、量子的および古典的表現における複素量の確率分布から得られた異なるサンプル集合に対して学習可能性と生成モデルの複雑さの関連性を確立する。

Given a quantum circuit, a quantum computer can sample the output distribution exponentially faster in the number of bits than classical computers. A similar exponential separation has yet to be established in generative models through quantum sample learning: given samples from an n-qubit computation, can we learn the underlying quantum distribution using models with training parameters that scale polynomial in n under a fixed training time? We study four kinds of generative models: Deep Boltzmann machine (DBM), Generative Adversarial Networks (GANs), Long Short-Term Memory (LSTM) and Autoregressive GAN, on learning quantum data set generated by deep random circuits. We demonstrate the leading performance of LSTM in learning quantum samples, and thus the autoregressive structure present in the underlying quantum distribution from random quantum circuits. Both numerical experiments and a theoretical proof in the case of the DBM show exponentially growing complexity of learning-agent parameters required for achieving a fixed accuracy as n increases. Finally, we establish a connection between learnability and the complexity of generative models by benchmarking learnability against different sets of samples drawn from probability distributions of variable degrees of complexities in their quantum and classical representations.
翻訳日:2022-10-04 08:36:01 公開日:2020-10-22
# 計算的および統計的に効率的なトランケート回帰

Computationally and Statistically Efficient Truncated Regression ( http://arxiv.org/abs/2010.12000v1 )

ライセンス: Link先を確認
Constantinos Daskalakis, Themis Gouleakis, Christos Tzamos, Manolis Zampetakis(参考訳) そこでは、従属変数 $y = w^T x + \epsilon$ とその対応ベクトル $x \in R^k$ が、従属変数がある部分集合 $S \subseteq R$ に該当する場合のみ、従属変数 $(x, y)$ の存在が隠される。 この問題は(Tobin 1958, Amemiya 1973, Hausman and Wise 1977)の初期の研究から問題であり、その応用は豊富であり、その歴史はGalton, Pearson, Lee, Fisherの業績にまでさかのぼる。 回帰係数の一貫した推定器が同定されているが、誤差率はよく理解されていない。 明らかにされたサンプル中の共変量の共分散行列に関する厚みの仮定の下で、係数ベクトル $w$ を$n$ から計算効率良く推定し、$l_2$ 誤差 $\tilde{o}(\sqrt{k/n})$ を得る。 提案手法では, ストランキャット標本の負の対数類似性に代えてPSGD(Projected Stochastic Gradient Descent)を用いた。 統計的に効率的な見積は、oracleがセットした$s$に対してのみアクセスする必要がある。 計算効率を達成するためには、$s$ を有限個の区間の和と仮定する必要があるが、それでも複雑である。 置換のないpsgdは、負の対流が強い凸であることを保証するために適切に定義された凸円錐に制限されなければならず、これは、部分指数尾を持つ変数上の行列の集中によって確立される。 シミュレーションデータを用いて,推定器の精度を示す実験を行った。 本稿では,SGDが単一層ニューラルネットワークの雑音活性化関数のパラメータを学習することを示す。

We provide a computationally and statistically efficient estimator for the classical problem of truncated linear regression, where the dependent variable $y = w^T x + \epsilon$ and its corresponding vector of covariates $x \in R^k$ are only revealed if the dependent variable falls in some subset $S \subseteq R$; otherwise the existence of the pair $(x, y)$ is hidden. This problem has remained a challenge since the early works of [Tobin 1958, Amemiya 1973, Hausman and Wise 1977], its applications are abundant, and its history dates back even further to the work of Galton, Pearson, Lee, and Fisher. While consistent estimators of the regression coefficients have been identified, the error rates are not well-understood, especially in high dimensions. Under a thickness assumption about the covariance matrix of the covariates in the revealed sample, we provide a computationally efficient estimator for the coefficient vector $w$ from $n$ revealed samples that attains $l_2$ error $\tilde{O}(\sqrt{k/n})$. Our estimator uses Projected Stochastic Gradient Descent (PSGD) without replacement on the negative log-likelihood of the truncated sample. For the statistically efficient estimation we only need oracle access to the set $S$.In order to achieve computational efficiency we need to assume that $S$ is a union of a finite number of intervals but still can be complicated. PSGD without replacement must be restricted to an appropriately defined convex cone to guarantee that the negative log-likelihood is strongly convex, which in turn is established using concentration of matrices on variables with sub-exponential tails. We perform experiments on simulated data to illustrate the accuracy of our estimator. As a corollary, we show that SGD learns the parameters of single-layer neural networks with noisy activation functions.
翻訳日:2022-10-04 08:35:43 公開日:2020-10-22
# スパース表現によるOCT画像の非凸超解像

Non-convex Super-resolution of OCT images via sparse representation ( http://arxiv.org/abs/2010.12576v1 )

ライセンス: Link先を確認
Gabriele Scrivanti, Luca Calatroni, Serena Morigi, Lindsay Nicholson, Alin Achim(参考訳) 我々は,高分解能octデータから学習した適切な辞書に対してスパーシティを強制することにより,マウス眼の光学コヒーレンス断層撮影(oct)画像の超解像のための非凸変分モデルを提案する。 OCT画像の統計的特徴は、非ガウス的ケースである {\alpha}=1を考慮し、辞書の学習に {\alpha}-stable distributionsの使用を動機付けている。 余剰コスト関数は非凸ペナルティ(コーシーベースまたはミニマックス・コンケーブペナルティ(MCP))に依存しており、この問題を特に困難にしている。 本稿では,各反復における近点の存在と特異性を保証する前方分割戦略に基づいて,関数を最小化するアルゴリズムを提案する。 標準凸L1を用いた再構成との比較では、特にOCT画像解析における非凸モデルの性能が向上している。

We propose a non-convex variational model for the super-resolution of Optical Coherence Tomography (OCT) images of the murine eye, by enforcing sparsity with respect to suitable dictionaries learnt from high-resolution OCT data. The statistical characteristics of OCT images motivate the use of {\alpha}-stable distributions for learning dictionaries, by considering the non-Gaussian case, {\alpha}=1. The sparsity-promoting cost function relies on a non-convex penalty - Cauchy-based or Minimax Concave Penalty (MCP) - which makes the problem particularly challenging. We propose an efficient algorithm for minimizing the function based on the forward-backward splitting strategy which guarantees at each iteration the existence and uniqueness of the proximal point. Comparisons with standard convex L1-based reconstructions show the better performance of non-convex models, especially in view of further OCT image analysis
翻訳日:2022-10-04 08:29:59 公開日:2020-10-22
# ほぼ直線時間におけるマトロイド上の部分モジュラー最大化の決定論的近似

Deterministic Approximation for Submodular Maximization over a Matroid in Nearly Linear Time ( http://arxiv.org/abs/2010.11420v1 )

ライセンス: Link先を確認
Kai Han, Zongmai Cao, Shuang Cui, Benwei Wu(参考訳) マトロイド制約を受ける非単調、非負のサブモジュラー関数を最大化する問題について検討する。 この問題の最もよく知られた決定論的近似比は、$\frac{1}{4}-\epsilon$ under $\mathcal{O}(({n^4}/{\epsilon})\log n)$ time complexityである。 この決定論的比を$\frac{1}{4}$ under $\mathcal{O}(nr)$ time complexity, そして、$\frac{1}{4}-\epsilon$ deterministic ratio in almost-linear running time of $\mathcal{O}(\frac{n}{\epsilon}\log\frac{r}{\epsilon})$とするより実用的なアルゴリズムTwinGreedyFastを示す。 提案手法は, 独立系の性質を十分に活用することで, 性能境界を向上できるような, 2つの候補解集合を同時に構築するアルゴリズムの枠組みに基づいている。 このフレームワークの副産物として、twingreedyfastが同じ時間複雑性を持つ$p$-setシステム制約の下で$\frac{1}{2p+2}-\epsilon$決定論的比を達成することも示します。 提案手法の実用性を実証するため,TwinGreedyFastを2つのネットワークアプリケーションで評価し,その性能が現状の決定性およびランダム化アルゴリズムより優れていることを示した。

We study the problem of maximizing a non-monotone, non-negative submodular function subject to a matroid constraint. The prior best-known deterministic approximation ratio for this problem is $\frac{1}{4}-\epsilon$ under $\mathcal{O}(({n^4}/{\epsilon})\log n)$ time complexity. We show that this deterministic ratio can be improved to $\frac{1}{4}$ under $\mathcal{O}(nr)$ time complexity, and then present a more practical algorithm dubbed TwinGreedyFast which achieves $\frac{1}{4}-\epsilon$ deterministic ratio in nearly-linear running time of $\mathcal{O}(\frac{n}{\epsilon}\log\frac{r}{\epsilon})$. Our approach is based on a novel algorithmic framework of simultaneously constructing two candidate solution sets through greedy search, which enables us to get improved performance bounds by fully exploiting the properties of independence systems. As a byproduct of this framework, we also show that TwinGreedyFast achieves $\frac{1}{2p+2}-\epsilon$ deterministic ratio under a $p$-set system constraint with the same time complexity. To showcase the practicality of our approach, we empirically evaluated the performance of TwinGreedyFast on two network applications, and observed that it outperforms the state-of-the-art deterministic and randomized algorithms with efficient implementations for our problem.
翻訳日:2022-10-04 08:29:31 公開日:2020-10-22
# 自己学習と事前学習は音声認識の補完となる

Self-training and Pre-training are Complementary for Speech Recognition ( http://arxiv.org/abs/2010.11430v1 )

ライセンス: Link先を確認
Qiantong Xu, Alexei Baevski, Tatiana Likhomanenko, Paden Tomasello, Alexis Conneau, Ronan Collobert, Gabriel Synnaeve, Michael Auli(参考訳) 自己学習と教師なし事前学習は、ラベルなしデータを用いた音声認識システムを改善する効果的なアプローチとして登場した。 しかし、同様のパターンを学習するか、効果的に組み合わせられるかは明らかではない。 本稿では,wav2vec 2.0を用いた擬似ラベルと事前トレーニングが,様々なラベル付きデータセットにおいて補完的であることを示す。 Libri-lightから10分間のラベル付きデータと53k時間のラベル付きデータを使用して、LibriVoxのWERは、わずか1年前の960時間のラベル付きデータでトレーニングされた最高のシステムに匹敵する、クリーンで他のテストセットであるLibrispeechで3.0%/5.2%を達成した。 Librispeechのラベル付きデータのトレーニングにより、WERは1.5%/3.1%に達する。

Self-training and unsupervised pre-training have emerged as effective approaches to improve speech recognition systems using unlabeled data. However, it is not clear whether they learn similar patterns or if they can be effectively combined. In this paper, we show that pseudo-labeling and pre-training with wav2vec 2.0 are complementary in a variety of labeled data setups. Using just 10 minutes of labeled data from Libri-light as well as 53k hours of unlabeled data from LibriVox achieves WERs of 3.0%/5.2% on the clean and other test sets of Librispeech - rivaling the best published systems trained on 960 hours of labeled data only a year ago. Training on all labeled data of Librispeech achieves WERs of 1.5%/3.1%.
翻訳日:2022-10-04 08:28:44 公開日:2020-10-22
# ネットワークエッジトラフィックを用いた機械学習によるIoTボットネットの早期検出

Machine Learning-Based Early Detection of IoT Botnets Using Network-Edge Traffic ( http://arxiv.org/abs/2010.11453v1 )

ライセンス: Link先を確認
Ayush Kumar, Mrinalini Shridhar, Sahithya Swaminathan, Teng Joon Lim(参考訳) 本研究では,ホームネットワークにインストールされたエッジゲートウェイに配置し,攻撃開始前のボットネットの早期検出をターゲットとした,軽量なIoTボットネット検出ソリューションであるEDIMAを提案する。 EDIMAには、エッジゲートウェイでのIoTボット検出に特化した、2段階の機械学習(ML)ベースの新しい検出器が含まれている。 MLベースのボット検出器は、まずトラフィック分類の集約にMLアルゴリズムを使用し、その後、個々のボットを検出するために自動相関関数(ACF)ベースのテストを使用する。 EDIMAアーキテクチャはまた、マルウェアトラフィックデータベース、ポリシーエンジン、特徴抽出器、トラフィックパーサを含む。 性能評価の結果,EDIMAは偽陽性率が非常に低いボットスキャンとボット-CnCトラヒック検出精度を達成した。 検出性能は、EDIMAがデプロイされるエッジゲートウェイに接続されたIoTデバイスの数の増加に対して、堅牢であることも示されている。 さらに、raspberry piにデプロイされたedimaのpython実装のランタイムパフォーマンス分析では、ボット検出の遅延が低く、ram消費が低かった。 EDIMAは、ボットスキャニングトラフィックやボット-CnCサーバ通信において、既存の検出技術よりも優れていることが示されている。

In this work, we present a lightweight IoT botnet detection solution, EDIMA, which is designed to be deployed at the edge gateway installed in home networks and targets early detection of botnets prior to the launch of an attack. EDIMA includes a novel two-stage Machine Learning (ML)-based detector developed specifically for IoT bot detection at the edge gateway. The ML-based bot detector first employs ML algorithms for aggregate traffic classification and subsequently Autocorrelation Function (ACF)-based tests to detect individual bots. The EDIMA architecture also comprises a malware traffic database, a policy engine, a feature extractor and a traffic parser. Performance evaluation results show that EDIMA achieves high bot scanning and bot-CnC traffic detection accuracies with very low false positive rates. The detection performance is also shown to be robust to an increase in the number of IoT devices connected to the edge gateway where EDIMA is deployed. Further, the runtime performance analysis of a Python implementation of EDIMA deployed on a Raspberry Pi reveals low bot detection delays and low RAM consumption. EDIMA is also shown to outperform existing detection techniques for bot scanning traffic and bot-CnC server communication.
翻訳日:2022-10-04 08:28:20 公開日:2020-10-22
# Cluster-and-Conquer:Randomnessがグラフの局所性に出会ったとき

Cluster-and-Conquer: When Randomness Meets Graph Locality ( http://arxiv.org/abs/2010.11497v1 )

ライセンス: Link先を確認
George Giakkoupis (WIDE), Anne-Marie Kermarrec (EPFL), Olivier Ruas (SPIRALS), Fran\c{c}ois Ta\"iani (WIDE, IRISA)(参考訳) k-nearest-neighbors(knn)グラフは多くのエンブレマデータマイニングと機械学習アプリケーションの中心である。 最も効率的なknグラフアルゴリズムのいくつかは漸進的かつ局所的であり、ランダムグラフから始まり、近隣のneighborsリンクを横切ることで漸進的に改善される。 反対に、このランダムスタートはこれらのアルゴリズムの重要な弱点の1つでもある:ノードは最初、類似度メートル法により遠く離れた異種近傍に接続される。 結果として、インクリメンタルなアルゴリズムは、最初に、類似のノードを識別し、収束を始める前に、スプリアスな潜在的な隣人を精力的に探さなければならない。 本稿では,Cluster-and-Conquer(略してC2)によるこの欠点を除去する。 fastrandomhashと呼ばれる新しい軽量クラスタリングメカニズムにより、クラスタ・アンド・コンクェリはgreedyアルゴリズムの開始設定を促進する。 FastRandomHashはランダムネスと再帰を利用して、クラスタ前の類似ノードを極めて低コストで処理する。 我々の実際のデータセットに対する広範な評価は、クラスタ・アンド・コンカマーがLSHを含む既存のアプローチを著しく上回り、最大でx4.42のスピードアップとなり、KNNの品質の面では無視できない損失しか生じないことを示している。

K-Nearest-Neighbors (KNN) graphs are central to many emblematic data mining and machine-learning applications. Some of the most efficient KNN graph algorithms are incremental and local: they start from a random graph, which they incrementally improve by traversing neighbors-of-neighbors links. Paradoxically, this random start is also one of the key weaknesses of these algorithms: nodes are initially connected to dissimilar neighbors, that lie far away according to the similarity metric. As a result, incremental algorithms must first laboriously explore spurious potential neighbors before they can identify similar nodes, and start converging. In this paper, we remove this drawback with Cluster-and-Conquer (C 2 for short). Cluster-and-Conquer boosts the starting configuration of greedy algorithms thanks to a novel lightweight clustering mechanism, dubbed FastRandomHash. FastRandomHash leverages random-ness and recursion to pre-cluster similar nodes at a very low cost. Our extensive evaluation on real datasets shows that Cluster-and-Conquer significantly outperforms existing approaches, including LSH, yielding speed-ups of up to x4.42 while incurring only a negligible loss in terms of KNN quality.
翻訳日:2022-10-04 08:27:40 公開日:2020-10-22
# 再帰確率プログラムの因子グラフ文法への変換

Translating Recursive Probabilistic Programs to Factor Graph Grammars ( http://arxiv.org/abs/2010.12071v1 )

ライセンス: Link先を確認
David Chiang and Chung-chieh Shan(参考訳) 確率的プログラムは、モデル内の代替部分構造を表現するために条件を使い、モデルの繰り返し部分構造を表現するためにループ(再帰)を使用するのが自然である。 したがって、条件付き確率プログラムと再帰プログラムは、効率的で一般的な推論に対する継続的な関心を動機付けている。 因子グラフ文法(FGG)は、推論を行うために列挙される必要はない因子グラフの集合を生成する。 条件付き一階確率型プログラムからのセマンティックス保存翻訳とFGGへの再帰を提供する。

It is natural for probabilistic programs to use conditionals to express alternative substructures in models, and loops (recursion) to express repeated substructures in models. Thus, probabilistic programs with conditionals and recursion motivate ongoing interest in efficient and general inference. A factor graph grammar (FGG) generates a set of factor graphs that do not all need to be enumerated in order to perform inference. We provide a semantics-preserving translation from first-order probabilistic programs with conditionals and recursion to FGGs.
翻訳日:2022-10-04 08:20:35 公開日:2020-10-22
# 偽陽性に迫る - デプロイ済みのマルウェア検出器のパッチ適用

Getting Passive Aggressive About False Positives: Patching Deployed Malware Detectors ( http://arxiv.org/abs/2010.12080v1 )

ライセンス: Link先を確認
Edward Raff, Bobby Filar, James Holt(参考訳) 偽陽性(fps)は、抗ウイルス(av)システムにとって数十年間、非常に重要な問題であった。 より多くのセキュリティベンダが機械学習に目を向けると、アラートのデルージュは、すべてのアラートの20%以上がFPとなり、いくつかの組織では、アラートの半数に達する。 この増加は、疲労、フラストレーション、そして最悪のことに、SOCチームのセキュリティワーカーを無視する結果となった。 FPの根本的な原因は、ベンダーがすべての顧客を満足させるために1つのグローバルシステムを構築しなければならないが、個々のローカル環境に調整する方法がないことである。 これは技術的には正しいが、そのプラットフォームの特徴は99.9%有効である。 これらのシステムが個別の慣用的にデプロイされると、ローカル環境はFPや不確実性につながる盲点を露呈する。 モデルがデプロイされた後にプロダクションで偽陽性を修正する戦略を提案する。 あまりにも長い間、業界はこれらの問題に非効率で対処しようとしており、時には危険な許容範囲のテクニックや過剰なモデルの再訓練はもはや不十分である。 そこで本研究では,マルウェア検出モデルを個人の環境に変更し,顧客機密情報を共有せずに偽陽性を排除できるパッシブアグレッシブ・ラーニング手法を提案する。 我々は,マルウェアモデルの精度を損なうことなく,生産環境から悪名高い難解な偽陽性の集団を解決するために受動的アグレッシブ学習を使用する方法を示し,fpアラートの総数を平均23倍削減する。

False positives (FPs) have been an issue of extreme importance for anti-virus (AV) systems for decades. As more security vendors turn to machine learning, alert deluge has hit critical mass with over 20% of all alerts resulting in FPs and, in some organizations, the number reaches half of all alerts. This increase has resulted in fatigue, frustration, and, worst of all, neglect from security workers on SOC teams. A foundational cause for FPs is that vendors must build one global system to try and satisfy all customers, but have no method to adjust to individual local environments. This leads to outrageous, albeit technically correct, characterization of their platforms being 99.9% effective. Once these systems are deployed the idiosyncrasies of individual, local environments expose blind spots that lead to FPs and uncertainty. We propose a strategy for fixing false positives in production after a model has already been deployed. For too long the industry has tried to combat these problems with inefficient, and at times, dangerous allowlist techniques and excessive model retraining which is no longer enough. We propose using a technique called passive-aggressive learning to alter a malware detection model to an individual's environment, eliminating false positives without sharing any customer sensitive information. We will show how to use passive-aggressive learning to solve a collection of notoriously difficult false positives from a production environment without compromising the malware model's accuracy, reducing the total number of FP alerts by an average of 23x.
翻訳日:2022-10-04 08:20:25 公開日:2020-10-22
# アルゴリズムフェアネスの追求--児童福祉統一成功分類におけるアルゴリズム不公平の是正について

The Pursuit of Algorithmic Fairness: On "Correcting" Algorithmic Unfairness in a Child Welfare Reunification Success Classifier ( http://arxiv.org/abs/2010.12089v1 )

ライセンス: Link先を確認
Jordan Purdy and Brian Glass(参考訳) 公共部門における予測分析ツールのアルゴリズム的公平性は、厳格な探索の話題になりつつある。 犯罪相殺や学術的入学に関する道具が注目されている一方で、児童福祉管轄区域の予測機器は、かなりの注目を集めている。 これは、そのような楽器が比較的少ないことと、アルゴリズムの公平さのレンズを通して精査されているものも少ないためである。 本研究では,この2つのギャップに対処する。 この目的のために,オレゴン児童福祉における再統一成功を予測するための新しい分類アルゴリズムを提案する。 このツールの目的は、安定した再統一の数を最大化し、さらなる資源と精査を必要とする可能性のある潜在的に不安定な再統一を特定することである。 また、結果のツールのアルゴリズム的公平性が不当に欠如していることから、困難で避けられない選択の背後にある根拠とともに、そのような不公平を緩和するための利用手順が提示される。 この手順は、他の後処理グループ固有のしきい値決定法と似ているが、ペナル化最適化と文脈的に要求されるサブサンプリングの使用において新しいものである。 これらの新しい手法の構成要素は、公正さと正確さの間のトレードオフ連続性の豊かで情報的な理解をもたらす。 開発された手順はアルゴリズムフェアネスの様々なグループレベルの定義や、任意の数の保護された属性レベルとリスクしきい値にまたがって一般化可能であるため、児童福祉の内外においても広く適用可能である。

The algorithmic fairness of predictive analytic tools in the public sector has increasingly become a topic of rigorous exploration. While instruments pertaining to criminal recidivism and academic admissions, for example, have garnered much attention, the predictive instruments of Child Welfare jurisdictions have received considerably less attention. This is in part because comparatively few such instruments exist and because even fewer have been scrutinized through the lens of algorithmic fairness. In this work, we seek to address both of these gaps. To this end, a novel classification algorithm for predicting reunification success within Oregon Child Welfare is presented, including all of the relevant details associated with building such an instrument. The purpose of this tool is to maximize the number of stable reunifications and identify potentially unstable reunifications which may require additional resources and scrutiny. Additionally, because the algorithmic fairness of the resulting tool, if left unaltered, is unquestionably lacking, the utilized procedure for mitigating such unfairness is presented, along with the rationale behind each difficult and unavoidable choice. This procedure, though similar to other post-processing group-specific thresholding methods, is novel in its use of a penalized optimizer and contextually requisite subsampling. These novel methodological components yield a rich and informative empirical understanding of the trade-off continuum between fairness and accuracy. As the developed procedure is generalizable across a variety of group-level definitions of algorithmic fairness, as well as across an arbitrary number of protected attribute levels and risk thresholds, the approach is broadly applicable both within and beyond Child Welfare.
翻訳日:2022-10-04 08:19:59 公開日:2020-10-22
# CNNとLSTMに基づくディープラーニングモデルを用いた株価予測

Stock Price Prediction Using CNN and LSTM-Based Deep Learning Models ( http://arxiv.org/abs/2010.13891v1 )

ライセンス: Link先を確認
Sidra Mehtab and Jaydip Sen(参考訳) 株価予測のための堅牢で正確な予測モデルの設計は、長い間研究の活発な領域であった。 一方、効率的な市場仮説の支持者は、株価を正確に予測することは不可能だと主張しているが、多くの研究者はそうは考えていない。 適切に設計され最適化されれば、予測モデルが非常に正確かつ確実に株価の将来の値を予測できることを実証した文献には提案がある。 本稿では,株価予測のための深層学習モデルについて述べる。 我々は、2008年12月29日から2020年7月31日までの期間に、インド国立証券取引所に記載されているNIFTY50指数の歴史的記録を用いて、モデルをトレーニングし、試験する。 提案手法は畳み込みニューラルネットワークに基づく2つの回帰モデルと3つの長期記憶ネットワークに基づく予測モデルを含む。 NIFTY 50インデックスレコードのオープン値を予測するために,ウォーキングフォワード検証を用いた多段階予測手法を採用した。 このアプローチでは、1週間の時間軸でニフス50指数の公開値を予測し、1週間に1回終了すれば、モデルの再トレーニング前のトレーニングセットに実際のインデックス値が含まれ、次の週の予測が行われる。 提案した全てのモデルに対する予測精度に関する詳細な結果を示す。 その結果、全てのモデルがNIFTY 50オープン値の予測に非常に正確であるが、入力が最も正確なモデルであるため、前の2週間のデータと一変エンコーダデコーダ畳み込みLSTMが一致することがわかった。 一方、入力として1週間のデータを持つ単変量CNNモデルは、実行速度において最速のモデルであることが判明した。

Designing robust and accurate predictive models for stock price prediction has been an active area of research for a long time. While on one side, the supporters of the efficient market hypothesis claim that it is impossible to forecast stock prices accurately, many researchers believe otherwise. There exist propositions in the literature that have demonstrated that if properly designed and optimized, predictive models can very accurately and reliably predict future values of stock prices. This paper presents a suite of deep learning based models for stock price prediction. We use the historical records of the NIFTY 50 index listed in the National Stock Exchange of India, during the period from December 29, 2008 to July 31, 2020, for training and testing the models. Our proposition includes two regression models built on convolutional neural networks and three long and short term memory network based predictive models. To forecast the open values of the NIFTY 50 index records, we adopted a multi step prediction technique with walk forward validation. In this approach, the open values of the NIFTY 50 index are predicted on a time horizon of one week, and once a week is over, the actual index values are included in the training set before the model is trained again, and the forecasts for the next week are made. We present detailed results on the forecasting accuracies for all our proposed models. The results show that while all the models are very accurate in forecasting the NIFTY 50 open values, the univariate encoder decoder convolutional LSTM with the previous two weeks data as the input is the most accurate model. On the other hand, a univariate CNN model with previous one week data as the input is found to be the fastest model in terms of its execution speed.
翻訳日:2022-10-04 08:19:32 公開日:2020-10-22
# AIの非民主化 - 人工知能研究におけるディープラーニングと計算部門

The De-democratization of AI: Deep Learning and the Compute Divide in Artificial Intelligence Research ( http://arxiv.org/abs/2010.15581v1 )

ライセンス: Link先を確認
Nur Ahmed, Muntasir Wahed(参考訳) 現代人工知能(AI)の研究はますます、計算集約化が進んでいる。 しかし、コンピューティングパワーが不十分なため、特定の企業やエリート大学だけが現代のai研究に有利である、という懸念が高まっている。 57の高名なコンピュータサイエンスカンファレンスから171394件の新たなデータセットを使用して、企業、特に大企業やエリート大学が、2012年のディープラーニングの予期せぬ増加以来、主要なAIカンファレンスへの参加を増やしていることを文書化しています。 この効果は、QS世界大学ランキングで1-50位のエリート大学に集中している。 さらに、ai研究において企業が存在感を高めている2つの戦略を見出した:第一に、企業のみの出版物を増やし、第二に、企業は主にエリート大学と協力している。 その結果、AI研究における企業やエリート大学の存在の増加は、中層(QSが201-300位)と下層(QSが301-500位)の大学が混在している。 深層学習の予期せぬ増加が,この分散をもたらすことを示す因果的証拠として,データ駆動対実推定器である一般化合成制御法を利用する。 機械学習に基づくテキスト分析手法を用いて,これら2つのグループ(大企業と非エリート大学)の相違が,計算能力や計算能力へのアクセスによって引き起こされていることを示す追加の証拠を提供する。 大企業と非エリート大学の間のこの計算分割は、AI技術におけるバイアスと公平性に関する懸念を高め、AIの「民主化」への障害を提示している。 これらの結果から,計算装置などの専門機器へのアクセスの欠如は知識生産の減退につながることが示唆された。

Increasingly, modern Artificial Intelligence (AI) research has become more computationally intensive. However, a growing concern is that due to unequal access to computing power, only certain firms and elite universities have advantages in modern AI research. Using a novel dataset of 171394 papers from 57 prestigious computer science conferences, we document that firms, in particular, large technology firms and elite universities have increased participation in major AI conferences since deep learning's unanticipated rise in 2012. The effect is concentrated among elite universities, which are ranked 1-50 in the QS World University Rankings. Further, we find two strategies through which firms increased their presence in AI research: first, they have increased firm-only publications; and second, firms are collaborating primarily with elite universities. Consequently, this increased presence of firms and elite universities in AI research has crowded out mid-tier (QS ranked 201-300) and lower-tier (QS ranked 301-500) universities. To provide causal evidence that deep learning's unanticipated rise resulted in this divergence, we leverage the generalized synthetic control method, a data-driven counterfactual estimator. Using machine learning based text analysis methods, we provide additional evidence that the divergence between these two groups - large firms and non-elite universities - is driven by access to computing power or compute, which we term as the "compute divide". This compute divide between large firms and non-elite universities increases concerns around bias and fairness within AI technology, and presents an obstacle towards "democratizing" AI. These results suggest that a lack of access to specialized equipment such as compute can de-democratize knowledge production.
翻訳日:2022-10-04 08:19:03 公開日:2020-10-22
# 視線ガイドによる広角単眼映像の映像編集

GAZED- Gaze-guided Cinematic Editing of Wide-Angle Monocular Video Recordings ( http://arxiv.org/abs/2010.11886v1 )

ライセンス: Link先を確認
K L Bhanu Moorthy, Moneish Kumar, Ramanathan Subramaniam, Vineet Gandhi(参考訳) 本稿では,単眼・静止・広角・高解像度カメラで撮影された映像の視線ガイド付き編集について述べる。 eye-gazeは、興味深いシーンコンテンツをキャプチャするための手掛かりとして、計算アプリケーションで効果的に使われている。 オリジナル映像とシーンコンテンツとユーザ視線トラックを組み合わせて、撮影に有効なアクターショットとショットトランジションからなる編集ビデオを生成し、オリジナル物語の美的かつ鮮明な表現を生成する。 撮影選択よりもエネルギー最小化問題として映画映像編集をモデル化し,その制約が撮影編集規約をキャプチャする。 注視されたシーンの場所は、主に編集されたビデオを構成するショットを決定する。 GAZEDの複数の競合する手法に対する効果は、12人のユーザと12人のパフォーマンスビデオを含む精神物理学的な研究によって実証された。

We present GAZED- eye GAZe-guided EDiting for videos captured by a solitary, static, wide-angle and high-resolution camera. Eye-gaze has been effectively employed in computational applications as a cue to capture interesting scene content; we employ gaze as a proxy to select shots for inclusion in the edited video. Given the original video, scene content and user eye-gaze tracks are combined to generate an edited video comprising cinematically valid actor shots and shot transitions to generate an aesthetic and vivid representation of the original narrative. We model cinematic video editing as an energy minimization problem over shot selection, whose constraints capture cinematographic editing conventions. Gazed scene locations primarily determine the shots constituting the edited video. Effectiveness of GAZED against multiple competing methods is demonstrated via a psychophysical study involving 12 users and twelve performance videos.
翻訳日:2022-10-04 08:18:30 公開日:2020-10-22
# 網膜基底画像を用いた加齢黄斑変性の非教師的深層学習

Unsupervised deep learning for grading of age-related macular degeneration using retinal fundus images ( http://arxiv.org/abs/2010.11993v1 )

ライセンス: Link先を確認
Baladitya Yellapragada, Sascha Hornhauer, Kiersten Snyder, Stella Yu, Glenn Yiu(参考訳) 多くの病気は、偏見がちな人間の定義したルーブリックに基づいて分類される。 監視されたニューラルネットワークは網膜基底画像の階調を自動化することができるが、労働集約的なアノテーションを必要とし、特定の訓練されたタスクに制限される。 そこで我々は、年齢関連眼疾患研究(AREDS)の眼底写真を用いて、年齢関連黄斑変性症(AMD)の重症度を非パラメータ識別(NPID)で測定した。 教師なしのアルゴリズムは, 異なるAMD分類方式に対して, トレーニングを行なわず, 教師ネットワークや人間の眼科医に匹敵する, 高度なAMD分類や参照可能なAMD分類, あるいは4段階のAMD重度尺度において, 最適性を示した。 ネットワークの行動を調べると、予測を駆動する病原体の特徴が明らかになり、眼科医とニューラルネットワークの両方による誤分類に対するより粒度の細かいAMD重症度スキームの感受性が明らかになった。 重要な点は、教師なし学習によって、地理的萎縮のようなamdの特徴や、人間のラベルによって事前に定義されていない、脈絡膜、硝子体、水晶体の他の眼表現型、視覚障害者白内障などのデータ駆動型の発見を可能にしたことである。

Many diseases are classified based on human-defined rubrics that are prone to bias. Supervised neural networks can automate the grading of retinal fundus images, but require labor-intensive annotations and are restricted to the specific trained task. Here, we employed an unsupervised network with Non-Parametric Instance Discrimination (NPID) to grade age-related macular degeneration (AMD) severity using fundus photographs from the Age-Related Eye Disease Study (AREDS). Our unsupervised algorithm demonstrated versatility across different AMD classification schemes without retraining, and achieved unbalanced accuracies comparable to supervised networks and human ophthalmologists in classifying advanced or referable AMD, or on the 4-step AMD severity scale. Exploring the networks behavior revealed disease-related fundus features that drove predictions and unveiled the susceptibility of more granular human-defined AMD severity schemes to misclassification by both ophthalmologists and neural networks. Importantly, unsupervised learning enabled unbiased, data-driven discovery of AMD features such as geographic atrophy, as well as other ocular phenotypes of the choroid, vitreous, and lens, such as visually-impairing cataracts, that were not pre-defined by human labels.
翻訳日:2022-10-04 08:18:13 公開日:2020-10-22
# Zoom on the Keystrokes: キーストローク推論攻撃のビデオ通話を爆発させる

Zoom on the Keystrokes: Exploiting Video Calls for Keystroke Inference Attacks ( http://arxiv.org/abs/2010.12078v1 )

ライセンス: Link先を確認
Mohd Sabra, Anindya Maiti, Murtuza Jadliwala(参考訳) 近年の世界的イベントにより、パーソナルとプロのリモートコミュニケーションにとってビデオ通話が新しい標準となっている。 しかし、ビデオ通話の参加者が注意を払わなければ、その電話で自分の個人情報を他人に公開することができる。 本稿では,コール中のキーストローク,すなわちテキストタイプされたビデオストリームから,そのようなプライベート情報を推測するための攻撃フレームワークを設計,評価する。 さまざまなwebカメラ,ビデオ解像度,キーボード,服,背景など,さまざまな実験的な設定とパラメータを用いて,ビデオベースのキーストローク推論フレームワークを評価した。 一般的に発生する比較的高いキーストローク推定精度と現実的な設定は、そのような攻撃に対する認識と対策の必要性を浮き彫りにする。 また,ビデオ通話中にユーザを自動で保護する効果的な緩和手法を提案し,評価する。

Due to recent world events, video calls have become the new norm for both personal and professional remote communication. However, if a participant in a video call is not careful, he/she can reveal his/her private information to others in the call. In this paper, we design and evaluate an attack framework to infer one type of such private information from the video stream of a call -- keystrokes, i.e., text typed during the call. We evaluate our video-based keystroke inference framework using different experimental settings and parameters, including different webcams, video resolutions, keyboards, clothing, and backgrounds. Our relatively high keystroke inference accuracies under commonly occurring and realistic settings highlight the need for awareness and countermeasures against such attacks. Consequently, we also propose and evaluate effective mitigation techniques that can automatically protect users when they type during a video call.
翻訳日:2022-10-04 08:17:46 公開日:2020-10-22
# ロボットのジェスチレーション行動の定量的解析

Quantitative analysis of robot gesticulation behavior ( http://arxiv.org/abs/2010.11614v1 )

ライセンス: Link先を確認
Unai Zabala, Igor Rodriguez, Jos\'e Mar\'ia Mart\'inez-Otzeta, Itziar Irigoien, Elena Lazkano(参考訳) チャットジェスチャのようなソーシャルロボットの能力は、反復を避け、信頼性を示すためにデータ駆動のアプローチを使って最もよく生成される。 しかし、視覚的な評価以上の方法で比較できる堅牢な定量的手法が欠如している。 本稿では,2つの生成型逆ネットワークを用いたジェスチャ生成手法を比較した定量的解析を行う。 本来のトレーニングデータに対する忠実度などの特性を測定することを目的としているが、同時に生成したジェスチャーの独創性の度合いを追跡する。 主コーディネート分析とプロクリスト統計を行い、ジェスチャーにFr'echet Inception Distanceを適用することにより、新しいFr'echet Gesture Distanceを提案する。 これら3つの技法は、生成したジェスチャーの忠実さ/独創性を評価する。

Social robot capabilities, such as talking gestures, are best produced using data driven approaches to avoid being repetitive and to show trustworthiness. However, there is a lack of robust quantitative methods that allow to compare such methods beyond visual evaluation. In this paper a quantitative analysis is performed that compares two Generative Adversarial Networks based gesture generation approaches. The aim is to measure characteristics such as fidelity to the original training data, but at the same time keep track of the degree of originality of the produced gestures. Principal Coordinate Analysis and procrustes statistics are performed and a new Fr\'echet Gesture Distance is proposed by adapting the Fr\'echet Inception Distance to gestures. These three techniques are taken together to asses the fidelity/originality of the generated gestures.
翻訳日:2022-10-04 08:11:42 公開日:2020-10-22
# スピードスケーリングによるエネルギー最小化の学習

Learning Augmented Energy Minimization via Speed Scaling ( http://arxiv.org/abs/2010.11629v1 )

ライセンス: Link先を確認
\'Etienne Bamas, Andreas Maggiori, Lars Rohwedder, Ola Svensson(参考訳) 現代のデータセンターでは電力管理が主要な関心事となっているため、コンピューティング資源はエネルギー消費を最小限に抑えるために動的にスケールされている。 我々は、従来のオンラインのスピードスケーリング問題において、未来に関する機械学習予測を自然に統合できる変種の研究を開始する。 学習強化オンラインアルゴリズムの最近の研究に触発されて,予測をブラックボックス方式で組み込んだアルゴリズムを提案し,精度が高ければ任意のオンラインアルゴリズムを上回り,予測が極めて不正確であれば証明可能な保証を維持する。 我々は、我々の主張を支持する理論的および実験的証拠を提供する。

As power management has become a primary concern in modern data centers, computing resources are being scaled dynamically to minimize energy consumption. We initiate the study of a variant of the classic online speed scaling problem, in which machine learning predictions about the future can be integrated naturally. Inspired by recent work on learning-augmented online algorithms, we propose an algorithm which incorporates predictions in a black-box manner and outperforms any online algorithm if the accuracy is high, yet maintains provable guarantees if the prediction is very inaccurate. We provide both theoretical and experimental evidence to support our claims.
翻訳日:2022-10-04 08:11:08 公開日:2020-10-22
# 拡張アルゴリズム学習のための原始双対法

The Primal-Dual method for Learning Augmented Algorithms ( http://arxiv.org/abs/2010.11632v1 )

ライセンス: Link先を確認
\'Etienne Bamas, Andreas Maggiori, Ola Svensson(参考訳) 予測を備えた従来のオンラインアルゴリズムの拡張は、新しい活発な研究領域である。 本稿では,オンラインアルゴリズムが行う次のアクションについて助言する予測を組み込むために,オンラインアルゴリズムの原始二重法を拡張した。 このフレームワークを用いて、様々なオンライン被覆問題に対する新しいアルゴリズムを得る。 これらのアルゴリズムは,予測が正確でありながら,予測が誤解を招く場合に適切な保証を維持しながら,任意のオンラインアルゴリズムよりも優れていることを示す。

The extension of classical online algorithms when provided with predictions is a new and active research area. In this paper, we extend the primal-dual method for online algorithms in order to incorporate predictions that advise the online algorithm about the next action to take. We use this framework to obtain novel algorithms for a variety of online covering problems. We compare our algorithms to the cost of the true and predicted offline optimal solutions and show that these algorithms outperform any online algorithm when the prediction is accurate while maintaining good guarantees when the prediction is misleading.
翻訳日:2022-10-04 08:10:58 公開日:2020-10-22
# 理論に基づく残留ニューラルネットワーク:離散選択モデルとディープニューラルネットワークの相乗効果

Theory-based residual neural networks: A synergy of discrete choice models and deep neural networks ( http://arxiv.org/abs/2010.11644v1 )

ライセンス: Link先を確認
Shenhao Wang, Baichuan Mo, Jinhua Zhao(参考訳) 研究者はしばしば、データ駆動モデルと理論駆動モデルを、旅行行動分析において異なる2つの方法または矛盾する方法として扱う。 しかし、この2つの方法は、データ駆動方式の方がより予測可能ではないが、解釈可能で頑健であり、理論駆動方式はより解釈可能で堅牢であるが予測できないため、非常に補完的である。 本研究は、それらの相補的な性質を用いて、離散選択モデル(DCM)と深部ニューラルネットワーク(DNN)を共役する理論に基づく残留ニューラルネットワーク(TB-ResNet)フレームワークを設計する。 TB-ResNetフレームワークは、($\delta$, 1-$\delta$)重み付けを使用して、DCMの単純さとDNNの豊かさを活用し、DCMの過度な適合やDNNの過度な適合を防止する。 TB-ResNetの3つのインスタンスは、マルチノードロジットモデル(MNL-ResNets)、予測理論(PT-ResNets)、ハイパーボリックディスカウント(HD-ResNets)に基づいて設計され、3つのデータセットでテストされる。 純粋なDCMと比較して、TB-ResNetsは予測精度が向上し、TB-ResNetsのDNNコンポーネントによって強化されたユーティリティ関数により、よりリッチな動作機構が明らかにされる。 TB-ResNetsのDCMコンポーネントはユーティリティ関数と入力勾配を安定化するため、純粋なDNNと比較して、TB-ResNetsは予測を適度に改善し、解釈と堅牢性を大幅に改善することができる。 本研究は, TB-ResNet フレームワークを用いて, DCM と DNN を相乗化することは可能かつ望ましいものであることを示す。 いくつかの制限はあるが、このTB-ResNetフレームワークは、旅行行動モデリングのためのDCMとDNNの相互利益を生み出すための重要な第一歩である。

Researchers often treat data-driven and theory-driven models as two disparate or even conflicting methods in travel behavior analysis. However, the two methods are highly complementary because data-driven methods are more predictive but less interpretable and robust, while theory-driven methods are more interpretable and robust but less predictive. Using their complementary nature, this study designs a theory-based residual neural network (TB-ResNet) framework, which synergizes discrete choice models (DCMs) and deep neural networks (DNNs) based on their shared utility interpretation. The TB-ResNet framework is simple, as it uses a ($\delta$, 1-$\delta$) weighting to take advantage of DCMs' simplicity and DNNs' richness, and to prevent underfitting from the DCMs and overfitting from the DNNs. This framework is also flexible: three instances of TB-ResNets are designed based on multinomial logit model (MNL-ResNets), prospect theory (PT-ResNets), and hyperbolic discounting (HD-ResNets), which are tested on three data sets. Compared to pure DCMs, the TB-ResNets provide greater prediction accuracy and reveal a richer set of behavioral mechanisms owing to the utility function augmented by the DNN component in the TB-ResNets. Compared to pure DNNs, the TB-ResNets can modestly improve prediction and significantly improve interpretation and robustness, because the DCM component in the TB-ResNets stabilizes the utility functions and input gradients. Overall, this study demonstrates that it is both feasible and desirable to synergize DCMs and DNNs by combining their utility specifications under a TB-ResNet framework. Although some limitations remain, this TB-ResNet framework is an important first step to create mutual benefits between DCMs and DNNs for travel behavior modeling, with joint improvement in prediction, interpretation, and robustness.
翻訳日:2022-10-04 08:10:46 公開日:2020-10-22
# neural-pharmacokinetic/pharmacodynamic modelingによる早期データからの患者の反応時間経過の深層学習予測

Deep learning prediction of patient response time course from early data via neural-pharmacokinetic/pharmacodynamic modeling ( http://arxiv.org/abs/2010.11769v1 )

ライセンス: Link先を確認
James Lu, Brendan Bender, Jin Y. Jin and Yuanfang Guan(参考訳) 現在,薬物動態・薬理力学(pk/pd)の手法を用いて,患者の反応時間経過の経時的分析を行っている。 近年の深層学習の進歩を利用して, 患者データから直接, 支配的微分方程式を学習できることを示す。 特に,重要な薬理学原理と神経常微分方程式を組み合わせたニューラル-pk/pdフレームワークを提案する。 600名以上の患者からなる臨床データから薬物濃度と血小板反応の分析に応用した。 本稿では,ニューラルPK/PDモデルが時間的予測の指標に関して最先端モデルを改善することを示す。 さらに、鍵となるPK/PD概念をアーキテクチャに組み込むことで、テストされていない服用状態に対する患者反応のシミュレーションを一般化し、実現することができる。 これらの結果は,患者応答時間の自動予測分析におけるニューラルPK/PDの可能性を示している。

The longitudinal analysis of patient response time course following doses of therapeutics is currently performed using Pharmacokinetic/Pharmacodynamic (PK/PD) methodologies, which requires significant human experience and expertise in the modeling of dynamical systems. By utilizing recent advancements in deep learning, we show that the governing differential equations can be learnt directly from longitudinal patient data. In particular, we propose a novel neural-PK/PD framework that combines key pharmacological principles with neural ordinary differential equations. We applied it to an analysis of drug concentration and platelet response from a clinical dataset consisting of over 600 patients. We show that the neural-PK/PD model improves upon a state-of-the-art model with respect to metrics for temporal prediction. Furthermore, by incorporating key PK/PD concepts into its architecture, the model can generalize and enable the simulations of patient responses to untested dosing regimens. These results demonstrate the potential of neural-PK/PD for automated predictive analytics of patient response time course.
翻訳日:2022-10-04 08:09:51 公開日:2020-10-22
# バイナリ画像認識システムにおける逆攻撃

Adversarial Attacks on Binary Image Recognition Systems ( http://arxiv.org/abs/2010.11782v1 )

ライセンス: Link先を確認
Eric Balkanski, Harrison Chase, Kojin Oshiba, Alexander Rilee, Yaron Singer, Richard Wang(参考訳) 我々は,二分法(黒と白)画像分類モデルに対する敵攻撃の研究を開始する。 カラー画像とグレースケール画像のモデル攻撃には多くの取り組みがあったが、バイナリ画像のモデル攻撃についてはほとんど知られていない。 バイナリイメージを分類するために訓練されたモデルは、チェック処理、ライセンスプレート認識、請求書処理などのテキスト認識アプリケーションで使用される。 カラー画像やグレースケール画像とは対照的に、バイナリ画像に対する攻撃の検索空間は非常に制限され、各ピクセルに小さな摂動でノイズを隠すことはできない。 したがって、バイナリイメージに対する攻撃の最適化は、新たな根本的な課題をもたらす。 本稿では,バイナリ画像の分類器を騙すために設計された新しい攻撃アルゴリズムscarを提案する。 SCARはバイナリ設定に適用される既存の$L_0$攻撃を著しく上回り、実世界のテキスト認識システムの脆弱性を実証するためにそれを使用する。 SCARの実際のパフォーマンスは、大きな摂動に対して確実に堅牢な分類器の存在とは対照的である。 多くの場合、単一のピクセルを変更すれば、人気のあるオープンソースのテキスト認識システムであるTesseractを騙して、英語辞書で単語を別の単語として誤分類するのに十分である。 また、チェック処理システムのプロバイダから米国の主要銀行にソフトウェアをライセンスし、モバイル預金のチェック認識の脆弱性を実証しています。 これらのシステムは、手書きの数字と文字の両方を独立に分類するため、かなり騙すのが難しい。 それにもかかわらず、SCARを一般化して、無意味な摂動を用いて、預金量の誤分類につながる最先端のチェック処理システムを騙す攻撃を設計する。 したがって、これは金融詐欺を行うための強力な方法である。

We initiate the study of adversarial attacks on models for binary (i.e. black and white) image classification. Although there has been a great deal of work on attacking models for colored and grayscale images, little is known about attacks on models for binary images. Models trained to classify binary images are used in text recognition applications such as check processing, license plate recognition, invoice processing, and many others. In contrast to colored and grayscale images, the search space of attacks on binary images is extremely restricted and noise cannot be hidden with minor perturbations in each pixel. Thus, the optimization landscape of attacks on binary images introduces new fundamental challenges. In this paper we introduce a new attack algorithm called SCAR, designed to fool classifiers of binary images. We show that SCAR significantly outperforms existing $L_0$ attacks applied to the binary setting and use it to demonstrate the vulnerability of real-world text recognition systems. SCAR's strong performance in practice contrasts with the existence of classifiers that are provably robust to large perturbations. In many cases, altering a single pixel is sufficient to trick Tesseract, a popular open-source text recognition system, to misclassify a word as a different word in the English dictionary. We also license software from providers of check processing systems to most of the major US banks and demonstrate the vulnerability of check recognitions for mobile deposits. These systems are substantially harder to fool since they classify both the handwritten amounts in digits and letters, independently. Nevertheless, we generalize SCAR to design attacks that fool state-of-the-art check processing systems using unnoticeable perturbations that lead to misclassification of deposit amounts. Consequently, this is a powerful method to perform financial fraud.
翻訳日:2022-10-04 08:09:35 公開日:2020-10-22
# 実時間ストリーミングコンテキストにおける原子対分布関数(pdf)データの評価のための非負行列分解の検証

Validation of non-negative matrix factorization for assessment of atomic pair-distribution function (PDF) data in a real-time streaming context ( http://arxiv.org/abs/2010.11807v1 )

ライセンス: Link先を確認
Chia-Hao Liu, Christopher J. Wright, Ran Gu, Sasaank Bandi, Allison Wustrow, Paul K. Todd, Daniel O'Nolan, Michelle L. Beauvais, James R. Neilson, Peter J. Chupas, Karena W. Chapman, Simon J.L. Billinge(参考訳) 我々は,原子対分布関数(PDF)データから関連成分の自動同定に行列分解を用いたことを検証する。 また,ストリーミング方式で受信したPDFデータを解析するためのソフトウェア基盤も新たに開発した。 次に, 主成分分析法 (pca) と非負行列分解法 (nmf) の2つの行列因子分解法を適用し, シミュレーションおよび実験データセットを用いて実験を行った。

We validate the use of matrix factorization for the automatic identification of relevant components from atomic pair distribution function (PDF) data. We also present a newly developed software infrastructure for analyzing the PDF data arriving in streaming manner. We then apply two matrix factorization techniques, Principal Component Analysis (PCA) and Non-negative Matrix Factorization (NMF), to study simulated and experiment datasets in the context of in situ experiment.
翻訳日:2022-10-04 08:09:09 公開日:2020-10-22
# 深層アルゴリズム取引政策に対する敵対的攻撃

Adversarial Attacks on Deep Algorithmic Trading Policies ( http://arxiv.org/abs/2010.11388v1 )

ライセンス: Link先を確認
Yaser Faghan, Nancirose Piazza, Vahid Behzadan, Ali Fathi(参考訳) 深層強化学習(drl)は、株式の高頻度取引やcyptocurrenciesなどのアルゴリズム取引に対する魅力的な解決策となっている。 しかし、DRLは敵の攻撃を受けやすいことが示されている。 drlエージェントのアルゴリズム取引は、そのような敵対的手法によっても侵害され、政策操作につながる可能性がある。 本稿では, ディープトレーディング政策の脅威モデルを開発し, テスト時にその性能を操作するための2つの攻撃手法を提案する。 さらに,提案するベンチマークおよび実世界のDQNトレーディングエージェントに対する攻撃の有効性を示す。

Deep Reinforcement Learning (DRL) has become an appealing solution to algorithmic trading such as high frequency trading of stocks and cyptocurrencies. However, DRL have been shown to be susceptible to adversarial attacks. It follows that algorithmic trading DRL agents may also be compromised by such adversarial techniques, leading to policy manipulation. In this paper, we develop a threat model for deep trading policies, and propose two attack techniques for manipulating the performance of such policies at test-time. Furthermore, we demonstrate the effectiveness of the proposed attacks against benchmark and real-world DQN trading agents.
翻訳日:2022-10-04 08:02:49 公開日:2020-10-22
# 学習提示型オンラインアルゴリズムのための最適ロバストネス・コンシスタンストレードオフ

Optimal Robustness-Consistency Trade-offs for Learning-Augmented Online Algorithms ( http://arxiv.org/abs/2010.11443v1 )

ライセンス: Link先を確認
Alexander Wei and Fred Zhang(参考訳) 機械学習予測を取り入れたオンラインアルゴリズムの性能向上問題について検討する。 目標は、一貫性と堅牢性の両方を持つアルゴリズムを設計することであり、つまり、予測が正確で最悪のケースの保証を維持している場合に、アルゴリズムがうまく機能することを意味する。 このようなアルゴリズムはLykouris と Vassilvitskii (ICML '18) と Purohit et al (NeurIPS '18) によって近年研究されている。 さまざまなオンライン問題に対する堅牢性と一貫性のトレードオフを提供する。 しかし、これらのトレードオフが厳密であるかどうか、すなわち、どの程度のトレードオフが必要なのか、という疑問は残る。 本稿では,機械学習予測を用いた競争分析のための非自明な下限の第一セットを提案する。 我々は,スキーレンタルと非クレアボイラントスケジューリングの古典的な問題に焦点をあて,様々な設定で最適なトレードオフを提供する。

We study the problem of improving the performance of online algorithms by incorporating machine-learned predictions. The goal is to design algorithms that are both consistent and robust, meaning that the algorithm performs well when predictions are accurate and maintains worst-case guarantees. Such algorithms have been studied in a recent line of works due to Lykouris and Vassilvitskii (ICML '18) and Purohit et al (NeurIPS '18). They provide robustness-consistency trade-offs for a variety of online problems. However, they leave open the question of whether these trade-offs are tight, i.e., to what extent to such trade-offs are necessary. In this paper, we provide the first set of non-trivial lower bounds for competitive analysis using machine-learned predictions. We focus on the classic problems of ski-rental and non-clairvoyant scheduling and provide optimal trade-offs in various settings.
翻訳日:2022-10-04 08:02:06 公開日:2020-10-22
# 最適近似-ソフトマックス関数の滑らか性トレードオフ

Optimal Approximation -- Smoothness Tradeoffs for Soft-Max Functions ( http://arxiv.org/abs/2010.11450v1 )

ライセンス: Link先を確認
Alessandro Epasto, Mohammad Mahdian, Vahab Mirrokni, Manolis Zampetakis(参考訳) ソフトマックス関数は、(1)最大関数の近似値に対応する近似値、(2)滑らか度、(2)入力の変化に対する感度を示す2つの主要な効率尺度を持つ。 我々の目標は、近似と滑らかさの異なる尺度に対する最適近似-スムースネストレードオフを特定することである。 これにより新しいソフトマックス関数が生まれ、それぞれが別の用途に最適である。 最もよく使われるソフトマックス関数は指数的機構と呼ばれ、予想される加法近似とR'enyi分数に関して測定される滑らかさで測定される近似の間の最適なトレードオフを持つ。 本研究では, 最短加法近似と平滑性の観点から, 近似値の最適トレードオフを, $\ell_q$-norm で測定したソフトマックス関数「ピースワイズ線形ソフトマックス」を導入する。 これは機械学習アプリケーション(Martins et al. '16, Laha et al. '18]において重要な特性であり、指数関数機構に満たされない性質である。 さらに、$\ell_q$-smoothness は、分割線形機構が指数的メカニズムを上回るような機構設計とゲーム理論の応用に適している。 最後に、R\enyi Divergence に対する期待された \textit{multiplicative} 近似と滑らかさの間の最適トレードオフを伴い、パワー機構と呼ばれる別のソフトマックス関数について検討する。

A soft-max function has two main efficiency measures: (1) approximation - which corresponds to how well it approximates the maximum function, (2) smoothness - which shows how sensitive it is to changes of its input. Our goal is to identify the optimal approximation-smoothness tradeoffs for different measures of approximation and smoothness. This leads to novel soft-max functions, each of which is optimal for a different application. The most commonly used soft-max function, called exponential mechanism, has optimal tradeoff between approximation measured in terms of expected additive approximation and smoothness measured with respect to R\'enyi Divergence. We introduce a soft-max function, called "piecewise linear soft-max", with optimal tradeoff between approximation, measured in terms of worst-case additive approximation and smoothness, measured with respect to $\ell_q$-norm. The worst-case approximation guarantee of the piecewise linear mechanism enforces sparsity in the output of our soft-max function, a property that is known to be important in Machine Learning applications [Martins et al. '16, Laha et al. '18] and is not satisfied by the exponential mechanism. Moreover, the $\ell_q$-smoothness is suitable for applications in Mechanism Design and Game Theory where the piecewise linear mechanism outperforms the exponential mechanism. Finally, we investigate another soft-max function, called power mechanism, with optimal tradeoff between expected \textit{multiplicative} approximation and smoothness with respect to the R\'enyi Divergence, which provides improved theoretical and practical results in differentially private submodular optimization.
翻訳日:2022-10-04 08:01:50 公開日:2020-10-22
# mixcon: 難しいデータ回復のためのデータ表現の分離性を調整する

MixCon: Adjusting the Separability of Data Representations for Harder Data Recovery ( http://arxiv.org/abs/2010.11463v1 )

ライセンス: Link先を確認
Xiaoxiao Li, Yangsibo Huang, Binghui Peng, Zhao Song, Kai Li(参考訳) ディープニューラルネットワーク(DNN)がモデル反転攻撃に対して脆弱である問題に対処するために、データユーティリティとインバージョン攻撃の間のトレードオフを制御する手段として、隠れたデータ表現の分離性を調整する客観的関数を設計する。 本手法は,ニューラルネットワーク学習におけるデータ分離可能性の理論的な知見とモデル反転の難易度に動機づけられている。 実証的に、データ表現の分離性を調整することにより、データユーティリティを維持しながら推論中にデータの復元が困難となるようなデータ分離性のためのスイートスポットが存在することを示す。

To address the issue that deep neural networks (DNNs) are vulnerable to model inversion attacks, we design an objective function, which adjusts the separability of the hidden data representations, as a way to control the trade-off between data utility and vulnerability to inversion attacks. Our method is motivated by the theoretical insights of data separability in neural networking training and results on the hardness of model inversion. Empirically, by adjusting the separability of data representation, we show that there exist sweet-spots for data separability such that it is difficult to recover data during inference while maintaining data utility.
翻訳日:2022-10-04 08:01:23 公開日:2020-10-22
# クイバー信号処理(qsp)

Quiver Signal Processing (QSP) ( http://arxiv.org/abs/2010.11525v1 )

ライセンス: Link先を確認
Alejandro Parada-Mayorga, Hans Riess, Alejandro Ribeiro, and Robert Ghrist(参考訳) 本稿では,キーバー表現に基づく信号処理フレームワークの基礎について述べる。 quiver は有向グラフであり、quiver 表現はグラフのノードへのベクトル空間の割り当てであり、ノードに関連するベクトル空間間の線型写像である。 表現理論からツールを活用することで,ネットワーク上での不均一な多次元情報を処理できる信号処理フレームワークを提案する。 このフレームワークは、情報の隠された構造を理解するための自然なツールセットを提供します。 提案手法は,情報処理や処理を他の方法で行うことのできるグラフニューラルネットワーク構築の基礎を述べるものである。

In this paper we state the basics for a signal processing framework on quiver representations. A quiver is a directed graph and a quiver representation is an assignment of vector spaces to the nodes of the graph and of linear maps between the vector spaces associated to the nodes. Leveraging the tools from representation theory, we propose a signal processing framework that allows us to handle heterogeneous multidimensional information in networks. We provide a set of examples where this framework provides a natural set of tools to understand apparently hidden structure in information. We remark that the proposed framework states the basis for building graph neural networks where information can be processed and handled in alternative ways.
翻訳日:2022-10-04 08:01:11 公開日:2020-10-22
# MCPを用いたグラフラプラシアン学習

Learning Graph Laplacian with MCP ( http://arxiv.org/abs/2010.11559v1 )

ライセンス: Link先を確認
Yangjing Zhang, Kim-Chuan Toh, Defeng Sun(参考訳) ラプラシアン制約付きグラフィカルモデルにおけるスパーシリティの促進における$\ell_1$ノルムの能力が著しく低下していることに感銘を受け、本研究では、非凸ペナルティであるミニマックスコンケーブペナルティ(MCP)を用いてグラフラプラシアンを学習することを提案する。 MCPペナル化グラフィカルモデルの解法として,不正確な近位差分法(DCA)を設計し,その臨界点への収束性を証明する。 近似 DCA の各部分プロブレムは、その双対問題における目的関数が半滑らか勾配で連続的に微分可能であるという良好な性質を享受する。 したがって, 効率的なセミムースニュートン法を近位dcaのサブプロブレムに適用する。 各種合成データと実データを用いた数値実験により,非凸ペナルティmcpの有効性が示された。 最先端の手法である『Algorithm~1]{ying2020does}』と比較して,本手法はより効率的かつ信頼性の高いグラフラプラシアンをMPPで学習できることが示されている。

Motivated by the observation that the ability of the $\ell_1$ norm in promoting sparsity in graphical models with Laplacian constraints is much weakened, this paper proposes to learn graph Laplacian with a non-convex penalty: minimax concave penalty (MCP). For solving the MCP penalized graphical model, we design an inexact proximal difference-of-convex algorithm (DCA) and prove its convergence to critical points. We note that each subproblem of the proximal DCA enjoys the nice property that the objective function in its dual problem is continuously differentiable with a semismooth gradient. Therefore, we apply an efficient semismooth Newton method to subproblems of the proximal DCA. Numerical experiments on various synthetic and real data sets demonstrate the effectiveness of the non-convex penalty MCP in promoting sparsity. Compared with the state-of-the-art method \cite[Algorithm~1]{ying2020does}, our method is demonstrated to be more efficient and reliable for learning graph Laplacian with MCP.
翻訳日:2022-10-04 08:00:41 公開日:2020-10-22
# LAN-WANオーケストレーションによる階層的フェデレーション学習

Hierarchical Federated Learning through LAN-WAN Orchestration ( http://arxiv.org/abs/2010.11612v1 )

ライセンス: Link先を確認
Jinliang Yuan, Mengwei Xu, Xiao Ma, Ao Zhou, Xuanzhe Liu, Shangguang Wang(参考訳) federated learning(fl)は、プライベートデータをクラウドサーバにアップロードすることなく、携帯電話がグローバルなモデルを共同学習できるようにするように設計されている。 しかしながら、FLプロトコルの離脱は、一般にワイドエリアネットワーク(WAN)によって駆動される、プライバシー上の懸念と結合したフェデレートネットワークにおける重要な通信ボトルネックを持つ。 このようなwan駆動のfl設計は、かなり高いコストとずっと遅いモデル収束をもたらす。 本研究では,wan よりも帯域幅が豊富で費用がほとんど無視できるため,lan (local-area network) の階層的集約機構を含む効率的な fl プロトコルを提案する。 提案するFLは,WANを横断するクラウド上で,同じLANで頻繁に局所的な集約を行うことで,学習プロセスを加速し,金銭的コストを削減することができる。 さらに,クラウドデバイスアグリゲーションアーキテクチャ,LAN内ピアツーピア(p2p)トポロジ生成,LAN間帯域容量の不均一性といった,LANがもたらした課題に対処するための重要なテクニックを取り入れた具体的なFLプラットフォームであるLanFLを設計する。 我々は、LanFLがFLトレーニング(1.5x-6.0x)を著しく加速し、WANトラフィック(18.3x-75.6x)を節約し、モデル精度を維持しながら金銭的コスト(3.8x-27.2x)を低減できることを明らかにする。

Federated learning (FL) was designed to enable mobile phones to collaboratively learn a global model without uploading their private data to a cloud server. However, exiting FL protocols has a critical communication bottleneck in a federated network coupled with privacy concerns, usually powered by a wide-area network (WAN). Such a WAN-driven FL design leads to significantly high cost and much slower model convergence. In this work, we propose an efficient FL protocol, which involves a hierarchical aggregation mechanism in the local-area network (LAN) due to its abundant bandwidth and almost negligible monetary cost than WAN. Our proposed FL can accelerate the learning process and reduce the monetary cost with frequent local aggregation in the same LAN and infrequent global aggregation on a cloud across WAN. We further design a concrete FL platform, namely LanFL, that incorporates several key techniques to handle those challenges introduced by LAN: cloud-device aggregation architecture, intra-LAN peer-to-peer (p2p) topology generation, inter-LAN bandwidth capacity heterogeneity. We evaluate LanFL on 2 typical Non-IID datasets, which reveals that LanFL can significantly accelerate FL training (1.5x-6.0x), save WAN traffic (18.3x-75.6x), and reduce monetary cost (3.8x-27.2x) while preserving the model accuracy.
翻訳日:2022-10-04 08:00:21 公開日:2020-10-22
# 浅層畳み込みニューラルネットワークを用いたrbc画像からのマラリア検出

Malaria detection from RBC images using shallow Convolutional Neural Networks ( http://arxiv.org/abs/2010.11521v1 )

ライセンス: Link先を確認
Subrata Sarkar, Rati Sharma and Kushal Shah(参考訳) VGG-16やResnet-50といったディープラーニングモデルの出現は、画像分類の分野を大きく革新させ、これらの畳み込みニューラルネットワーク(CNN)アーキテクチャを使うことで、さまざまな画像データセットに対して高い分類精度を得ることができる。 しかし、これらのディープラーニングモデルは計算の複雑さが非常に高いため、これらのアルゴリズムの実行に高い計算コストがかかり、結果の解釈が困難になる。 本稿では,マラリア検出のための薄型スメアrbcスライド画像に対して,vgg-16およびresnet-50モデルと同一の分類精度を有する浅層cnnアーキテクチャを提案する。 これは、特にアフリカの貧しい国やインド亜大陸の一部において、マラリアの脅威が非常に厳しい地域で、これらのアルゴリズムを商業的に展開する上で大きな利点となる。

The advent of Deep Learning models like VGG-16 and Resnet-50 has considerably revolutionized the field of image classification, and by using these Convolutional Neural Networks (CNN) architectures, one can get a high classification accuracy on a wide variety of image datasets. However, these Deep Learning models have a very high computational complexity and so incur a high computational cost of running these algorithms as well as make it hard to interpret the results. In this paper, we present a shallow CNN architecture which gives the same classification accuracy as the VGG-16 and Resnet-50 models for thin blood smear RBC slide images for detection of malaria, while decreasing the computational run time by an order of magnitude. This can offer a significant advantage for commercial deployment of these algorithms, especially in poorer countries in Africa and some parts of the Indian subcontinent, where the menace of malaria is quite severe.
翻訳日:2022-10-04 07:54:10 公開日:2020-10-22
# 画像テキストマッチングのためのグラフ注意による二重意味関係の学習

Learning Dual Semantic Relations with Graph Attention for Image-Text Matching ( http://arxiv.org/abs/2010.11550v1 )

ライセンス: Link先を確認
Keyu Wen, Xiaodong Gu, Qingrong Cheng(参考訳) 画像テキストマッチングは、クロスモーダル情報処理における主要なタスクである。 主な課題は、視覚とテキストの統一表現を学ぶことである。 このタスクをうまくこなす以前の方法は、画像中の領域特徴と文中の対応する単語のアライメントだけでなく、領域と関係語の関係のアライメントにも重点を置いている。 しかし,地域的特徴とグローバルな特徴の同時学習の欠如は,地域的特徴とグローバルな文脈との接触を失わせる原因となり,世界的意味を持つ非対象語とのミスマッチが生じる。 本研究では,この問題を緩和するために,地域関係と地域概念とグローバル概念の関係を強化し,より正確な視覚的表現を得ることが求められている。 そこで,dual semantic relations attention network (dsran) と呼ばれる新しい多レベル意味関係強化手法を提案し,この手法は主に2つのモジュール,semantic relations module と joint semantic relations module から構成される。 dsranは、地域レベル関係強化と地域グローバル関係強化を同時に行うため、それぞれのモジュールでグラフ注目を行う。 これら2つのモジュールで、意味関係の異なる階層を同時に学習し、最終的な視覚的表現により多くの情報を提供することで、画像テキストマッチングプロセスを促進させる。 提案手法は,MS-COCOとFlickr30Kで定量的に評価され,2つの意味関係学習方式の有効性により,従来の手法よりも高い性能を示した。 コードはhttps://github.com/kywen1119/dsranで入手できる。

Image-Text Matching is one major task in cross-modal information processing. The main challenge is to learn the unified visual and textual representations. Previous methods that perform well on this task primarily focus on not only the alignment between region features in images and the corresponding words in sentences, but also the alignment between relations of regions and relational words. However, the lack of joint learning of regional features and global features will cause the regional features to lose contact with the global context, leading to the mismatch with those non-object words which have global meanings in some sentences. In this work, in order to alleviate this issue, it is necessary to enhance the relations between regions and the relations between regional and global concepts to obtain a more accurate visual representation so as to be better correlated to the corresponding text. Thus, a novel multi-level semantic relations enhancement approach named Dual Semantic Relations Attention Network(DSRAN) is proposed which mainly consists of two modules, separate semantic relations module and the joint semantic relations module. DSRAN performs graph attention in both modules respectively for region-level relations enhancement and regional-global relations enhancement at the same time. With these two modules, different hierarchies of semantic relations are learned simultaneously, thus promoting the image-text matching process by providing more information for the final visual representation. Quantitative experimental results have been performed on MS-COCO and Flickr30K and our method outperforms previous approaches by a large margin due to the effectiveness of the dual semantic relations learning scheme. Codes are available at https://github.com/kywen1119/DSRAN.
翻訳日:2022-10-04 07:53:54 公開日:2020-10-22
# aegis:自閉症スペクトラム障害者の表情認識を支援するリアルタイムマルチモーダル拡張現実コンピュータビジョンシステム

AEGIS: A real-time multimodal augmented reality computer vision based system to assist facial expression recognition for individuals with autism spectrum disorder ( http://arxiv.org/abs/2010.11884v1 )

ライセンス: Link先を確認
James Ren Hou Lee, Alexander Wong(参考訳) 社会的手がかりを解釈する能力は、ほとんどの人にとって自然に現れるが、自閉症スペクトラム障害(asd)の患者には、この領域で不足を経験する者もいる。 本稿では,コンピュータビジョンと深層畳み込みニューラルネットワーク(CNN)を併用したマルチモーダル拡張現実(AR)システムの開発について述べる。 aegis(augmented-reality expression guided interpretation system)と呼ばれるこのシステムは、タブレット、スマートフォン、ビデオ会議システム、スマートグラスなど、さまざまなユーザデバイスにデプロイ可能な補助技術であり、その極端な柔軟性と幅広いユースケースを示し、日常生活への統合を容易にします。 ストリーミングビデオカメラのソースが与えられた後、各現実世界のフレームはAIGISに渡され、顔境界ボックスに処理され、新しい深層畳み込み時間ウインドウニューラルネットワーク(TimeConvNet)に入力される。 時間的情報と時間的情報の両方を利用して正確な表現予測を行い、それに対応する視覚化に変換し、元のビデオフレーム上に描画する。 システムはリアルタイムで動作し、最小限のセットアップが必要で、使いやすい。 AEGISを用いることで、ASDと共に生活している個人が表現をよりよく識別し、社会的体験を改善することができる。

The ability to interpret social cues comes naturally for most people, but for those living with Autism Spectrum Disorder (ASD), some experience a deficiency in this area. This paper presents the development of a multimodal augmented reality (AR) system which combines the use of computer vision and deep convolutional neural networks (CNN) in order to assist individuals with the detection and interpretation of facial expressions in social settings. The proposed system, which we call AEGIS (Augmented-reality Expression Guided Interpretation System), is an assistive technology deployable on a variety of user devices including tablets, smartphones, video conference systems, or smartglasses, showcasing its extreme flexibility and wide range of use cases, to allow integration into daily life with ease. Given a streaming video camera source, each real-world frame is passed into AEGIS, processed for facial bounding boxes, and then fed into our novel deep convolutional time windowed neural network (TimeConvNet). We leverage both spatial and temporal information in order to provide an accurate expression prediction, which is then converted into its corresponding visualization and drawn on top of the original video frame. The system runs in real-time, requires minimal set up and is simple to use. With the use of AEGIS, we can assist individuals living with ASD to learn to better identify expressions and thus improve their social experiences.
翻訳日:2022-10-04 07:53:27 公開日:2020-10-22
# SAR画像とニューラルネットワークを用いたGPSナビゲーション

GPS-Denied Navigation Using SAR Images and Neural Networks ( http://arxiv.org/abs/2010.12108v1 )

ライセンス: Link先を確認
Teresa White, Jesse Wheeler, Colton Lindstrom, Randall Christensen, Kevin R. Moon(参考訳) 無人航空機(UAV)は航法にGPSを使うことが多い。 しかしGPS信号は非常に低出力で、簡単に妨害されるか破壊される。 本稿では,合成開口レーダ(SAR)システムから得られたデータを用いて,GPSデニタイズ時代の初期段階に存在するナビゲーションエラーを判定する手法を提案する。 これは、オンライン生成したSAR画像と事前取得した参照画像を比較することで達成される。 参照画像に対する歪みを学習し、畳み込みニューラルネットワークを用いて初期航法誤差を回復し、合成開口を通して真の飛行軌跡を回復することができる。 提案したニューラルネットワークアプローチでは、シミュレーションと実際のSARイメージデータの両方で初期エラーを予測することができる。

Unmanned aerial vehicles (UAV) often rely on GPS for navigation. GPS signals, however, are very low in power and easily jammed or otherwise disrupted. This paper presents a method for determining the navigation errors present at the beginning of a GPS-denied period utilizing data from a synthetic aperture radar (SAR) system. This is accomplished by comparing an online-generated SAR image with a reference image obtained a priori. The distortions relative to the reference image are learned and exploited with a convolutional neural network to recover the initial navigational errors, which can be used to recover the true flight trajectory throughout the synthetic aperture. The proposed neural network approach is able to learn to predict the initial errors on both simulated and real SAR image data.
翻訳日:2022-10-04 07:53:01 公開日:2020-10-22
# DBNET:エンド・ツー・エンド遠距離音源分離のためのDOA駆動ビームフォーミングネットワーク

DBNET: DOA-driven beamforming network for end-to-end farfield sound source separation ( http://arxiv.org/abs/2010.11566v1 )

ライセンス: Link先を確認
Ali Aroudi and Sebastian Braun(参考訳) ソース分離とバックグラウンドノイズを低減するために、多くのディープラーニング技術が利用可能である。 しかし、ディープラーニングと従来の音響信号処理技術を用いたエンドツーエンドのマルチチャネル音源分離手法を設計することは依然として困難である。 本稿では,方向指向型ビームフォーミングネットワーク(DBnet)について,方向指向型ビームフォーミングネットワーク(DOA)とエンドツーエンドソース分離のためのビームフォーミング層(ビームフォーミング層)を提案する。 本稿では,分離した音声信号とターゲット音声信号との距離のみに基づく損失関数を用いてDBnetを訓練することを提案する。 また、ソース分離性能を向上させるため、ポストマスキングネットワークを組み込んだDBnetのエンドツーエンド拡張を提案する。 提案するdbnetとその拡張を非常に困難なデータセット上で評価し,残響・雑音環境における実環境からの音源分離を目標とした。 実験の結果,畳み込み再帰型ポストマスキングネットワークを用いたDBnetの拡張は,最先端のソース分離法よりも優れていた。

Many deep learning techniques are available to perform source separation and reduce background noise. However, designing an end-to-end multi-channel source separation method using deep learning and conventional acoustic signal processing techniques still remains challenging. In this paper we propose a direction-of-arrival-driven beamforming network (DBnet) consisting of direction-of-arrival (DOA) estimation and beamforming layers for end-to-end source separation. We propose to train DBnet using loss functions that are solely based on the distances between the separated speech signals and the target speech signals, without a need for the ground-truth DOAs of speakers. To improve the source separation performance, we also propose end-to-end extensions of DBnet which incorporate post masking networks. We evaluate the proposed DBnet and its extensions on a very challenging dataset, targeting realistic far-field sound source separation in reverberant and noisy environments. The experimental results show that the proposed extended DBnet using a convolutional-recurrent post masking network outperforms state-of-the-art source separation methods.
翻訳日:2022-10-04 07:52:22 公開日:2020-10-22
# MinMax法による最適輸送法--正規化・近似・数値化

MinMax Methods for Optimal Transport and Beyond: Regularization, Approximation and Numerics ( http://arxiv.org/abs/2010.11502v1 )

ライセンス: Link先を確認
Luca De Gennaro Aquino, Stephan Eckstein(参考訳) 最適輸送に関連する最適化問題の一般クラスに対するMinMax解法について検討する。 理論的には、大きな問題のクラスを単一のminmaxフレームワークに適合させ、古典的最適輸送で知られている正規化技術を一般化することに焦点を当てている。 正規化手法は,近似定理を証明し,正規化を行なわない場合の基本問題を示すことにより,ニューラルネットワークの利用を正当化する。 さらに, 生成逆ネットに関する文献との関連について検討し, 本論文で研究されている問題の種類に特に適合するアルゴリズム手法について検討した。 いくつかの数値実験は、理論的な洞察が実際に最も有益である設定と強調の一般性を示している。

We study MinMax solution methods for a general class of optimization problems related to (and including) optimal transport. Theoretically, the focus is on fitting a large class of problems into a single MinMax framework and generalizing regularization techniques known from classical optimal transport. We show that regularization techniques justify the utilization of neural networks to solve such problems by proving approximation theorems and illustrating fundamental issues if no regularization is used. We further study the relation to the literature on generative adversarial nets, and analyze which algorithmic techniques used therein are particularly suitable to the class of problems studied in this paper. Several numerical experiments showcase the generality of the setting and highlight which theoretical insights are most beneficial in practice.
翻訳日:2022-10-04 07:52:06 公開日:2020-10-22
# 方向依存精度を用いた多変量平均推定

Multivariate mean estimation with direction-dependent accuracy ( http://arxiv.org/abs/2010.11921v1 )

ライセンス: Link先を確認
Gabor Lugosi and Shahar Mendelson(参考訳) 我々は, ランダムベクトルの平均を, 独立かつ同一に分布する観測値から推定する問題を考える。 We prove the existence of an estimator that has a near-optimal error in all directions in which the variance of the one dimensional marginal of the random vector is not too small: with probability $1-\delta$, the procedure returns $\wh{\mu}_N$ which satisfies that for every direction $u \in S^{d-1}$, \[ \inr{\wh{\mu}_N - \mu, u}\le \frac{C}{\sqrt{N}} \left( \sigma(u)\sqrt{\log(1/\delta)} + \left(\E\|X-\EXP X\|_2^2\right)^{1/2} \right)~, \] where $\sigma^2(u) = \var(\inr{X,u})$ and $C$ is a constant. これを達成するために、あるモーメント同値な仮定の形で、共変行列の存在よりもわずかに多くしか必要としない。 この証明は、ある確率変数のクラスを均一に保持する経験的確率と真確率の比に対する新しい境界に依存する。

We consider the problem of estimating the mean of a random vector based on $N$ independent, identically distributed observations. We prove the existence of an estimator that has a near-optimal error in all directions in which the variance of the one dimensional marginal of the random vector is not too small: with probability $1-\delta$, the procedure returns $\wh{\mu}_N$ which satisfies that for every direction $u \in S^{d-1}$, \[ \inr{\wh{\mu}_N - \mu, u}\le \frac{C}{\sqrt{N}} \left( \sigma(u)\sqrt{\log(1/\delta)} + \left(\E\|X-\EXP X\|_2^2\right)^{1/2} \right)~, \] where $\sigma^2(u) = \var(\inr{X,u})$ and $C$ is a constant. To achieve this, we require only slightly more than the existence of the covariance matrix, in the form of a certain moment-equivalence assumption. The proof relies on novel bounds for the ratio of empirical and true probabilities that hold uniformly over certain classes of random variables.
翻訳日:2022-10-04 07:51:55 公開日:2020-10-22
# 可変選択のための可逆ジャンプPDMPサンプリング器

Reversible Jump PDMP Samplers for Variable Selection ( http://arxiv.org/abs/2010.11771v1 )

ライセンス: Link先を確認
Augustin Chevallier, Paul Fearnhead, Matthew Sutton(参考訳) 完全決定論的マルコフプロセス(PDMP)をシミュレートした新しいクラスであるMCMCアルゴリズムは、最近大きな可能性を示している:それらは可逆性があり、標準のMCMCアルゴリズムよりも優れた混合が可能であり、ビッグデータシナリオでの計算を高速化するためにサブサンプリングのアイデアを使用することができる。 しかし、現在のPDMPサンプリング装置は、ほぼどこでも識別可能な後部密度からのみサンプリングすることができ、モデル選択に使用できない。 変数選択問題に動機づけられ,モデルの離散空間とパラメータの連続空間を共同で探索できる可逆ジャンプpdmpサンプラーの開発方法を示す。 我々のフレームワークは一般的なもので、既存のPDMPサンプリング装置を取り、モデルから変数の追加や削除を可能にする2種類のトランス次元の動きを追加します。 これらのトランス次元移動の速度が、サンプラーが正しい不変分布を持つようにどのように計算できるかを示す。 シミュレーションにより、新しいサンプルは標準のMCMCアルゴリズムよりもうまく混合できることが示されている。 実験の結果,各パラメータの点質量を0に置き換える連続スパイク・アンド・スラブ先行法を用いることで,モデル選択を回避できる勾配型サンプリング器よりも効率的であることがわかった。

A new class of Markov chain Monte Carlo (MCMC) algorithms, based on simulating piecewise deterministic Markov processes (PDMPs), have recently shown great promise: they are non-reversible, can mix better than standard MCMC algorithms, and can use subsampling ideas to speed up computation in big data scenarios. However, current PDMP samplers can only sample from posterior densities that are differentiable almost everywhere, which precludes their use for model choice. Motivated by variable selection problems, we show how to develop reversible jump PDMP samplers that can jointly explore the discrete space of models and the continuous space of parameters. Our framework is general: it takes any existing PDMP sampler, and adds two types of trans-dimensional moves that allow for the addition or removal of a variable from the model. We show how the rates of these trans-dimensional moves can be calculated so that the sampler has the correct invariant distribution. Simulations show that the new samplers can mix better than standard MCMC algorithms. Our empirical results show they are also more efficient than gradient-based samplers that avoid model choice through use of continuous spike-and-slab priors which replace a point mass at zero for each parameter with a density concentrated around zero.
翻訳日:2022-10-04 07:45:09 公開日:2020-10-22
# DeepCSR: 皮質表面再構成のための3次元ディープラーニングアプローチ

DeepCSR: A 3D Deep Learning Approach for Cortical Surface Reconstruction ( http://arxiv.org/abs/2010.11423v1 )

ライセンス: Link先を確認
Rodrigo Santa Cruz, Leo Lebrat, Pierrick Bourgeat, Clinton Fookes, Jurgen Fripp, Olivier Salvado(参考訳) 神経変性疾患の研究は、MRI(MRI)による大脳皮質の再構築と解析に依存している。 FreeSurferのような従来のフレームワークは長いランタイムを必要とするが、FastSurferの高速化された派生型は依然として、小さな連続オブジェクトを皮質表面としてキャプチャするための解像度によって制限されたボクセルワイズセグメンテーションに依存している。 このような制約を念頭に置いて,MRIによる皮質表面再構成のための3次元ディープラーニングフレームワークであるDeepCSRを提案する。 この目的に向けて,ハイパーカラム機能を備えたニューラルネットワークモデルをトレーニングし,脳テンプレート空間内の点に対する暗黙的表面表現を予測する。 トレーニング後、特定の座標における表面表現を評価し、その後、トポロジー補正アルゴリズムと等表面抽出法を適用することにより、所望の詳細レベルでの皮質表面を得る。 このアプローチの継続的な性質とハイパーカラムの特徴スキームの有効性により、DeepCSRは高分解能で皮質表面を効率的に再構築し、皮質の折り畳みの詳細を捉える。 さらにdeepcsrは、広く使用されているfreesurferツールボックスや、mriから皮質表面を再構築するディープラーニングを利用したfastsurferよりも正確で、より正確で、より高速である。

The study of neurodegenerative diseases relies on the reconstruction and analysis of the brain cortex from magnetic resonance imaging (MRI). Traditional frameworks for this task like FreeSurfer demand lengthy runtimes, while its accelerated variant FastSurfer still relies on a voxel-wise segmentation which is limited by its resolution to capture narrow continuous objects as cortical surfaces. Having these limitations in mind, we propose DeepCSR, a 3D deep learning framework for cortical surface reconstruction from MRI. Towards this end, we train a neural network model with hypercolumn features to predict implicit surface representations for points in a brain template space. After training, the cortical surface at a desired level of detail is obtained by evaluating surface representations at specific coordinates, and subsequently applying a topology correction algorithm and an isosurface extraction method. Thanks to the continuous nature of this approach and the efficacy of its hypercolumn features scheme, DeepCSR efficiently reconstructs cortical surfaces at high resolution capturing fine details in the cortical folding. Moreover, DeepCSR is as accurate, more precise, and faster than the widely used FreeSurfer toolbox and its deep learning powered variant FastSurfer on reconstructing cortical surfaces from MRI which should facilitate large-scale medical studies and new healthcare applications.
翻訳日:2022-10-04 07:43:03 公開日:2020-10-22
# GANベースの教師なしセグメンテーション: 具体的なオブジェクト数に一致すべきか

GAN based Unsupervised Segmentation: Should We Match the Exact Number of Objects ( http://arxiv.org/abs/2010.11438v1 )

ライセンス: Link先を確認
Quan Liu, Isabella M. Gaeta, Bryan A. Millis, Matthew J. Tyska, Yuankai Huo(参考訳) 教師なしセグメンテーションは、バイオメディカル画像解析において、ますます人気のあるトピックである。 基本的な考え方は、教師付きセグメンテーションタスクを教師なし合成問題としてアプローチすることであり、そこでは、サイクル整合逆学習を用いて、強度画像をアノテーション領域に転送することができる。 これまでの研究では、2つのドメイン間の対象物(細胞、組織、突起など)の数に一致するマクロレベル(グローバル分布レベル)がセグメンテーション性能を向上させることが示されている。 しかし、マイクロレベル(ミニバッチレベル)のオブジェクトの正確な数に合わせると、教師なしのセグメンテーション性能がさらに向上するかどうかという事前研究は行われていない。 本稿では,深層学習に基づく,重なり合った動的サブセルマイクロビリのセグメント化のための非教師なしセグメンテーション手法を提案する。 この課題により、マイクロレベルとマクロレベルのマッチング戦略が評価された。 マイクロレベルのオブジェクト数をマッチングするために、新しい蛍光ベースのマイクロレベルマッチングアプローチが提示された。 実験結果から,マイクロレベルマッチングはより単純なマクロレベルマッチングに比べてセグメンテーション性能が向上しなかった。

The unsupervised segmentation is an increasingly popular topic in biomedical image analysis. The basic idea is to approach the supervised segmentation task as an unsupervised synthesis problem, where the intensity images can be transferred to the annotation domain using cycle-consistent adversarial learning. The previous studies have shown that the macro-level (global distribution level) matching on the number of the objects (e.g., cells, tissues, protrusions etc.) between two domains resulted in better segmentation performance. However, no prior studies have exploited whether the unsupervised segmentation performance would be further improved when matching the exact number of objects at micro-level (mini-batch level). In this paper, we propose a deep learning based unsupervised segmentation method for segmenting highly overlapped and dynamic sub-cellular microvilli. With this challenging task, both micro-level and macro-level matching strategies were evaluated. To match the number of objects at the micro-level, the novel fluorescence-based micro-level matching approach was presented. From the experimental results, the micro-level matching did not improve the segmentation performance, compared with the simpler macro-level matching.
翻訳日:2022-10-04 07:42:39 公開日:2020-10-22
# SEG-MAT:中間軸変換を用いた3次元形状分割

SEG-MAT: 3D Shape Segmentation Using Medial Axis Transform ( http://arxiv.org/abs/2010.11488v1 )

ライセンス: Link先を確認
Cheng Lin, Lingjie Liu, Changjian Li, Leif Kobbelt, Bin Wang, Shiqing Xin, Wenping Wang(参考訳) 任意の3Dオブジェクトを構造的に意味のある構成部品に分割することは、幅広いコンピュータグラフィックスアプリケーションで直面する根本的な問題である。 既存の3次元形状分割法は,低レベル特徴を用いた複雑な幾何処理や大域的考慮の欠如による分割結果の断片化などによる重計算に苦しむ。 入力形状の媒体軸変換(MAT)に基づくSEG-MATと呼ばれる効率的な手法を提案する。 具体的には、MATに符号化されたリッチな幾何学的および構造的情報を用いて、3次元形状の異なる部分間の様々なタイプの接合を効果的に識別する、シンプルで原則化されたアプローチを開発することができる。 広範な評価と比較の結果,本手法はセグメンテーション品質の点で最先端手法よりも優れており,また1桁の高速化も確認できた。

Segmenting arbitrary 3D objects into constituent parts that are structurally meaningful is a fundamental problem encountered in a wide range of computer graphics applications. Existing methods for 3D shape segmentation suffer from complex geometry processing and heavy computation caused by using low-level features and fragmented segmentation results due to the lack of global consideration. We present an efficient method, called SEG-MAT, based on the medial axis transform (MAT) of the input shape. Specifically, with the rich geometrical and structural information encoded in the MAT, we are able to develop a simple and principled approach to effectively identify the various types of junctions between different parts of a 3D shape. Extensive evaluations and comparisons show that our method outperforms the state-of-the-art methods in terms of segmentation quality and is also one order of magnitude faster.
翻訳日:2022-10-04 07:42:20 公開日:2020-10-22
# 多成分翻訳グラフニューラルネットワークによるバスケット推薦

Basket Recommendation with Multi-Intent Translation Graph Neural Network ( http://arxiv.org/abs/2010.11419v1 )

ライセンス: Link先を確認
Zhiwei Liu, Xiaohan Li, Ziwei Fan, Stephen Guo, Kannan Achan, and Philip S. Yu(参考訳) basket recommendation~(br)の問題は、現在のバスケットにアイテムのランキングリストを推奨することだ。 既存の手法では、同じバスケット内のアイテムが1つの意味的関係によって相関していると仮定し、アイテムの埋め込みを最適化することでこの問題を解決している。 しかし、この仮定はバスケット内に複数の意図が存在する場合に破られる。 例えば、バスケットに \{\textit{bread, cereal, sereal, soap, detergent}\} を含むと仮定すると、 \{\textit{bread, cereal, yogurt}\} は "breakfast" インテントを通じて相関するが、 \{\textit{soap, detergent}\} は "cleaning"インテントであり、アイテム間の複数の関係を無視しているため、埋め込みを学ぶためのモデルの能力を損なう。 この問題を解決するには、バスケット内の意図を発見する必要がある。 しかし、インテントがバスケット内に潜んでいるため、マルチインテントパターンの検索はかなり難しい。 また、バスケット内の意図も相関することがある。 さらに、異なるバスケット間のインテントも相関するため、マルチインテントパターンの発見には高次のインタラクションをモデル化する必要がある。 この目的のために、新しいフレームワークを提案する: \textbf{M}ulti-\textbf{I}ntent \textbf{T}ranslation \textbf{G}raph \textbf{N}eural \textbf{N}etwork~({\textbf{MITGNN}})。 mitgnnは$t$関係ベクトルを介して対応するバスケット埋め込みから翻訳された末尾エンティティとして$t$インテントをモデル化する。 関係ベクトルは、ユーザ情報とアイテム情報を扱うマルチヘッドアグリゲータを通して学習される。 さらに、mitgnnは定義済みのバスケットグラフにまたがって複数のインテントを伝搬し、隣人を集約することでユーザとアイテムの埋め込みを学ぶ。 実世界の2つのデータセットに対する大規模な実験により,提案モデルの有効性が証明された。 コードはhttps://github.com/JimLiu96/MITGNNで公開されている。

The problem of basket recommendation~(BR) is to recommend a ranking list of items to the current basket. Existing methods solve this problem by assuming the items within the same basket are correlated by one semantic relation, thus optimizing the item embeddings. However, this assumption breaks when there exist multiple intents within a basket. For example, assuming a basket contains \{\textit{bread, cereal, yogurt, soap, detergent}\} where \{\textit{bread, cereal, yogurt}\} are correlated through the "breakfast" intent, while \{\textit{soap, detergent}\} are of "cleaning" intent, ignoring multiple relations among the items spoils the ability of the model to learn the embeddings. To resolve this issue, it is required to discover the intents within the basket. However, retrieving a multi-intent pattern is rather challenging, as intents are latent within the basket. Additionally, intents within the basket may also be correlated. Moreover, discovering a multi-intent pattern requires modeling high-order interactions, as the intents across different baskets are also correlated. To this end, we propose a new framework named as \textbf{M}ulti-\textbf{I}ntent \textbf{T}ranslation \textbf{G}raph \textbf{N}eural \textbf{N}etwork~({\textbf{MITGNN}}). MITGNN models $T$ intents as tail entities translated from one corresponding basket embedding via $T$ relation vectors. The relation vectors are learned through multi-head aggregators to handle user and item information. Additionally, MITGNN propagates multiple intents across our defined basket graph to learn the embeddings of users and items by aggregating neighbors. Extensive experiments on two real-world datasets prove the effectiveness of our proposed model on both transductive and inductive BR. The code is available online at https://github.com/JimLiu96/MITGNN.
翻訳日:2022-10-04 07:36:32 公開日:2020-10-22
# 推移的役割に関する数制限付きSQを超える有限および非制限クエリエンターメントについて

On Finite and Unrestricted Query Entailment beyond SQ with Number Restrictions on Transitive Roles ( http://arxiv.org/abs/2010.11503v1 )

ライセンス: Link先を確認
Thomas Gogacz, V\'ictor Guti\'errez-Basulto, Yazm\'in Ib\'a\~nez-Garc\'ia, Jean Christoph Jung, Filip Murlak(参考訳) 本稿では,過渡的役割に適用可能な数制限を持つ記述論理SQについて検討する。 拡張に対する正規経路問合せと名目に対する正の存在問合せを有限に制限した非制限付き経路問合せに対しては, 2exptime upperbounds が厳密であることを示す。 逆の場合、インスタンスクエリ(後者は1つのトランジッティブなロールに制限されている)の非制限的かつ有限な制約に対する2exptime-completenessを確立する。

We study the description logic SQ with number restrictions applicable to transitive roles, extended with either nominals or inverse roles. We show tight 2EXPTIME upper bounds for unrestricted entailment of regular path queries for both extensions and finite entailment of positive existential queries for nominals. For inverses, we establish 2EXPTIME-completeness for unrestricted and finite entailment of instance queries (the latter under restriction to a single, transitive role).
翻訳日:2022-10-04 07:35:55 公開日:2020-10-22
# Monadic Disjunctive Datalog, MMSNPおよびExpressive Description Logicsにおける包含

Containment in Monadic Disjunctive Datalog, MMSNP, and Expressive Description Logics ( http://arxiv.org/abs/2010.11842v1 )

ライセンス: Link先を確認
Pierre Bourhis and Carsten Lutz(参考訳) 本稿では,MDDLog (Monadic Disjunctive Datalog) と MMSNP (MMSNP) とオントロジーによるクエリ (OMQs) の3つの関連する形式について,表現的記述論理と接続的クエリの結合に基づいて検討する。 mmsnpの封じ込めはfederとvardiによって決定可能であることが知られていたが、正確な複雑さは残っていない。 2NEXPTIME完全性を証明し、この結果をモナディックな解離データログとOMQに拡張する。

We study query containment in three closely related formalisms: monadic disjunctive Datalog (MDDLog), MMSNP (a logical generalization of constraint satisfaction problems), and ontology-mediated queries (OMQs) based on expressive description logics and unions of conjunctive queries. Containment in MMSNP was known to be decidable due to a result by Feder and Vardi, but its exact complexity has remained open. We prove 2NEXPTIME-completeness and extend this result to monadic disjunctive Datalog and to OMQs.
翻訳日:2022-10-04 07:35:18 公開日:2020-10-22
# 連結クエリからインスタンスクエリへ : オントロジーを介するクエリ

From Conjunctive Queries to Instance Queries in Ontology-Mediated Querying ( http://arxiv.org/abs/2010.11848v1 )

ライセンス: Link先を確認
Cristina Feier, Carsten Lutz, Frank Wolter(参考訳) 本稿では,ALCファミリーの表現的記述論理に基づくオントロジー型クエリ (OMQ) と,インスタンスクエリ (IQ) に基づくOMQへの書き換え可能性について検討する。 以上の結果から,書き換えが可能かの正確な特徴と,再帰可能性を決定するための厳密な複雑さ境界が得られた。 また,所与のMSMNP文がCSPと同値であるか否かを判断する問題に対して,厳密な複雑性を与える。

We consider ontology-mediated queries (OMQs) based on expressive description logics of the ALC family and (unions) of conjunctive queries, studying the rewritability into OMQs based on instance queries (IQs). Our results include exact characterizations of when such a rewriting is possible and tight complexity bounds for deciding rewritability. We also give a tight complexity bound for the related problem of deciding whether a given MMSNP sentence is equivalent to a CSP.
翻訳日:2022-10-04 07:35:04 公開日:2020-10-22
# migratable ai: 移行コンテキストによる会話のパーソナライズ

Migratable AI: Personalizing Dialog Conversations with migration context ( http://arxiv.org/abs/2010.12091v1 )

ライセンス: Link先を確認
Ravi Tejwani, Boris Katz, Cynthia Breazeal(参考訳) タスクの継続性を維持するために、さまざまな実施形態にわたる会話型aiエージェントの移行が、ユーザエクスペリエンスをさらに改善するために近年検討されている。 しかし、これらの緩和エージェントは、ユーザとの対話中にユーザ情報と移行したデバイスを文脈的に理解していない。 これは、エージェントが次の発話を文脈的に予測する実施形態に移行する際にどのように振る舞うかという疑問を開きます。 エージェントが移行した具体化のさまざまな設定(公開または非公開)において、個人と非個人による発話を含む移行コンテキストを持つ、クラウドソーシングされたワーカー間の対話会話からデータセットを収集した。 移行コンテキストと非移行コンテキストを用いてデータセット上の生成および情報検索モデルを訓練し,質的指標と人的評価の両方の結果を報告する。 マイグレーションデータセットは、将来の偏在するaiシステムのトレーニングに有用だと考えています。

The migration of conversational AI agents across different embodiments in order to maintain the continuity of the task has been recently explored to further improve user experience. However, these migratable agents lack contextual understanding of the user information and the migrated device during the dialog conversations with the user. This opens the question of how an agent might behave when migrated into an embodiment for contextually predicting the next utterance. We collected a dataset from the dialog conversations between crowdsourced workers with the migration context involving personal and non-personal utterances in different settings (public or private) of embodiment into which the agent migrated. We trained the generative and information retrieval models on the dataset using with and without migration context and report the results of both qualitative metrics and human evaluation. We believe that the migration dataset would be useful for training future migratable AI systems.
翻訳日:2022-10-04 07:34:53 公開日:2020-10-22
# 人工知能による)設計のニュアンスを探る

Exploring the Nuances of Designing (with/for) Artificial Intelligence ( http://arxiv.org/abs/2010.15578v1 )

ライセンス: Link先を確認
Niya Stoimenova, Rebecca Price(参考訳) 人工知能に依存したソリューションは、データパターンを予測し、明確に定義された質問に答え、エミュラブルなソリューションセット、明確なルール、本質的にバイナリな決定メカニズムを含むように考案されている。 しかし、私たちの日常活動において指数関数的に実施されるようになると、これらの初期境界を超越し、その位置するより大きな社会技術システムに影響を与えるようになる。 この方法では、解決法が真または偽の基準を超越し、善と悪の倫理的評価に移行するよう圧力がかかっている。 アルゴリズム的なソリューションも、純粋にヒューマニズム的なソリューションも、aiの狭い状態やその未来における望ましくない結果を完全に和らげるには十分ではない。 私たちは全体観をとらなければならない。 本稿では,AI設計におけるアルゴリズムと社会の問題に同時に対処する手段として,インフラの構築について検討する。

Solutions relying on artificial intelligence are devised to predict data patterns and answer questions that are clearly defined, involve an enumerable set of solutions, clear rules, and inherently binary decision mechanisms. Yet, as they become exponentially implemented in our daily activities, they begin to transcend these initial boundaries and to affect the larger sociotechnical system in which they are situated. In this arrangement, a solution is under pressure to surpass true or false criteria and move to an ethical evaluation of right and wrong. Neither algorithmic solutions, nor purely humanistic ones will be enough to fully mitigate undesirable outcomes in the narrow state of AI or its future incarnations. We must take a holistic view. In this paper we explore the construct of infrastructure as a means to simultaneously address algorithmic and societal issues when designing AI.
翻訳日:2022-10-04 07:34:25 公開日:2020-10-22
# ARIMA, ETS, NNARおよびハイブリッドモデルによるイタリアにおけるCOVID-19入院第2波の予測

Comparison of ARIMA, ETS, NNAR and hybrid models to forecast the second wave of COVID-19 hospitalizations in Italy ( http://arxiv.org/abs/2010.11617v1 )

ライセンス: Link先を確認
Gaetano Perone(参考訳) コロナウイルス(Coronavirus disease, COVID-19)は、2019年12月に中国の武漢で発生した新型コロナウイルス感染症である。 10月13日現在、この流行は世界中で急速に広がり、3800万人以上に影響を与え、100万人以上の死者を出した。 本稿は,2020年10月13日以降のイタリアにおける第2波の流行を予測するために,いくつかの時系列予測手法を分析した。 自己回帰モデル(arima)、指数的平滑化状態空間モデル(ets)、ニューラルネットワーク自己回帰モデル(nnar)、それらのハイブリッド組み合わせ(arima-ets、arima-nnar、ets-nnar、arima-ets-nnar)を使いました。 データについて,軽度症状の入院患者数と集中治療室(icu)の患者数を予測した。 データは2020年2月21日から10月13日までの期間で、イタリアの保健省(www.salute.gov.it)のウェブサイトから抽出されている。 その結果は 一 ハイブリッドモデルは、ARIMA-ETSを除き、それぞれの単一モデルに勝ることにより、線状及び非線状流行パターンを捉えるのがより優れている。 二 軽症候及びicuに入院する新型コロナウイルス関連病院の数が、少なくとも2020年12月半ばに約50日から60日でピークに達することにより、今後数週間で急速に増加すること。 新型コロナウイルス(COVID-19)第2次波に対処するためには、医療従事者を雇用し、十分な病院施設、防護設備、通常の医療ベッドを整備する必要がある。

Coronavirus disease (COVID-19) is a severe ongoing novel pandemic that has emerged in Wuhan, China, in December 2019. As of October 13, the outbreak has spread rapidly across the world, affecting over 38 million people, and causing over 1 million deaths. In this article, I analysed several time series forecasting methods to predict the spread of COVID-19 second wave in Italy, over the period after October 13, 2020. I used an autoregressive model (ARIMA), an exponential smoothing state space model (ETS), a neural network autoregression model (NNAR), and the following hybrid combinations of them: ARIMA-ETS, ARIMA-NNAR, ETS-NNAR, and ARIMA-ETS-NNAR. About the data, I forecasted the number of patients hospitalized with mild symptoms, and in intensive care units (ICU). The data refer to the period February 21, 2020-October 13, 2020 and are extracted from the website of the Italian Ministry of Health (www.salute.gov.it). The results show that i) the hybrid models, except for ARIMA-ETS, are better at capturing the linear and non-linear epidemic patterns, by outperforming the respective single models; and ii) the number of COVID-19-related hospitalized with mild symptoms and in ICU will rapidly increase in the next weeks, by reaching the peak in about 50-60 days, i.e. in mid-December 2020, at least. To tackle the upcoming COVID-19 second wave, on one hand, it is necessary to hire healthcare workers and implement sufficient hospital facilities, protective equipment, and ordinary and intensive care beds; and on the other hand, it may be useful to enhance social distancing by improving public transport and adopting the double-shifts schooling system, for example.
翻訳日:2022-10-04 07:34:10 公開日:2020-10-22
# 深層・広層ニューラルネットワークを用いたインドのラジャスタンにおける降雨予測

Prediction of Rainfall in Rajasthan, India using Deep and Wide Neural Network ( http://arxiv.org/abs/2010.11787v1 )

ライセンス: Link先を確認
Vikas Bajpai, Anukriti Bansal, Kshitiz Verma, Sanjay Agarwal(参考訳) 降雨は自然のプロセスであり、水循環、地下水の補給、災害管理、経済サイクルなど様々な分野で最も重要である。 降雨強度の正確な予測は困難であり、その正確な予測はあらゆる面で役立つ。 本稿では,インドのラジャスタン州における降雨予測モデル(dwrpm)を提案し,その降雨予測の有効性を時系列データを用いて評価する。 広帯域ネットワークでは,降雨強度を直接使用する代わりに,畳み込み層を適用して得られる特徴を用いている。 深部には多層パーセプトロン(MLP)を用いる。 地理的パラメータ(緯度と経度)の情報は、ユニークな方法で含まれる。 これはモデルに一般化能力を与え、単一のモデルが異なる地理的条件で降雨を予測するのに役立つ。 MLP, LSTM, CNNなどの深層学習手法と比較し, シーケンスベースの予測に有効であることが確認された。 ラジャスタンにおける降雨予測法の適用性に関する実験的検討と比較を行った。

Rainfall is a natural process which is of utmost importance in various areas including water cycle, ground water recharging, disaster management and economic cycle. Accurate prediction of rainfall intensity is a challenging task and its exact prediction helps in every aspect. In this paper, we propose a deep and wide rainfall prediction model (DWRPM) and evaluate its effectiveness to predict rainfall in Indian state of Rajasthan using historical time-series data. For wide network, instead of using rainfall intensity values directly, we are using features obtained after applying a convolutional layer. For deep part, a multi-layer perceptron (MLP) is used. Information of geographical parameters (latitude and longitude) are included in a unique way. It gives the model a generalization ability, which helps a single model to make rainfall predictions in different geographical conditions. We compare our results with various deep-learning approaches like MLP, LSTM and CNN, which are observed to work well in sequence-based predictions. Experimental analysis and comparison shows the applicability of our proposed method for rainfall prediction in Rajasthan.
翻訳日:2022-10-04 07:26:42 公開日:2020-10-22
# 不均衡データセットの後方再校正

Posterior Re-calibration for Imbalanced Datasets ( http://arxiv.org/abs/2010.11820v1 )

ライセンス: Link先を確認
Junjiao Tian, Yen-Cheng Liu, Nathan Glaser, Yen-Chang Hsu, Zsolt Kira(参考訳) ニューラルネットワークは、トレーニングラベルの分布がかなり不均衡である場合や、テストデータがトレーニング分布と異なる場合など、パフォーマンスが良くない。 不均衡の原因となるテストラベル分布の変化に対処するために、最適なベイズ分類器の観点から問題を動機付け、KL分割に基づく最適化によって解決できる訓練後の事前分散手法を導出する。 フレキシブルなポストトレーニングハイパーパラメータを検証セットで効率的に調整し、この不均衡に対処するために分類器マージンを効果的に修正することができる。 さらに、この手法を既存の可能性シフト法と組み合わせ、同一ベイズ的視点から再解釈し、我々の手法が両問題を統一的に扱えることを示す。 このアルゴリズムは、基礎となるアーキテクチャに依存しない確率論的分類問題に便利に利用できる。 6つの異なるデータセットと5つの異なるアーキテクチャで得られた結果は,iNaturalistのような大規模不均衡なデータセットやセマンティックセグメンテーションのためのSynthiaを含む,芸術的精度の状態を示している。 実装はhttps://github.com/gt-ripl/uno-ic.gitを参照。

Neural Networks can perform poorly when the training label distribution is heavily imbalanced, as well as when the testing data differs from the training distribution. In order to deal with shift in the testing label distribution, which imbalance causes, we motivate the problem from the perspective of an optimal Bayes classifier and derive a post-training prior rebalancing technique that can be solved through a KL-divergence based optimization. This method allows a flexible post-training hyper-parameter to be efficiently tuned on a validation set and effectively modify the classifier margin to deal with this imbalance. We further combine this method with existing likelihood shift methods, re-interpreting them from the same Bayesian perspective, and demonstrating that our method can deal with both problems in a unified way. The resulting algorithm can be conveniently used on probabilistic classification problems agnostic to underlying architectures. Our results on six different datasets and five different architectures show state of art accuracy, including on large-scale imbalanced datasets such as iNaturalist for classification and Synthia for semantic segmentation. Please see https://github.com/GT-RIPL/UNO-IC.git for implementation.
翻訳日:2022-10-04 07:26:25 公開日:2020-10-22
# 政策と環境を模倣するエラー境界

Error Bounds of Imitating Policies and Environments ( http://arxiv.org/abs/2010.11876v1 )

ライセンス: Link先を確認
Tian Xu, Ziniu Li, Yang Yu(参考訳) 模倣学習は専門家のデモンストレーションを模倣して政策を訓練する。 様々な模倣法が提案され、実証的に評価されたが、理論的な理解はさらなる研究が必要である。 本稿では,まず,行動クローニング法と生成的敵意模倣法という2つの模倣法によって,専門家政策と模倣政策の間の価値格差を分析した。 その結果, 生成的対向模倣は, 行動クローニングに比べて複合的エラーを低減し, サンプルの複雑さが向上することがわかった。 環境遷移モデルをデュアルエージェントとして考えることで、環境モデルを学ぶために模倣学習も利用できることに気付きました。 そこで本研究では,模倣ポリシーの限界に基づいて,模倣環境の性能を更に分析する。 その結果, モデルに基づく強化学習において, 環境モデルが行動クローニングよりも生成的敵模倣によりより効果的に模倣できることが示唆された。 これらの結果が、模倣学習とモデルに基づく強化学習の将来の進歩を刺激することを期待している。

Imitation learning trains a policy by mimicking expert demonstrations. Various imitation methods were proposed and empirically evaluated, meanwhile, their theoretical understanding needs further studies. In this paper, we firstly analyze the value gap between the expert policy and imitated policies by two imitation methods, behavioral cloning and generative adversarial imitation. The results support that generative adversarial imitation can reduce the compounding errors compared to behavioral cloning, and thus has a better sample complexity. Noticed that by considering the environment transition model as a dual agent, imitation learning can also be used to learn the environment model. Therefore, based on the bounds of imitating policies, we further analyze the performance of imitating environments. The results show that environment models can be more effectively imitated by generative adversarial imitation than behavioral cloning, suggesting a novel application of adversarial imitation for model-based reinforcement learning. We hope these results could inspire future advances in imitation learning and model-based reinforcement learning.
翻訳日:2022-10-04 07:25:47 公開日:2020-10-22
# 非ロバストPAC学習における逆ロバスト学習の削減

Reducing Adversarially Robust Learning to Non-Robust PAC Learning ( http://arxiv.org/abs/2010.12039v1 )

ライセンス: Link先を確認
Omar Montasser, Steve Hanneke, Nathan Srebro(参考訳) 我々は,ブラックボックスの非破壊学習者のみにアクセスすることで,対人的堅牢な学習を標準的なPAC学習に還元する問題,すなわち,対人的堅牢な予測器の複雑さについて検討する。 我々は、任意の非ロバスト学習者$\mathcal{a}$ for $\mathcal{c}$を用いて、任意の仮説クラス$\mathcal{c}$をロバストに学習できる還元を与える。 $\mathcal{a}$ の呼び出し数は、例ごとの許容逆摂動の数に対数的に依存し、これは避けられないことを示す下限を与える。

We study the problem of reducing adversarially robust learning to standard PAC learning, i.e. the complexity of learning adversarially robust predictors using access to only a black-box non-robust learner. We give a reduction that can robustly learn any hypothesis class $\mathcal{C}$ using any non-robust learner $\mathcal{A}$ for $\mathcal{C}$. The number of calls to $\mathcal{A}$ depends logarithmically on the number of allowed adversarial perturbations per example, and we give a lower bound showing this is unavoidable.
翻訳日:2022-10-04 07:25:05 公開日:2020-10-22
# 因子グラフ文法

Factor Graph Grammars ( http://arxiv.org/abs/2010.12048v1 )

ライセンス: Link先を確認
David Chiang and Darcey Riley(参考訳) 本稿では,因子グラフのハイパーエッジ置換グラフ文法,あるいは因子グラフ文法(FGG)を略して提案する。 FGGは因子グラフの集合を生成し、プレート表記、動的グラフィカルモデル、ケースファクター図、および総積ネットワークよりも一般的なモデルのクラスを記述することができる。 さらに、生成されたすべての因子グラフを列挙することなく、FGG上で推論を行うことができる。 有限変数領域(グラフの無限集合)に対して、fggsへの変数除去の一般化は、多くの状況において正確かつ扱いやすい推論を可能にする。 有限グラフの集合(しかし、おそらくは無限変数領域)に対して、FGG は標準推論技術に対応可能な単一の因子グラフに変換することができる。

We propose the use of hyperedge replacement graph grammars for factor graphs, or factor graph grammars (FGGs) for short. FGGs generate sets of factor graphs and can describe a more general class of models than plate notation, dynamic graphical models, case-factor diagrams, and sum-product networks can. Moreover, inference can be done on FGGs without enumerating all the generated factor graphs. For finite variable domains (but possibly infinite sets of graphs), a generalization of variable elimination to FGGs allows exact and tractable inference in many situations. For finite sets of graphs (but possibly infinite variable domains), a FGG can be converted to a single factor graph amenable to standard inference techniques.
翻訳日:2022-10-04 07:24:50 公開日:2020-10-22
# 再パラメータ化トリックを伴わない離散変動反復トピックモデル

A Discrete Variational Recurrent Topic Model without the Reparametrization Trick ( http://arxiv.org/abs/2010.12055v1 )

ライセンス: Link先を確認
Mehdi Rezaee and Francis Ferraro(参考訳) 各単語が割り当てられたトピックを明示的にモデル化する — 離散変数を扱うために確率的バックプロパゲーションに依存しない,ニューラルネットワークの変動推論を使用する — ニューラルネットワークのトピックモデルをどのように学習するかを示す。 本モデルでは,テキストのシーケンスを表現するためのニューラルネットワークの表現力と,グローバルかつテーマ的なコヒーレンスをキャプチャするトピックモデルの能力を組み合わせた。 神経変分推論を用いて、複数のコーパスのパープレキシティと文書理解を改善した。 モデルと変分パラメータの両方に先行パラメータが与える影響について検討し,提案手法がトピック品質の自動測定において,一般的なトピックモデルの実装と競合することを示す。

We show how to learn a neural topic model with discrete random variables---one that explicitly models each word's assigned topic---using neural variational inference that does not rely on stochastic backpropagation to handle the discrete variables. The model we utilize combines the expressive power of neural methods for representing sequences of text with the topic model's ability to capture global, thematic coherence. Using neural variational inference, we show improved perplexity and document understanding across multiple corpora. We examine the effect of prior parameters both on the model and variational parameters and demonstrate how our approach can compete and surpass a popular topic model implementation on an automatic measure of topic quality.
翻訳日:2022-10-04 07:24:36 公開日:2020-10-22
# マルチカーネルを用いたプール型逐次能動学習

Pool-based sequential active learning with multi kernels ( http://arxiv.org/abs/2010.11421v1 )

ライセンス: Link先を確認
Jeongmin Chae, Songnam Hong(参考訳) 本研究では, プールベース逐次能動学習(AL)について検討し, 1つのサンプルを選択基準に従ってラベルなしデータの大きなプールから毎回クエリする。 本フレームワークでは,マルチカーネル学習(MKL)の特定の構造を利用して,期待カーネル分散(EKD)と期待カーネルロス(EKL)という2つの選択基準を提案する。 また,提案したEKDとEKLは,それぞれQBC(committee)とEMC(pre expected-model-change)の概念を一般化することに成功した。 実データを用いた実験結果から,提案手法と比較し,提案手法の有効性を検証した。

We study a pool-based sequential active learning (AL), in which one sample is queried at each time from a large pool of unlabeled data according to a selection criterion. For this framework, we propose two selection criteria, named expected-kernel-discrepancy (EKD) and expected-kernel-loss (EKL), by leveraging the particular structure of multiple kernel learning (MKL). Also, it is identified that the proposed EKD and EKL successfully generalize the concepts of popular query-by-committee (QBC) and expected-model-change (EMC), respectively. Via experimental results with real-data sets, we verify the effectiveness of the proposed criteria compared with the existing methods.
翻訳日:2022-10-04 07:17:12 公開日:2020-10-22
# 代数ニューラルネットワークの小さな摂動に対する安定性

Stability of Algebraic Neural Networks to Small Perturbations ( http://arxiv.org/abs/2010.11544v1 )

ライセンス: Link先を確認
Alejandro Parada-Mayorga and Alejandro Ribeiro(参考訳) 代数的ニューラルネットワーク(algnn)は、それぞれに関連付けられた層と代数的信号モデルで構成され、情報は非線形関数によって層間でマッピングされる。 AlgNNは、従来のニューラルネットワーク(CNN)やグラフニューラルネットワーク(GNN)など、フォーマルな畳み込み演算子を使用するニューラルネットワークアーキテクチャの一般化を提供する。 本稿では代数的信号処理の枠組みに基づくAlgNNの安定性について検討する。 形式的な畳み込みの概念を用いるアーキテクチャは、シフト作用素の特定の選択を超えて安定であることを示し、この安定性はモデルに関わる代数の部分集合の構造に依存する。 我々は、単一の生成元を持つ代数の場合に注意を向ける。

Algebraic neural networks (AlgNNs) are composed of a cascade of layers each one associated to and algebraic signal model, and information is mapped between layers by means of a nonlinearity function. AlgNNs provide a generalization of neural network architectures where formal convolution operators are used, like for instance traditional neural networks (CNNs) and graph neural networks (GNNs). In this paper we study stability of AlgNNs on the framework of algebraic signal processing. We show how any architecture that uses a formal notion of convolution can be stable beyond particular choices of the shift operator, and this stability depends on the structure of subsets of the algebra involved in the model. We focus our attention on the case of algebras with a single generator.
翻訳日:2022-10-04 07:16:59 公開日:2020-10-22
# オンライン構造化メタラーニング

Online Structured Meta-learning ( http://arxiv.org/abs/2010.11545v1 )

ライセンス: Link先を確認
Huaxiu Yao, Yingbo Zhou, Mehrdad Mahdavi, Zhenhui Li, Richard Socher, Caiming Xiong(参考訳) 学習の迅速化は、オンラインプラットフォームにデプロイされたマシンインテリジェンスにとって非常に重要である。 学習したタスクから知識を伝達する能力により、メタラーニングは学習前のモデルを継続的に更新することで、オンラインシナリオにおけるその効果を示した。 しかし、現在のオンラインメタ学習アルゴリズムは、グローバルに共有されたメタラーナーを学習するために限られており、タスクが自然と区別され共有が難しい異種情報を含む場合、準最適結果をもたらす可能性がある。 この制限を克服するために、オンライン構造化メタラーニング(OSML)フレームワークを提案する。 人間と階層的特徴表現の知識体系に着想を得て、osmlはメタリーナーを異なる知識ブロックを持つメタ階層グラフとして明確に区別する。 新しいタスクに遭遇すると、最も関連する知識ブロックを利用するか、新しいブロックを探索することによってメタ知識経路を構築する。 メタ知識経路を通じて、モデルは新しいタスクに迅速に適応することができる。 さらに、選択したブロックに新たな知識が組み込まれている。 3つのデータセットの実験は、同種タスクと異種タスクの両方において、提案フレームワークの有効性と解釈可能性を示す。

Learning quickly is of great importance for machine intelligence deployed in online platforms. With the capability of transferring knowledge from learned tasks, meta-learning has shown its effectiveness in online scenarios by continuously updating the model with the learned prior. However, current online meta-learning algorithms are limited to learn a globally-shared meta-learner, which may lead to sub-optimal results when the tasks contain heterogeneous information that are distinct by nature and difficult to share. We overcome this limitation by proposing an online structured meta-learning (OSML) framework. Inspired by the knowledge organization of human and hierarchical feature representation, OSML explicitly disentangles the meta-learner as a meta-hierarchical graph with different knowledge blocks. When a new task is encountered, it constructs a meta-knowledge pathway by either utilizing the most relevant knowledge blocks or exploring new blocks. Through the meta-knowledge pathway, the model is able to quickly adapt to the new task. In addition, new knowledge is further incorporated into the selected blocks. Experiments on three datasets demonstrate the effectiveness and interpretability of our proposed framework in the context of both homogeneous and heterogeneous tasks.
翻訳日:2022-10-04 07:16:48 公開日:2020-10-22
# ディープラーニングは特異であり、それは良いことだ

Deep Learning is Singular, and That's Good ( http://arxiv.org/abs/2010.11560v1 )

ライセンス: Link先を確認
Daniel Murfet, Susan Wei, Mingming Gong, Hui Li, Jesse Gell-Redman, Thomas Quella(参考訳) 特異モデルにおいて、パラメータの最適集合は特異点を持つ解析集合を形成し、古典的な統計推論はそのようなモデルには適用できない。 これはニューラルネットワークが特異であり、ヘッセン行列式やラプラス近似を用いた"分割"は適切ではないため、ディープラーニングにとって重要である。 深層学習の基本問題への対処の可能性にもかかわらず、特異学習理論は深層学習理論の発展にほとんど貢献しなかったようである。 理論と実験の混合により,ディープラーニングを理解する手段としての特異学習理論への招待と,ディープラーニングの実践方法に直接適用するための重要な今後の課題を提案する。

In singular models, the optimal set of parameters forms an analytic set with singularities and classical statistical inference cannot be applied to such models. This is significant for deep learning as neural networks are singular and thus "dividing" by the determinant of the Hessian or employing the Laplace approximation are not appropriate. Despite its potential for addressing fundamental issues in deep learning, singular learning theory appears to have made little inroads into the developing canon of deep learning theory. Via a mix of theory and experiment, we present an invitation to singular learning theory as a vehicle for understanding deep learning and suggest important future work to make singular learning theory directly applicable to how deep learning is performed in practice.
翻訳日:2022-10-04 07:16:31 公開日:2020-10-22
# 木のアンサンブルに対する効率的な逆襲

An Efficient Adversarial Attack for Tree Ensembles ( http://arxiv.org/abs/2010.11598v1 )

ライセンス: Link先を確認
Chong Zhang, Huan Zhang, Cho-Jui Hsieh(参考訳) 本研究では, 木系アンサンブル(GBDT)や無作為林(RF)といった, 木系アンサンブルに対する効率的な敵攻撃の問題について検討する。 これらのモデルは非連続的なステップ関数であり、勾配は存在しないので、既存の効率的な逆攻撃は適用できない。 決定に基づくブラックボックス攻撃は適用できるが、木の構造は利用できない。 本研究では,攻撃問題をツリーアンサンブル用に特別に設計された離散探索問題に変換し,元の入力と最短距離を保ちながら誤分類につながる有効な「リーフタプル」を見つけることを目的とする。 この定式化により, リーフタプルをハミング距離1の近傍に移動させることにより, 相反例を反復的に最適化するために, 単純かつ効果的なグリーディアルゴリズムが適用可能であることを示す。 複数のGBDTおよびRFモデルによる実験結果から,従来の混合整数線形プログラミング (MILP) の手法よりも数千倍高速で,一般的な$\ell_p$ (p=1, 2, \infty$) の標準摂動に対する決定ベースのブラックボックス攻撃よりも小さい(より小さい)逆の例が得られた。 私たちのコードはhttps://github.com/chong-z/tree-ensemble-attackで利用可能です。

We study the problem of efficient adversarial attacks on tree based ensembles such as gradient boosting decision trees (GBDTs) and random forests (RFs). Since these models are non-continuous step functions and gradient does not exist, most existing efficient adversarial attacks are not applicable. Although decision-based black-box attacks can be applied, they cannot utilize the special structure of trees. In our work, we transform the attack problem into a discrete search problem specially designed for tree ensembles, where the goal is to find a valid "leaf tuple" that leads to mis-classification while having the shortest distance to the original input. With this formulation, we show that a simple yet effective greedy algorithm can be applied to iteratively optimize the adversarial example by moving the leaf tuple to its neighborhood within hamming distance 1. Experimental results on several large GBDT and RF models with up to hundreds of trees demonstrate that our method can be thousands of times faster than the previous mixed-integer linear programming (MILP) based approach, while also providing smaller (better) adversarial examples than decision-based black-box attacks on general $\ell_p$ ($p=1, 2, \infty$) norm perturbations. Our code is available at https://github.com/chong-z/tree-ensemble-attack.
翻訳日:2022-10-04 07:16:07 公開日:2020-10-22
# 深層ビデオによるブラインドビデオの時間一貫性

Blind Video Temporal Consistency via Deep Video Prior ( http://arxiv.org/abs/2010.11838v1 )

ライセンス: Link先を確認
Chenyang Lei, Yazhou Xing, Qifeng Chen(参考訳) 各ビデオフレームに独立して画像処理アルゴリズムを適用すると、結果の映像に時間的矛盾が生じてしまう。 そこで本研究では,ブラインドビデオの時間的一貫性に対する新しい一般的アプローチを提案する。 提案手法は,大規模なデータセットではなく,オリジナルビデオとプロセッシングビデオのペアでのみ訓練される。 従来の光学フローとの時間的一貫性を強制する手法と異なり、ビデオ上の畳み込みネットワークを事前のディープビデオでトレーニングすることで時間的一貫性を実現することができる。 さらに,マルチモーダル不整合問題に対処するために,注意深く設計した反復的重み付けトレーニング戦略を提案する。 ビデオ上での7つのコンピュータビジョンタスクに対するアプローチの有効性を示す。 広汎な定量的および知覚的実験により,目視ビデオの時間的一貫性に関する最先端手法よりも優れた性能が得られることが示された。 ソースコードはgithub.com/ChenyangLEI/deep-video-prior.comで公開されています。

Applying image processing algorithms independently to each video frame often leads to temporal inconsistency in the resulting video. To address this issue, we present a novel and general approach for blind video temporal consistency. Our method is only trained on a pair of original and processed videos directly instead of a large dataset. Unlike most previous methods that enforce temporal consistency with optical flow, we show that temporal consistency can be achieved by training a convolutional network on a video with the Deep Video Prior. Moreover, a carefully designed iteratively reweighted training strategy is proposed to address the challenging multimodal inconsistency problem. We demonstrate the effectiveness of our approach on 7 computer vision tasks on videos. Extensive quantitative and perceptual experiments show that our approach obtains superior performance than state-of-the-art methods on blind video temporal consistency. Our source codes are publicly available at github.com/ChenyangLEI/deep-video-prior.
翻訳日:2022-10-04 07:09:10 公開日:2020-10-22
# ディープフェイク映像の一般検出のための時空間特性

Spatio-temporal Features for Generalized Detection of Deepfake Videos ( http://arxiv.org/abs/2010.11844v1 )

ライセンス: Link先を確認
Ipek Ganiyusufoglu, L. Minh Ng\^o, Nedko Savov, Sezer Karaoglu, Theo Gevers(参考訳) ディープフェイク検出では、時間的データを使用しない画像レベルの検出器ほど、ビデオレベルの検出器は広く研究されていない。 本稿では,既存の画像分類器とシーケンス分類器のアプローチが,新しい操作手法に乏しいことを実証的に示す。 この目的のために,3d cnn をモデルとした時空間的特徴を,新しい種類のディープフェイク映像を検出するための一般化機能拡張のために提案する。 空間的特徴はディープフェイク特有の属性を学習し,時空間的特徴はディープフェイクメソッド間の共有属性をキャプチャする。 dfdcデータセットarxiv:2006.07397を用いた時系列および時空間ビデオエンコーダの時間情報活用に関する詳細な分析を行う。 したがって,既存のシーケンスエンコーダがそれに無関心であるのに対して,本手法はディープフェイクビデオにおける局所的時空間関係と矛盾を捉える。 FaceForensics++ arXiv:1901.08971とDeeper Forensics arXiv:2001.03024データセットで実施された大規模な実験を通して、我々の手法は一般化能力において既存の手法よりも優れていることを示す。

For deepfake detection, video-level detectors have not been explored as extensively as image-level detectors, which do not exploit temporal data. In this paper, we empirically show that existing approaches on image and sequence classifiers generalize poorly to new manipulation techniques. To this end, we propose spatio-temporal features, modeled by 3D CNNs, to extend the generalization capabilities to detect new sorts of deepfake videos. We show that spatial features learn distinct deepfake-method-specific attributes, while spatio-temporal features capture shared attributes between deepfake methods. We provide an in-depth analysis of how the sequential and spatio-temporal video encoders are utilizing temporal information using DFDC dataset arXiv:2006.07397. Thus, we unravel that our approach captures local spatio-temporal relations and inconsistencies in the deepfake videos while existing sequence encoders are indifferent to it. Through large scale experiments conducted on the FaceForensics++ arXiv:1901.08971 and Deeper Forensics arXiv:2001.03024 datasets, we show that our approach outperforms existing methods in terms of generalization capabilities.
翻訳日:2022-10-04 07:08:55 公開日:2020-10-22
# 生成型adversarial networkのマイナショット適応

Few-Shot Adaptation of Generative Adversarial Networks ( http://arxiv.org/abs/2010.11943v1 )

ライセンス: Link先を確認
Esther Robb and Wen-Sheng Chu and Abhishek Kumar and Jia-Bin Huang(参考訳) GAN(Generative Adversarial Networks)は、画像合成タスクにおいて顕著な性能を示すが、通常、高品質な合成を実現するために多数のトレーニングサンプルを必要とする。 本稿では,短時間設定(100枚未満)でganを適応させるための,単純かつ効果的な手法であるn-shot gan (fsgan)を提案する。 FSGANはコンポーネント分析技術を再利用し、対応する特異ベクトルを凍結しながら、事前訓練された重みの特異値に適応することを学ぶ。 これは、事前訓練された重みの変更を制約しながら、適応のための非常に表現性の高いパラメータ空間を提供する。 対象領域の5-100画像に対して,本手法の有効性を検証した。 提案手法は既存のgan適応法に比べて視覚品質が著しく向上することを示す。 本手法の有効性を示す定性的,定量的な結果を報告する。 また,データ効率のよい画像合成作業で使用される標準的な定量尺度において,少数ショット合成の問題も強調する。 コードと追加結果はhttp://e-271.github.io/few-shot-ganで確認できる。

Generative Adversarial Networks (GANs) have shown remarkable performance in image synthesis tasks, but typically require a large number of training samples to achieve high-quality synthesis. This paper proposes a simple and effective method, Few-Shot GAN (FSGAN), for adapting GANs in few-shot settings (less than 100 images). FSGAN repurposes component analysis techniques and learns to adapt the singular values of the pre-trained weights while freezing the corresponding singular vectors. This provides a highly expressive parameter space for adaptation while constraining changes to the pretrained weights. We validate our method in a challenging few-shot setting of 5-100 images in the target domain. We show that our method has significant visual quality gains compared with existing GAN adaptation methods. We report qualitative and quantitative results showing the effectiveness of our method. We additionally highlight a problem for few-shot synthesis in the standard quantitative metric used by data-efficient image synthesis works. Code and additional results are available at http://e-271.github.io/few-shot-gan.
翻訳日:2022-10-04 07:08:33 公開日:2020-10-22
# 逆例によるコントラスト学習

Contrastive Learning with Adversarial Examples ( http://arxiv.org/abs/2010.12050v1 )

ライセンス: Link先を確認
Chih-Hui Ho, Nuno Vasconcelos(参考訳) コントラスト学習(cl)は、視覚表現の自己教師付き学習(ssl)のための一般的な技術である。 ラベルなしのトレーニング例の強化ペアを使用して、深い埋め込みの事前テキスト学習のための分類タスクを定義する。 拡張手順における広範な研究にもかかわらず、以前の研究は、サンプルバッチ内の画像が独立して扱われるため、挑戦的な負のペアの選択には対処しない。 本稿では,コンストラクティブ・ラーニングのための新しい対角的サンプル群を導入し,これらの例を用いてCLAEと表記されるSSLの新しい対角的トレーニングアルゴリズムを定義することにより,この問題に対処する。 標準的なclと比較すると、逆例の使用はより困難な正のペアを生成し、逆のトレーニングは最適化中にバッチ内のすべてのイメージを計算してより難しい負のペアを生成する。 CLAEは文学における多くのCLメソッドと互換性がある。 実験によると、複数のデータセット上の既存のclベースラインのパフォーマンスが向上している。

Contrastive learning (CL) is a popular technique for self-supervised learning (SSL) of visual representations. It uses pairs of augmentations of unlabeled training examples to define a classification task for pretext learning of a deep embedding. Despite extensive works in augmentation procedures, prior works do not address the selection of challenging negative pairs, as images within a sampled batch are treated independently. This paper addresses the problem, by introducing a new family of adversarial examples for constrastive learning and using these examples to define a new adversarial training algorithm for SSL, denoted as CLAE. When compared to standard CL, the use of adversarial examples creates more challenging positive pairs and adversarial training produces harder negative pairs by accounting for all images in a batch during the optimization. CLAE is compatible with many CL methods in the literature. Experiments show that it improves the performance of several existing CL baselines on multiple datasets.
翻訳日:2022-10-04 07:07:46 公開日:2020-10-22
# マニフォールドを用いた画像認識

Few-shot Image Recognition with Manifolds ( http://arxiv.org/abs/2010.12084v1 )

ライセンス: Link先を確認
Debasmit Das, J.H. Moon, C. S. George Lee(参考訳) 本稿では,従来のマイノリティ・ショット・ラーニング(fsl)問題を,ソースドメインのデータにアクセスできないが,クラスプロトタイプ形式の高レベル情報のみを利用できる状況にまで拡張する。 fsl問題のこの限定的な情報設定は、ソースドメインデータに対するプライバシー保護の欠如を暗示しているため、多くの注意に値する。 限られたトレーニングデータから,すべてのクラスプロトタイプが多様体上に構造的に配置されていることを前提として,このFSL問題に対する非パラメトリックアプローチを提案する。 そこで本研究では,周辺クラスが有する部分空間の平均値にサンプル数を投影することにより,新規クラスのプロトタイプの位置を推定する。 分類中、クラスプロトタイプで構築されたグラフ上にマルコフ連鎖を誘導することにより、再びカテゴリの構造的配置を利用する。 マルコフ連鎖を用いて得られたこの多様体距離は、従来の近傍のユークリッド距離よりもよい結果が得られることが期待されている。 提案するフレームワークを評価するため,大規模イメージネットと小型ながらきめ細かなCUB-200の2つのイメージデータセット上でテストを行った。 パラメータの感度も研究し、フレームワークの理解を深めました。

In this paper, we extend the traditional few-shot learning (FSL) problem to the situation when the source-domain data is not accessible but only high-level information in the form of class prototypes is available. This limited information setup for the FSL problem deserves much attention due to its implication of privacy-preserving inaccessibility to the source-domain data but it has rarely been addressed before. Because of limited training data, we propose a non-parametric approach to this FSL problem by assuming that all the class prototypes are structurally arranged on a manifold. Accordingly, we estimate the novel-class prototype locations by projecting the few-shot samples onto the average of the subspaces on which the surrounding classes lie. During classification, we again exploit the structural arrangement of the categories by inducing a Markov chain on the graph constructed with the class prototypes. This manifold distance obtained using the Markov chain is expected to produce better results compared to a traditional nearest-neighbor-based Euclidean distance. To evaluate our proposed framework, we have tested it on two image datasets - the large-scale ImageNet and the small-scale but fine-grained CUB-200. We have also studied parameter sensitivity to better understand our framework.
翻訳日:2022-10-04 07:07:31 公開日:2020-10-22
# タイトカップリング教師を用いたランク付けのための蒸留度表現

Distilling Dense Representations for Ranking using Tightly-Coupled Teachers ( http://arxiv.org/abs/2010.11386v1 )

ライセンス: Link先を確認
Sheng-Chieh Lin, Jheng-Hong Yang, Jimmy Lin(参考訳) 本稿では,最近提案された後期相互作用ColBERTモデルを改善するために知識蒸留を適用した高密度表現を用いたランク付け手法を提案する。 具体的には、ColBERT の表現力のある MaxSim 演算子からの知識を単純な点積に抽出し、単一ステップの ANN 探索を可能にする。 私たちの重要な洞察は、蒸留の間、教師モデルと生徒モデルの密結合により、より柔軟な蒸留戦略が可能になり、より良い学習表現が得られるということです。 提案手法はクエリのレイテンシを向上し,ColBERTの面倒なストレージ要件を大幅に削減すると同時に,有効性という点ではわずかに犠牲にしている。 文書展開から導出される疎表現と密表現を組み合わせることで,BERTを用いた標準的なクロスエンコーダ・リランカの有効性を極端に遅くすることが可能になる。

We present an approach to ranking with dense representations that applies knowledge distillation to improve the recently proposed late-interaction ColBERT model. Specifically, we distill the knowledge from ColBERT's expressive MaxSim operator for computing relevance scores into a simple dot product, thus enabling single-step ANN search. Our key insight is that during distillation, tight coupling between the teacher model and the student model enables more flexible distillation strategies and yields better learned representations. We empirically show that our approach improves query latency and greatly reduces the onerous storage requirements of ColBERT, while only making modest sacrifices in terms of effectiveness. By combining our dense representations with sparse representations derived from document expansion, we are able to approach the effectiveness of a standard cross-encoder reranker using BERT that is orders of magnitude slower.
翻訳日:2022-10-04 07:07:11 公開日:2020-10-22
# VERT5ERINIによる科学的主張の検証

Scientific Claim Verification with VERT5ERINI ( http://arxiv.org/abs/2010.11930v1 )

ライセンス: Link先を確認
Ronak Pradeep, Xueguang Ma, Rodrigo Nogueira, Jimmy Lin(参考訳) 本研究は,生物医学領域における科学的クレーム検証の課題への事前学習シーケンス・ツー・シーケンスモデルの適応について述べる。 提案するVERT5ERINIは,3つの重要なクレーム検証のサブタスクである,抽象的検索,文選択,ラベル予測にT5を利用する。 これは、モデルがクレームの妥当性を予測できるだけでなく、この決定を支持する科学文献のコーパスから関連する文を提供することを要求する、新しくキュレートされたデータセットです。 経験的に、パイプラインは3つのステップそれぞれで強いベースラインを上回ります。 最後に、拡大を続けるCORD-19コーパスの証拠を用いて、VERT5ERINIが新たに2つのデータセットに一般化できることを示します。

This work describes the adaptation of a pretrained sequence-to-sequence model to the task of scientific claim verification in the biomedical domain. We propose VERT5ERINI that exploits T5 for abstract retrieval, sentence selection and label prediction, which are three critical sub-tasks of claim verification. We evaluate our pipeline on SCIFACT, a newly curated dataset that requires models to not just predict the veracity of claims but also provide relevant sentences from a corpus of scientific literature that support this decision. Empirically, our pipeline outperforms a strong baseline in each of the three steps. Finally, we show VERT5ERINI's ability to generalize to two new datasets of COVID-19 claims using evidence from the ever-expanding CORD-19 corpus.
翻訳日:2022-10-04 07:06:42 公開日:2020-10-22
# 3Dメタ登録:3Dポイントクラウドの登録を学習する

3D Meta-Registration: Learning to Learn Registration of 3D Point Clouds ( http://arxiv.org/abs/2010.11504v1 )

ライセンス: Link先を確認
Lingjing Wang, Yu Hao, Xiang Li, Yi Fang(参考訳) ディープラーニングベースのポイントクラウド登録モデルは、大量のデータに対する広範なトレーニングから一般化され、3Dポイントクラウドを登録するために望まれる幾何学的変換を予測する能力を学ぶ。 本稿では,未発見の3dポイントクラウドに対して,新しい3d登録タスクを迅速に適応し,うまく一般化することのできる,メタラーニングに基づく3d登録モデルである3dメタ登録モデルを提案する。 私たちの3dメタ登録は、さまざまな3d登録タスクをトレーニングすることで、競争上の優位性を得ます。 具体的には,提案した3Dメタ登録モデルは,3D登録学習者と3D登録メタラーナーの2つのモジュールから構成される。 トレーニング中、3d登録学習者は、ソースポイントクラウドとターゲットクラウドとを整合させる所望の幾何学的変換を決定するための特定の登録タスクを完了するように訓練される。 一方、学習課題分布に基づいて、3D登録学習者を更新するための最適なパラメータを提供するために、3D登録メタラーナーを訓練する。 トレーニング後の3D登録メタラーナーは、3D登録タスクの分布を最適化して学習し、動的に3D登録学習者を望ましいパラメータで更新し、新しい登録タスクに迅速に適応させることができる。 我々は,合成データセット ModelNet と FlyingThings3D と実世界のデータセット KITTI を用いて実験を行った。 実験により,3次元メタレジストレーションは従来の技術(FlowNet3Dなど)よりも優れた性能を発揮することが示された。

Deep learning-based point cloud registration models are often generalized from extensive training over a large volume of data to learn the ability to predict the desired geometric transformation to register 3D point clouds. In this paper, we propose a meta-learning based 3D registration model, named 3D Meta-Registration, that is capable of rapidly adapting and well generalizing to new 3D registration tasks for unseen 3D point clouds. Our 3D Meta-Registration gains a competitive advantage by training over a variety of 3D registration tasks, which leads to an optimized model for the best performance on the distribution of registration tasks including potentially unseen tasks. Specifically, the proposed 3D Meta-Registration model consists of two modules: 3D registration learner and 3D registration meta-learner. During the training, the 3D registration learner is trained to complete a specific registration task aiming to determine the desired geometric transformation that aligns the source point cloud with the target one. In the meantime, the 3D registration meta-learner is trained to provide the optimal parameters to update the 3D registration learner based on the learned task distribution. After training, the 3D registration meta-learner, which is learned with the optimized coverage of distribution of 3D registration tasks, is able to dynamically update 3D registration learners with desired parameters to rapidly adapt to new registration tasks. We tested our model on synthesized dataset ModelNet and FlyingThings3D, as well as real-world dataset KITTI. Experimental results demonstrate that 3D Meta-Registration achieves superior performance over other previous techniques (e.g. FlowNet3D).
翻訳日:2022-10-04 07:00:48 公開日:2020-10-22
# f-siamese tracker: 3dシングルオブジェクトトラッキングのためのフラスタムベースのダブルシャムネットワーク

F-Siamese Tracker: A Frustum-based Double Siamese Network for 3D Single Object Tracking ( http://arxiv.org/abs/2010.11510v1 )

ライセンス: Link先を確認
Hao Zou, Jinhao Cui, Xin Kong, Chujuan Zhang, Yong Liu, Feng Wen and Wanlong Li(参考訳) F-Siamese Trackerは,より堅牢な2次元情報と3次元情報の統合により,冗長な検索空間の低減を図った,単一物体追跡のための新しい手法である。 3Dオブジェクト追跡の主な課題は、適切な3D候補を生成するための検索スペースを減らす方法である。 まず,RGB画像に印加されたSiameseネットワークを利用して2D領域の提案を生成し,それを3D表示フラストタルに出力する。 さらに,既存の3Dトラッキングバックボーンに直接組み込むことができる改良点雲探索空間を生成するために,3Dフラストラム上でオンライン精度検証を行う。 効率向上のために,提案手法は検索スペースを減らし,候補数が少ないほど性能が向上する。 また, 2d siameseトラッカが目標を失くした場合でも, 強い咬合や非常にスパースな点がある場合においても, オンライン精度検証の導入により, 精度の向上が期待できる。 このアプローチにより、スパース屋外データセット(KITTIトラッキング)にかなりのマージンで、新しい最先端の3Dオブジェクトトラッキングを設定できる。 さらに, 2次元単一オブジェクト追跡実験により, 2次元オブジェクト追跡性能も向上することを示した。

This paper presents F-Siamese Tracker, a novel approach for single object tracking prominently characterized by more robustly integrating 2D and 3D information to reduce redundant search space. A main challenge in 3D single object tracking is how to reduce search space for generating appropriate 3D candidates. Instead of solely relying on 3D proposals, firstly, our method leverages the Siamese network applied on RGB images to produce 2D region proposals which are then extruded into 3D viewing frustums. Besides, we perform an online accuracy validation on the 3D frustum to generate refined point cloud searching space, which can be embedded directly into the existing 3D tracking backbone. For efficiency, our approach gains better performance with fewer candidates by reducing search space. In addition, benefited from introducing the online accuracy validation, for occasional cases with strong occlusions or very sparse points, our approach can still achieve high precision, even when the 2D Siamese tracker loses the target. This approach allows us to set a new state-of-the-art in 3D single object tracking by a significant margin on a sparse outdoor dataset (KITTI tracking). Moreover, experiments on 2D single object tracking show that our framework boosts 2D tracking performance as well.
翻訳日:2022-10-04 07:00:22 公開日:2020-10-22
# 人間の運動入力のための畳み込みオートエンコーダ

Convolutional Autoencoders for Human Motion Infilling ( http://arxiv.org/abs/2010.11531v1 )

ライセンス: Link先を確認
Manuel Kaufmann, Emre Aksan, Jie Song, Fabrizio Pece, Remo Ziegler, Otmar Hilliges(参考訳) 本稿では,人間の3次元動作データに対する動作入出力の問題に対処する畳み込みオートエンコーダを提案する。 開始シーケンスと終了シーケンスが与えられたとき、入力されたポーズがスタートシーケンスを確実に予測し、終了シーケンスに自然に遷移するような、中間の欠落を埋めることを目的としている。 そこで本研究では,一対一で訓練可能な畳み込みオートエンコーダを提案する。 一つのモデルを用いて、異なるタイプのアクティビティ間の自然な遷移を生成できることを示す。 さらに,本手法は,欠落したフレーム全体を埋め込むだけでなく,部分的なポーズ(例えば,エンドエフェクタから)が利用可能なギャップを完成させたり,他の種類のノイズ(例えばガウシアン)を浄化したりすることができる。 また、モデルは、潜在的に長さが変化する可能性のある任意の数のギャップを埋めることができる。 加えて、モデルの出力に対するさらなる後処理は、ギャップの最後に不連続を平滑化または閉じるなど不要である。 我々のアプローチの核心は、画像のような動きシーケンスの表現に基づいて、動きの埋め込みを塗装問題としてキャストし、畳み込みデノイズ自動エンコーダを訓練することにある。 トレーニング時には,このような画像から列のブロックを除去し,そのギャップを埋めるようにモデルに依頼する。 提案手法の能力と限界をよりよく理解するために,複数の複雑な動き列を通して,アプローチの汎用性を実証し,詳細な評価結果について報告する。

In this paper we propose a convolutional autoencoder to address the problem of motion infilling for 3D human motion data. Given a start and end sequence, motion infilling aims to complete the missing gap in between, such that the filled in poses plausibly forecast the start sequence and naturally transition into the end sequence. To this end, we propose a single, end-to-end trainable convolutional autoencoder. We show that a single model can be used to create natural transitions between different types of activities. Furthermore, our method is not only able to fill in entire missing frames, but it can also be used to complete gaps where partial poses are available (e.g. from end effectors), or to clean up other forms of noise (e.g. Gaussian). Also, the model can fill in an arbitrary number of gaps that potentially vary in length. In addition, no further post-processing on the model's outputs is necessary such as smoothing or closing discontinuities at the end of the gap. At the heart of our approach lies the idea to cast motion infilling as an inpainting problem and to train a convolutional de-noising autoencoder on image-like representations of motion sequences. At training time, blocks of columns are removed from such images and we ask the model to fill in the gaps. We demonstrate the versatility of the approach via a number of complex motion sequences and report on thorough evaluations performed to better understand the capabilities and limitations of the proposed approach.
翻訳日:2022-10-04 07:00:01 公開日:2020-10-22
# 指紋方位推定:挑戦と機会

Fingerprint Orientation Estimation: Challenges and Opportunities ( http://arxiv.org/abs/2010.11563v1 )

ライセンス: Link先を確認
Amit Kumar Trivedi(参考訳) 生体認証機構、特に指紋生体認証機構を備えた携帯電子機器は指数関数的に増加している。 人は限られた数の指紋を持っており、その指紋は生涯にわたって変わらず、一度敵にリークすると、一生リークする。 したがって、バイオメトリックテンプレート自体をセキュアにする必要がある。 本稿では,異なるセキュリティモデルと指紋テンプレート保護技術について概説する。 異なる指紋テンプレート保護技術における研究課題は、論文の各セクションでも強調されている。 本調査は,指紋生体認証システムにおけるテンプレート保護技術の包括的研究であり,課題と今後の展望を強調する。

There is an exponential increase in portable electronic devices with biometric security mechanisms, in particular fingerprint biometric. A person has a limited number of fingerprints and it remains unchanged throughout his lifetime, once leaked to the adversary, it leaks for a lifetime. So, there is a need to secure the biometric template itself. In this survey paper, we review the different security models and fingerprint template protection techniques. The research challenges in different fingerprint template protection techniques are also highlighted in respective sections of the paper. This survey provides a comprehensive study of template protection techniques for fingerprint biometric systems and highlights the challenges and future opportunities.
翻訳日:2022-10-04 06:59:33 公開日:2020-10-22
# 弱教師付き時間行動定位のための2ストリームコンセンサスネットワーク

Two-Stream Consensus Network for Weakly-Supervised Temporal Action Localization ( http://arxiv.org/abs/2010.11594v1 )

ライセンス: Link先を確認
Yuanhao Zhai, Le Wang, Wei Tang, Qilin Zhang, Junsong Yuan, Gang Hua(参考訳) W-TAL (Weakly-supervised Temporal Action Localization) は、ビデオレベルの監視のみの下で、すべてのアクションインスタンスを未トリミングビデオに分類し、ローカライズすることを目的としている。 しかし、フレームレベルのアノテーションがなければ、w-talメソッドが偽のポジティブなアクション提案を識別し、正確な時間的境界を持つアクション提案を生成することは困難である。 本稿では,これらの課題を同時に解決する2ストリームコンセンサスネットワーク(tscn)を提案する。 提案手法は, フレームレベルの疑似基底真理を反復的に更新し, モデルトレーニングの改善と偽陽性行動提案の除去のためのフレームレベルの監督を行う反復的改善訓練法である。 さらに,予測された注意を二分選択として行動させる新たな注意正規化損失を提案し,行動インスタンス境界の正確な局在化を促進する。 THUMOS14とActivityNetデータセットで実施された実験によると、提案されたTSCNは現在の最先端の手法よりも優れており、最近の完全に教師された手法で同等の結果が得られる。

Weakly-supervised Temporal Action Localization (W-TAL) aims to classify and localize all action instances in an untrimmed video under only video-level supervision. However, without frame-level annotations, it is challenging for W-TAL methods to identify false positive action proposals and generate action proposals with precise temporal boundaries. In this paper, we present a Two-Stream Consensus Network (TSCN) to simultaneously address these challenges. The proposed TSCN features an iterative refinement training method, where a frame-level pseudo ground truth is iteratively updated, and used to provide frame-level supervision for improved model training and false positive action proposal elimination. Furthermore, we propose a new attention normalization loss to encourage the predicted attention to act like a binary selection, and promote the precise localization of action instance boundaries. Experiments conducted on the THUMOS14 and ActivityNet datasets show that the proposed TSCN outperforms current state-of-the-art methods, and even achieves comparable results with some recent fully-supervised methods.
翻訳日:2022-10-04 06:59:02 公開日:2020-10-22
# 累積時間差による画像シーケンスのソート学習

Learning to Sort Image Sequences via Accumulated Temporal Differences ( http://arxiv.org/abs/2010.11649v1 )

ライセンス: Link先を確認
Gagan Kanojia and Shanmuganathan Raman(参考訳) 静的またはハンドヘルドカメラでキャプチャされた動的オブジェクトを持つシーンのn個のイメージを考えてみよう。 これらの画像が撮影される時間順は未知である。 n! それらの画像がキャプチャされた可能性がある時間順序の可能性がある。 本研究では,ハンドヘルドカメラで撮影した動的シーンの非順序画像群を時間的にシークエンシングする問題に対処する。 本稿では,2次元畳み込みカーネルを通じて空間情報をキャプチャし,入力画像から抽出した特徴マップ間の差を利用して時間情報をキャプチャする畳み込みブロックを提案する。 標準行動認識データセットUCF101から抽出したデータセットに対する提案手法の性能評価を行った。 提案手法は最先端の手法よりも有意なマージンで優れていることを示す。 動作認識用データセットであるUCF101から抽出したデータセットを用いて,映像オブジェクトのセグメンテーション用データセットであるDAVISデータセットから抽出したデータセットを用いて,ネットワークを適切に評価することにより,ネットワークの一般化を図っている。

Consider a set of n images of a scene with dynamic objects captured with a static or a handheld camera. Let the temporal order in which these images are captured be unknown. There can be n! possibilities for the temporal order in which these images could have been captured. In this work, we tackle the problem of temporally sequencing the unordered set of images of a dynamic scene captured with a hand-held camera. We propose a convolutional block which captures the spatial information through 2D convolution kernel and captures the temporal information by utilizing the differences present among the feature maps extracted from the input images. We evaluate the performance of the proposed approach on the dataset extracted from a standard action recognition dataset, UCF101. We show that the proposed approach outperforms the state-of-the-art methods by a significant margin. We show that the network generalizes well by evaluating it on a dataset extracted from the DAVIS dataset, a dataset meant for video object segmentation, when the same network was trained with a dataset extracted from UCF101, a dataset meant for action recognition.
翻訳日:2022-10-04 06:58:42 公開日:2020-10-22
# 高速RCNNによる道路損傷モニタリングの競争と展開

FasterRCNN Monitoring of Road Damages: Competition and Deployment ( http://arxiv.org/abs/2010.11780v1 )

ライセンス: Link先を確認
Hascoet Tristan, Yihao Zhang, Persch Andreas, Ryoichi Takashima, Tetsuya Takiguchi, Yasuo Ariki(参考訳) 高齢化のインフラを維持することは、現在世界中の地方や国家の管理者が直面している課題である。 効率的なインフラ維持のための重要な前提条件は、非常に大きな構造物の状態を継続的に監視すること(すなわち安全性と信頼性のレベルを定量化する)である。 一方、コンピュータビジョンは近年顕著な進歩を遂げており、主にディープラーニングモデルの応用が成功している。 これらの新たな進歩により、これまで自動化できなかったビジョンタスクの自動化が可能になり、管理者がインフラストラクチャのメンテナンス操作を最適化するのを支援できるようになる。 この文脈において、IEEE 2020グローバルロード障害検出(RDD)チャレンジは、ディープラーニングとコンピュータビジョン研究者が関与し、道路ネットワークの舗装損傷を正確に追跡する機会を提供する。 本稿では,そのトピックに対する2つの貢献を提案する。 第2部では,提案手法を説明し,課題に遭遇した地域道路網へのモデル導入に向けた取り組みについて紹介する。

Maintaining aging infrastructure is a challenge currently faced by local and national administrators all around the world. An important prerequisite for efficient infrastructure maintenance is to continuously monitor (i.e., quantify the level of safety and reliability) the state of very large structures. Meanwhile, computer vision has made impressive strides in recent years, mainly due to successful applications of deep learning models. These novel progresses are allowing the automation of vision tasks, which were previously impossible to automate, offering promising possibilities to assist administrators in optimizing their infrastructure maintenance operations. In this context, the IEEE 2020 global Road Damage Detection (RDD) Challenge is giving an opportunity for deep learning and computer vision researchers to get involved and help accurately track pavement damages on road networks. This paper proposes two contributions to that topic: In a first part, we detail our solution to the RDD Challenge. In a second part, we present our efforts in deploying our model on a local road network, explaining the proposed methodology and encountered challenges.
翻訳日:2022-10-04 06:58:11 公開日:2020-10-22
# 空のキャッスル:ビデオのダイナミックなスカイリプレースとハーモニゼーション

Castle in the Sky: Dynamic Sky Replacement and Harmonization in Videos ( http://arxiv.org/abs/2010.11800v1 )

ライセンス: Link先を確認
Zhengxia Zou(参考訳) 本稿では,制御可能なスタイルで映像に写実的で劇的な背景を自動的に生成できる映像スカイ置換と調和のためのビジョンベース手法を提案する。 静止画に焦点をあてたり、スマートフォンに内蔵された慣性測定装置を必要とする従来のスカイ編集方法とは異なり、本手法は純粋に視覚ベースであり、キャプチャー装置に不要であり、オンラインまたはオフラインの処理シナリオによく適用できる。 本手法はリアルタイムに動作し,ユーザインタラクションを含まない。 我々は,この芸術的創造過程を,スカイマット,モーション推定,画像ブレンディングなどの2つのプロキシタスクに分解する。 スマートフォンやダッシュカメラで多彩に撮影されたビデオで実験を行い、視覚品質と照明・運動ダイナミクスの両方において高い忠実性と優れた一般化を示す。 私たちのコードとアニメーションの結果は、 \url{https://jiupinjia.github.io/skyar/}で入手できる。

This paper proposes a vision-based method for video sky replacement and harmonization, which can automatically generate realistic and dramatic sky backgrounds in videos with controllable styles. Different from previous sky editing methods that either focus on static photos or require inertial measurement units integrated in smartphones on shooting videos, our method is purely vision-based, without any requirements on the capturing devices, and can be well applied to either online or offline processing scenarios. Our method runs in real-time and is free of user interactions. We decompose this artistic creation process into a couple of proxy tasks including sky matting, motion estimation, and image blending. Experiments are conducted on videos diversely captured in the wild by handheld smartphones and dash cameras, and show high fidelity and good generalization of our method in both visual quality and lighting/motion dynamics. Our code and animated results are available at \url{https://jiupinjia.github.io/skyar/}.
翻訳日:2022-10-04 06:57:53 公開日:2020-10-22
# 言語識別のニューラルモデルから現れる表現におけるスラヴ連続体の再発見

Rediscovering the Slavic Continuum in Representations Emerging from Neural Models of Spoken Language Identification ( http://arxiv.org/abs/2010.11973v1 )

ライセンス: Link先を確認
Badr M. Abdullah, Jacek Kudera, Tania Avgustinova, Bernd M\"obius, Dietrich Klakow(参考訳) ディープニューラルネットワークは、音声言語識別などの定義によって多言語的なタスクを含む、さまざまな音声言語認識タスクに使用されている。 本稿では、音声信号におけるスラヴ語識別のためのニューラルモデルを提案し、その創発的表現を分析し、言語関連性の客観的尺度や言語類似性に対する非言語主義者の認識を反映しているかを検討する。 分析の結果,言語表現空間は言語関連性をかなり捉えていることが明らかとなったが,言語表現の類似性の予測には,言語間の知覚的コンフュージョンが最適であることがわかった。

Deep neural networks have been employed for various spoken language recognition tasks, including tasks that are multilingual by definition such as spoken language identification. In this paper, we present a neural model for Slavic language identification in speech signals and analyze its emergent representations to investigate whether they reflect objective measures of language relatedness and/or non-linguists' perception of language similarity. While our analysis shows that the language representation space indeed captures language relatedness to a great extent, we find perceptual confusability between languages in our study to be the best predictor of the language representation similarity.
翻訳日:2022-10-04 06:51:17 公開日:2020-10-22
# QA Lab-PoliInfo-2 Task of NTCIR-15 における政治文BERT法による議事録からの発話の要約

Summarizing Utterances from Japanese Assembly Minutes using Political Sentence-BERT-based Method for QA Lab-PoliInfo-2 Task of NTCIR-15 ( http://arxiv.org/abs/2010.12077v1 )

ライセンス: Link先を確認
Daiki Shirafuji, Hiromichi Kameya, Rafal Rzepka and Kenji Araki(参考訳) 政治会議では多くの議論が行われており、その内容には様々な話題の発声が多数含まれている。 話者の意図や特定のトピックに関する意見に従うためには、それらすべてを読む必要があります。 このようなコストと時間のかかるプロセスを避けるために、NLP研究者は、発話の簡潔な要約を生成することに取り組んでいる。 NTCIR-15のQA Lab-PoliInfo-2タスクにおける要約サブタスクは、組立時間帯における日本語発話の問題に対処し、我々のチーム(SKRA)がこのサブタスクに参加した。 発話要約のための第一歩として,新しい事前学習文埋め込みモデル,すなわち日本の政治文バートを作成した。 このモデルでは,ラベル付きデータのない発話を要約する。 本稿では,課題解決への我々のアプローチについて述べ,その結果について述べる。

There are many discussions held during political meetings, and a large number of utterances for various topics is included in their transcripts. We need to read all of them if we want to follow speakers\' intentions or opinions about a given topic. To avoid such a costly and time-consuming process to grasp often longish discussions, NLP researchers work on generating concise summaries of utterances. Summarization subtask in QA Lab-PoliInfo-2 task of the NTCIR-15 addresses this problem for Japanese utterances in assembly minutes, and our team (SKRA) participated in this subtask. As a first step for summarizing utterances, we created a new pre-trained sentence embedding model, i.e. the Japanese Political Sentence-BERT. With this model, we summarize utterances without labelled data. This paper describes our approach to solving the task and discusses its results.
翻訳日:2022-10-04 06:50:49 公開日:2020-10-22
# プレスクリーニングによる腎移植の改善

Improving Policy-Constrained Kidney Exchange via Pre-Screening ( http://arxiv.org/abs/2010.12069v1 )

ライセンス: Link先を確認
Duncan C McElfresh, Michael Curry, Tuomas Sandholm, John P Dickerson(参考訳) バーター交換では、参加者は金銭を交換することなく商品を交換し、交換はしばしば中央の清算所によって促進され、スワップの総品質(または数)を最大化することを目的としている。 バーター交換は、様々な不確実性 - 受講者の嗜好、様々なスワップの実現可能性と品質など - の様々な形態に該当する。 私たちの仕事は、腎臓移植が必要な患者が、より良いマッチングを見つけるために、生きたドナーを交換する現実のバーターマーケットである、腎臓交換によって動機付けられています。 現代の交換には2-および3-ウェイスワップが含まれており、腎臓交換クリアリング問題NP-hardとなっている。 計画された移植は、ドナーの臓器が受取人の医療チームによって拒否されたり、ドナーと受取人が医療的に非互換であることが判明した場合など、様々な理由で失敗する。 1つの米国拠点の取引所は、2019年に計画された移植の約85%が失敗したと推定している。 多くの最適化ベースのアプローチはこれらの失敗を避けるために設計されているが、ほとんどの交換所は法的な制約と政策上の制約のためにこれらの方法を実装することができない。 代わりに、交換者が特定のドナーと受け手の好みを問い合わせることができるような設定を考えます。 我々はこれを2段階決定問題として特徴付け、交換プログラムを行う。 (a)マッチングにコミットする前に、少数の移植をクエリし、 b) 一定のポリシーに従ってマッチングを構築する。 これらのエッジの選択はNPハードに加えて非単調で非モジュラーな組合せ問題であることを示す。 臓器共有のための統一ネットワークからの合成データと実際の腎臓交換データの両方について実験を行い,従来の手法に匹敵する,欲深いヒューリスティックとモンテカルロ木探索の両方を提案する。

In barter exchanges, participants swap goods with one another without exchanging money; exchanges are often facilitated by a central clearinghouse, with the goal of maximizing the aggregate quality (or number) of swaps. Barter exchanges are subject to many forms of uncertainty--in participant preferences, the feasibility and quality of various swaps, and so on. Our work is motivated by kidney exchange, a real-world barter market in which patients in need of a kidney transplant swap their willing living donors, in order to find a better match. Modern exchanges include 2- and 3-way swaps, making the kidney exchange clearing problem NP-hard. Planned transplants often fail for a variety of reasons--if the donor organ is refused by the recipient's medical team, or if the donor and recipient are found to be medically incompatible. Due to 2- and 3-way swaps, failed transplants can "cascade" through an exchange; one US-based exchange estimated that about 85% of planned transplants failed in 2019. Many optimization-based approaches have been designed to avoid these failures; however most exchanges cannot implement these methods due to legal and policy constraints. Instead we consider a setting where exchanges can query the preferences of certain donors and recipients--asking whether they would accept a particular transplant. We characterize this as a two-stage decision problem, in which the exchange program (a) queries a small number of transplants before committing to a matching, and (b) constructs a matching according to fixed policy. We show that selecting these edges is a challenging combinatorial problem, which is non-monotonic and non-submodular, in addition to being NP-hard. We propose both a greedy heuristic and a Monte Carlo tree search, which outperforms previous approaches, using experiments on both synthetic data and real kidney exchange data from the United Network for Organ Sharing.
翻訳日:2022-10-04 06:50:33 公開日:2020-10-22
# 協調lidar物体検出のための帯域適応型特徴共有

Bandwidth-Adaptive Feature Sharing for Cooperative LIDAR Object Detection ( http://arxiv.org/abs/2010.11353v1 )

ライセンス: Link先を確認
Ehsan Emad Marvasti, Arash Raftari, Amir Emad Marvasti, Yaser P. Fallah(参考訳) 近年,コネクテッド・アンド・自律走行車(CAV)領域の必要性としての状況認識は,多くの研究の対象となっている。 運転者の安全性は、そのようなシステムの堅牢性、信頼性、スケーラビリティに直接依存する。 協調機構は、高速無線車両ネットワークを利用して状況認識を改善するソリューションを提供する。 これらのメカニズムは、咬合やセンサー範囲制限などの問題を緩和する。 しかし、ネットワーク容量は、協力団体間で共有される情報の最大量を決定する要因である。 本稿で提案した機能共有の概念は,計算処理と通信負荷のバランスを保ちながら,これらの課題に対処することを目的としている。 本研究では,通信チャネル容量への適応に柔軟性を付加する機構と,協調オブジェクト検出性能をさらに向上するための分散共有データアライメント手法を提案する。 提案フレームワークの性能はvolonyデータセットの実験によって検証される。 その結果,提案手法は,従来の協調物体検出法(FS-COD)よりも平均精度が高いことを確認した。

Situational awareness as a necessity in the connected and autonomous vehicles (CAV) domain is the subject of a significant number of researches in recent years. The driver's safety is directly dependent on the robustness, reliability, and scalability of such systems. Cooperative mechanisms have provided a solution to improve situational awareness by utilizing high speed wireless vehicular networks. These mechanisms mitigate problems such as occlusion and sensor range limitation. However, the network capacity is a factor determining the maximum amount of information being shared among cooperative entities. The notion of feature sharing, proposed in our previous work, aims to address these challenges by maintaining a balance between computation and communication load. In this work, we propose a mechanism to add flexibility in adapting to communication channel capacity and a novel decentralized shared data alignment method to further improve cooperative object detection performance. The performance of the proposed framework is verified through experiments on Volony dataset. The results confirm that our proposed framework outperforms our previous cooperative object detection method (FS-COD) in terms of average precision.
翻訳日:2022-10-04 06:50:02 公開日:2020-10-22
# 一般化ゼロショット学習のためのグラフに基づく事前学習

Learning Graph-Based Priors for Generalized Zero-Shot Learning ( http://arxiv.org/abs/2010.11369v1 )

ライセンス: Link先を確認
Colin Samplawski, Jannik Wolff, Tassilo Klein, Moin Nabi(参考訳) ゼロショット学習(ZSL)の課題は、トレーニング時に見つからなかったクラスからサンプルのラベルを正確に予測することである。 これはラベル属性や単語埋め込みといったクラスラベルのサイド情報を活用することで実現されている。 近年、テストセットは目に見えないサンプルから構成される一般化ZSL(GZSL)のより現実的なタスクに注目が移っている。 GZSLへの最近のアプローチは、未知のクラスからサンプルを生成するために使用される生成モデルの価値を示している。 本研究では,ラベル上の関係グラフという形で,追加のサイド情報ソースを組み込む。 我々は,このグラフを利用して先行分布の集合を学習し,グラフ構造を尊重する埋め込みを学習するために,整列型変分オートエンコーダ(VAE)モデルを奨励する。 このアプローチを使うことで、強力なベースラインでCUBとSUNベンチマークのパフォーマンスを向上させることができます。

The task of zero-shot learning (ZSL) requires correctly predicting the label of samples from classes which were unseen at training time. This is achieved by leveraging side information about class labels, such as label attributes or word embeddings. Recently, attention has shifted to the more realistic task of generalized ZSL (GZSL) where test sets consist of seen and unseen samples. Recent approaches to GZSL have shown the value of generative models, which are used to generate samples from unseen classes. In this work, we incorporate an additional source of side information in the form of a relation graph over labels. We leverage this graph in order to learn a set of prior distributions, which encourage an aligned variational autoencoder (VAE) model to learn embeddings which respect the graph structure. Using this approach we are able to achieve improved performance on the CUB and SUN benchmarks over a strong baseline.
翻訳日:2022-10-04 06:49:48 公開日:2020-10-22
# 表面物体検出のための微調整済みマスクR-CNNモデル

Fine-tuned Pre-trained Mask R-CNN Models for Surface Object Detection ( http://arxiv.org/abs/2010.11464v1 )

ライセンス: Link先を確認
Haruhiro Fujita, Masatoshi Itagaki, Kenta Ichikawa, Yew Kwang Hooi, Kazutaka Kawano and Ryo Yamamoto(参考訳) 本研究では,4つのMask R-CNNモデルを用いて,石造遺跡の表面劣化検出のための路面物体検出タスクを評価する。 モデルはCOCOデータセットと15,188のセグメント化された道路表面アノテーションタグによって事前訓練および微調整が行われた。 モデルの品質は平均精度と平均リコールを用いて測定した。 結果は偽陰性のかなりの数、すなわち左検出と非分類検出を示している。 IoUの優先順位付けを避けるために改良された混乱行列モデルがテストされ、境界ボックス検出において顕著な正の増大があるが、セグメンテーションマスクはほとんど変化しない。

This study evaluates road surface object detection tasks using four Mask R-CNN models as a pre-study of surface deterioration detection of stone-made archaeological objects. The models were pre-trained and fine-tuned by COCO datasets and 15,188 segmented road surface annotation tags. The quality of the models were measured using Average Precisions and Average Recalls. Result indicates substantial number of counts of false negatives, i.e. left detection and unclassified detections. A modified confusion matrix model to avoid prioritizing IoU is tested and there are notable true positive increases in bounding box detection, but almost no changes in segmentation masks.
翻訳日:2022-10-04 06:49:33 公開日:2020-10-22
# 2段階ネットワークによる6-DoFカメラポッドのみからの新規ビュー合成

Novel View Synthesis from only a 6-DoF Camera Pose by Two-stage Networks ( http://arxiv.org/abs/2010.11468v1 )

ライセンス: Link先を確認
Xiang Guo, Bo Li, Yuchao Dai, Tongxin Zhang, Hui Deng(参考訳) 新しいビュー合成はコンピュータビジョンとロボティクスにおいて難しい問題である。 そこで本研究では,映像生成のための参照画像や3dモデルを必要とする既存の作品とは異なり,この問題に対する新しいパラダイムを提案する。 すなわち、6-DoFカメラのみのポーズから、新しいビューを直接合成する。 この設定は最も簡単な方法ですが、対処する作業はほとんどありません。 実験では、簡潔なcnnを使えば、6dofのポーズだけで正確な風景画像を再現できる有意義なパラメトリックモデルが得られることを実証しました。 そこで我々は,GenNetとRefineNetの2つの連続したCNNからなる2段階学習戦略を提案する。 GenNetはカメラのポーズから粗い画像を生成する。 RefineNetは、粗い画像を洗練する生成的敵ネットワークである。 このように、マッピングとテクスチャディテールレンダリングの間の幾何学的関係を分離する。 公開データセットを用いた大規模な実験により,本手法の有効性が証明された。 我々は、このパラダイムは高い研究と応用価値を持ち、新しい視点合成の重要な方向性であると考えている。

Novel view synthesis is a challenging problem in computer vision and robotics. Different from the existing works, which need the reference images or 3D models of the scene to generate images under novel views, we propose a novel paradigm to this problem. That is, we synthesize the novel view from only a 6-DoF camera pose directly. Although this setting is the most straightforward way, there are few works addressing it. While, our experiments demonstrate that, with a concise CNN, we could get a meaningful parametric model that could reconstruct the correct scenery images only from the 6-DoF pose. To this end, we propose a two-stage learning strategy, which consists of two consecutive CNNs: GenNet and RefineNet. GenNet generates a coarse image from a camera pose. RefineNet is a generative adversarial network that refines the coarse image. In this way, we decouple the geometric relationship between mapping and texture detail rendering. Extensive experiments conducted on the public datasets prove the effectiveness of our method. We believe this paradigm is of high research and application value and could be an important direction in novel view synthesis.
翻訳日:2022-10-04 06:49:22 公開日:2020-10-22
# 医用画像のための高分解能弱教師付きローカライゼーションアーキテクチャ

High resolution weakly supervised localization architectures for medical images ( http://arxiv.org/abs/2010.11475v1 )

ライセンス: Link先を確認
Konpat Preechakul, Sira Sriswasdi, Boonserm Kijsirikul, Ekapol Chuangsuwanich(参考訳) 医学イメージングにおいて、クラスアクティベーションマップ(cam)は、興味のある領域を指し示すことによって、主要な説明可能性ツールとなる。 CAMの局所化精度はモデルの特徴写像の解像度に制約されているため、一般に大きな特徴写像を持つセグメンテーションモデルはより正確なCAMを生成すると期待できる。 しかし、これはタスクミスマッチによるものではないことが分かりました。 セグメンテーションモデルはピクセルレベルのアノテーションを持つデータセット向けに開発されたが、ほとんどの医療画像データセットでは画像レベルのアノテーションのみが利用できる。 実験の結果,グローバル平均プール (GAP) とグループ正規化 (Group Normalization) がCAMの局所化精度を低下させる主要な原因であることが示唆された。 この問題を解決するために,NIH の Chest X-Ray 14 データセットの平均点定位精度を 0.62 とし,従来の CAM モデルでは 0.45 であるのに対し,Pyamid Localization Network (PYLON) を提案する。 ソースコードと拡張された結果はhttps://github.com/cmb-chula/pylon.comで入手できる。

In medical imaging, Class-Activation Map (CAM) serves as the main explainability tool by pointing to the region of interest. Since the localization accuracy from CAM is constrained by the resolution of the model's feature map, one may expect that segmentation models, which generally have large feature maps, would produce more accurate CAMs. However, we have found that this is not the case due to task mismatch. While segmentation models are developed for datasets with pixel-level annotation, only image-level annotation is available in most medical imaging datasets. Our experiments suggest that Global Average Pooling (GAP) and Group Normalization are the main culprits that worsen the localization accuracy of CAM. To address this issue, we propose Pyramid Localization Network (PYLON), a model for high-accuracy weakly-supervised localization that achieved 0.62 average point localization accuracy on NIH's Chest X-Ray 14 dataset, compared to 0.45 for a traditional CAM model. Source code and extended results are available at https://github.com/cmb-chula/pylon.
翻訳日:2022-10-04 06:48:45 公開日:2020-10-22
# 名前付きエンティティ認識のための簡易データ拡張の解析

An Analysis of Simple Data Augmentation for Named Entity Recognition ( http://arxiv.org/abs/2010.11683v1 )

ライセンス: Link先を確認
Xiang Dai and Heike Adel(参考訳) 文レベルの自然言語処理タスクには,単純かつ効果的なデータ拡張手法が提案されている。 これらの取り組みに触発されて、通常トークンレベルのシーケンスラベリング問題としてモデル化される名前付きエンティティ認識のためのデータ拡張を設計し比較する。 バイオメディカル・マテリアル・サイエンス領域(i2b2-2010とMaSciP)の2つのデータセットの実験を通して、単純な拡張により、特に小さなトレーニングセットにおいて、リカレントモデルとトランスフォーマーモデルの両方のパフォーマンスが向上することを示した。

Simple yet effective data augmentation techniques have been proposed for sentence-level and sentence-pair natural language processing tasks. Inspired by these efforts, we design and compare data augmentation for named entity recognition, which is usually modeled as a token-level sequence labeling problem. Through experiments on two data sets from the biomedical and materials science domains (i2b2-2010 and MaSciP), we show that simple augmentation can boost performance for both recurrent and transformer-based models, especially for small training sets.
翻訳日:2022-10-04 06:42:24 公開日:2020-10-22
# WMT20における教師なし・極低リソース翻訳タスクのためのCUNIシステム

CUNI Systems for the Unsupervised and Very Low Resource Translation Task in WMT20 ( http://arxiv.org/abs/2010.11747v1 )

ライセンス: Link先を確認
Ivana Kvapil\'ikov\'a, Tom Kocmi, Ond\v{r}ej Bojar(参考訳) 本稿では、ドイツと上ソルビアン間の非教師なしおよび非常に低リソースの機械翻訳に関するwmt20タスクに提出されたcuniシステムについて述べる。 我々は、合成データと関連する言語対の事前学習のトレーニングを実験した。 完全に教師されていないシナリオでは、それぞれ上ソルビアンから25.5 BLEUと23.7 BLEUを翻訳した。 我々の低リソースシステムは、ドイツ・チェコの並列データからの移動学習に依存し、57.4 BLEUと56.1 BLEUを達成した。

This paper presents a description of CUNI systems submitted to the WMT20 task on unsupervised and very low-resource supervised machine translation between German and Upper Sorbian. We experimented with training on synthetic data and pre-training on a related language pair. In the fully unsupervised scenario, we achieved 25.5 and 23.7 BLEU translating from and into Upper Sorbian, respectively. Our low-resource systems relied on transfer learning from German-Czech parallel data and achieved 57.4 BLEU and 56.1 BLEU, which is an improvement of 10 BLEU points over the baseline trained only on the available small German-Upper Sorbian parallel corpus.
翻訳日:2022-10-04 06:42:12 公開日:2020-10-22
# EIGEN:事前学習言語モデルを用いた事象影響ジェネレーション

EIGEN: Event Influence GENeration using Pre-trained Language Models ( http://arxiv.org/abs/2010.11764v1 )

ライセンス: Link先を確認
Aman Madaan, Dheeraj Rajagopal, Yiming Yang, Abhilasha Ravichander, Eduard Hovy, Shrimai Prabhumoye(参考訳) イベントの推論と影響の追跡は、プロセスを理解するのに不可欠である。 本稿では,事前学習した言語モデルを用いて,文脈,その影響の性質,および推論連鎖内の距離を条件とした事象の影響を発生させる手法を提案する。 また,イベントインフルエンス生成手法の研究と評価のための新しいデータセットも作成する。 EIGENは、自動評価指標(10ROUGEポイント)と、世代間の参照と関連性に関する人間の判断の両方において、強力なベースラインを上回ります。 さらに, 背景知識やマルチホップ推論を必要とする質問に対して, WIQA(What-if Question Answering)ベンチマーク(3%以上)において, EIGENが生成した事象の影響が改善していることを示す。

Reasoning about events and tracking their influences is fundamental to understanding processes. In this paper, we present EIGEN - a method to leverage pre-trained language models to generate event influences conditioned on a context, nature of their influence, and the distance in a reasoning chain. We also derive a new dataset for research and evaluation of methods for event influence generation. EIGEN outperforms strong baselines both in terms of automated evaluation metrics (by 10 ROUGE points) and human judgments on closeness to reference and relevance of generations. Furthermore, we show that the event influences generated by EIGEN improve the performance on a "what-if" Question Answering (WIQA) benchmark (over 3% F1), especially for questions that require background knowledge and multi-hop reasoning.
翻訳日:2022-10-04 06:41:58 公開日:2020-10-22
# STAR: トランスファー学習のためのスキーマガイド付きダイアログデータセット

STAR: A Schema-Guided Dialog Dataset for Transfer Learning ( http://arxiv.org/abs/2010.11853v1 )

ライセンス: Link先を確認
Johannes E. M. Mosig, Shikib Mehri, Thomas Kober(参考訳) 我々は、13ドメインの5,820のタスク指向ダイアログにまたがる127,833の発話と知識ベースクエリからなる、スキーマ誘導タスク指向ダイアログデータセットであるstarを提案する。 さらに,STARと同じ品質の大規模データセットを任意に収集する,スケーラブルなクラウドソーシングパラダイムを提案する。 さらに,既知のタスクから未知タスクへ一般化するために,タスクの明示的な記述を用いたスキーマ誘導ダイアログモデルも導入する。 特にタスクとドメイン間のゼロショット一般化において,これらのモデルの有効性を示す。

We present STAR, a schema-guided task-oriented dialog dataset consisting of 127,833 utterances and knowledge base queries across 5,820 task-oriented dialogs in 13 domains that is especially designed to facilitate task and domain transfer learning in task-oriented dialog. Furthermore, we propose a scalable crowd-sourcing paradigm to collect arbitrarily large datasets of the same quality as STAR. Moreover, we introduce novel schema-guided dialog models that use an explicit description of the task(s) to generalize from known to unknown tasks. We demonstrate the effectiveness of these models, particularly for zero-shot generalization across tasks and domains.
翻訳日:2022-10-04 06:41:02 公開日:2020-10-22
# 対話行為認識のためのニューラルネットワークにおけるWord2vec表現の効果について

On the Effects of Using word2vec Representations in Neural Networks for Dialogue Act Recognition ( http://arxiv.org/abs/2010.11490v1 )

ライセンス: Link先を確認
Christophe Cerisara (SYNALP), Pavel Kral, Ladislav Lenc(参考訳) 対話行動認識は、多くの自然言語処理パイプラインの重要な構成要素である。 多くの研究がこの地域で行われているが、ディープニューラルネットワークや単語埋め込みの研究は比較的少ない。 どちらの手法も他のほとんどの言語関連ドメインでは例外的に優れていることが証明されているため、これは驚くべきことである。 本稿では,文中の単語列をキャプチャする再帰モデルを検討する新しい深層ニューラルネットワークを提案し,事前学習された単語埋め込みの影響について検討する。 このモデルを英語、フランス語、チェコ語という3つの言語で検証する。 提案手法の性能はこれらの言語間で一貫しており、英語の最先端の結果と同等である。 さらに重要なことは、深層ニューラルネットワークが期待されていた最大エントロピー分類器よりも優れていることを確認する。 しかし,これよりも驚くべきことに,標準の2vecエムベッドでは,トレーニングコーパスのサイズに関わらず,このタスクや提案モデルに貴重な情報が得られていないことが判明した。 そこで,本研究では,単語2vec埋め込みによって取得された語彙・意味情報のタイプと,対話行為認識タスクに最も有用な単語間の関係のタイプとのミスマッチに,可能な説明が関連していると結論づける。

Dialogue act recognition is an important component of a large number of natural language processing pipelines. Many research works have been carried out in this area, but relatively few investigate deep neural networks and word embeddings. This is surprising, given that both of these techniques have proven exceptionally good in most other language-related domains. We propose in this work a new deep neural network that explores recurrent models to capture word sequences within sentences, and further study the impact of pretrained word embeddings. We validate this model on three languages: English, French and Czech. The performance of the proposed approach is consistent across these languages and it is comparable to the state-of-the-art results in English. More importantly, we confirm that deep neural networks indeed outperform a Maximum Entropy classifier, which was expected. However , and this is more surprising, we also found that standard word2vec em-beddings do not seem to bring valuable information for this task and the proposed model, whatever the size of the training corpus is. We thus further analyse the resulting embeddings and conclude that a possible explanation may be related to the mismatch between the type of lexical-semantic information captured by the word2vec embeddings, and the kind of relations between words that is the most useful for the dialogue act recognition task.
翻訳日:2022-10-04 06:33:17 公開日:2020-10-22
# 対話生成のためのクロスコピーネットワーク

Cross Copy Network for Dialogue Generation ( http://arxiv.org/abs/2010.11539v1 )

ライセンス: Link先を確認
Changzhen Ji, Xin Zhou, Yating Zhang, Xiaozhong Liu, Changlong Sun, Conghui Zhu and Tiejun Zhao(参考訳) 過去数年間、異なる分野の聴衆が対話コンテンツの生成を促進するためにシーケンス-シーケンスモデル(lstm+attention、pointer generator networks、transformerなど)の達成を目撃している。 コンテンツの流動性と正確性はモデルトレーニングの主要な指標となることが多いが、特定の領域に重要な情報を運ぶ対話論理はしばしば無視される。 顧客サービスと法廷討論の対話を例にとり、異なる対話インスタンス間で互換性のある論理を観察でき、この情報は発話生成の重要な証拠となる。 本稿では,現在の対話コンテキストと類似した対話インスタンスの論理構造を同時に探索する,新しいネットワークアーキテクチャクロスコピーネットワーク(ccn)を提案する。 法廷ディベートとカスタマサービスコンテンツ生成という2つのタスクを用いた実験により、提案アルゴリズムが既存の最先端コンテンツ生成モデルよりも優れていることを証明した。

In the past few years, audiences from different fields witness the achievements of sequence-to-sequence models (e.g., LSTM+attention, Pointer Generator Networks, and Transformer) to enhance dialogue content generation. While content fluency and accuracy often serve as the major indicators for model training, dialogue logics, carrying critical information for some particular domains, are often ignored. Take customer service and court debate dialogue as examples, compatible logics can be observed across different dialogue instances, and this information can provide vital evidence for utterance generation. In this paper, we propose a novel network architecture - Cross Copy Networks(CCN) to explore the current dialog context and similar dialogue instances' logical structure simultaneously. Experiments with two tasks, court debate and customer service content generation, proved that the proposed algorithm is superior to existing state-of-art content generation models.
翻訳日:2022-10-04 06:32:56 公開日:2020-10-22
# ウクライナ語テキストにおける名詞句検出法

Method of noun phrase detection in Ukrainian texts ( http://arxiv.org/abs/2010.11548v1 )

ライセンス: Link先を確認
S.D. Pogorilyy, A.A. Kramov(参考訳) はじめに。 自然言語処理の領域では、従来のアルゴリズムアクションでは解決できないAI完全タスクが検討されている。 このようなタスクは、機械学習の方法論とコンピュータ言語学の手段を用いて一般的に実装される。 テキストの前処理タスクの1つは名詞句の検索である。 このタスクの精度は、自然言語処理領域における他の多くのタスクの有効性に影響を及ぼす。 自然言語処理の分野での研究が活発に進展しているにもかかわらず、ウクライナ語テキスト内の名詞句の探索はいまだ初期段階にある。 結果だ 名詞句検出の異なる方法が解析されている。 木構造としての文表現の迅速性は正当化されている。 名詞句検出の多くの方法の主な欠点は、特定の言語の特徴からその検出の有効性を著しく依存させることである。 ウクライナ語テキストの文木構築のために,統一された文処理形式と訓練されたモデルの利用可能性を考慮して,ユニバーサル依存モデルが選択された。 普遍依存手段と名前付きエンティティ認識モデルを用いたウクライナ語テキストにおける名詞句検出の複雑な手法が提案されている。 提案手法がウクライナニュースのコーパスに及ぼす影響を実験的に検証した。 メソッド精度の異なる指標が算出されている。 結論だ その結果,提案手法がウクライナ語テキスト中の名詞句の検索に有効であることを示すことができた。 被写体領域に応じた適切な名前付き認識モデルを用いることで、精度の向上を図ることができる。

Introduction. The area of natural language processing considers AI-complete tasks that cannot be solved using traditional algorithmic actions. Such tasks are commonly implemented with the usage of machine learning methodology and means of computer linguistics. One of the preprocessing tasks of a text is the search of noun phrases. The accuracy of this task has implications for the effectiveness of many other tasks in the area of natural language processing. In spite of the active development of research in the area of natural language processing, the investigation of the search for noun phrases within Ukrainian texts are still at an early stage. Results. The different methods of noun phrases detection have been analyzed. The expediency of the representation of sentences as a tree structure has been justified. The key disadvantage of many methods of noun phrase detection is the severe dependence of the effectiveness of their detection from the features of a certain language. Taking into account the unified format of sentence processing and the availability of the trained model for the building of sentence trees for Ukrainian texts, the Universal Dependency model has been chosen. The complex method of noun phrases detection in Ukrainian texts utilizing Universal Dependencies means and named-entity recognition model has been suggested. Experimental verification of the effectiveness of the suggested method on the corpus of Ukrainian news has been performed. Different metrics of method accuracy have been calculated. Conclusions. The results obtained can indicate that the suggested method can be used to find noun phrases in Ukrainian texts. An accuracy increase of the method can be made with the usage of appropriate named-entity recognition models according to a subject area.
翻訳日:2022-10-04 06:32:40 公開日:2020-10-22
# 生成言語モデルにおけるスタイリスティックな語彙選好

Incorporating Stylistic Lexical Preferences in Generative Language Models ( http://arxiv.org/abs/2010.11553v1 )

ライセンス: Link先を確認
Hrituraj Singh, Gaurav Verma, Balaji Vasan Srinivasan(参考訳) 言語モデリングの最近の進歩は強力な生成モデルを生み出しているが、その生成スタイルはトレーニングデータに暗黙的に依存し、特定のターゲットスタイルをエミュレートすることはできない。 本稿では,トランスフォーマティブ言語モデルの生成能力を活用して,著者の連続的多次元語彙選好を生成言語モデルに組み込むことにより,特定の目標著者属性を誘導する手法を提案する。 我々は,複数のカテゴリーにまたがる単語の使用を,様々な範囲で促進する強化学習フレームワークに報酬戦略を導入する。 実験により,提案手法は,対象とする著者の語彙スタイルと顕著に一致したテキストを生成することができることを示した。 提案手法の利点を説明するために, 競合的, 関連するベースラインと定量的, 質的な比較を行う。

While recent advances in language modeling have resulted in powerful generation models, their generation style remains implicitly dependent on the training data and can not emulate a specific target style. Leveraging the generative capabilities of a transformer-based language models, we present an approach to induce certain target-author attributes by incorporating continuous multi-dimensional lexical preferences of an author into generative language models. We introduce rewarding strategies in a reinforcement learning framework that encourages the use of words across multiple categorical dimensions, to varying extents. Our experiments demonstrate that the proposed approach can generate text that distinctively aligns with a given target author's lexical style. We conduct quantitative and qualitative comparisons with competitive and relevant baselines to illustrate the benefits of the proposed approach.
翻訳日:2022-10-04 06:32:23 公開日:2020-10-22
# 完全にバイリンガルな言語モデリングを目指して

Towards Fully Bilingual Deep Language Modeling ( http://arxiv.org/abs/2010.11639v1 )

ライセンス: Link先を確認
Li-Hsin Chang, Sampo Pyysalo, Jenna Kanerva, Filip Ginter(参考訳) 深層ニューラルネットワークに基づく言語モデルは,近年,自然言語処理やタスク理解において大きな進歩を遂げている。 多くの言語をカバーするモデルが導入されているが、その多言語性は単言語性能の面ではコストがかかり、ほとんどのタスクにおいて、言語間移動を含まない最も優れたモデルは単言語のままである。 本稿では,両言語の性能を損なうことなく,2つの遠隔関連言語に対するバイリンガルモデルの事前学習が可能かどうかについて考察する。 事前学習データを集め,フィンランド英語バイリンガルbertモデルを作成し,対応する単言語モデルの評価に用いるデータセットの性能評価を行った。 我々のバイリンガルモデルは、GLUE上のGoogleのイングリッシュBERTと同等に動作し、フィンランドのNLPタスクにおける単言語フィンランドBERTのパフォーマンスとほぼ一致し、マルチリンガルBERTよりも明らかに優れています。 モデル語彙のサイズが大きくなると、BERT-Baseアーキテクチャは2つの遠隔関連言語を学習できる能力を持ち、モノリンガルモデルと同等の性能を達成し、完全にバイリンガルな深層言語モデルの訓練が可能であることを示す。 モデルとその作成に関わるすべてのツールはhttps://github.com/TurkuNLP/biBERTで無償公開されている。

Language models based on deep neural networks have facilitated great advances in natural language processing and understanding tasks in recent years. While models covering a large number of languages have been introduced, their multilinguality has come at a cost in terms of monolingual performance, and the best-performing models at most tasks not involving cross-lingual transfer remain monolingual. In this paper, we consider the question of whether it is possible to pre-train a bilingual model for two remotely related languages without compromising performance at either language. We collect pre-training data, create a Finnish-English bilingual BERT model and evaluate its performance on datasets used to evaluate the corresponding monolingual models. Our bilingual model performs on par with Google's original English BERT on GLUE and nearly matches the performance of monolingual Finnish BERT on a range of Finnish NLP tasks, clearly outperforming multilingual BERT. We find that when the model vocabulary size is increased, the BERT-Base architecture has sufficient capacity to learn two remotely related languages to a level where it achieves comparable performance with monolingual models, demonstrating the feasibility of training fully bilingual deep language models. The model and all tools involved in its creation are freely available at https://github.com/TurkuNLP/biBERT
翻訳日:2022-10-04 06:31:12 公開日:2020-10-22
# テンソル回帰におけるcp縮退

CP Degeneracy in Tensor Regression ( http://arxiv.org/abs/2010.13568v1 )

ライセンス: Link先を確認
Ya Zhou, Raymond K. W. Wong and Kejun He(参考訳) テンソル線形回帰はテンソルデータを解析するための重要かつ有用なツールである。 高次元性を扱うために、CANDECOMP/PARAFAC (CP) の低ランク制約は、しばしば(ペナル化)$M$-推定の係数テンソルパラメータに課される。 しかし、それに対応する最適化は達成できない可能性を示し、この場合、推定器は適切に定義されていない。 これは低ランクテンソル近似問題におけるCP縮退現象と密接に関連している。 本稿では,テンソル回帰問題におけるcp縮退の有用な結果を示す。 さらに,cp縮退を克服するための解決策として,一般的なペナルティ化戦略を提案する。 得られた推定の漸近特性についても検討した。 結果を説明するために数値実験を行った。

Tensor linear regression is an important and useful tool for analyzing tensor data. To deal with high dimensionality, CANDECOMP/PARAFAC (CP) low-rank constraints are often imposed on the coefficient tensor parameter in the (penalized) $M$-estimation. However, we show that the corresponding optimization may not be attainable, and when this happens, the estimator is not well-defined. This is closely related to a phenomenon, called CP degeneracy, in low-rank tensor approximation problems. In this article, we provide useful results of CP degeneracy in tensor regression problems. In addition, we provide a general penalized strategy as a solution to overcome CP degeneracy. The asymptotic properties of the resulting estimation are also studied. Numerical experiments are conducted to illustrate our findings.
翻訳日:2022-10-04 06:24:44 公開日:2020-10-22
# QISTA-Net:$\ell_q$-norm最小化問題と画像圧縮センシングを解くDNNアーキテクチャ

QISTA-Net: DNN Architecture to Solve $\ell_q$-norm Minimization Problem and Image Compressed Sensing ( http://arxiv.org/abs/2010.11363v1 )

ライセンス: Link先を確認
Gang-Xuan Lin and Shih-Wei Hu and Chun-Shien Lu(参考訳) 本稿では,非凸 $\ell_q$-norm 最小化問題を 1 つの凸と 1 つの非凸部分プロブレムからなる 2 段階問題に再構成し,$\left(\ell_q\right)$-problem を解くために qista (\ell_q$-ista) と呼ばれる新しい反復アルゴリズムを提案する。 最適化アルゴリズムの高速化における深層学習の活用と,ネットワーク内のすべてのレイヤの運動量を利用する高速化戦略を併用して,疎信号再構成問題を解決するための学習手法QISTA-Net-sを提案する。 広範な実験的比較により、qista-net-sは、元のスパース信号がノイズであっても、最先端の$\ell_1$-norm最適化(プラス学習)アルゴリズムよりも優れた再構成品質が得られることが示されている。 一方,畳み込み層の利用を考慮して,qistaに関連するネットワークアーキテクチャに基づき,画像cs問題を解決するためのqista-net-nを提案した。 QISTA-Net-n は QISTA を展開させ、辞書として畳み込み演算子を追加するように設計されている。 これによりQISTA-Netは解釈可能である。 我々は,QISTA-Net-sとQISTA-Net-nが競合相手よりも優れた再構成性能に寄与する,完全な実験結果を提供する。

In this paper, we reformulate the non-convex $\ell_q$-norm minimization problem with $q\in(0,1)$ into a 2-step problem, which consists of one convex and one non-convex subproblems, and propose a novel iterative algorithm called QISTA ($\ell_q$-ISTA) to solve the $\left(\ell_q\right)$-problem. By taking advantage of deep learning in accelerating optimization algorithms, together with the speedup strategy that using the momentum from all previous layers in the network, we propose a learning-based method, called QISTA-Net-s, to solve the sparse signal reconstruction problem. Extensive experimental comparisons demonstrate that the QISTA-Net-s yield better reconstruction qualities than state-of-the-art $\ell_1$-norm optimization (plus learning) algorithms even if the original sparse signal is noisy. On the other hand, based on the network architecture associated with QISTA, with considering the use of convolution layers, we proposed the QISTA-Net-n for solving the image CS problem, and the performance of the reconstruction still outperforms most of the state-of-the-art natural images reconstruction methods. QISTA-Net-n is designed in unfolding QISTA and adding the convolutional operator as the dictionary. This makes QISTA-Net-s interpretable. We provide complete experimental results that QISTA-Net-s and QISTA-Net-n contribute the better reconstruction performance than the competing.
翻訳日:2022-10-04 06:24:34 公開日:2020-10-22
# 幾何学的ハミルトン変分オートエンコーダ

Geometry-Aware Hamiltonian Variational Auto-Encoder ( http://arxiv.org/abs/2010.11518v1 )

ライセンス: Link先を確認
Cl\'ement Chadebec (CRC, Universit\'e de Paris), Cl\'ement Mantoux (ARAMIS) and St\'ephanie Allassonni\`ere (CRC, Universit\'e de Paris)(参考訳) 変分自己エンコーダ(VAE)は、データよりもはるかに小さな次元空間にある潜在変数を抽出することにより、次元削減を行うのに適したツールであることが証明されている。 データから有意義な情報を捉える能力は、新しい現実的なサンプルを生成したり、より小さな空間で潜在的に有意義な補間を行う能力を考えると、容易に把握できる。 しかし、そのような生成モデルは、医学のような多くの現実の分野に豊富に存在する小さなデータセットで訓練すると、性能が低下する可能性がある。 これは、特に潜在空間の構造が欠如していることによる可能性があり、その幾何学はしばしば過小評価される。 そこで本稿では、エンコーダとデコーダのネットワークと並行して学習されるパラメトリ化された計量を持つリーマン多様体として潜在空間を考える。 この計量は、 arXiv:1805.11328 によって導入されたハミルトニアン VAE を拡張して、潜在空間の基底幾何学をよりよく活用するリーマン・ハミルトニアン VAE と呼ばれる方法で用いられる。 このような潜在空間モデリングは、より意味のある補間、より現実的なデータ生成、より信頼性の高いクラスタリングをもたらす基盤構造に関する有用な情報を提供する。

Variational auto-encoders (VAEs) have proven to be a well suited tool for performing dimensionality reduction by extracting latent variables lying in a potentially much smaller dimensional space than the data. Their ability to capture meaningful information from the data can be easily apprehended when considering their capability to generate new realistic samples or perform potentially meaningful interpolations in a much smaller space. However, such generative models may perform poorly when trained on small data sets which are abundant in many real-life fields such as medicine. This may, among others, come from the lack of structure of the latent space, the geometry of which is often under-considered. We thus propose in this paper to see the latent space as a Riemannian manifold endowed with a parametrized metric learned at the same time as the encoder and decoder networks. This metric is then used in what we called the Riemannian Hamiltonian VAE which extends the Hamiltonian VAE introduced by arXiv:1805.11328 to better exploit the underlying geometry of the latent space. We argue that such latent space modelling provides useful information about its underlying structure leading to far more meaningful interpolations, more realistic data-generation and more reliable clustering.
翻訳日:2022-10-04 06:23:28 公開日:2020-10-22
# 半教師付き関係抽出のための複数参照グラフの探索

Exploit Multiple Reference Graphs for Semi-supervised Relation Extraction ( http://arxiv.org/abs/2010.11383v1 )

ライセンス: Link先を確認
Wanli Li and Tieyun Qian(参考訳) 関係抽出のためのラベル付きデータの手動アノテーションは、時間と労力がかかる。 半教師付き手法はこの問題に手を貸すことができ、大きな研究の関心を喚起する。 既存の作業はラベルなしのサンプルをクラスにマッピングしてラベル付きデータセットを補完することに焦点を当てている。 しかし、特に1文に複雑な構文成分を持つサンプルに対して、全体的な良いマッピング関数を見つけることは困難である。 この制限に対処するために,ラベルなしのサンプルをクラスに直接マッピングするのではなく,ラベルなしのデータとラベル付きデータとの接続を構築することを提案する。 具体的には、まず3種類の情報を用いて、エンティティ参照、動詞参照、セマンティクス参照を含む参照グラフを構築する。 目標は、ラベルのないサンプル(s)をラベル付きサンプル(s)に意味的または語彙的に接続することである。 次に,その参照情報を活用した多元参照グラフ(mrefg)モデルを開発し,高品質なラベルなしサンプルの認識を改善する。 本手法の有効性は,2つの公開データセットにおける最先端ベースラインとの比較実験により実証された。

Manual annotation of the labeled data for relation extraction is time-consuming and labor-intensive. Semi-supervised methods can offer helping hands for this problem and have aroused great research interests. Existing work focuses on mapping the unlabeled samples to the classes to augment the labeled dataset. However, it is hard to find an overall good mapping function, especially for the samples with complicated syntactic components in one sentence. To tackle this limitation, we propose to build the connection between the unlabeled data and the labeled ones rather than directly mapping the unlabeled samples to the classes. Specifically, we first use three kinds of information to construct reference graphs, including entity reference, verb reference, and semantics reference. The goal is to semantically or lexically connect the unlabeled sample(s) to the labeled one(s). Then, we develop a Multiple Reference Graph (MRefG) model to exploit the reference information for better recognizing high-quality unlabeled samples. The effectiveness of our method is demonstrated by extensive comparison experiments with the state-of-the-art baselines on two public datasets.
翻訳日:2022-10-04 06:22:18 公開日:2020-10-22
# CycleGAN-VC3:メル・スペクトログラム変換のためのCycleGAN-VCの検討と改善

CycleGAN-VC3: Examining and Improving CycleGAN-VCs for Mel-spectrogram Conversion ( http://arxiv.org/abs/2010.11672v1 )

ライセンス: Link先を確認
Takuhiro Kaneko, Hirokazu Kameoka, Kou Tanaka, Nobukatsu Hojo(参考訳) 非並列音声変換(non-parallel voice conversion、VC)は、パラレルコーパスを用いることなく、ソースとターゲットの音声のマッピングを学習する技術である。 近年,CycleGAN-VCとCycleGAN-VC2はこの問題に関して有望な結果を示し,ベンチマーク手法として広く利用されている。 しかし, メル-スケプストラム変換におけるCycleGAN-VC/VC2の有効性の曖昧さから, メル-スケプストラム変換に使用されることが多い。 そこで我々は,CycleGAN-VC/VC2のメル-スペクトログラム変換への適用性を検討した。 初期実験により, 変換中に保存すべき時間周波数構造を, 直接適用で損なうことが判明した。 本稿では、時間周波数適応正規化(TFAN)を組み込んだCycleGAN-VC2の改良であるCycleGAN-VC3を提案する。 TFANを用いて、変換された特徴のスケールとバイアスを、ソースメルスペクトルの時間周波数構造を反映して調整することができる。 CycleGAN-VC3を男女間および男女間非並列VCで評価した。 自然性と類似性を主観的に評価した結果,各VCペアにおいてCycleGAN-VC3は2種類のCycleGAN-VC2よりも優れており,その一方がメル-ケプストラム,もう一方がメル-ケプストラムであった。 オーディオサンプルはhttp://www.kecl.ntt.co.jp/people/kaneko.takuhiro/projects/cyclegan-vc3/index.htmlで入手できる。

Non-parallel voice conversion (VC) is a technique for learning mappings between source and target speeches without using a parallel corpus. Recently, cycle-consistent adversarial network (CycleGAN)-VC and CycleGAN-VC2 have shown promising results regarding this problem and have been widely used as benchmark methods. However, owing to the ambiguity of the effectiveness of CycleGAN-VC/VC2 for mel-spectrogram conversion, they are typically used for mel-cepstrum conversion even when comparative methods employ mel-spectrogram as a conversion target. To address this, we examined the applicability of CycleGAN-VC/VC2 to mel-spectrogram conversion. Through initial experiments, we discovered that their direct applications compromised the time-frequency structure that should be preserved during conversion. To remedy this, we propose CycleGAN-VC3, an improvement of CycleGAN-VC2 that incorporates time-frequency adaptive normalization (TFAN). Using TFAN, we can adjust the scale and bias of the converted features while reflecting the time-frequency structure of the source mel-spectrogram. We evaluated CycleGAN-VC3 on inter-gender and intra-gender non-parallel VC. A subjective evaluation of naturalness and similarity showed that for every VC pair, CycleGAN-VC3 outperforms or is competitive with the two types of CycleGAN-VC2, one of which was applied to mel-cepstrum and the other to mel-spectrogram. Audio samples are available at http://www.kecl.ntt.co.jp/people/kaneko.takuhiro/projects/cyclegan-vc3/index.html.
翻訳日:2022-10-04 06:15:59 公開日:2020-10-22
# 座標系のモデル同定と局所線形収束

Model identification and local linear convergence of coordinate descent ( http://arxiv.org/abs/2010.11825v1 )

ライセンス: Link先を確認
Quentin Klopfenstein and Quentin Bertrand and Alexandre Gramfort and Joseph Salmon and Samuel Vaiter(参考訳) 複合非滑らかな最適化問題に対して、フォワード・バックワードアルゴリズムは、目的関数が十分に正規であるならば、有限反復の後にモデル同定(例えばラッソのサポート識別)を達成する。 座標降下に関する結果は乏しく、モデル同定は特定の推定器、例えば支持ベクトルマシンに対してのみ示された。 本研究では, 循環座標降下が, 幅広い関数に対して有限時間でモデル同定を実現することを示す。 さらに,座標降下に対する局所線形収束率を明示的に証明する。 様々な推定器と実際のデータセットに関する広範囲な実験は、これらのレートが経験的な結果によく合っていることを示している。

For composite nonsmooth optimization problems, Forward-Backward algorithm achieves model identification (e.g. support identification for the Lasso) after a finite number of iterations, provided the objective function is regular enough. Results concerning coordinate descent are scarcer and model identification has only been shown for specific estimators, the support-vector machine for instance. In this work, we show that cyclic coordinate descent achieves model identification in finite time for a wide class of functions. In addition, we prove explicit local linear convergence rates for coordinate descent. Extensive experiments on various estimators and on real datasets demonstrate that these rates match well empirical results.
翻訳日:2022-10-04 06:14:28 公開日:2020-10-22
# 感情認識への多成分的アプローチと個性の影響

A Multi-Componential Approach to Emotion Recognition and the Effect of Personality ( http://arxiv.org/abs/2010.11370v1 )

ライセンス: Link先を確認
Gelareh Mohammadi and Patrik Vuilleumier(参考訳) 感情は、外の世界に反応して私たちの行動に影響する人間の本性に不可分な部分である。 ほとんどの経験的研究は、感情の離散的なカテゴリと二コトプス次元を含む2つの理論モデルによって支配されているが、神経科学のアプローチの結果は、異なる感情間で大きな重なり合う感情経験を支えているマルチプロセスメカニズムを示唆している。 これらの知見は、複数の成分プロセスが感情のエピソードを生成する役割を強調する心理学における感情理論と一致するが、離散的な感情と完全な構成要素的視点との関係を体系的に研究する研究はほとんどない。 本稿では,映画視聴中に誘発される感情体験を特徴付けるために,データ駆動アプローチを用いたコンポーネントフレームワークを適用する。 その結果, 評価, 表情, 生理学, 動機づけ, 感情など, 構成要素過程に関連づけられた特徴によって, 様々な感情間の差異を数次元 (少なくとも6次元) の潜在次元で捉えることができることが示唆された。 さらに、離散的感情とコンポーネントモデルとの関係を探求し、結果として、限られた数の記述子を持つ構成的モデルが、経験豊富な離散的感情のレベルを満足のいくレベルまで予測できることを示した。 最後に,個人の態度や偏りによって評価が変化する可能性があるため,計算枠組みにおける性格特性と感情の関係も検討し,個別の感情差に対する個性の役割がコンポーネントモデルを用いてより正当化できることを示す。

Emotions are an inseparable part of human nature affecting our behavior in response to the outside world. Although most empirical studies have been dominated by two theoretical models including discrete categories of emotion and dichotomous dimensions, results from neuroscience approaches suggest a multi-processes mechanism underpinning emotional experience with a large overlap across different emotions. While these findings are consistent with the influential theories of emotion in psychology that emphasize a role for multiple component processes to generate emotion episodes, few studies have systematically investigated the relationship between discrete emotions and a full componential view. This paper applies a componential framework with a data-driven approach to characterize emotional experiences evoked during movie watching. The results suggest that differences between various emotions can be captured by a few (at least 6) latent dimensions, each defined by features associated with component processes, including appraisal, expression, physiology, motivation, and feeling. In addition, the link between discrete emotions and component model is explored and results show that a componential model with a limited number of descriptors is still able to predict the level of experienced discrete emotion(s) to a satisfactory level. Finally, as appraisals may vary according to individual dispositions and biases, we also study the relationship between personality traits and emotions in our computational framework and show that the role of personality on discrete emotion differences can be better justified using the component model.
翻訳日:2022-10-04 06:07:57 公開日:2020-10-22
# 知識グラフにおけるマルチホップ論理推論のためのベータ埋め込み

Beta Embeddings for Multi-Hop Logical Reasoning in Knowledge Graphs ( http://arxiv.org/abs/2010.11465v1 )

ライセンス: Link先を確認
Hongyu Ren, Jure Leskovec(参考訳) 人工知能の基本的な問題の1つは、知識グラフ(KG)が捉えた事実に対して複雑なマルチホップ論理的推論を行うことである。 KGは巨大で不完全であるため、この問題は難しい。 最近のアプローチでは、kgエンティティを低次元空間に埋め込み、これらの埋め込みを使って答えのエンティティを見つける。 しかし、現在のメソッドはFOL演算子のサブセットに限られているため、任意の一階述語論理(FOL)クエリをどう扱うかという課題は際立っている。 特に、否定演算子はサポートされない。 この方法のさらなる制限は、自然に不確実性をモデル化できないことである。 ここでは, kg 上の任意の fol クエリに応答する確率的埋め込みフレームワーク betae を提案する。 betaeは、一階の論理演算の完全なセットを処理できる最初の方法である:コラボレート(\wedge$)、ディスジャンクション(\vee$)、ネゲーション(\neg$)。 betaeの重要な洞察は、バウンダリサポートを備えた確率分布、特にベータディストリビューションを使用し、クエリ/エンティティをディストリビューションとして埋め込むことであり、結果として不確実性を忠実にモデル化することができる。 論理演算は確率的埋め込み上のニューラルネットワークによって埋め込み空間で実行される。 3つの大きな不完全なkgs上で任意のfolクエリに応答するbetaeの性能を示す。 より汎用的である一方で、BetaEは、否定なしで共役クエリのみを処理できる現在の最先端KG推論メソッドに対して、相対的なパフォーマンスを最大25.4%向上させる。

One of the fundamental problems in Artificial Intelligence is to perform complex multi-hop logical reasoning over the facts captured by a knowledge graph (KG). This problem is challenging, because KGs can be massive and incomplete. Recent approaches embed KG entities in a low dimensional space and then use these embeddings to find the answer entities. However, it has been an outstanding challenge of how to handle arbitrary first-order logic (FOL) queries as present methods are limited to only a subset of FOL operators. In particular, the negation operator is not supported. An additional limitation of present methods is also that they cannot naturally model uncertainty. Here, we present BetaE, a probabilistic embedding framework for answering arbitrary FOL queries over KGs. BetaE is the first method that can handle a complete set of first-order logical operations: conjunction ($\wedge$), disjunction ($\vee$), and negation ($\neg$). A key insight of BetaE is to use probabilistic distributions with bounded support, specifically the Beta distribution, and embed queries/entities as distributions, which as a consequence allows us to also faithfully model uncertainty. Logical operations are performed in the embedding space by neural operators over the probabilistic embeddings. We demonstrate the performance of BetaE on answering arbitrary FOL queries on three large, incomplete KGs. While being more general, BetaE also increases relative performance by up to 25.4% over the current state-of-the-art KG reasoning methods that can only handle conjunctive queries without negation.
翻訳日:2022-10-04 06:06:35 公開日:2020-10-22
# 予測報酬を伴うマルチエージェント能動的知覚

Multi-agent active perception with prediction rewards ( http://arxiv.org/abs/2010.11835v1 )

ライセンス: Link先を確認
Mikko Lauri and Frans A. Oliehoek(参考訳) マルチエージェントアクティブ・インセプション(Multi-agent active perception)とは、エージェントのチームが協調して観測を行い、隠れた変数の合同推定を計算するタスクである。 タスクは分散化され、すべてのエージェントの観察を融合することにより、タスク終了後にのみ共同見積もりを計算できる。 目標は見積の精度を最大化することである。 精度は、タスク終了後にすべてのエージェントが収集した観察を知覚する集中型意思決定者によって決定される集中型予測報酬によって定量化される。 本稿では,マルチエージェントアクティブ知覚を,凸集中型予測報酬を伴う分散部分可観測マルコフ決定過程(dec-pomdp)としてモデル化する。 本研究では,各エージェントに対して個別の予測アクションを導入することにより,分散化された予測報酬を持つ標準のDec-POMDPに変換する。 分散化による損失は有界であり、それがゼロである場合の十分な条件を与える。 この結果から,任意のDec-POMDP解法をマルチエージェント能動認識問題に適用し,共同推定の明示的な計算を行なわずに不確実性を抑えることが可能となった。 マルチエージェント能動認識問題に標準のDec-POMDPアルゴリズムを適用することで,提案手法の実証的有用性を実証し,計画の地平線におけるスケーラビリティの向上を示す。

Multi-agent active perception is a task where a team of agents cooperatively gathers observations to compute a joint estimate of a hidden variable. The task is decentralized and the joint estimate can only be computed after the task ends by fusing observations of all agents. The objective is to maximize the accuracy of the estimate. The accuracy is quantified by a centralized prediction reward determined by a centralized decision-maker who perceives the observations gathered by all agents after the task ends. In this paper, we model multi-agent active perception as a decentralized partially observable Markov decision process (Dec-POMDP) with a convex centralized prediction reward. We prove that by introducing individual prediction actions for each agent, the problem is converted into a standard Dec-POMDP with a decentralized prediction reward. The loss due to decentralization is bounded, and we give a sufficient condition for when it is zero. Our results allow application of any Dec-POMDP solution algorithm to multi-agent active perception problems, and enable planning to reduce uncertainty without explicit computation of joint estimates. We demonstrate the empirical usefulness of our results by applying a standard Dec-POMDP algorithm to multi-agent active perception problems, showing increased scalability in the planning horizon.
翻訳日:2022-10-04 06:06:13 公開日:2020-10-22
# 障害物環境におけるロボット操作のための運動プランナー強化学習

Motion Planner Augmented Reinforcement Learning for Robot Manipulation in Obstructed Environments ( http://arxiv.org/abs/2010.11940v1 )

ライセンス: Link先を確認
Jun Yamada, Youngwoon Lee, Gautam Salhotra, Karl Pertsch, Max Pflueger, Gaurav S. Sukhatme, Joseph J. Lim, Peter Englert(参考訳) 深層強化学習(rl)エージェントは、報奨信号を最大化することで、接触の多い操作タスクを学習できるが、特に探索を複雑にする多くの障害のある環境では、大量の経験を必要とする。 対照的に、運動プランナーはエージェントと環境の明示的なモデルを使用して衝突のない経路を遠くの目標まで計画するが、環境との接触を必要とするタスクにおいて不正確なモデルに悩まされる。 両手法の利点を組み合わせるために,RLエージェントの動作空間を移動プランナーの長期計画能力に拡張する動きプランナー拡張RL(MoPA-RL)を提案する。 動作の大きさに基づいて,動作を直接実行し,動作プランナを起動するアプローチを円滑に移行する。 様々な操作課題に対するアプローチを評価し,学習効率と安全性の観点から代替行動空間と比較した。 この実験は、MoPA-RLが学習効率を高め、より高速な探索をもたらし、環境との衝突を避ける安全な政策をもたらすことを示した。 ビデオとコードはhttps://clvrai.com/mopa-rl.comで入手できる。

Deep reinforcement learning (RL) agents are able to learn contact-rich manipulation tasks by maximizing a reward signal, but require large amounts of experience, especially in environments with many obstacles that complicate exploration. In contrast, motion planners use explicit models of the agent and environment to plan collision-free paths to faraway goals, but suffer from inaccurate models in tasks that require contacts with the environment. To combine the benefits of both approaches, we propose motion planner augmented RL (MoPA-RL) which augments the action space of an RL agent with the long-horizon planning capabilities of motion planners. Based on the magnitude of the action, our approach smoothly transitions between directly executing the action and invoking a motion planner. We evaluate our approach on various simulated manipulation tasks and compare it to alternative action spaces in terms of learning efficiency and safety. The experiments demonstrate that MoPA-RL increases learning efficiency, leads to a faster exploration, and results in safer policies that avoid collisions with the environment. Videos and code are available at https://clvrai.com/mopa-rl .
翻訳日:2022-10-04 06:05:22 公開日:2020-10-22
# 学習スキル優先による強化学習の促進

Accelerating Reinforcement Learning with Learned Skill Priors ( http://arxiv.org/abs/2010.11944v1 )

ライセンス: Link先を確認
Karl Pertsch, Youngwoon Lee, Joseph J. Lim(参考訳) インテリジェントエージェントは、新しいタスクを学ぶときの事前経験に大きく依存するが、現代の強化学習(RL)アプローチは、すべてのタスクをゼロから学習する。 事前知識を活用する1つのアプローチは、事前タスクで学んだスキルを新しいタスクに移すことである。 しかしながら、事前経験の量が増加するにつれて、移行可能なスキルの数も増加するため、下流学習中に利用可能なスキルの完全なセットを探求することが難しくなる。 しかし直感的には、すべてのスキルが同等の確率で探求されるべきではない。 そこで本研究では,先行するスキルを習得することで,この直感を実現することを提案する。 本稿では,オフラインエージェントの経験からスキルとスキルの埋め込み空間を共同学習する,深い潜在変数モデルを提案する。 次に、共通最大エントロピーRLアプローチを拡張して、下流学習の指導にスキル事前を使用する。 複雑なナビゲーションおよびロボット操作タスクにおけるspirl (skill-prior rl) のアプローチを検証し,リッチデータセットからの効果的なスキル伝達には学習スキル優先が不可欠であることを示す。 ビデオとコードはhttps://clvrai.com/spirl.comで入手できる。

Intelligent agents rely heavily on prior experience when learning a new task, yet most modern reinforcement learning (RL) approaches learn every task from scratch. One approach for leveraging prior knowledge is to transfer skills learned on prior tasks to the new task. However, as the amount of prior experience increases, the number of transferable skills grows too, making it challenging to explore the full set of available skills during downstream learning. Yet, intuitively, not all skills should be explored with equal probability; for example information about the current state can hint which skills are promising to explore. In this work, we propose to implement this intuition by learning a prior over skills. We propose a deep latent variable model that jointly learns an embedding space of skills and the skill prior from offline agent experience. We then extend common maximum-entropy RL approaches to use skill priors to guide downstream learning. We validate our approach, SPiRL (Skill-Prior RL), on complex navigation and robotic manipulation tasks and show that learned skill priors are essential for effective skill transfer from rich datasets. Videos and code are available at https://clvrai.com/spirl.
翻訳日:2022-10-04 06:05:03 公開日:2020-10-22
# 差動共役線形バンディット

Differentially-Private Federated Linear Bandits ( http://arxiv.org/abs/2010.11425v1 )

ライセンス: Link先を確認
Abhimanyu Dubey and Alex Pentland(参考訳) 分散学習システムの急速な普及は、微分プライベートな協調学習の必要性を規定している。 本稿では,これらを文脈的線形バンドイットの文脈で検討し,共通のコンテキスト的バンドイットを解決するために協調するエージェントの集合について検討する。 そこで我々は,集中型および分散型(ピアツーピア)フェデレーション学習のためのマルチエージェントプライベートアルゴリズムである \textsc{FedUCB} を考案した。 我々は,後悔の観点でその有用性の厳密な技術的分析を行い,協調バンディット学習の結果をいくつか改善するとともに,厳密なプライバシー保証も提供する。 提案アルゴリズムは,種々のマルチエージェント設定において,擬似回帰境界と経験的ベンチマーク性能の両面で競合性能を提供する。

The rapid proliferation of decentralized learning systems mandates the need for differentially-private cooperative learning. In this paper, we study this in context of the contextual linear bandit: we consider a collection of agents cooperating to solve a common contextual bandit, while ensuring that their communication remains private. For this problem, we devise \textsc{FedUCB}, a multiagent private algorithm for both centralized and decentralized (peer-to-peer) federated learning. We provide a rigorous technical analysis of its utility in terms of regret, improving several results in cooperative bandit learning, and provide rigorous privacy guarantees as well. Our algorithms provide competitive performance both in terms of pseudoregret bounds and empirical benchmark performance in various multi-agent settings.
翻訳日:2022-10-04 06:04:42 公開日:2020-10-22
# CNN圧縮のためのテンソルリオーダー

Tensor Reordering for CNN Compression ( http://arxiv.org/abs/2010.12110v1 )

ライセンス: Link先を確認
Matej Ulicny, Vladimir A. Krylov and Rozenn Dahyot(参考訳) 畳み込みニューラルネットワーク(CNN)フィルタにおけるパラメータ冗長性は,スペクトル領域におけるプルーニングによって効果的に低減できることを示す。 具体的には、離散コサイン変換(DCT)によって抽出された表現は、元の空間よりもプルーニングに適している。 重み付きテンソルの整形と並べ替えを組み合わせることで,精度の低下をわずかに抑えた高レベルの層圧縮を実現する。 本手法は,事前学習したcnn圧縮に適用し,微調整により,パラメータ低減後の元のモデル性能を回復できることを示す。 ImageNet分類タスクにおけるResNet-50およびMobileNet-V2アーキテクチャのアプローチを検証する。

We show how parameter redundancy in Convolutional Neural Network (CNN) filters can be effectively reduced by pruning in spectral domain. Specifically, the representation extracted via Discrete Cosine Transform (DCT) is more conducive for pruning than the original space. By relying on a combination of weight tensor reshaping and reordering we achieve high levels of layer compression with just minor accuracy loss. Our approach is applied to compress pretrained CNNs and we show that minor additional fine-tuning allows our method to recover the original model performance after a significant parameter reduction. We validate our approach on ResNet-50 and MobileNet-V2 architectures for ImageNet classification task.
翻訳日:2022-10-04 05:58:11 公開日:2020-10-22
# Zero-Shot Learning from scratch (ZFS): 局所的な構成表現を活用する

Zero-Shot Learning from scratch (ZFS): leveraging local compositional representations ( http://arxiv.org/abs/2010.13320v1 )

ライセンス: Link先を確認
Tristan Sylvain, Linda Petrini, R Devon Hjelm(参考訳) ゼロショット分類は、訓練中にターゲットクラスのインスタンスが見られない一般化タスクである。 テスト時間転送を可能にするために、各クラスは、属性やテキスト記述の形式で、意味情報で注釈付けされる。 古典的なゼロショット学習は、他のデータセットからの情報の使用を明示的に禁止していないが、イメージベンチマークで最高の絶対性能を達成するアプローチは、imagenetで事前トレーニングされたエンコーダから抽出された機能に依存している。 このアプローチは、教師付き分類設定からの超最適化画像ネット関連パラメータに依存し、それらのパラメータの適合性や、表現学習と一般化に関するより基本的な質問でどのように学習されたかについて重要な質問を絞った。 これらの邪魔をなくすため、より難しい設定を提案している。ゼロショット学習 from scratch (zfs)は、他のデータセットで微調整されたエンコーダの使用を明示的に禁止する。 この設定に関する分析は、局所的情報の重要性と構成的表現を強調している。

Zero-shot classification is a generalization task where no instance from the target classes is seen during training. To allow for test-time transfer, each class is annotated with semantic information, commonly in the form of attributes or text descriptions. While classical zero-shot learning does not explicitly forbid using information from other datasets, the approaches that achieve the best absolute performance on image benchmarks rely on features extracted from encoders pretrained on Imagenet. This approach relies on hyper-optimized Imagenet-relevant parameters from the supervised classification setting, entangling important questions about the suitability of those parameters and how they were learned with more fundamental questions about representation learning and generalization. To remove these distractors, we propose a more challenging setting: Zero-Shot Learning from scratch (ZFS), which explicitly forbids the use of encoders fine-tuned on other datasets. Our analysis on this setting highlights the importance of local information, and compositional representations.
翻訳日:2022-10-04 05:58:00 公開日:2020-10-22
# ニューラルネットワークの性能を向上させるためのrelu密層

A ReLU Dense Layer to Improve the Performance of Neural Networks ( http://arxiv.org/abs/2010.13572v1 )

ライセンス: Link先を確認
Alireza M. Javid, Sandipan Das, Mikael Skoglund, and Saikat Chatterjee(参考訳) トレーニングされたニューラルネットワークの性能を向上させるために,ReDenseをシンプルかつ低複雑性な方法として提案する。 ランダムウェイトと整流線形単位(relu)活性化関数の組み合わせを用いて,学習ニューラルネットワークにrelu密(redense)層を付加することにより,トレーニング損失の低減を図る。 ReLUの損失フロー特性(LFP)は、一般化誤差を小さく保ちながら、低いトレーニング損失を達成する鍵となる。 ReDenseは、浅い構造を持つため、トレーニング中の勾配問題に悩まされることはない。 ReDenseは、最適化損失とアクティベーション関数の異なる様々なニューラルネットワークアーキテクチャのトレーニングおよびテスト性能を向上させることができることを示す。 最後に、ReDenseを最先端アーキテクチャのいくつかでテストし、ベンチマークデータセットのパフォーマンス改善を示す。

We propose ReDense as a simple and low complexity way to improve the performance of trained neural networks. We use a combination of random weights and rectified linear unit (ReLU) activation function to add a ReLU dense (ReDense) layer to the trained neural network such that it can achieve a lower training loss. The lossless flow property (LFP) of ReLU is the key to achieve the lower training loss while keeping the generalization error small. ReDense does not suffer from vanishing gradient problem in the training due to having a shallow structure. We experimentally show that ReDense can improve the training and testing performance of various neural network architectures with different optimization loss and activation functions. Finally, we test ReDense on some of the state-of-the-art architectures and show the performance improvement on benchmark datasets.
翻訳日:2022-10-04 05:57:42 公開日:2020-10-22
# 人工知能による火炎噴霧熱分解の火炎安定性解析

Flame Stability Analysis of Flame Spray Pyrolysis by Artificial Intelligence ( http://arxiv.org/abs/2011.08673v1 )

ライセンス: Link先を確認
Jessica Pan, Joseph A. Libera, Noah H. Paulson and Marius Stan(参考訳) 火炎噴霧熱分解(fsp)は、微粒化前駆体溶液の燃焼を通じてナノ粒子を合成するプロセスであり、触媒、電池材料、顔料に応用できる。 現行の限界は、安定な火炎とナノ粒子の信頼できる製造方法の理解を中心に展開されている。 不安定な炎条件をリアルタイムで検出する機械学習と人工知能アルゴリズムは、合成プロセスの合理化とFSP効率の向上の手段である可能性がある。 本研究では, 火炎点の明るさを解析することにより, FSP火炎安定性を定量化する。 この分析は、教師なしと教師なしの両方の機械学習アプローチのデータにラベル付けされる。 教師なし学習アプローチは、縮小次元空間内のデータを表現し、最も効果的にクラスタリングする特徴の組み合わせを特定することによって、新しいデータの自律的なラベル付けと分類を可能にする。 一方、教師付き学習アプローチでは、トレーニングとテストデータの人間のラベル付けが必要であるが、ビデオフィード内で複数の興味の対象(バーナーやパイロットフレイムなど)を分類することができる。 これらの手法の精度は、人間の専門家による評価と比較される。 unsupervisedとsupervisedの両方のアプローチは、fspの炎の状態をリアルタイムで追跡し分類し、不安定な炎の状態のユーザに警告することができる。 本研究は,火炎安定度をモニタリングし分類することにより,火炎噴霧の熱分解を自律的に追跡し,管理する可能性を秘めている。

Flame spray pyrolysis (FSP) is a process used to synthesize nanoparticles through the combustion of an atomized precursor solution; this process has applications in catalysts, battery materials, and pigments. Current limitations revolve around understanding how to consistently achieve a stable flame and the reliable production of nanoparticles. Machine learning and artificial intelligence algorithms that detect unstable flame conditions in real time may be a means of streamlining the synthesis process and improving FSP efficiency. In this study, the FSP flame stability is first quantified by analyzing the brightness of the flame's anchor point. This analysis is then used to label data for both unsupervised and supervised machine learning approaches. The unsupervised learning approach allows for autonomous labelling and classification of new data by representing data in a reduced dimensional space and identifying combinations of features that most effectively cluster it. The supervised learning approach, on the other hand, requires human labeling of training and test data, but is able to classify multiple objects of interest (such as the burner and pilot flames) within the video feed. The accuracy of each of these techniques is compared against the evaluations of human experts. Both the unsupervised and supervised approaches can track and classify FSP flame conditions in real time to alert users of unstable flame conditions. This research has the potential to autonomously track and manage flame spray pyrolysis as well as other flame technologies by monitoring and classifying the flame stability.
翻訳日:2022-10-04 05:57:32 公開日:2020-10-22
# iris提示アタック検出のための光コヒーレンストモグラフィの有効性

Viability of Optical Coherence Tomography for Iris Presentation Attack Detection ( http://arxiv.org/abs/2011.10655v1 )

ライセンス: Link先を確認
Renu Sharma and Arun Ross(参考訳) 本稿では,光コヒーレンス・トモグラフィー(OCT)画像を用いた虹彩提示攻撃(PA)検出法を提案する。 従来の虹彩撮像モード, viz., near-infrared (nir) および可視スペクトルとの比較により,その有効性を評価する。 octイメージングは眼の断面ビューを提供するが、従来のイメージングは2次元虹彩テクスチャ情報を提供する。 3つの最先端ディープアーキテクチャ (vgg19, resnet50, densenet121) を用いてpaの検出を行い、3つの撮像モードごとにボナフィドとpaのサンプルを区別する。 2,169のボナフィド、177のヴァンダイクアイ、360の美容接触画像のデータセットを用いて、攻撃内(pas)およびクロスアタック(pas)シナリオの3つのイメージモダリティすべてを用いて実験を行った。 我々は,oct が iris 提示攻撃検出の有効なソリューションであることを示す有望な結果を観察する。

In this paper, we propose the use of Optical Coherence Tomography (OCT) imaging for the problem of iris presentation attack (PA) detection. We assess its viability by comparing its performance with respect to traditional iris imaging modalities, viz., near-infrared (NIR) and visible spectrum. OCT imaging provides a cross-sectional view of an eye, whereas traditional imaging provides 2D iris textural information. PA detection is performed using three state-of-the-art deep architectures (VGG19, ResNet50 and DenseNet121) to differentiate between bonafide and PA samples for each of the three imaging modalities. Experiments are performed on a dataset of 2,169 bonafide, 177 Van Dyke eyes and 360 cosmetic contact images acquired using all three imaging modalities under intra-attack (known PAs) and cross-attack (unknown PAs) scenarios. We observe promising results demonstrating OCT as a viable solution for iris presentation attack detection.
翻訳日:2022-10-04 05:57:07 公開日:2020-10-22
# テキストマイニングによる非構造データセットからの新規疾患治療の同定と抽出

Text Mining to Identify and Extract Novel Disease Treatments From Unstructured Datasets ( http://arxiv.org/abs/2011.07959v1 )

ライセンス: Link先を確認
Rahul Yedida, Saad Mohammad Abrar, Cleber Melo-Filho, Eugene Muratov, Rada Chirkova, Alexander Tropsha(参考訳) 目的: 非構造化テキストソースから疾患に対する新たな治療法を探索すること。 より具体的には、音声テキストの構造に関する単純な推論により、疾患に対する薬物と酵素の対の治療法を抽出しようとする。 Materials and Methods: Google Cloudを使って、NPRラジオ番組のポッドキャストエピソードを書き起こします。 次に,テキストを体系的に前処理するパイプラインを構築し,コア分類モデルへの品質入力を保証する。 我々の分類モデルは、PubMedテキストで事前訓練された言語モデルを使用する。 パイプラインのモジュール性は、パイプラインの各段階で高品質なコンポーネントを置換することで、この分野の将来的な開発を容易にします。 検証尺度として,提案したペアの存在を確認するための基礎的真理源として,検証された経路のみを持つ医療知識グラフ上のエンジンであるRobOKOPを用いる。 ROBOKOPにない提案されたペアについては、Chemotextを用いてさらなる検証を行う。 結果: ROBOKOPデータベースで提案したペアの30.4%が見つかった。 例えば,Omeprazoleが心臓熱傷の治療に有効であることをモデルで確認し,その意義を考察し,提案したペアのいくつかの例を示した。 議論と結論: 既存の知識ソースとの結果の一致は、正しい方向への一歩を示している。 フレームワークのプラグアンドプレイの性質を考えると、必要に応じてパーツを追加、削除、修正し、モデルを改善することは簡単です。 いくつかの例を示す結果について論じるとともに、この研究はさらなる範囲を探求する新たな研究の可能性があることに留意する。 本手法はもともとラジオポッドキャストの書き起こしを指向していたが,入力に依存しず,任意のテキストデータソースや興味のある問題に適用できる。

Objective: We aim to learn potential novel cures for diseases from unstructured text sources. More specifically, we seek to extract drug-disease pairs of potential cures to diseases by a simple reasoning over the structure of spoken text. Materials and Methods: We use Google Cloud to transcribe podcast episodes of an NPR radio show. We then build a pipeline for systematically pre-processing the text to ensure quality input to the core classification model, which feeds to a series of post-processing steps for obtaining filtered results. Our classification model itself uses a language model pre-trained on PubMed text. The modular nature of our pipeline allows for ease of future developments in this area by substituting higher quality components at each stage of the pipeline. As a validation measure, we use ROBOKOP, an engine over a medical knowledge graph with only validated pathways, as a ground truth source for checking the existence of the proposed pairs. For the proposed pairs not found in ROBOKOP, we provide further verification using Chemotext. Results: We found 30.4% of our proposed pairs in the ROBOKOP database. For example, our model successfully identified that Omeprazole can help treat heartburn.We discuss the significance of this result, showing some examples of the proposed pairs. Discussion and Conclusion: The agreement of our results with the existing knowledge source indicates a step in the right direction. Given the plug-and-play nature of our framework, it is easy to add, remove, or modify parts to improve the model as necessary. We discuss the results showing some examples, and note that this is a potentially new line of research that has further scope to be explored. Although our approach was originally oriented on radio podcast transcripts, it is input-agnostic and could be applied to any source of textual data and to any problem of interest.
翻訳日:2022-10-04 05:55:57 公開日:2020-10-22
# フェージングメモリのecho状態ネットワークは普遍的

Fading memory echo state networks are universal ( http://arxiv.org/abs/2010.12047v1 )

ライセンス: Link先を確認
Lukas Gonon and Juan-Pablo Ortega(参考訳) エコー状態ネットワーク(esns)は、様々な$l ^p$-タイプの基準に関して、入出力システムに対する普遍的な近似値であることが最近証明されている。 1\leq p< \infty$ の場合、$p$-integrability仮説のみを課す必要があるが、$p=\infty$ の場合、入力に対する一様有界性仮説が必要である。 このノートは、最後のケースでは、エコー状態とフェードメモリ特性を持つ排他的要素を含むESNの普遍的なファミリーを構築することができることを示している。 この結論は、これまでの文献で利用可能な結果と方法では示せなかった。

Echo state networks (ESNs) have been recently proved to be universal approximants for input/output systems with respect to various $L ^p$-type criteria. When $1\leq p< \infty$, only $p$-integrability hypotheses need to be imposed, while in the case $p=\infty$ a uniform boundedness hypotheses on the inputs is required. This note shows that, in the last case, a universal family of ESNs can be constructed that contains exclusively elements that have the echo state and the fading memory properties. This conclusion could not be drawn with the results and methods available so far in the literature.
翻訳日:2022-10-04 05:55:29 公開日:2020-10-22
# シェープ値推定のためのマルチ線形サンプリングアルゴリズム

A Multilinear Sampling Algorithm to Estimate Shapley Values ( http://arxiv.org/abs/2010.12082v1 )

ライセンス: Link先を確認
Ramin Okhrati and Aldo Lipani(参考訳) シャプリーの値はゲーム理論における優れた分析ツールであり、ゲームにおけるプレイヤーの重要性を測定する。 効率性などの公理的で望ましい性質のため、データサイエンスや機械学習における特徴的重要性の分析で人気を博している。 しかし、元の式に基づいてShapley値を計算する時間の複雑さは指数関数的であり、特徴の数が増加するにつれて、これは実現不可能となる。 カストロとアル。 [1]はShapley値を推定するサンプリングアルゴリズムを開発した。 本研究では,ゲーム理論に適用される多重線形拡張手法に基づく新しいサンプリング手法を提案する。 目的は、Shapley値をより効率的に(サンプリング)する方法を提供することである。 本手法は任意の機械学習モデル,特に多クラス分類や回帰問題に適用可能である。 本手法は多層パーセプトロン (mlps) のシャプリー値の推定に応用し, 2つのデータセットを用いた実験により, サンプリング統計のばらつきを低減し, シャプリー値の高精度な推定を実現することを実証した。

Shapley values are great analytical tools in game theory to measure the importance of a player in a game. Due to their axiomatic and desirable properties such as efficiency, they have become popular for feature importance analysis in data science and machine learning. However, the time complexity to compute Shapley values based on the original formula is exponential, and as the number of features increases, this becomes infeasible. Castro et al. [1] developed a sampling algorithm, to estimate Shapley values. In this work, we propose a new sampling method based on a multilinear extension technique as applied in game theory. The aim is to provide a more efficient (sampling) method for estimating Shapley values. Our method is applicable to any machine learning model, in particular for either multi-class classifications or regression problems. We apply the method to estimate Shapley values for multilayer perceptrons (MLPs) and through experimentation on two datasets, we demonstrate that our method provides more accurate estimations of the Shapley values by reducing the variance of the sampling statistics.
翻訳日:2022-10-04 05:49:47 公開日:2020-10-22
# 表面再構成のための点雲からの操作関数の学習

Learning Occupancy Function from Point Clouds for Surface Reconstruction ( http://arxiv.org/abs/2010.11378v1 )

ライセンス: Link先を確認
Meng Jia and Matthew Kyan(参考訳) 表面から採取した点雲から3次元形状を復元するために, 入射関数に基づく表面再構成が長い間研究されてきた。 近年,暗黙的な3次元形状表現として,SDF(Signed Distance Function)とOccupany関数が学習に基づく形状再構成手法に採用されている。 本稿では, 疎点雲から占有関数を学習する新しい手法を提案し, 挑戦的表面再構成タスクにおいて, より良い性能を実現する。 完全に接続された多層ネットワークでポイント占有率を予測する従来の手法とは異なり、ポイントクラウド深層学習アーキテクチャ、ポイント畳み込みニューラルネットワーク(PCNN)を適用して学習モデルを構築する。 具体的には、サンプリング演算子を作成し、PCNNに挿入して、占有状態を予測する必要がある点において、連続的に特徴空間をサンプリングする。 この方法は、点雲データの幾何学的性質をネイティブに取得し、点置換に不変である。 私たちの占有機能学習は、ポイントクラウドアップサンプリングと表面再構成の手順に容易に適合することができる。 本実験は,ShapeNetデータセットを再構成するための最先端性能を示し,McGill 3Dデータセット \cite{siddiqi2008retrieving} を用いて本手法の一般化を実証する。 さらに,学習した占有関数は,従来の形状学習法よりも比較的回転不変であることがわかった。

Implicit function based surface reconstruction has been studied for a long time to recover 3D shapes from point clouds sampled from surfaces. Recently, Signed Distance Functions (SDFs) and Occupany Functions are adopted in learning-based shape reconstruction methods as implicit 3D shape representation. This paper proposes a novel method for learning occupancy functions from sparse point clouds and achieves better performance on challenging surface reconstruction tasks. Unlike the previous methods, which predict point occupancy with fully-connected multi-layer networks, we adapt the point cloud deep learning architecture, Point Convolution Neural Network (PCNN), to build our learning model. Specifically, we create a sampling operator and insert it into PCNN to continuously sample the feature space at the points where occupancy states need to be predicted. This method natively obtains point cloud data's geometric nature, and it's invariant to point permutation. Our occupancy function learning can be easily fit into procedures of point cloud up-sampling and surface reconstruction. Our experiments show state-of-the-art performance for reconstructing With ShapeNet dataset and demonstrate this method's well-generalization by testing it with McGill 3D dataset \cite{siddiqi2008retrieving}. Moreover, we find the learned occupancy function is relatively more rotation invariant than previous shape learning methods.
翻訳日:2022-10-04 05:49:13 公開日:2020-10-22
# TLGAN:Generative Adversarial Netsを用いた文書テキストのローカライゼーション

TLGAN: document Text Localization using Generative Adversarial Nets ( http://arxiv.org/abs/2010.11547v1 )

ライセンス: Link先を確認
Dongyoung Kim, Myungsung Kwak, Eunji Won, Sejung Shin, Jeongyeon Nam(参考訳) デジタル画像からのテキストローカライゼーションは、光学的文字認識タスクの第一ステップである。 従来の画像処理ベースのテキストローカライゼーションは、特定の例に対して適切に実行される。 しかし、一般的なテキストのローカライゼーションは、最近のディープラーニングに基づくモダリティによってのみアーカイブされる。 本稿では,デジタル画像からテキストローカライゼーションを行うディープニューラルネットワークであるtlgan(text localization generative adversarial nets)について述べる。 TLGANは、少量のデータを必要とする汎用的で簡単なテキストローカライゼーションモデルである。 Robust Reading Challenge on Scanned Receipts OCR and Information extract (SROIE)のラベル付きレシート画像のトレーニングでは、TLGANは99.83%の精度と99.64%のリコールを達成した。 我々のTLGANは、データラベリングとモデルトレーニングに最小限の労力を必要とする実用的なテキストローカライズソリューションです。

Text localization from the digital image is the first step for the optical character recognition task. Conventional image processing based text localization performs adequately for specific examples. Yet, a general text localization are only archived by recent deep-learning based modalities. Here we present document Text Localization Generative Adversarial Nets (TLGAN) which are deep neural networks to perform the text localization from digital image. TLGAN is an versatile and easy-train text localization model requiring a small amount of data. Training only ten labeled receipt images from Robust Reading Challenge on Scanned Receipts OCR and Information Extraction (SROIE), TLGAN achieved 99.83% precision and 99.64% recall for SROIE test data. Our TLGAN is a practical text localization solution requiring minimal effort for data labeling and model training and producing a state-of-art performance.
翻訳日:2022-10-04 05:48:10 公開日:2020-10-22
# Noise2Same: 自己監督境界の最適化

Noise2Same: Optimizing A Self-Supervised Bound for Image Denoising ( http://arxiv.org/abs/2010.11971v1 )

ライセンス: Link先を確認
Yaochen Xie, Zhengyang Wang, Shuiwang Ji(参考訳) 個々のノイズの多い画像でデノイジングモデルを学習する自己教師付きフレームワークは、様々な画像デノイジングタスクにおいて強力な能力と有望なパフォーマンスを示している。 既存の自己監督型Denoisingフレームワークは、ほとんど同じ理論基盤の上に構築されており、そこでは、denoisingモデルがJ-不変であることが要求される。 しかし, 解析結果から, 現在の理論とJ-不変性は, 性能の低下を伴うデノナイズモデルに繋がる可能性が示唆された。 本稿では,新しい自己教師付きデノイジングフレームワークである noise2same を紹介する。 ノイズ2Sameでは、典型的な教師付き損失の自己教師付き上限を導出することにより、新たな自己教師付き損失を提案する。 特にノイズ2Sameは、ノイズモデルに関するJ-不変性も余分な情報も必要とせず、より広範囲のノイズ処理アプリケーションで使用することができる。 提案するノイズ2サミを理論的および実験的に解析する。 実験結果から,ノイズ2Sameは従来の自己監督型遮音法よりも性能と訓練効率が優れていた。 私たちのコードはhttps://github.com/divelab/Noise2Sameで利用可能です。

Self-supervised frameworks that learn denoising models with merely individual noisy images have shown strong capability and promising performance in various image denoising tasks. Existing self-supervised denoising frameworks are mostly built upon the same theoretical foundation, where the denoising models are required to be J-invariant. However, our analyses indicate that the current theory and the J-invariance may lead to denoising models with reduced performance. In this work, we introduce Noise2Same, a novel self-supervised denoising framework. In Noise2Same, a new self-supervised loss is proposed by deriving a self-supervised upper bound of the typical supervised loss. In particular, Noise2Same requires neither J-invariance nor extra information about the noise model and can be used in a wider range of denoising applications. We analyze our proposed Noise2Same both theoretically and experimentally. The experimental results show that our Noise2Same remarkably outperforms previous self-supervised denoising methods in terms of denoising performance and training efficiency. Our code is available at https://github.com/divelab/Noise2Same.
翻訳日:2022-10-04 05:47:25 公開日:2020-10-22
# 弱教師付き物体検出のための包括的注意自己蒸留

Comprehensive Attention Self-Distillation for Weakly-Supervised Object Detection ( http://arxiv.org/abs/2010.12023v1 )

ライセンス: Link先を確認
Zeyi Huang, Yang Zou, Vijayakumar Bhagavatula, Dong Huang(参考訳) Weakly Supervised Object Detection (WSOD) は画像レベルのカテゴリラベルのみを用いてオブジェクト検出を訓練するための効果的なツールとして登場した。 しかし、オブジェクトレベルのラベルがなければ、WSOD検出器は、正常なオブジェクト、クラスタ化されたオブジェクト、識別可能なオブジェクト部品のバウンディングボックスを検出する傾向にある。 さらに、画像レベルのカテゴリラベルは、同一画像の異なる変換に対して一貫したオブジェクト検出を強制しない。 以上の課題に対処するため,WSODのための包括的注意自己蒸留(CASD)訓練手法を提案する。 すべてのオブジェクトインスタンスで機能学習のバランスをとるために、CASDは複数の変換と同じ画像の特徴層から集約された包括的な注意を計算します。 オブジェクトに対する一貫した空間的監視を実施するため、CASDはWSODネットワーク上で自己蒸留を行い、同じ画像の複数の変換と特徴層によって、包括的注意を同時に近似する。 CASDはPASCAL VOC 2007/2012やMS-COCOなどの標準ベンチマークで最新のWSOD結果を生成する。

Weakly Supervised Object Detection (WSOD) has emerged as an effective tool to train object detectors using only the image-level category labels. However, without object-level labels, WSOD detectors are prone to detect bounding boxes on salient objects, clustered objects and discriminative object parts. Moreover, the image-level category labels do not enforce consistent object detection across different transformations of the same images. To address the above issues, we propose a Comprehensive Attention Self-Distillation (CASD) training approach for WSOD. To balance feature learning among all object instances, CASD computes the comprehensive attention aggregated from multiple transformations and feature layers of the same images. To enforce consistent spatial supervision on objects, CASD conducts self-distillation on the WSOD networks, such that the comprehensive attention is approximated simultaneously by multiple transformations and feature layers of the same images. CASD produces new state-of-the-art WSOD results on standard benchmarks such as PASCAL VOC 2007/2012 and MS-COCO.
翻訳日:2022-10-04 05:47:05 公開日:2020-10-22
# Deep Image Priors を使って対実的説明を生成する

Using Deep Image Priors to Generate Counterfactual Explanations ( http://arxiv.org/abs/2010.12046v1 )

ライセンス: Link先を確認
Vivek Narayanaswamy, Jayaraman J. Thiagarajan, Andreas Spanias(参考訳) 注意深く調整された畳み込みニューラルネットワークアーキテクチャを使うことで、潜在表現エンコーディングから前画像を取得するために、ディープイメージプリアー(dip)が使用できる。 ディップインバージョンは、全変動のような従来の正規化反転戦略よりも優れていることが知られているが、そのような過パラメータ生成器は、元のデータ分布にない画像でも効果的に再構築することができる。 この制限は、モデル予測の変更を体系的に導く画像に小さな解釈可能な変更を発生させることを目標とする、偽物推論のようなタスクにそのような優先順位を使うことを難しくする。 そこで本研究では,予測器と共同で訓練した補助損失推定器に基づく新しい正規化戦略を提案する。 実世界のISIC皮膚病変検出問題を用いた実証研究は,本手法が有意義な偽物合成に有効であることを示すものである。 比較すると、標準的なDIPインバージョンは、画像の無関係な部分に対する視覚的に知覚できない摂動をしばしば提案し、モデル行動に関する追加の洞察を与えない。

Through the use of carefully tailored convolutional neural network architectures, a deep image prior (DIP) can be used to obtain pre-images from latent representation encodings. Though DIP inversion has been known to be superior to conventional regularized inversion strategies such as total variation, such an over-parameterized generator is able to effectively reconstruct even images that are not in the original data distribution. This limitation makes it challenging to utilize such priors for tasks such as counterfactual reasoning, wherein the goal is to generate small, interpretable changes to an image that systematically leads to changes in the model prediction. To this end, we propose a novel regularization strategy based on an auxiliary loss estimator jointly trained with the predictor, which efficiently guides the prior to recover natural pre-images. Our empirical studies with a real-world ISIC skin lesion detection problem clearly evidence the effectiveness of the proposed approach in synthesizing meaningful counterfactuals. In comparison, we find that the standard DIP inversion often proposes visually imperceptible perturbations to irrelevant parts of the image, thus providing no additional insights into the model behavior.
翻訳日:2022-10-04 05:46:48 公開日:2020-10-22
# 単一隠れ層ニューラルネットワークを用いた平均場環境におけるソフトマックス政策勾配のグローバル最適性

Global optimality of softmax policy gradient with single hidden layer neural networks in the mean-field regime ( http://arxiv.org/abs/2010.11858v1 )

ライセンス: Link先を確認
Andrea Agazzi, Jianfeng Lu(参考訳) 無限ホリゾン割引マルコフ決定過程におけるポリシー最適化の問題点をソフトマックス・ポリシーと非線形関数近似法を用いて検討した。 エントロピー正則化による探索が奨励されるとき、我々は平均場状態におけるトレーニングのダイナミクス、例えば広帯域単一層ニューラルネットワークの挙動をモデル化することに集中する。 これらのモデルのダイナミクスは、パラメータ空間における分布のワッサースタイン勾配流として確立される。 我々はさらに,この力学の不動点の初期化に関する穏やかな条件下での大域的最適性を証明する。

We study the problem of policy optimization for infinite-horizon discounted Markov Decision Processes with softmax policy and nonlinear function approximation trained with policy gradient algorithms. We concentrate on the training dynamics in the mean-field regime, modeling e.g., the behavior of wide single hidden layer neural networks, when exploration is encouraged through entropy regularization. The dynamics of these models is established as a Wasserstein gradient flow of distributions in parameter space. We further prove global optimality of the fixed points of this dynamics under mild conditions on their initialization.
翻訳日:2022-10-04 05:39:04 公開日:2020-10-22
# 正規化流れにおける原理補間

Principled Interpolation in Normalizing Flows ( http://arxiv.org/abs/2010.12059v1 )

ライセンス: Link先を確認
Samuel G. Fadel and Sebastian Mair and Ricardo da S. Torres and Ulf Brefeld(参考訳) 正規化フローに基づく生成モデルは、より単純な方法で複雑なデータ分散をモデル化するのに非常に成功している。 しかし、単純な線形補間は、サンプルが観測される領域の外側に補間経路があるため、予期せぬ副作用を示す。 これはガウス基底分布の標準選択によって引き起こされ、補間標本のノルムに見ることができる。 この観察は、ノルムの修正が一般により良い補間をもたらすべきであることを示唆するが、曖昧な方法でノルムの修正方法が明確ではない。 本稿では, 固定ノルムを強制し, 基本分布を変化させ, 原理的な補間方法を可能にすることにより, この問題を解決した。 具体的には、ディリクレとフォン・ミセス=フィッシャー基底分布を用いる。 実験の結果, 1次元当たりのビット数, fr\'echetインセプション距離 (fid) およびカーネルインセプションスコア (kid) において,同じ生成性能を維持しながら優れた性能を示した。

Generative models based on normalizing flows are very successful in modeling complex data distributions using simpler ones. However, straightforward linear interpolations show unexpected side effects, as interpolation paths lie outside the area where samples are observed. This is caused by the standard choice of Gaussian base distributions and can be seen in the norms of the interpolated samples. This observation suggests that correcting the norm should generally result in better interpolations, but it is not clear how to correct the norm in an unambiguous way. In this paper, we solve this issue by enforcing a fixed norm and, hence, change the base distribution, to allow for a principled way of interpolation. Specifically, we use the Dirichlet and von Mises-Fisher base distributions. Our experimental results show superior performance in terms of bits per dimension, Fr\'echet Inception Distance (FID), and Kernel Inception Distance (KID) scores for interpolation, while maintaining the same generative performance.
翻訳日:2022-10-04 05:37:39 公開日:2020-10-22
# 過パラメータ化テンソル分解のための遅延トレーニング

Beyond Lazy Training for Over-parameterized Tensor Decomposition ( http://arxiv.org/abs/2010.11356v1 )

ライセンス: Link先を確認
Xiang Wang, Chenwei Wu, Jason D. Lee, Tengyu Ma, Rong Ge(参考訳) オーバーパラメトリゼーションはニューラルネットワークのトレーニングにおいて重要なテクニックである。 理論と実践の両方において、より大きなネットワークをトレーニングすることで、最適化アルゴリズムは悪い局所最適解を避けることができる。 本稿では、密接に関連するテンソル分解問題について考察する:$(R^d)^{\otimes l}$ of rank $r$ (where $r\ll d$) の$l$-階テンソルが与えられたとき、勾配降下の変種は階数$m$分解を見つけることができる:$m > r$? 遅延学習系(ニューラルネットワークのNTK則と似ている)では、少なくとも$m = \Omega(d^{l-1})$が必要であるが、勾配降下の変種は$m = O^*(r^{2.5l}\log d)$のときに近似テンソルを見つけることができる。 以上の結果から,過パラメータ化対象の勾配勾配は遅延学習体制を超え,データの低ランク構造を利用する可能性が示唆された。

Over-parametrization is an important technique in training neural networks. In both theory and practice, training a larger network allows the optimization algorithm to avoid bad local optimal solutions. In this paper we study a closely related tensor decomposition problem: given an $l$-th order tensor in $(R^d)^{\otimes l}$ of rank $r$ (where $r\ll d$), can variants of gradient descent find a rank $m$ decomposition where $m > r$? We show that in a lazy training regime (similar to the NTK regime for neural networks) one needs at least $m = \Omega(d^{l-1})$, while a variant of gradient descent can find an approximate tensor when $m = O^*(r^{2.5l}\log d)$. Our results show that gradient descent on over-parametrized objective could go beyond the lazy training regime and utilize certain low-rank structure in the data.
翻訳日:2022-10-04 05:30:56 公開日:2020-10-22
# ランダムコーディネート アンダーダム モンテカルロ

Random Coordinate Underdamped Langevin Monte Carlo ( http://arxiv.org/abs/2010.11366v1 )

ライセンス: Link先を確認
Zhiyan Ding and Qin Li and Jianfeng Lu and Stephen J. Wright(参考訳) アンダーダムド・ランゲヴィン・モンテカルロ(Underdamped Langevin Monte Carlo、ULMC)は、マルコフ連鎖モンテカルロサンプリング法である。 各繰り返しにおけるログ密度の全勾配の計算が必要であり、問題の大きさが高い場合の高価な演算である。 本稿では,Random Coordinate ULMC (RC-ULMC) と呼ばれるサンプリング手法を提案する。 RC-ULMCの計算複雑性について検討し,従来のULMCと比較した。 RC-ULMCは従来のULMCよりも常に安価であり,高いスキュードと高次元の場合にはコスト削減が図られる。 RC-ULMCの複雑性も、次元依存の観点からは厳密である。

The Underdamped Langevin Monte Carlo (ULMC) is a popular Markov chain Monte Carlo sampling method. It requires the computation of the full gradient of the log-density at each iteration, an expensive operation if the dimension of the problem is high. We propose a sampling method called Random Coordinate ULMC (RC-ULMC), which selects a single coordinate at each iteration to be updated and leaves the other coordinates untouched. We investigate the computational complexity of RC-ULMC and compare it with the classical ULMC for strongly log-concave probability distributions. We show that RC-ULMC is always cheaper than the classical ULMC, with a significant cost reduction when the problem is highly skewed and high dimensional. Our complexity bound for RC-ULMC is also tight in terms of dimension dependence.
翻訳日:2022-10-04 05:30:32 公開日:2020-10-22
# 時系列における早期異常検出 : 重篤な健康エピソードを予測するための階層的アプローチ

Early Anomaly Detection in Time Series: A Hierarchical Approach for Predicting Critical Health Episodes ( http://arxiv.org/abs/2010.11595v1 )

ライセンス: Link先を確認
Vitor Cerqueira, Luis Torgo, Carlos Soares(参考訳) 時系列データにおける異常事象の早期検出は多くのアプリケーション領域において不可欠である。 本稿では,病院の集中治療室における致命的な死亡原因を示す重要な健康イベントに対処する。 これらのイベントのタイムリーな予測は、結果の緩和と医療の改善に不可欠です。 早期異常検出問題に取り組む最も一般的なアプローチの1つは、標準分類法である。 本稿では,これらの課題に対処するための階層型学習アーキテクチャを用いた新しい手法を提案する。 私たちの研究の重要な貢献の1つは条件付きイベントのアイデアであり、これは興味のある事象の任意だが計算可能な緩和版を意味する。 私たちはこのアイデアを活用して、元の問題を2つの階層的な層に分割します。 以上の結果から, 提案手法は, 重篤な健康エピソード予測のための最先端技術と比較して, より優れたパフォーマンスをもたらすことが示唆された。

The early detection of anomalous events in time series data is essential in many domains of application. In this paper we deal with critical health events, which represent a significant cause of mortality in intensive care units of hospitals. The timely prediction of these events is crucial for mitigating their consequences and improving healthcare. One of the most common approaches to tackle early anomaly detection problems is standard classification methods. In this paper we propose a novel method that uses a layered learning architecture to address these tasks. One key contribution of our work is the idea of pre-conditional events, which denote arbitrary but computable relaxed versions of the event of interest. We leverage this idea to break the original problem into two hierarchical layers, which we hypothesize are easier to solve. The results suggest that the proposed approach leads to a better performance relative to state of the art approaches for critical health episode prediction.
翻訳日:2022-10-04 05:29:40 公開日:2020-10-22
# coindice:オフポリシー信頼区間推定

CoinDICE: Off-Policy Confidence Interval Estimation ( http://arxiv.org/abs/2010.11652v1 )

ライセンス: Link先を確認
Bo Dai, Ofir Nachum, Yinlam Chow, Lihong Li, Csaba Szepesv\'ari and Dale Schuurmans(参考訳) そこでは、未知の行動ポリシーによって収集された静的な経験データセットのみにアクセスした場合のみ、目標とする政策値の信頼区間を推定することを目的としている。 関数空間を$Q$-関数の線形プログラム定式化の埋め込みから始めると、一般化された方程式の制約を推定する最適化問題が得られる。 一般化された経験的確率法をラグランジアンに適用することにより、信頼区間を計算するための新しい効率的なアルゴリズムであるCoinDICEを提案する。 理論的には、得られた信頼区間は漸近的および有限サンプルレジームの両方において有効であることが証明される。 実験では,従来の手法よりも信頼区間推定が厳密で正確であることを示す。

We study high-confidence behavior-agnostic off-policy evaluation in reinforcement learning, where the goal is to estimate a confidence interval on a target policy's value, given only access to a static experience dataset collected by unknown behavior policies. Starting from a function space embedding of the linear program formulation of the $Q$-function, we obtain an optimization problem with generalized estimating equation constraints. By applying the generalized empirical likelihood method to the resulting Lagrangian, we propose CoinDICE, a novel and efficient algorithm for computing confidence intervals. Theoretically, we prove the obtained confidence intervals are valid, in both asymptotic and finite-sample regimes. Empirically, we show in a variety of benchmarks that the confidence interval estimates are tighter and more accurate than existing methods.
翻訳日:2022-10-04 05:29:03 公開日:2020-10-22
# テンソル因子化と最大コレノピー基準に基づくロバスト低ツバルランクテンソルコンプリート

Robust Low-tubal-rank Tensor Completion based on Tensor Factorization and Maximum Correntopy Criterion ( http://arxiv.org/abs/2010.11740v1 )

ライセンス: Link先を確認
Yicong He, George K. Atia(参考訳) テンソル完成の目標は、しばしばその低位の性質を利用して、そのエントリのサブセットからテンソルを回復することである。 テンソル階数に関するいくつかの有用な定義の中で、低ツバル階数はテンソルの固有の低階構造に価値ある特徴を与えることを示した。 これらのアルゴリズムは2次統計を用いてエラー残差を測定するが、観測されたエントリが大きな外れ値を含む場合、うまく動作しない可能性がある。 本稿では,コレントロピーを誤差尺度として用いて,外乱の影響を緩和する,低次テンソル完備化のための新たな目的関数を提案する。 提案する目的を効率的に最適化するために, 重み付き低ランクテンソル因子分解問題に変換する半量子最小化手法を応用した。 そこで本研究では,2つの単純かつ効率的なアルゴリズムを提案し,その収束と複雑性解析を行う。 合成データと実データの両方を用いた数値結果は,提案アルゴリズムの頑健で優れた性能を示す。

The goal of tensor completion is to recover a tensor from a subset of its entries, often by exploiting its low-rank property. Among several useful definitions of tensor rank, the low-tubal-rank was shown to give a valuable characterization of the inherent low-rank structure of a tensor. While some low-tubal-rank tensor completion algorithms with favorable performance have been recently proposed, these algorithms utilize second-order statistics to measure the error residual, which may not work well when the observed entries contain large outliers. In this paper, we propose a new objective function for low-tubal-rank tensor completion, which uses correntropy as the error measure to mitigate the effect of the outliers. To efficiently optimize the proposed objective, we leverage a half-quadratic minimization technique whereby the optimization is transformed to a weighted low-tubal-rank tensor factorization problem. Subsequently, we propose two simple and efficient algorithms to obtain the solution and provide their convergence and complexity analysis. Numerical results using both synthetic and real data demonstrate the robust and superior performance of the proposed algorithms.
翻訳日:2022-10-04 05:28:48 公開日:2020-10-22
# 自己監督型シャドウ除去

Self-Supervised Shadow Removal ( http://arxiv.org/abs/2010.11619v1 )

ライセンス: Link先を確認
Florin-Alexandru Vasluianu and Andres Romero and Luc Van Gool and Radu Timofte(参考訳) シャドウ除去は、遮蔽光源によって生成されたシャドウの検出と除去、および画像内容のフォトリアリスティックな復元を目的とした重要なコンピュータビジョンタスクである。 何度も手作りの修復技術を生み出し、最近では陰影のない訓練画像のペアから解法を学んだ。 本研究では,条件付きマスクを用いた自己教師付き学習による教師なしシングルイメージシャドウ除去ソリューションを提案する。 既存の文献とは対照的に、一対のシャドウとシャドウのない画像は必要とせず、自己スーパービジョンに頼り、画像にシャドウを取り除いて追加するために深いモデルを共同で学習する。 我々は最近導入されたISTDデータセットとUSRデータセットに対するアプローチを検証する。 比較手法よりも定量的,質的に大きく改善し,単一画像シャドウ除去における新しい最先端性能を設定した。

Shadow removal is an important computer vision task aiming at the detection and successful removal of the shadow produced by an occluded light source and a photo-realistic restoration of the image contents. Decades of re-search produced a multitude of hand-crafted restoration techniques and, more recently, learned solutions from shad-owed and shadow-free training image pairs. In this work,we propose an unsupervised single image shadow removal solution via self-supervised learning by using a conditioned mask. In contrast to existing literature, we do not require paired shadowed and shadow-free images, instead we rely on self-supervision and jointly learn deep models to remove and add shadows to images. We validate our approach on the recently introduced ISTD and USR datasets. We largely improve quantitatively and qualitatively over the compared methods and set a new state-of-the-art performance in single image shadow removal.
翻訳日:2022-10-04 05:23:13 公開日:2020-10-22
# 離散グラフィカルモデルにおける変分推論のための確率回路

Probabilistic Circuits for Variational Inference in Discrete Graphical Models ( http://arxiv.org/abs/2010.11446v1 )

ライセンス: Link先を確認
Andy Shih, Stefano Ermon(参考訳) エビデンス・ロウアー・バウンド(ELBO)の勾配を再パラメータ化できないため、変分法による離散的グラフィカルモデルの推論は困難である。 これらの勾配を推定するために多くのサンプリングベースの手法が提案されているが、高いバイアスやばらつきに苦しむ。 本稿では,ある種類の密度に対するELBO勾配を正確に(サンプリングなしで)計算するために, Sum Product Networks (SPN) などの確率回路モデルのトラクタビリティを活用する新しい手法を提案する。 特に、選択的SPNが表現的変動分布に適していることを示し、対象モデルの対数密度が多項式である場合、対応するELBOを解析的に計算できることを証明する。 何千もの変数を持つグラフィカルモデルにスケールするために、$o(kn)$というサイズの選択的spnを効率的かつ効果的に構築し、ここで$n$は変数の数、$k$は調整可能なハイパーパラメータである。 我々は、Ising Model、Latent Dirichlet Allocation、UAI推論コンペティションの因子グラフの3種類のグラフィカルモデルに対するアプローチを実証する。 Selective-SPNs は平均場や構造平均場よりも良い下界を与え、Loopy Belief Propagation や Tree-Reweighted Belief Propagation のような下界を提供しない近似と競合する。 その結果,確率回路は可搬性と表現性を兼ね備えた離散グラフィカルモデルにおける変分推論に有望なツールであることがわかった。

Inference in discrete graphical models with variational methods is difficult because of the inability to re-parameterize gradients of the Evidence Lower Bound (ELBO). Many sampling-based methods have been proposed for estimating these gradients, but they suffer from high bias or variance. In this paper, we propose a new approach that leverages the tractability of probabilistic circuit models, such as Sum Product Networks (SPN), to compute ELBO gradients exactly (without sampling) for a certain class of densities. In particular, we show that selective-SPNs are suitable as an expressive variational distribution, and prove that when the log-density of the target model is a polynomial the corresponding ELBO can be computed analytically. To scale to graphical models with thousands of variables, we develop an efficient and effective construction of selective-SPNs with size $O(kn)$, where $n$ is the number of variables and $k$ is an adjustable hyperparameter. We demonstrate our approach on three types of graphical models -- Ising models, Latent Dirichlet Allocation, and factor graphs from the UAI Inference Competition. Selective-SPNs give a better lower bound than mean-field and structured mean-field, and is competitive with approximations that do not provide a lower bound, such as Loopy Belief Propagation and Tree-Reweighted Belief Propagation. Our results show that probabilistic circuits are promising tools for variational inference in discrete graphical models as they combine tractability and expressivity.
翻訳日:2022-10-04 05:22:40 公開日:2020-10-22
# 部分モジュラー目的関数による計画

Planning with Submodular Objective Functions ( http://arxiv.org/abs/2010.11863v1 )

ライセンス: Link先を確認
Ruosong Wang, Hanrui Zhang, Devendra Singh Chaplot, Denis Garagi\'c, Ruslan Salakhutdinov(参考訳) 本研究の目的は, 累積報酬を最大化する代わりに, サブモジュラー関数によって誘導される目標値を最大化することである。 本フレームワークは, 基準制約を特別な場合として, 標準計画と部分モジュラー最大化を仮定するので, 本フレームワーク内で多くの実用的応用を自然に定式化することができる。 マルチリニア拡張の概念に基づき,上述の2つの特別な場合に適用した場合に古典的アルゴリズムを復元する部分モジュラー目的関数を用いた計画のための,新規かつ理論的に原理化されたアルゴリズムフレームワークを提案する。 提案手法は, 合成環境やナビゲーションタスクにおいて, ベースラインアルゴリズムを著しく上回っている。

We study planning with submodular objective functions, where instead of maximizing the cumulative reward, the goal is to maximize the objective value induced by a submodular function. Our framework subsumes standard planning and submodular maximization with cardinality constraints as special cases, and thus many practical applications can be naturally formulated within our framework. Based on the notion of multilinear extension, we propose a novel and theoretically principled algorithmic framework for planning with submodular objective functions, which recovers classical algorithms when applied to the two special cases mentioned above. Empirically, our approach significantly outperforms baseline algorithms on synthetic environments and navigation tasks.
翻訳日:2022-10-04 05:20:49 公開日:2020-10-22
# ニューラル・シンボリック統合 : 構成的視点

Neural-Symbolic Integration: A Compositional Perspective ( http://arxiv.org/abs/2010.11926v1 )

ライセンス: Link先を確認
Efthymia Tsamoura, Loizos Michael(参考訳) ニューラルシンボリックフレームワークの開発はかなり進展したものの、ニューラルシンボリックシステムとシンボリックシステムをいかに統合するかという問題は未解決のままである。 我々の研究は、これらの2つのシステムをブラックボックスとして扱い、内部構造や意味論を仮定することなく単一のアーキテクチャにモジュールとして統合することで、このギャップを埋めようとしている。 代わりに、各モジュールがモジュールが実装する関数にアクセスするための特定のメソッドを公開することだけを期待する: シンボリックモジュールは、与えられた入力で関数の出力を計算する推論メソッドと、与えられた出力に対する関数の入力を計算するアブダクションメソッドと、ニューラルネットワークは、与えられた入力で関数の出力を計算する推論メソッドと、与えられた入力出力のトレーニングインスタンスを更新するための誘導メソッドを公開する。 そして、私たちは、シンボリックモジュール -- 構文とセマンティクスの選択は、推論とアブダクションメソッドが露出している限り -- が神経モジュールときれいに統合できることを示すことができ、後者の効率的なトレーニングを促進し、以前の作業よりも優れた経験的パフォーマンスを達成することができます。

Despite significant progress in the development of neural-symbolic frameworks, the question of how to integrate a neural and a symbolic system in a \emph{compositional} manner remains open. Our work seeks to fill this gap by treating these two systems as black boxes to be integrated as modules into a single architecture, without making assumptions on their internal structure and semantics. Instead, we expect only that each module exposes certain methods for accessing the functions that the module implements: the symbolic module exposes a deduction method for computing the function's output on a given input, and an abduction method for computing the function's inputs for a given output; the neural module exposes a deduction method for computing the function's output on a given input, and an induction method for updating the function given input-output training instances. We are, then, able to show that a symbolic module -- with any choice for syntax and semantics, as long as the deduction and abduction methods are exposed -- can be cleanly integrated with a neural module, and facilitate the latter's efficient training, achieving empirical performance that exceeds that of previous work.
翻訳日:2022-10-04 05:20:37 公開日:2020-10-22
# コンテキスト帯域におけるユーザ側フェアネスの実現

Achieving User-Side Fairness in Contextual Bandits ( http://arxiv.org/abs/2010.12102v1 )

ライセンス: Link先を確認
Wen Huang and Kevin Labille and Xintao Wu and Dongwon Lee and Neil Heffernan(参考訳) マルチアームバンディット(mab)アルゴリズムに基づくパーソナライズドレコメンデーションは、フィードバックに基づいてレコメンデーション戦略を動的に適応できるため、高い実用性と効率性をもたらすことが示されている。 しかし、不公平はパーソナライズドレコメンデーションを引き起こす可能性がある。 本稿では,パーソナライズドレコメンデーションにおいて,ユーザ側の公平性を実現する方法について検討する。 我々は,修正されたコンテキスト・バンディットとして,公平なパーソナライズド・レコメンデーションを定式化し,推奨されるアイテムの公平性を達成するのではなく,アイテムを推奨している個人に対して公平性を達成することに注力する。 我々は、特権グループと保護グループの両方に対して受け取った報酬の観点から、公平さを捉える指標を導入し、定義する。 そこで我々は,従来のlinucbアルゴリズムを改良し,グループレベルの公平性を実現するフェアコンテクストバンディットアルゴリズムfair-linucbを開発した。 アルゴリズムは不公平を検知・監視し,生徒にパーソナライズした動画を推薦することで高効率化を図る。 理論的な後悔の分析を行い,本アルゴリズムがlinucbよりも若干高い後悔率を持つことを示す。 提案手法は,LinUCBのそれと比較し,高い有効性を維持しつつグループレベルの公正性を達成できることを示すため,多数の実験的な評価を行った。

Personalized recommendation based on multi-arm bandit (MAB) algorithms has shown to lead to high utility and efficiency as it can dynamically adapt the recommendation strategy based on feedback. However, unfairness could incur in personalized recommendation. In this paper, we study how to achieve user-side fairness in personalized recommendation. We formulate our fair personalized recommendation as a modified contextual bandit and focus on achieving fairness on the individual whom is being recommended an item as opposed to achieving fairness on the items that are being recommended. We introduce and define a metric that captures the fairness in terms of rewards received for both the privileged and protected groups. We develop a fair contextual bandit algorithm, Fair-LinUCB, that improves upon the traditional LinUCB algorithm to achieve group-level fairness of users. Our algorithm detects and monitors unfairness while it learns to recommend personalized videos to students to achieve high efficiency. We provide a theoretical regret analysis and show that our algorithm has a slightly higher regret bound than LinUCB. We conduct numerous experimental evaluations to compare the performances of our fair contextual bandit to that of LinUCB and show that our approach achieves group-level fairness while maintaining a high utility.
翻訳日:2022-10-04 05:20:12 公開日:2020-10-22
# n-ode変圧器 : 神経常微分方程式を用いた深さ適応変圧器

N-ODE Transformer: A Depth-Adaptive Variant of the Transformer Using Neural Ordinary Differential Equations ( http://arxiv.org/abs/2010.11358v1 )

ライセンス: Link先を確認
Aaron Baier-Reinio and Hans De Sterck(参考訳) 神経常微分方程式を用いて、入力依存時間ステップが常微分方程式ソルバによって取られるという意味で、深さ適応的なトランスフォーマーの変形を定式化する。 N-ODE変換器の目的は、その深度適応性が非局所的な効果を扱う上で、トランスフォーマーの特定の理論的限界を克服するのに役立つかどうかを検討することである。 具体的には、標準トランスフォーマーが十分な数のレイヤーやアテンションヘッドを使用することで克服できるような、既知の制限を持つバイナリシーケンスのパリティを決定するという単純な問題について考察する。 しかし、N-ODE変換器の深さ適応性は、パリティ問題の本質的に非局所的な性質に対する対策を提供しておらず、なぜそうなのかを説明する。 次に、N-ODE変換器の正則化をODEトラジェクトリの弧長をペナル化することで追求するが、これは難解なパリティ問題に対するN-ODE変換器の精度や効率を改善するのに失敗する。 ニューラルマシン翻訳などのシーケンスモデリングタスクの精度と効率の向上につながる可能性があるN-ODE変換器の修正と拡張に関する研究の今後について提案する。

We use neural ordinary differential equations to formulate a variant of the Transformer that is depth-adaptive in the sense that an input-dependent number of time steps is taken by the ordinary differential equation solver. Our goal in proposing the N-ODE Transformer is to investigate whether its depth-adaptivity may aid in overcoming some specific known theoretical limitations of the Transformer in handling nonlocal effects. Specifically, we consider the simple problem of determining the parity of a binary sequence, for which the standard Transformer has known limitations that can only be overcome by using a sufficiently large number of layers or attention heads. We find, however, that the depth-adaptivity of the N-ODE Transformer does not provide a remedy for the inherently nonlocal nature of the parity problem, and provide explanations for why this is so. Next, we pursue regularization of the N-ODE Transformer by penalizing the arclength of the ODE trajectories, but find that this fails to improve the accuracy or efficiency of the N-ODE Transformer on the challenging parity problem. We suggest future avenues of research for modifications and extensions of the N-ODE Transformer that may lead to improved accuracy and efficiency for sequence modelling tasks such as neural machine translation.
翻訳日:2022-10-04 05:14:04 公開日:2020-10-22
# ニューラルマルチホップ質問生成のための強力なトランスフォーマー

Stronger Transformers for Neural Multi-Hop Question Generation ( http://arxiv.org/abs/2010.11374v1 )

ライセンス: Link先を確認
Devendra Singh Sachan and Lingfei Wu and Mrinmaya Sachan and William Hamilton(参考訳) 自動質問生成に関する以前の作業は、ほとんど1つのドキュメントから回答を抽出できる単純な質問の生成に重点を置いてきた。 しかし、より複雑なマルチホップ質問生成が可能なシステム開発への関心が高まっており、質問に答えるためには複数の文書の推論が必要である。 本稿では,テキスト内のエンティティ間の関係を利用するグラフ型トランスフォーマを含む,マルチホップ質問生成のための一連の強力なトランスフォーマモデルを提案する。 従来の研究はグラフベースモデルの重要性を強調してきたが、標準的なトランスフォーマーアーキテクチャを用いて、最先端の5 BLEUポイントを著しく上回ることができることを示す。 さらに、この基盤の上にグラフベースの拡張が補完的な改善をもたらすことを実証する。 興味深いことに、補助的な対比目的やデータフィルタリングなど、いくつかの重要な要素がパフォーマンスに大きな影響を与える可能性がある。 我々は,我々の強い基盤線と分析が,この分野の今後の研究に建設的な基盤を提供することを期待している。

Prior work on automated question generation has almost exclusively focused on generating simple questions whose answers can be extracted from a single document. However, there is an increasing interest in developing systems that are capable of more complex multi-hop question generation, where answering the questions requires reasoning over multiple documents. In this work, we introduce a series of strong transformer models for multi-hop question generation, including a graph-augmented transformer that leverages relations between entities in the text. While prior work has emphasized the importance of graph-based models, we show that we can substantially outperform the state-of-the-art by 5 BLEU points using a standard transformer architecture. We further demonstrate that graph-based augmentations can provide complimentary improvements on top of this foundation. Interestingly, we find that several important factors--such as the inclusion of an auxiliary contrastive objective and data filtering could have larger impacts on performance. We hope that our stronger baselines and analysis provide a constructive foundation for future work in this area.
翻訳日:2022-10-04 05:13:41 公開日:2020-10-22
# 意識に基づくNLIモデルを用いた常識知識の双線形融合

Bilinear Fusion of Commonsense Knowledge with Attention-Based NLI Models ( http://arxiv.org/abs/2010.11562v1 )

ライセンス: Link先を確認
Amit Gajbhiye, Thomas Winterbottom, Noura Al Moubayed, and Steven Bradley(参考訳) 我々は,現実世界のコモンセンス知識を深層自然言語推論(NLI)モデルに組み込む作業を検討する。 既存の外部知識の定式化手法は語彙レベルの知識に限られており、NLIモデル、データセット、コモンセンス知識ソースにまたがる一般化が欠如している。 これらの問題に対処するため,我々は新しいnliモデル非依存ニューラルフレームワークbicamを提案する。 BiCAMは現実世界の常識知識をNLIモデルに組み込んでいる。 畳み込み型特徴検出器と双線形特徴融合を組み合わせることで、BiCAMは概念的に単純なメカニズムを提供する。 SNLIデータセットとSciTailデータセットの2つの最先端NLIベースラインとConceptNetとAristo Tuple KGの併用による定量的評価は、BiCAMが組み込まれたNLIベースラインの精度を大幅に向上することを示している。 例えば、挑戦的なSciTailデータセット上のBiCAMのインスタンスである私たちのBiECAMモデルは、ConceptNetで組み込まれたベースラインの精度を7.0%、Aristo Tuple KGで8.0%向上します。

We consider the task of incorporating real-world commonsense knowledge into deep Natural Language Inference (NLI) models. Existing external knowledge incorporation methods are limited to lexical level knowledge and lack generalization across NLI models, datasets, and commonsense knowledge sources. To address these issues, we propose a novel NLI model-independent neural framework, BiCAM. BiCAM incorporates real-world commonsense knowledge into NLI models. Combined with convolutional feature detectors and bilinear feature fusion, BiCAM provides a conceptually simple mechanism that generalizes well. Quantitative evaluations with two state-of-the-art NLI baselines on SNLI and SciTail datasets in conjunction with ConceptNet and Aristo Tuple KGs show that BiCAM considerably improves the accuracy the incorporated NLI baselines. For example, our BiECAM model, an instance of BiCAM, on the challenging SciTail dataset, improves the accuracy of incorporated baselines by 7.0% with ConceptNet, and 8.0% with Aristo Tuple KG.
翻訳日:2022-10-04 05:13:00 公開日:2020-10-22
# 教師なしデータ拡張とラベルなしデータなしでのナイーブ拡張

Unsupervised Data Augmentation with Naive Augmentation and without Unlabeled Data ( http://arxiv.org/abs/2010.11966v1 )

ライセンス: Link先を確認
David Lowell, Brian E. Howard, Zachary C. Lipton, Byron C. Wallace(参考訳) unsupervised data augmentation (uda) は、モデルの予測間の差異をペナライズするために一貫性損失を適用する半教師付き手法である。 (a)観察例(ラベルなし)、及び (b)データ拡張によって生成された対応する「通知」の例 UDAはテキスト分類で人気を得ているが、どの設計決定が必要か、どのようにメソッドをシーケンシャルなラベリングタスクに拡張するかなど、オープンな質問が飛び交っている。 この手法は最近、テキスト分類に力を入れている。 本稿では,UDAを再検討し,その有効性を示す。 我々の主な貢献は、アルゴリズムのどの要素がNLPの利点を与えるかを確立するためのUDAの実証的研究である。 特に,先行研究ではバックトランスレーションを含む巧妙な補足手法の使用が強調されているが,観察された単語とランダムに置換された単語に割り当てられた予測間の一貫性が,これらの複雑な摂動モデルと同等(あるいはそれ以上)の利益をもたらすことが多い。 さらに,その一貫性を損なうことで,ラベルなしのデータ,すなわち標準的な教師付き設定が不要な有意義な利益が得られることが分かった。 要するに、UDAは教師なしでなくても、複雑なデータ拡張が効果的である必要はない。

Unsupervised Data Augmentation (UDA) is a semi-supervised technique that applies a consistency loss to penalize differences between a model's predictions on (a) observed (unlabeled) examples; and (b) corresponding 'noised' examples produced via data augmentation. While UDA has gained popularity for text classification, open questions linger over which design decisions are necessary and over how to extend the method to sequence labeling tasks. This method has recently gained traction for text classification. In this paper, we re-examine UDA and demonstrate its efficacy on several sequential tasks. Our main contribution is an empirical study of UDA to establish which components of the algorithm confer benefits in NLP. Notably, although prior work has emphasized the use of clever augmentation techniques including back-translation, we find that enforcing consistency between predictions assigned to observed and randomly substituted words often yields comparable (or greater) benefits compared to these complex perturbation models. Furthermore, we find that applying its consistency loss affords meaningful gains without any unlabeled data at all, i.e., in a standard supervised setting. In short: UDA need not be unsupervised, and does not require complex data augmentation to be effective.
翻訳日:2022-10-04 05:12:09 公開日:2020-10-22
# 科学文書からのキーフレーズ抽出のための自己蒸留に基づく共同学習手法

A Joint Learning Approach based on Self-Distillation for Keyphrase Extraction from Scientific Documents ( http://arxiv.org/abs/2010.11980v1 )

ライセンス: Link先を確認
Tuan Manh Lai, Trung Bui, Doo Soon Kim, Quan Hung Tran(参考訳) キーフレーズ抽出(英: Keyphrase extract)は、文書を最もよく記述するフレーズの小さなセットを抽出するタスクである。 このタスクの既存のベンチマークデータセットの多くは、注釈付きドキュメントの数が少ないため、複雑なニューラルネットワークのトレーニングが難しくなっている。 対照的に、デジタル図書館は何百万もの科学論文をオンラインで保存し、幅広いトピックをカバーしている。 これらの記事の大部分は、著者によって提供されるキーフレーズを含んでいるが、他のほとんどの記事にはそのようなアノテーションがない。 そこで,このような大量のラベルのない論文を効果的に活用するために,自己蒸留の考え方に基づいた簡便で効率的な共同学習手法を提案する。 実験の結果,提案手法はキーフレーズ抽出のためのベースラインモデルの性能を一貫して改善することが示された。 さらに,我々の最良モデルは,InspecとSemEval-2017の2つの公開ベンチマークにおいて,従来の手法よりも優れた結果を得た。

Keyphrase extraction is the task of extracting a small set of phrases that best describe a document. Most existing benchmark datasets for the task typically have limited numbers of annotated documents, making it challenging to train increasingly complex neural networks. In contrast, digital libraries store millions of scientific articles online, covering a wide range of topics. While a significant portion of these articles contain keyphrases provided by their authors, most other articles lack such kind of annotations. Therefore, to effectively utilize these large amounts of unlabeled articles, we propose a simple and efficient joint learning approach based on the idea of self-distillation. Experimental results show that our approach consistently improves the performance of baseline models for keyphrase extraction. Furthermore, our best models outperform previous methods for the task, achieving new state-of-the-art results on two public benchmarks: Inspec and SemEval-2017.
翻訳日:2022-10-04 05:11:46 公開日:2020-10-22
# 学習資源分布を考慮した高効率スケール置換バックボーン

Efficient Scale-Permuted Backbone with Learned Resource Distribution ( http://arxiv.org/abs/2010.11426v1 )

ライセンス: Link先を確認
Xianzhi Du, Tsung-Yi Lin, Pengchong Jin, Yin Cui, Mingxing Tan, Quoc Le, and Xiaodan Song(参考訳) 最近、SpineNetはResNetモデルによるオブジェクト検出と画像分類の有望な結果を実証している。 しかし、拡張性のあるバックボーンと高度な効率的な操作と複合スケーリングを組み合わせた場合、改善が増すかどうかは不明である。 さらに、spinernetは操作上の均一なリソース分散で構築されている。 この戦略は、スケール劣化モデルでは一般的と思われるが、スケール変動モデルでは最適設計ではないかもしれない。 本研究では,従来学習したスケールアミュートアーキテクチャと効率的な操作と複合スケーリングを組み合わせるための簡易な手法を提案する。 ネットワーク全体のリソース分布を学習することで,スケール置換モデルの効率をさらに向上できることを実証する。 その結果、オブジェクト検出における最先端のEfficientNetベースモデルより効率の良いスケール置換モデルを実現し、画像分類とセマンティックセグメンテーションにおける競合性能を実現する。 コードとモデルは近くオープンソース化される。

Recently, SpineNet has demonstrated promising results on object detection and image classification over ResNet model. However, it is unclear if the improvement adds up when combining scale-permuted backbone with advanced efficient operations and compound scaling. Furthermore, SpineNet is built with a uniform resource distribution over operations. While this strategy seems to be prevalent for scale-decreased models, it may not be an optimal design for scale-permuted models. In this work, we propose a simple technique to combine efficient operations and compound scaling with a previously learned scale-permuted architecture. We demonstrate the efficiency of scale-permuted model can be further improved by learning a resource distribution over the entire network. The resulting efficient scale-permuted models outperform state-of-the-art EfficientNet-based models on object detection and achieve competitive performance on image classification and semantic segmentation. Code and models will be open-sourced soon.
翻訳日:2022-10-04 05:11:30 公開日:2020-10-22
# 分節化のためのタスク適応型特徴変換器

Task-Adaptive Feature Transformer for Few-Shot Segmentation ( http://arxiv.org/abs/2010.11437v1 )

ライセンス: Link先を確認
Jun Seo, Young-Hyun Park, Sung-Whan Yoon, Jaekyun Moon(参考訳) わずかながらの学習により、機械はいくつかのラベル付きサンプルを使用して新しいクラスを分類できる。 近年,低サンプルデータにおける意味的セグメンテーションを指向したショットセグメンテーションも注目されている。 本稿では,タスク適応型特徴変換器 (TAFT) の少数ショットセグメンテーションのための学習可能なモジュールを提案する。 TAFTは、タスク固有の高レベル機能を、セグメンテーションジョブに適したタスクに依存しない一連の特徴に線形変換する。 このタスク条件付き特徴変換を用いて、新しいクラスにおける意味情報を効果的に活用し、タイトなセグメンテーションマスクを生成する。 提案するタフトモジュールは,既存のセマンティクスセグメンテーションアルゴリズムに容易にプラグインできるため,数個のパラメータを追加するだけで,少数ショットセグメンテーション機能を実現することができる。 我々は、TAFTとよく知られたセグメンテーションアーキテクチャであるDeeplab V3+を組み合わせる。PASCAL-$5^i$データセットの実験により、この組み合わせがセグメンテーションアルゴリズムに数発の学習機能を追加し、いくつかの重要なケースで最先端の数発セグメンテーション性能を達成することに成功した。

Few-shot learning allows machines to classify novel classes using only a few labeled samples. Recently, few-shot segmentation aiming at semantic segmentation on low sample data has also seen great interest. In this paper, we propose a learnable module for few-shot segmentation, the task-adaptive feature transformer (TAFT). TAFT linearly transforms task-specific high-level features to a set of task-agnostic features well-suited to the segmentation job. Using this task-conditioned feature transformation, the model is shown to effectively utilize the semantic information in novel classes to generate tight segmentation masks. The proposed TAFT module can be easily plugged into existing semantic segmentation algorithms to achieve few-shot segmentation capability with only a few added parameters. We combine TAFT with Deeplab V3+, a well-known segmentation architecture; experiments on the PASCAL-$5^i$ dataset confirm that this combination successfully adds few-shot learning capability to the segmentation algorithm, achieving the state-of-the-art few-shot segmentation performance in some key representative cases.
翻訳日:2022-10-04 05:11:15 公開日:2020-10-22
# NU-GAN:GANを用いた高分解能神経アップサンプリング

NU-GAN: High resolution neural upsampling with GAN ( http://arxiv.org/abs/2010.11362v1 )

ライセンス: Link先を確認
Rithesh Kumar, Kundan Kumar, Vicki Anand, Yoshua Bengio, Aaron Courville(参考訳) 本稿では,低サンプリングレートから高サンプリングレート (アップサンプリング) までの音声再サンプリング手法であるNU-GANを提案する。 生成音声技術の生成には高いサンプリングレートで運用する必要があるため,オーディオアップサンプリングは重要な問題である。 このようなアプリケーションは44.1kHzまたは48kHzの解像度でオーディオを使用するが、現在の音声合成法は最大24kHzの解像度で処理できる。 NU-GANは、GANを用いた音声生成技術を活用することにより、テキスト音声合成(TTS)パイプラインの別なコンポーネントとして、オーディオアップサンプリングの解決に向けて飛躍的に進んでいる。 ABX選好試験は、我々のNU-GAN再サンプリング装置が22kHzから44.1kHzのオーディオを再サンプリングでき、これは元のオーディオと区別できるが、単一の話者データセットのランダムな確率より7.4%高く、マルチスピーカーデータセットの確率より10.8%高い。

In this paper, we propose NU-GAN, a new method for resampling audio from lower to higher sampling rates (upsampling). Audio upsampling is an important problem since productionizing generative speech technology requires operating at high sampling rates. Such applications use audio at a resolution of 44.1 kHz or 48 kHz, whereas current speech synthesis methods are equipped to handle a maximum of 24 kHz resolution. NU-GAN takes a leap towards solving audio upsampling as a separate component in the text-to-speech (TTS) pipeline by leveraging techniques for audio generation using GANs. ABX preference tests indicate that our NU-GAN resampler is capable of resampling 22 kHz to 44.1 kHz audio that is distinguishable from original audio only 7.4% higher than random chance for single speaker dataset, and 10.8% higher than chance for multi-speaker dataset.
翻訳日:2022-10-04 05:04:14 公開日:2020-10-22
# モノトンサブモジュラー最適化問題に対する多種多様な解集合の計算

Computing Diverse Sets of Solutions for Monotone Submodular Optimisation Problems ( http://arxiv.org/abs/2010.11486v1 )

ライセンス: Link先を確認
Aneta Neumann, Jakob Bossek, Frank Neumann(参考訳) サブモジュラー関数は、多くの現実世界の最適化問題をモデル化することができる。 本稿では,サブモジュール最適化問題に対する多種多様な高品質解の計算手法を提案する。 まず, エントロピーによって測定された多様性と得られた溶液の近似品質について, グリーディサンプリング手法の多様化と解析を行った。 続いて,進化的多様性の最適化手法を導入し,ソリューションセットの多様性をさらに改善する。 本研究は,提案手法を組み合わさることで,高次多様性の高品質な解が得られることを示す,人気サブモジュラーベンチマーク関数に関する実験的研究を行う。

Submodular functions allow to model many real-world optimisation problems. This paper introduces approaches for computing diverse sets of high quality solutions for submodular optimisation problems. We first present diversifying greedy sampling approaches and analyse them with respect to the diversity measured by entropy and the approximation quality of the obtained solutions. Afterwards, we introduce an evolutionary diversity optimisation approach to further improve diversity of the set of solutions. We carry out experimental investigations on popular submodular benchmark functions that show that the combined approaches achieve high quality solutions of large diversity.
翻訳日:2022-10-04 05:03:55 公開日:2020-10-22
# ニューロモルフィック基板を用いた脳誘発学習

Brain-Inspired Learning on Neuromorphic Substrates ( http://arxiv.org/abs/2010.11931v1 )

ライセンス: Link先を確認
Friedemann Zenke and Emre O. Neftci(参考訳) ニューロモルフィックハードウェアは、脳に似たニューラルネットワークをエミュレートし、時間的データストリーム上でスケーラブルで低消費電力の情報処理を約束する。 しかし、現実世界の問題を解決するためには、これらのネットワークを訓練する必要がある。 しかし,ニューロモルフィック基質の学習は,オフラインキャラクタと勾配に基づく学習アルゴリズムの非局所的な計算を必要とするため,大きな課題を生んでいる。 本稿では,神経質基板のための実用的なオンライン学習アルゴリズムの設計のための数学的枠組みを提案する。 具体的には、従来のリカレントニューラルネットワーク(RNN)の勾配を計算するオンラインアルゴリズムであるリアルタイムリカレント学習(RTRL)と、スパイキングニューラルネットワーク(SNN)をトレーニングするための生物学的に妥当な学習規則との直接的な関係を示す。 さらに,ブロック対角的ヤコビアンに基づくスパース近似の動機付けを行い,アルゴリズムの計算複雑性を低減し,非局所的な情報要求を低減し,経験的に学習性能を向上し,ニューロモルフィック基板への適用性を向上させる。 まとめると、我々のフレームワークは、シナプス可塑性とディープラーニングからの勾配に基づくアプローチのギャップを埋め、将来のニューロモルフィックハードウェアシステムにおける強力な情報処理の基礎を築いた。

Neuromorphic hardware strives to emulate brain-like neural networks and thus holds the promise for scalable, low-power information processing on temporal data streams. Yet, to solve real-world problems, these networks need to be trained. However, training on neuromorphic substrates creates significant challenges due to the offline character and the required non-local computations of gradient-based learning algorithms. This article provides a mathematical framework for the design of practical online learning algorithms for neuromorphic substrates. Specifically, we show a direct connection between Real-Time Recurrent Learning (RTRL), an online algorithm for computing gradients in conventional Recurrent Neural Networks (RNNs), and biologically plausible learning rules for training Spiking Neural Networks (SNNs). Further, we motivate a sparse approximation based on block-diagonal Jacobians, which reduces the algorithm's computational complexity, diminishes the non-local information requirements, and empirically leads to good learning performance, thereby improving its applicability to neuromorphic substrates. In summary, our framework bridges the gap between synaptic plasticity and gradient-based approaches from deep learning and lays the foundations for powerful information processing on future neuromorphic hardware systems.
翻訳日:2022-10-04 05:03:44 公開日:2020-10-22
# 長期記憶リカレントニューラルネットワークによるバングラデシュの気温・降雨量の予測

Prediction of Temperature and Rainfall in Bangladesh using Long Short Term Memory Recurrent Neural Networks ( http://arxiv.org/abs/2010.11946v1 )

ライセンス: Link先を確認
Mohammad Mahmudur Rahman Khan, Md. Abu Bakr Siddique, Shadman Sakib, Anas Aziz, Ihtyaz Kader Tasawar, Ziad Hossain(参考訳) 気温と降雨は、地域の季節性疾患の発生とともに、経済成長に大きな影響を及ぼす。 それにもかかわらず、バングラデシュの人工ニューラルネットワークを実装する気象パターンの分析には不十分な研究がなされている。 そこで本研究では,バングラデシュの気象データ115年(1901-2015)を解析し,月ごとの気温と降雨量を予測するための長期短期記憶モデル(lstm)を実装した。 LSTMモデルでは、月の温度を2年間予測する場合の平均誤差は-0.38oC、降雨を予測する場合は-17.64mmである。 この予測モデルは、バングラデシュで発生が地域気温や降雨に依存する季節性疾患の研究だけでなく、気象パターンの変化を理解するのに役立ちます。

Temperature and rainfall have a significant impact on economic growth as well as the outbreak of seasonal diseases in a region. In spite of that inadequate studies have been carried out for analyzing the weather pattern of Bangladesh implementing the artificial neural network. Therefore, in this study, we are implementing a Long Short-term Memory (LSTM) model to forecast the month-wise temperature and rainfall by analyzing 115 years (1901-2015) of weather data of Bangladesh. The LSTM model has shown a mean error of -0.38oC in case of predicting the month-wise temperature for 2 years and -17.64mm in case of predicting the rainfall. This prediction model can help to understand the weather pattern changes as well as studying seasonal diseases of Bangladesh whose outbreaks are dependent on regional temperature and/or rainfall.
翻訳日:2022-10-04 05:03:23 公開日:2020-10-22
# 技術報告:しかし音声翻訳システムは

A Technical Report: BUT Speech Translation Systems ( http://arxiv.org/abs/2010.11593v1 )

ライセンス: Link先を確認
Hari Krishna Vydana, Lukas Burget, Jan Cernocky(参考訳) 本稿では,BUTの音声翻訳システムについて述べる。 システムは英語$\longrightarrow$Germanのオフライン音声翻訳システムである。 システムは、我々の以前の作品 \cite{Jointly_trained_transformers} に基づいている。 エンド・トゥ・エンドとカスケード〜(ASR-MT)音声言語翻訳〜(SLT)システムは同等の性能に達しているが、オラクル入力テキストと比較してASR仮説の翻訳では大きな劣化が見られる。 この性能劣化を抑えるため、補助損失としてASR目標とMTモジュールを共同訓練した。 両方のネットワークは、ニューラル隠れ表現を介して接続される。 このモデルは最終目的関数に関してエンドツーエンドの微分可能パスを持ち、最適化のためにasr目的も利用する。 推論の間、両方の加群(つまり ASR と MT)は、n-best の仮説に対応する隠された表現を通して接続される。 独立に訓練されたASRモデルとMTモデルを組み合わせることで、システムの性能がさらに向上した。

The paper describes the BUT's speech translation systems. The systems are English$\longrightarrow$German offline speech translation systems. The systems are based on our previous works \cite{Jointly_trained_transformers}. Though End-to-End and cascade~(ASR-MT) spoken language translation~(SLT) systems are reaching comparable performances, a large degradation is observed when translating ASR hypothesis compared to the oracle input text. To reduce this performance degradation, we have jointly-trained ASR and MT modules with ASR objective as an auxiliary loss. Both the networks are connected through the neural hidden representations. This model has an End-to-End differentiable path with respect to the final objective function and also utilizes the ASR objective for better optimization. During the inference both the modules(i.e., ASR and MT) are connected through the hidden representations corresponding to the n-best hypotheses. Ensembling with independently trained ASR and MT models have further improved the performance of the system.
翻訳日:2022-10-04 05:03:07 公開日:2020-10-22
# ロシアのヘイトスピーチ検出における意図しないアイデンティティバイアスの低減

Reducing Unintended Identity Bias in Russian Hate Speech Detection ( http://arxiv.org/abs/2010.11666v1 )

ライセンス: Link先を確認
Nadezhda Zueva, Madina Kabirova, Pavel Kalaidin(参考訳) Toxicityは多くのオンラインコミュニティで深刻な問題となり、ロシア語を含む多くの言語で成長している。 ヘイトスピーチは脅迫や差別の環境を生み出し、現実世界の暴力を誘発することもある。 研究者もソーシャルプラットフォームも、オンラインコミュニケーションの有害性を検出するモデルの開発に注力してきた。 これらのモデルの一般的な問題は、一部の単語(女性、黒人、ユダヤ人など)に対する偏見の存在であり、毒性はないが、モデルの注意点により分類者の引き金となる。 本稿では,ヘイトスピーチをロシア語で分類する取り組みについて述べるとともに,文脈として保護されたアイデンティティに関連する用語や単語を用いて言語モデルを用いた学習データを生成することや,そのような単語に単語ドロップアウトを適用することなど,意図しないバイアスを減らすための簡単な手法を提案する。

Toxicity has become a grave problem for many online communities and has been growing across many languages, including Russian. Hate speech creates an environment of intimidation, discrimination, and may even incite some real-world violence. Both researchers and social platforms have been focused on developing models to detect toxicity in online communication for a while now. A common problem of these models is the presence of bias towards some words (e.g. woman, black, jew) that are not toxic, but serve as triggers for the classifier due to model caveats. In this paper, we describe our efforts towards classifying hate speech in Russian, and propose simple techniques of reducing unintended bias, such as generating training data with language models using terms and words related to protected identities as context and applying word dropout to such words.
翻訳日:2022-10-04 05:02:51 公開日:2020-10-22
# UniCase - 言語モデルにおけるケースの再考

UniCase -- Rethinking Casing in Language Models ( http://arxiv.org/abs/2010.11936v1 )

ライセンス: Link先を確認
Rafal Powalski and Tomasz Stanislawek(参考訳) 本稿では,言語モデリング(lm)におけるケースセンシティブな問題に対処するための新しいアプローチを提案する。 我々は,RoBERTa言語モデルに対して,統一ケースLM (UniCase) と名付けた新しいトークン化戦略を伴って,シンプルなアーキテクチャ変更を提案する。 GLUEベンチマークでソリューションをテストした結果、パフォーマンスが0.42ポイント向上しました。 さらに、すべてのトークンが上書きされているテキストデータを扱う必要がある場合(+5.88ポイント)、UniCaseモデルはよりうまく機能することを示す。

In this paper, we introduce a new approach to dealing with the problem of case-sensitiveness in Language Modelling (LM). We propose simple architecture modification to the RoBERTa language model, accompanied by a new tokenization strategy, which we named Unified Case LM (UniCase). We tested our solution on the GLUE benchmark, which led to increased performance by 0.42 points. Moreover, we prove that the UniCase model works much better when we have to deal with text data, where all tokens are uppercased (+5.88 point).
翻訳日:2022-10-04 05:02:37 公開日:2020-10-22
# 神経プロセスの因子化ニューラルプロセス:$k$-shotによる神経応答の予測

Factorized Neural Processes for Neural Processes: $K$-Shot Prediction of Neural Responses ( http://arxiv.org/abs/2010.11810v1 )

ライセンス: Link先を確認
R. James Cotton, Fabian H. Sinz, Andreas S. Tolias(参考訳) 近年、人工ニューラルネットワークは視覚野のニューロンの自然な刺激に対する応答を予測するために最先端のパフォーマンスを達成している。 しかし、新たに観測されたニューロンのチューニング関数を正確にモデル化するにはパラメータ最適化に時間を要するため、リアルタイム閉ループ実験を含む多くの応用が禁止されている。 我々は、この問題をk$-shot予測として定式化し、神経プロセスを用いて小さな刺激応答対からニューロンのチューニング関数を直接推測することで、この制限を克服した。 これにより、観測された集合を受容場位置とチューニング関数特性に分割した潜在空間に埋め込むファクトリズ・ニューラル・プロセスを開発した。 因子化ニューラルプロセスから予測および再構成された受容野が、試行回数の増加とともに真理に近づくことをシミュレートした応答を示す。 臨界的に、ニューロンのチューニング関数を要約する潜在表現は、ネットワークを高速かつ単一のフォワードパスで推論される。 最後に、このアプローチを視覚野からの実際の神経データで検証し、予測精度が---optimizationベースのアプローチよりも小さい$K$と同等であり、かなり高速であることを示す。 この新たなディープラーニングシステム識別フレームワークは、ニューラルネットワークモデリングを神経科学実験にリアルタイムに統合するのに役立つと考えています。

In recent years, artificial neural networks have achieved state-of-the-art performance for predicting the responses of neurons in the visual cortex to natural stimuli. However, they require a time consuming parameter optimization process for accurately modeling the tuning function of newly observed neurons, which prohibits many applications including real-time, closed-loop experiments. We overcome this limitation by formulating the problem as $K$-shot prediction to directly infer a neuron's tuning function from a small set of stimulus-response pairs using a Neural Process. This required us to developed a Factorized Neural Process, which embeds the observed set into a latent space partitioned into the receptive field location and the tuning function properties. We show on simulated responses that the predictions and reconstructed receptive fields from the Factorized Neural Process approach ground truth with increasing number of trials. Critically, the latent representation that summarizes the tuning function of a neuron is inferred in a quick, single forward pass through the network. Finally, we validate this approach on real neural data from visual cortex and find that the predictive accuracy is comparable to -- and for small $K$ even greater than -- optimization based approaches, while being substantially faster. We believe this novel deep learning systems identification framework will facilitate better real-time integration of artificial neural network modeling into neuroscience experiments.
翻訳日:2022-10-04 05:02:28 公開日:2020-10-22
# リアルタイム入札における広告選択のための新しいオークションシステム

A novel auction system for selecting advertisements in Real-Time bidding ( http://arxiv.org/abs/2010.11981v1 )

ライセンス: Link先を確認
Luis Miralles-Pechu\'an and Fernando Jim\'enez and Jos\'e Manuel Garc\'ia(参考訳) リアルタイム入札(real-time bidding)は、近年非常に人気の高い新しいインターネット広告システムである。 このシステムは、広告主がインプレッションをパブリッシャーの広告スロットに表示しようと競うグローバルなオークションのように機能する。 競売毎にどの広告主が勝つかを選択する最も一般的なシステムは、最も多くの広告主が賭けに勝ち、2番目に大きな賭けの価格で請求される一般第二価格オークションである。 本稿では、経済的な側面だけでなく、広告システムの機能に影響を及ぼす他の要因も考慮した、新たなアプローチによる代替ベッティングシステムを提案する。 私たちが考慮すべき要素は、広告主に与えられる利益、広告からの転換の確率、訪問が不正である確率、rtbに参加しているネットワークがどの程度バランスが取れているか、そして広告主が市場価格に対して支払いをしていないかなどである。 さらに,各広告主の選択を最適化するための遺伝的アルゴリズムに基づく手法を提案する。 また,提案モデルの性能を有名な一般化2次価格法と比較する実験を行った。 価格以外の関連する側面を考慮に入れたこの新しいアプローチは、中長期のRTBネットワークにより大きなメリットをもたらすと考えている。

Real-Time Bidding is a new Internet advertising system that has become very popular in recent years. This system works like a global auction where advertisers bid to display their impressions in the publishers' ad slots. The most popular system to select which advertiser wins each auction is the Generalized second-price auction in which the advertiser that offers the most wins the bet and is charged with the price of the second largest bet. In this paper, we propose an alternative betting system with a new approach that not only considers the economic aspect but also other relevant factors for the functioning of the advertising system. The factors that we consider are, among others, the benefit that can be given to each advertiser, the probability of conversion from the advertisement, the probability that the visit is fraudulent, how balanced are the networks participating in RTB and if the advertisers are not paying over the market price. In addition, we propose a methodology based on genetic algorithms to optimize the selection of each advertiser. We also conducted some experiments to compare the performance of the proposed model with the famous Generalized Second-Price method. We think that this new approach, which considers more relevant aspects besides the price, offers greater benefits for RTB networks in the medium and long-term.
翻訳日:2022-10-04 05:02:07 公開日:2020-10-22
# 正則化マハラノビス計量を用いた微分プライベートテキスト摂動法

A Differentially Private Text Perturbation Method Using a Regularized Mahalanobis Metric ( http://arxiv.org/abs/2010.11947v1 )

ライセンス: Link先を確認
Zekun Xu, Abhinav Aggarwal, Oluwaseyi Feyisetan, Nathanael Teissier(参考訳) プライバシ利用のトレードオフのバランスは、機密性の高い顧客データを扱う多くの実用的な機械学習システムにとって重要な要件です。 プライバシ保存テキスト解析の一般的なアプローチはノイズインジェクションであり、テキストデータはまず連続的な埋め込み空間にマッピングされ、適切な分布から球面ノイズをサンプリングして摂動し、それから離散的な語彙空間に投影される。 これにより、摂動は必要な計量微分プライバシーを認めることができるが、球面ノイズが埋め込み空間内の異なる単語の密度の変動性を考慮しないため、摂動データに基づいてモデル化された下流タスクの有用性は低いことが多い。 特に、ノイズスケールが大きい場合でも、スパース領域の単語は変化しない可能性が高い。 % この機構のグローバル感度は, 組込み空間の密集領域の単語に過剰なノイズを付加し, 有効性が低下するおそれがある一方, 局所感度を用いることで, 付加ノイズの規模を通じて情報を漏洩させる可能性がある。 本稿では,この問題を克服するために,マハラノビス計量の丁寧に設計された正規化変種に基づくテキスト摂動機構を提案する。 任意のノイズスケールに対して、この計量は埋め込み空間の共分散構造を考慮した楕円ノイズを付加する。 このノイズスケールの不均一性は、スパース領域の単語が全体の有用性を犠牲にすることなく、十分な置換可能性を持つことを保証する。 我々はこの指標に基づいてテキスト摂動アルゴリズムを提供し、そのプライバシー保証を正式に証明する。 さらに,本機構は,最先端のラプラス機構と同等の利便性を実現するために,プライバシ統計を改善できることを実証的に示す。

Balancing the privacy-utility tradeoff is a crucial requirement of many practical machine learning systems that deal with sensitive customer data. A popular approach for privacy-preserving text analysis is noise injection, in which text data is first mapped into a continuous embedding space, perturbed by sampling a spherical noise from an appropriate distribution, and then projected back to the discrete vocabulary space. While this allows the perturbation to admit the required metric differential privacy, often the utility of downstream tasks modeled on this perturbed data is low because the spherical noise does not account for the variability in the density around different words in the embedding space. In particular, words in a sparse region are likely unchanged even when the noise scale is large. %Using the global sensitivity of the mechanism can potentially add too much noise to the words in the dense regions of the embedding space, causing a high utility loss, whereas using local sensitivity can leak information through the scale of the noise added. In this paper, we propose a text perturbation mechanism based on a carefully designed regularized variant of the Mahalanobis metric to overcome this problem. For any given noise scale, this metric adds an elliptical noise to account for the covariance structure in the embedding space. This heterogeneity in the noise scale along different directions helps ensure that the words in the sparse region have sufficient likelihood of replacement without sacrificing the overall utility. We provide a text-perturbation algorithm based on this metric and formally prove its privacy guarantees. Additionally, we empirically show that our mechanism improves the privacy statistics to achieve the same level of utility as compared to the state-of-the-art Laplace mechanism.
翻訳日:2022-10-04 04:55:57 公開日:2020-10-22
# 線形関数近似を用いたオフラインrlの統計的限界とは何か?

What are the Statistical Limits of Offline RL with Linear Function Approximation? ( http://arxiv.org/abs/2010.11895v1 )

ライセンス: Link先を確認
Ruosong Wang, Dean P. Foster, Sham M. Kakade(参考訳) オフライン強化学習は、オフライン(オブザーバティブ)データを利用して、(causal)シーケンシャルな意思決定戦略の学習を導く。 オフライン強化学習と(次元の呪いに対処する)関数近似法を組み合わせることで、現代の逐次決定問題における過剰なサンプル複雑性の負担を軽減する手段が得られることを期待する。 しかし、この広範なアプローチが効果的である程度はよく理解されておらず、文学は十分条件から成り立っている。 本研究は,提案可能なサンプル効率のオフライン強化学習を可能にする表現条件と分布条件の基本的な問題に焦点を当てる。 意外なことに、我々の主な結果は、もし次のとおりである: i) \emph{every} ポリシーの真値関数が与えられた特徴集合において線型であること、2) オフポリティィデータは(強いスペクトル条件下で)全ての特徴に対して良好なカバレッジを持つこと、そして、(情報理論上)任意のアルゴリズムは、与えられたポリシーの値を非自明に見積もるために問題地平線で指数関数的な多くのオフラインサンプルを必要とすることを示します。 このような条件には、低い分散シフト(オフラインデータ分布が評価すべきポリシーの分布に近くなる)を持つか、より強い表現条件(実現可能性を超える)を持つかのどちらかが含まれる。

Offline reinforcement learning seeks to utilize offline (observational) data to guide the learning of (causal) sequential decision making strategies. The hope is that offline reinforcement learning coupled with function approximation methods (to deal with the curse of dimensionality) can provide a means to help alleviate the excessive sample complexity burden in modern sequential decision making problems. However, the extent to which this broader approach can be effective is not well understood, where the literature largely consists of sufficient conditions. This work focuses on the basic question of what are necessary representational and distributional conditions that permit provable sample-efficient offline reinforcement learning. Perhaps surprisingly, our main result shows that even if: i) we have realizability in that the true value function of \emph{every} policy is linear in a given set of features and 2) our off-policy data has good coverage over all features (under a strong spectral condition), then any algorithm still (information-theoretically) requires a number of offline samples that is exponential in the problem horizon in order to non-trivially estimate the value of \emph{any} given policy. Our results highlight that sample-efficient offline policy evaluation is simply not possible unless significantly stronger conditions hold; such conditions include either having low distribution shift (where the offline data distribution is close to the distribution of the policy to be evaluated) or significantly stronger representational conditions (beyond realizability).
翻訳日:2022-10-04 04:55:15 公開日:2020-10-22
# コンビネーションアクションによる強化学習 : 自動車ルーティングへの応用

Reinforcement Learning with Combinatorial Actions: An Application to Vehicle Routing ( http://arxiv.org/abs/2010.12001v1 )

ライセンス: Link先を確認
Arthur Delarue, Ross Anderson, Christian Tjandraatmadja(参考訳) 価値関数に基づく手法は、長い間強化学習において重要な役割を担ってきた。 しかし、任意の複雑性の値関数を与える最良の次作用を見つけることは、作用空間が列挙するには大きすぎるとき非自明である。 本研究では,混合整数最適化問題として作用選択問題を明示的に定式化する,組合せ作用空間を用いた値関数に基づく深層強化学習フレームワークを開発する。 モチベーションとして,このフレームワークをキャパシタブル・ルーティング問題(cvrp)に適用し,キャパシティの制限された1台の車両で一組の場所をカバーしなければならない組合せ最適化問題を提案する。 各事例において、アクションを単一経路の構築としてモデル化し、単純なポリシー反復アルゴリズムによって改善される決定論的ポリシーを考える。 提案手法は他の強化学習手法と競合し,中規模の標準ライブラリインスタンスにおける最先端OR手法と平均差1.7%を達成する。

Value-function-based methods have long played an important role in reinforcement learning. However, finding the best next action given a value function of arbitrary complexity is nontrivial when the action space is too large for enumeration. We develop a framework for value-function-based deep reinforcement learning with a combinatorial action space, in which the action selection problem is explicitly formulated as a mixed-integer optimization problem. As a motivating example, we present an application of this framework to the capacitated vehicle routing problem (CVRP), a combinatorial optimization problem in which a set of locations must be covered by a single vehicle with limited capacity. On each instance, we model an action as the construction of a single route, and consider a deterministic policy which is improved through a simple policy iteration algorithm. Our approach is competitive with other reinforcement learning methods and achieves an average gap of 1.7% with state-of-the-art OR methods on standard library instances of medium size.
翻訳日:2022-10-04 04:54:43 公開日:2020-10-22
# ロボット操作タスクのための言語条件模倣学習

Language-Conditioned Imitation Learning for Robot Manipulation Tasks ( http://arxiv.org/abs/2010.12083v1 )

ライセンス: Link先を確認
Simon Stepputtis, Joseph Campbell, Mariano Phielipp, Stefan Lee, Chitta Baral, Heni Ben Amor(参考訳) 模倣学習はロボットにモータースキルを教える一般的な方法である。 しかし、ほとんどのアプローチは、実行トレースのみからポリシーパラメータを抽出することに焦点を当てている(すなわち、動きの軌跡と知覚データ)。 人間の専門家とロボットの間には、対象オブジェクトの特性や意図した動きの形状など、タスクの重要な側面を記述するための適切なコミュニケーションチャネルは存在しない。 人間の学習過程に対する洞察に動機づけられ,非構造化自然言語を模倣学習に組み込む手法を提案する。 訓練時に専門家は、基礎となる意図(例えば「大きな緑のボウルに行く」)を記述するために、言葉による説明とともにデモンストレーションを行うことができる。 トレーニングプロセスはこれらの2つのモードを相互に関連付け、言語、知覚、動きの相関を符号化する。 結果として得られる言語条件付き visuomotor ポリシは、新しいヒューマンコマンドと命令で実行時に条件付けできるため、トレーニングされたポリシをより細かく制御できると同時に、状況による曖昧さも低減できる。 本研究では,7自由度ロボットアームの言語条件による操作ポリシーを学習し,その結果を様々な方法と比較するシミュレーション実験を行った。

Imitation learning is a popular approach for teaching motor skills to robots. However, most approaches focus on extracting policy parameters from execution traces alone (i.e., motion trajectories and perceptual data). No adequate communication channel exists between the human expert and the robot to describe critical aspects of the task, such as the properties of the target object or the intended shape of the motion. Motivated by insights into the human teaching process, we introduce a method for incorporating unstructured natural language into imitation learning. At training time, the expert can provide demonstrations along with verbal descriptions in order to describe the underlying intent (e.g., "go to the large green bowl"). The training process then interrelates these two modalities to encode the correlations between language, perception, and motion. The resulting language-conditioned visuomotor policies can be conditioned at runtime on new human commands and instructions, which allows for more fine-grained control over the trained policies while also reducing situational ambiguity. We demonstrate in a set of simulation experiments how our approach can learn language-conditioned manipulation policies for a seven-degree-of-freedom robot arm and compare the results to a variety of alternative methods.
翻訳日:2022-10-04 04:54:08 公開日:2020-10-22
# グラフニューラルネットワークにおけるプール再考

Rethinking pooling in graph neural networks ( http://arxiv.org/abs/2010.11418v1 )

ライセンス: Link先を確認
Diego Mesquita, Amauri H. Souza, Samuel Kaski(参考訳) グラフプーリングは、無数のグラフニューラルネットワーク(GNN)アーキテクチャの中心的なコンポーネントである。 従来のcnnからの継承として、ほとんどのアプローチはグラフプーリングをクラスタ割り当て問題として定式化し、正規格子のローカルパッチのアイデアをグラフに拡張する。 このデザインの選択に幅広い従属性があるにもかかわらず、GNNの成功に対するその影響を厳格に評価する作業は行われていない。 本稿では,代表的GNNを基盤として,確率化や補グラフ上のクラスタリングといった局所性保存表現の必要性に挑戦する変種を導入する。 興味深いことに、我々の実験はこれらの変種を使用することで性能が低下しないことを示した。 この現象を理解するために,畳み込み層とその後のプール層との相互作用を研究する。 畳み込みが学習表現において主要な役割を果たすことを示す。 一般的な信念とは対照的に、局所プールは、関連する、広く使用されているベンチマーク上でのGNNの成功には寄与しない。

Graph pooling is a central component of a myriad of graph neural network (GNN) architectures. As an inheritance from traditional CNNs, most approaches formulate graph pooling as a cluster assignment problem, extending the idea of local patches in regular grids to graphs. Despite the wide adherence to this design choice, no work has rigorously evaluated its influence on the success of GNNs. In this paper, we build upon representative GNNs and introduce variants that challenge the need for locality-preserving representations, either using randomization or clustering on the complement graph. Strikingly, our experiments demonstrate that using these variants does not result in any decrease in performance. To understand this phenomenon, we study the interplay between convolutional layers and the subsequent pooling ones. We show that the convolutions play a leading role in the learned representations. In contrast to the common belief, local pooling is not responsible for the success of GNNs on relevant and widely-used benchmarks.
翻訳日:2022-10-04 04:53:47 公開日:2020-10-22
# テスト時間拡張のための学習損失

Learning Loss for Test-Time Augmentation ( http://arxiv.org/abs/2010.11422v1 )

ライセンス: Link先を確認
Ildoo Kim, Younghoon Kim, Sungwoong Kim(参考訳) データ拡張はロバストなニューラルネットワークで積極的に研究されている。 最近のデータ拡張手法のほとんどは、トレーニングフェーズにおけるデータセットの強化に重点を置いている。 テストフェーズでは、単純な変換がテスト時間拡張に広く使用されている。 本稿では,テスト入力に適した変換を効率的に選択できる新しいインスタンスレベルのテスト時間拡張を提案する。 提案手法は,入力された各変換の損失を予測する補助モジュールを含む。 そして、入力に対して、予測損失の少ない変換を適用する。 ネットワークは、拡張入力の予測結果を平均することで結果を得る。 いくつかの画像分類ベンチマークによる実験結果から,提案したインスタンス認識テスト時拡張により,様々な汚損に対するモデルの堅牢性が向上することが示された。

Data augmentation has been actively studied for robust neural networks. Most of the recent data augmentation methods focus on augmenting datasets during the training phase. At the testing phase, simple transformations are still widely used for test-time augmentation. This paper proposes a novel instance-level test-time augmentation that efficiently selects suitable transformations for a test input. Our proposed method involves an auxiliary module to predict the loss of each possible transformation given the input. Then, the transformations having lower predicted losses are applied to the input. The network obtains the results by averaging the prediction results of augmented inputs. Experimental results on several image classification benchmarks show that the proposed instance-aware test-time augmentation improves the model's robustness against various corruptions.
翻訳日:2022-10-04 04:53:33 公開日:2020-10-22
# 解釈可能性研究に向けて

Towards falsifiable interpretability research ( http://arxiv.org/abs/2010.12016v1 )

ライセンス: Link先を確認
Matthew L. Leavitt, Ari Morcos(参考訳) ディープニューラルネットワーク(DNN)の根底にある決定とメカニズムを理解する方法は通常、個々の例の感覚的特徴や意味的特徴を強調することによって直感を構築することに依存する。 例えば、ネットワークの決定に「重要」な入力の構成要素を視覚化することや、単一ニューロンのセマンティックな特性を測定することを目的としている。 ここでは, 解釈可能性研究は, 直観に基づくアプローチに過度に依存しており, 場合によっては, 説明的な進歩や誤解を招く結論に陥っていると論じる。 我々は、解釈可能性研究において有意義な進歩を阻害すると考えられる一連の制限を特定し、解釈可能性研究を損なう可能性の過度さと単一ニューロンに基づくアプローチの2つの一般的なクラスについて検討する。 これらの懸念に対処するために,我々は,解釈可能性研究の枠組みとして,これらの障害に対処するための戦略を提案する。 研究者たちは、その直感を出発点として、明確で偽造可能な仮説を開発し、検証し、我々のフレームワークが、dnnの理解に有意義な進歩をもたらす、堅牢で証拠に基づく解釈可能性の方法をもたらすことを期待しています。

Methods for understanding the decisions of and mechanisms underlying deep neural networks (DNNs) typically rely on building intuition by emphasizing sensory or semantic features of individual examples. For instance, methods aim to visualize the components of an input which are "important" to a network's decision, or to measure the semantic properties of single neurons. Here, we argue that interpretability research suffers from an over-reliance on intuition-based approaches that risk-and in some cases have caused-illusory progress and misleading conclusions. We identify a set of limitations that we argue impede meaningful progress in interpretability research, and examine two popular classes of interpretability methods-saliency and single-neuron-based approaches-that serve as case studies for how overreliance on intuition and lack of falsifiability can undermine interpretability research. To address these concerns, we propose a strategy to address these impediments in the form of a framework for strongly falsifiable interpretability research. We encourage researchers to use their intuitions as a starting point to develop and test clear, falsifiable hypotheses, and hope that our framework yields robust, evidence-based interpretability methods that generate meaningful advances in our understanding of DNNs.
翻訳日:2022-10-04 04:47:02 公開日:2020-10-22
# イン・オブ・アウト・ディストリビューションデータのためのキャリブレーション言語モデルファインチューニング

Calibrated Language Model Fine-Tuning for In- and Out-of-Distribution Data ( http://arxiv.org/abs/2010.11506v1 )

ライセンス: Link先を確認
Lingkai Kong, Haoming Jiang, Yuchen Zhuang, Jie Lyu, Tuo Zhao, Chao Zhang(参考訳) 微調整された事前学習言語モデルは、過パラメータ化による分布内および分布外の両方のデータに対する深刻な誤校正に悩まされる可能性がある。 この問題を軽減するために,正規化微調整法を提案する。 本手法では,(1)データ多様体内の補間により疑似on-manifoldサンプルを生成するon-manifold regularizationという2種類の正則化を導入する。 これらの擬似サンプルを用いた増補訓練は、分布内キャリブレーションを改善するためにスムーズな正規化を課す。 2)オフマニフォールド正規化は,OODデータの過信問題に対処するため,擬似オフマニフォールドサンプルの均一分布をモデルが出力することを奨励する。 提案手法は, 予測校正誤差, 誤分類検出, OOD検出の6つのデータセットにおいて, 既存の校正手法よりも優れていることを示す。 私たちのコードはhttps://github.com/Lingkai-Kong/Calibrated-BERT-Fine-Tuningで確認できます。

Fine-tuned pre-trained language models can suffer from severe miscalibration for both in-distribution and out-of-distribution (OOD) data due to over-parameterization. To mitigate this issue, we propose a regularized fine-tuning method. Our method introduces two types of regularization for better calibration: (1) On-manifold regularization, which generates pseudo on-manifold samples through interpolation within the data manifold. Augmented training with these pseudo samples imposes a smoothness regularization to improve in-distribution calibration. (2) Off-manifold regularization, which encourages the model to output uniform distributions for pseudo off-manifold samples to address the over-confidence issue for OOD data. Our experiments demonstrate that the proposed method outperforms existing calibration methods for text classification in terms of expectation calibration error, misclassification detection, and OOD detection on six datasets. Our code can be found at https://github.com/Lingkai-Kong/Calibrated-BERT-Fine-Tuning.
翻訳日:2022-10-04 04:46:12 公開日:2020-10-22
# 負データアンチモデルを用いた言語モデルからの統計的デモンの検出と抽出

Detecting and Exorcising Statistical Demons from Language Models with Anti-Models of Negative Data ( http://arxiv.org/abs/2010.11855v1 )

ライセンス: Link先を確認
Michael L. Wick, Kate Silverstein, Jean-Baptiste Tristan, Adam Pocock, Mark Johnson(参考訳) 言語モデルは教師なしマルチタスク学習者である」と言われている。 実際、英語テキストの「肯定的な」例で訓練された自己教師付き言語モデルは、多くの自然言語タスクに望ましい方法で一般化する。 しかし、もしそのようなモデルが最初の自己スーパービジョンの目的から遠く離れているなら、ウェイワードモデルは望ましくない方法で一般化するかもしれない。 (肯定的な)トレーニングデータに基づいてトレーニングされた言語モデルは、(否定的な)テストデータにも一般化するのか? この質問は、言語モデルがn-gramsのようなテキストの望ましくない性質を学習する程度を評価するために、構文などのより望ましい性質の学習を阻害する可能性がある。 モデルファミリ内では、パラメータの数、訓練エポック数、データセットのサイズが増加するため、モデルが負のn-gramデータに一般化する能力があり、標準の自己スーパービジョンが一般化しすぎていることが分かる。 本稿では,このような望ましくない信号を正のデータから自動的に学習した負のデータ分布で減衰させる帰納バイアスの形式を提案する。 LSTMからn-gram信号を取り除く手法を適用し,その処理により,構文的主観的合意タスクにおいて,大規模な誤り低減(最も難しい場合の最大46%)で示されるように,構文的信号に有利な結果が得られた。

It's been said that "Language Models are Unsupervised Multitask Learners." Indeed, self-supervised language models trained on "positive" examples of English text generalize in desirable ways to many natural language tasks. But if such models can stray so far from an initial self-supervision objective, a wayward model might generalize in undesirable ways too, say to nonsensical "negative" examples of unnatural language. A key question in this work is: do language models trained on (positive) training data also generalize to (negative) test data? We use this question as a contrivance to assess the extent to which language models learn undesirable properties of text, such as n-grams, that might interfere with the learning of more desirable properties of text, such as syntax. We find that within a model family, as the number of parameters, training epochs, and data set size increase, so does a model's ability to generalize to negative n-gram data, indicating standard self-supervision generalizes too far. We propose a form of inductive bias that attenuates such undesirable signals with negative data distributions automatically learned from positive data. We apply the method to remove n-gram signals from LSTMs and find that doing so causes them to favor syntactic signals, as demonstrated by large error reductions (up to 46% on the hardest cases) on a syntactic subject-verb agreement task.
翻訳日:2022-10-04 04:45:19 公開日:2020-10-22
# 条件付きBERTサンプリングによる意味文の書き直しとテキスト分類法への応用

Rewriting Meaningful Sentences via Conditional BERT Sampling and an application on fooling text classifiers ( http://arxiv.org/abs/2010.11869v1 )

ライセンス: Link先を確認
Lei Xu, Ivan Ramirez, Kalyan Veeramachaneni(参考訳) テキスト分類器を欺くように設計されたほとんどの敵攻撃方法は、いくつかの単語や文字を変更してテキスト分類器の予測を変更する。 文レベルの書き換えに固有の困難と正当な書き直しの基準の設定の問題から、文全体を書き換えて分類器を攻撃する試みはほとんどない。 本稿では,文レベルの書き換えによる逆例作成の問題点について考察する。 そこで我々はParaphraseSamplerという新しいサンプリング手法を設計し,複数の方法で原文を効率よく書き換える。 次に,文レベルの脅威モデルと呼ばれる新しい修正基準を提案する。 この基準は単語レベルと文レベルの両方の変更を可能にし、意味的類似性と文法的品質という2次元で独立に調整することができる。 実験の結果,これらの書き換え文の多くは分類器によって誤分類されていることがわかった。 6つのデータセットすべてに対して、ParaphraseSamplerはベースラインよりも優れた攻撃成功率を実現しています。

Most adversarial attack methods that are designed to deceive a text classifier change the text classifier's prediction by modifying a few words or characters. Few try to attack classifiers by rewriting a whole sentence, due to the difficulties inherent in sentence-level rephrasing as well as the problem of setting the criteria for legitimate rewriting. In this paper, we explore the problem of creating adversarial examples with sentence-level rewriting. We design a new sampling method, named ParaphraseSampler, to efficiently rewrite the original sentence in multiple ways. Then we propose a new criteria for modification, called a sentence-level threaten model. This criteria allows for both word- and sentence-level changes, and can be adjusted independently in two dimensions: semantic similarity and grammatical quality. Experimental results show that many of these rewritten sentences are misclassified by the classifier. On all 6 datasets, our ParaphraseSampler achieves a better attack success rate than our baseline.
翻訳日:2022-10-04 04:44:54 公開日:2020-10-22
# 言語モデルはオープンナレッジグラフです

Language Models are Open Knowledge Graphs ( http://arxiv.org/abs/2010.11967v1 )

ライセンス: Link先を確認
Chenguang Wang, Xiao Liu, Dawn Song(参考訳) 本稿では,事前学習された言語モデル(BERT, GPT-2/3)から知識グラフ(KG)を構築する方法を示す。 人気のあるKG(例えばWikidata、NELL)は、人が知識を創造することを要求する、監督的または半監督的な方法で構築されている。 近年の深層言語モデルは,事前学習を通じて大規模コーパスから知識を自動取得する。 格納された知識により、言語モデルは下流のnlpタスク、例えば質問に答えたり、コードや記事を書いたりできる。 本稿では,言語モデルに含まれる知識をKGにキャストするための教師なし手法を提案する。 kgはコーパス上の事前学習された言語モデルの1つの前方パス(微調整なし)で構築されている。 ヒトが作成した2kgs(wikidata, tac kbp)と比較し、構築したkgsの品質を示す。 当社のkgsは、既存のkgsで新しいオープンな事実知識も提供しています。 私たちのコードとKGは公開されます。

This paper shows how to construct knowledge graphs (KGs) from pre-trained language models (e.g., BERT, GPT-2/3), without human supervision. Popular KGs (e.g, Wikidata, NELL) are built in either a supervised or semi-supervised manner, requiring humans to create knowledge. Recent deep language models automatically acquire knowledge from large-scale corpora via pre-training. The stored knowledge has enabled the language models to improve downstream NLP tasks, e.g., answering questions, and writing code and articles. In this paper, we propose an unsupervised method to cast the knowledge contained within language models into KGs. We show that KGs are constructed with a single forward pass of the pre-trained language models (without fine-tuning) over the corpora. We demonstrate the quality of the constructed KGs by comparing to two KGs (Wikidata, TAC KBP) created by humans. Our KGs also provide open factual knowledge that is new in the existing KGs. Our code and KGs will be made publicly available.
翻訳日:2022-10-04 04:44:42 公開日:2020-10-22
# turking test: 言語モデルは命令を理解できるか?

The Turking Test: Can Language Models Understand Instructions? ( http://arxiv.org/abs/2010.11982v1 )

ライセンス: Link先を確認
Avia Efrat and Omer Levy(参考訳) 教師付き機械学習は、学習者に対象タスクの入出力例のセットを提供する。 しかし人間は、自然言語の命令から新しいタスクを実行することも学べる。 機械は指示を理解することも学べますか? 本稿では,複雑性の異なる自然言語命令を追従するモデルの能力を調べるテューキングテストを提案する。 これらは、文のn番目の単語を検索するといった単純なタスクから、人間の知能労働者の代わりにSNLIやSQuADの例を生成するような創造性を必要とするタスクまで様々である。 優れた評価手法にもかかわらず、大きな事前訓練された言語モデルが全てのタスクで不十分に機能することを観察する。 モデルのエラーパターンを分析すると、モデルは明示的な命令を無視し、しばしばタスクを解決しようとする試みとして解釈できない出力を生成する傾向があることが分かる。 命令理解が従来の言語モデルで捉えることができるかどうかはまだ分かっていないが、命令理解の厳密な表現性は、増加傾向にある数ショット推論パラダイムに代えて魅力的である。

Supervised machine learning provides the learner with a set of input-output examples of the target task. Humans, however, can also learn to perform new tasks from instructions in natural language. Can machines learn to understand instructions as well? We present the Turking Test, which examines a model's ability to follow natural language instructions of varying complexity. These range from simple tasks, like retrieving the nth word of a sentence, to ones that require creativity, such as generating examples for SNLI and SQuAD in place of human intelligence workers ("turkers"). Despite our lenient evaluation methodology, we observe that a large pretrained language model performs poorly across all tasks. Analyzing the model's error patterns reveals that the model tends to ignore explicit instructions and often generates outputs that cannot be construed as an attempt to solve the task. While it is not yet clear whether instruction understanding can be captured by traditional language models, the sheer expressivity of instruction understanding makes it an appealing alternative to the rising few-shot inference paradigm.
翻訳日:2022-10-04 04:44:24 公開日:2020-10-22