このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201102となっている論文です。

PDF登録状況(公開日: 20201102)

TitleAuthorsAbstract論文公表日・翻訳日
# オンライン政治、バレンス、欧州の選挙運動の奥深くに潜む

A Dip Into a Deep Well: Online Political Advertisements, Valence, and European Electoral Campaigning ( http://arxiv.org/abs/2001.10622v2 )

ライセンス: Link先を確認
Jukka Ruohonen(参考訳) オンライン政治広告は、世界中の選挙運動において重要な要素となっている。 同時に、偽情報や操作といった概念が世界的な関心事となっている。 これらの概念は、オンラインの政治広告やデータ駆動の選挙キャンペーンとは異なっているが、バレンス、内在的な魅力、あるいはメッセージの嫌悪に関する同様の特徴を共有する傾向がある。 この背景から、Googleの透明性レポートから収集したデータセットを使用して、オンラインの政治広告を調べる。 この試験は、特に欧州議会議員選挙を含むヨーロッパの2019年半ばの状況に向けられている。 結果によると、Googleの広告機を介して表示されるテキスト広告の感情分析に基づく。 (i)ほとんどの政治広告は肯定的な感情を示してきたが、これらは大きく異なる (二)ヨーロッパ諸国及び全国 (iii)欧州政党。 これらの結果に加えて、データ駆動選挙運動とその政治・民主主義との関係に関するタイムリーな議論にも貢献する。

Online political advertisements have become an important element in electoral campaigning throughout the world. At the same time, concepts such as disinformation and manipulation have emerged as a global concern. Although these concepts are distinct from online political ads and data-driven electoral campaigning, they tend to share a similar trait related to valence, the intrinsic attractiveness or averseness of a message. Given this background, the paper examines online political ads by using a dataset collected from Google's transparency reports. The examination is framed to the mid-2019 situation in Europe, including the European Parliament elections in particular. According to the results based on sentiment analysis of the textual ads displayed via Google's advertisement machinery, (i) most of the political ads have expressed positive sentiments, although these vary greatly between (ii) European countries as well as across (iii) European political parties. In addition to these results, the paper contributes to the timely discussion about data-driven electoral campaigning and its relation to politics and democracy.
翻訳日:2023-06-05 08:54:28 公開日:2020-11-02
# GDPR罰金の額予測

Predicting the Amount of GDPR Fines ( http://arxiv.org/abs/2003.05151v2 )

ライセンス: Link先を確認
Jukka Ruohonen and Kalle Hjerppe(参考訳) 2018年にGDPR(General Data Protection Regulation)が施行された。 この執行後、欧州連合(EU)の国家データ保護当局によって既に多くの罰金が課されている。 本稿では,施行決定に言及されているGDPR項目について検討するとともに,実施決定文書から抽出したメタデータおよびテキストマイニング機能を用いて,実施罰金の額を予測する。 その結果、一般的な原則、合法性、情報セキュリティに関する記事が最も頻繁に引用されている記事となった。 課せられた罰金の額は参考記事によって異なるが、これら3条は際立ったものではない。 さらに、回帰分析のための単純な機械学習技術でも良い予測が可能である。 基本メタデータ(参考記事や原産地の国など)は、テキストマイニング機能と比較して若干パフォーマンスが向上する。

The General Data Protection Regulation (GDPR) was enforced in 2018. After this enforcement, many fines have already been imposed by national data protection authorities in the European Union (EU). This paper examines the individual GDPR articles referenced in the enforcement decisions, as well as predicts the amount of enforcement fines with available meta-data and text mining features extracted from the enforcement decision documents. According to the results, articles related to the general principles, lawfulness, and information security have been the most frequently referenced ones. Although the amount of fines imposed vary across the articles referenced, these three particular articles do not stand out. Furthermore, good predictions are attainable even with simple machine learning techniques for regression analysis. Basic meta-data (such as the articles referenced and the country of origin) yields slightly better performance compared to the text mining features.
翻訳日:2023-05-29 11:17:35 公開日:2020-11-02
# quantum key agreement protocol"へのコメント

Comment on "Quantum key agreement protocol" ( http://arxiv.org/abs/2003.07610v2 )

ライセンス: Link先を確認
Nayana Das and Ritajit Majumdar(参考訳) 量子テレポーテーションに基づく最初の2つのパーティ量子鍵協定(QKA)プロトコルは、Zhouらによって提案された(電子レター40.18 (2004): 1149-1150)。 このプロトコルでは、鍵ビット列を得るために、一方のパーティは2つの量子状態の内部積を得るためにデバイスを使用し、一方は未知であり、もう一方はベル測定を行う。 しかし,本論文では,1つの量子ビットが未知であっても2つの量子ビットの内部積を出力する装置を得ることができないことを示す。 これは、そのような装置の存在が二次元ベクトル空間内の4つの異なる状態を完全に区別することを意味するからである。 これは量子力学では許容できない。 さらに、そのような装置の存在は「信号定理なし」にも違反しているとも主張している。 最後に,このプロトコルが有効なキーアグリーメントプロトコルではない点についてもコメントする。

The first two party Quantum Key Agreement (QKA) protocol, based on quantum teleportation, was proposed by Zhou et al. (Electronics Letters 40.18 (2004): 1149-1150). In this protocol, to obtain the key bit string, one of the parties use a device to obtain inner product of two quantum states, one being unknown, and the other one performs Bell measurement. However, in this article, we show that it is not possible to obtain a device that would output the inner product of two qubits even when only one of the qubit is unknown. This is so because existence of such device would imply perfectly distinguishing among four different states in a two-dimensional vector space. This is not permissible in quantum mechanics. Furthermore, we argue that existence of such a device would also imply violation of the "No Signalling Theorem" as well. Finally, we also comment that this protocol is not a valid key agreement protocol at all.
翻訳日:2023-05-28 22:20:56 公開日:2020-11-02
# 非エルミート位相センサ

Non-Hermitian Topological Sensors ( http://arxiv.org/abs/2003.13699v3 )

ライセンス: Link先を確認
Jan Carl Budich, Emil J. Bergholtz(参考訳) センサの感度がデバイスサイズとともに指数関数的に増加する新しいタイプのセンサを紹介・検討する。 注目すべきは、この急激な増強は微調整に頼らず、局所的な摂動に免疫する安定した現象である。 特に、この衝撃現象の背後にある物理的メカニズムは、非エルミート位相系で観測される境界条件に対する異常感度と密接に関連している。 我々は,古典的メタマテリアルから合成量子マテリアルまで,これらの非エルミタントポロジカルセンサ(NTOS)の実用化のための具体的なプラットフォームについて概説する。

We introduce and study a novel class of sensors whose sensitivity grows exponentially with the size of the device. Remarkably, this drastic enhancement does not rely on any fine-tuning, but is found to be a stable phenomenon immune to local perturbations. Specifically, the physical mechanism behind this striking phenomenon is intimately connected to the anomalous sensitivity to boundary conditions observed in non-Hermitian topological systems. We outline concrete platforms for the practical implementation of these non-Hermitian topological sensors (NTOS) ranging from classical meta-materials to synthetic quantum-materials.
翻訳日:2023-05-27 12:03:07 公開日:2020-11-02
# 古典的伝播における量子的特徴の解消

Distinguishing quantum features in classical propagation ( http://arxiv.org/abs/2005.10552v4 )

ライセンス: Link先を確認
Kelvin Titimbo, Gabriel M. Lando and Alfredo M. Ozorio de Almeida(参考訳) TWA や LSC-IVR と呼ばれる初期ウィグナー関数の厳密に古典的な伝播は、真のウィグナー関数ではないにもかかわらず、近似平均を与えると考えられている。 ここでは、そのシンプレクティックフーリエ変換(truncated chord approximation, TCA)が、二重弦位相空間の起源の狭い近傍における進化量子特性関数(またはコード関数)への完全半古典的近似と一致することを示す。 驚くべきことに、この小さな領域は、ブラインドスポットや局所波動関数相関のような純粋に量子的な特徴と、近接した古典対応を持つ可観測性の期待を生んでいる。 tcaと正確な量子結果の直接的な数値比較は、カーハミルトニアンの下で進化する初期コヒーレント状態の半古典的予測を検証する。 古典的伝播によって推定されるであろう、さらなる特徴の明確な基準は、コード表現の中でそれらは原点付近に集中しているということである。

The strictly classical propagation of an initial Wigner function, referred to as TWA or LSC-IVR, is considered to provide approximate averages, despite not being a true Wigner function: it does not represent a positive operator. We here show that its symplectic Fourier transform, the truncated chord approximation (TCA), coincides with the full semiclassical approximation to the evolved quantum characteristic function (or chord function) in a narrow neighbourhood of the origin of the dual chord phase space. Surprisingly, this small region accounts for purely quantum features, such as blind spots and local wave function correlations, as well as the expectation of observables with a close classical correspondence. Direct numerical comparison of the TCA with exact quantum results verifies the semiclassical predictions for an initial coherent state evolving under the Kerr Hamiltonian. The resulting clear criterion for any further features, which may be estimated by classical propagation, is that, within the chord representation, they are concentrated near the origin.
翻訳日:2023-05-19 03:50:23 公開日:2020-11-02
# 弱可積分性破壊:コヒーレント拡散における可積分性シグネチャを伴うカオス

Weak integrability breaking: chaos with integrability signature in coherent diffusion ( http://arxiv.org/abs/2006.09793v2 )

ライセンス: Link先を確認
Marko Znidaric(参考訳) 我々は、摂動が可積分多体量子系の力学にどのように影響し、可積分からカオスへの遷移を引き起こすかを研究する。 不純物を持つハイゼンベルク鎖のスピン輸送を見てみると、熱力学的極限輸送は無限小摂動で既に拡散することが分かる。 それゆえ、小さな広範な摂動は、可積分性からカオスへの即時の遷移を引き起こす。 それでも、拡散定数が不純物密度に依存するように符号化された可積分性の残基、すなわち小さな密度では、マティーセンの規則に従うような逆密度ではなく、逆密度の平方根に比例する。 マティーセンの規則は非弾道系で修正されなければならないことを示す。 結果はまた、単一の不純物に散乱を相互作用させる非自明な役割を強調し、さらに不純物を加えることで輸送を実際に増加させる体制があることも示している。

We study how perturbations affect dynamics of integrable many-body quantum systems, causing transition from integrability to chaos. Looking at spin transport in the Heisenberg chain with impurities we find that in the thermodynamic limit transport gets diffusive already at an infinitesimal perturbation. Small extensive perturbations therefore cause an immediate transition from integrability to chaos. Nevertheless, there is a remnant of integrability encoded in the dependence of the diffusion constant on the impurity density, namely, at small densities it is proportional to the square root of the inverse density, instead of to the inverse density as would follow from Matthiessen's rule. We show that Matthiessen's rule has to be modified in non-ballistic systems. Results also highlight a nontrivial role of interacting scattering on a single impurity, and that there is a regime where adding more impurities can actually increase transport.
翻訳日:2023-05-13 15:46:43 公開日:2020-11-02
# 超伝導量子コンピューティングの展望

Superconducting Quantum Computing: A Review ( http://arxiv.org/abs/2006.10433v3 )

ライセンス: Link先を確認
He-Liang Huang, Dachao Wu, Daojin Fan, Xiaobo Zhu(参考訳) 過去20年間で、大規模な量子コンピュータを構築するための大きな進歩があった。 特に、超伝導量子ビットに基づく量子プロセッサアーキテクチャは、スケーラブルな量子コンピューティングプラットフォームの有力候補となり、2019年に53の超伝導量子ビットを用いて量子超越性実証のマイルストーンが達成された。 本稿では,量子ビット設計,量子制御,読み出し技術,誤り訂正と量子アルゴリズムの実装を含む,大規模超伝導量子コンピュータの構築に向けた実験的な取り組みについて概観する。 最先端の芸術に加えて、我々は最終的に将来の展望を議論し、さらなる研究のモチベーションを期待する。

Over the last two decades, tremendous advances have been made for constructing large-scale quantum computers. In particular, the quantum processor architecture based on superconducting qubits has become the leading candidate for scalable quantum computing platform, and the milestone of demonstrating quantum supremacy was first achieved using 53 superconducting qubits in 2019. In this work, we provide a brief review on the experimental efforts towards building a large-scale superconducting quantum computer, including qubit design, quantum control, readout techniques, and the implementations of error correction and quantum algorithms. Besides the state of the art, we finally discuss future perspectives, and which we hope will motivate further research.
翻訳日:2023-05-13 13:45:18 公開日:2020-11-02
# Transcorrelated density Matrix Renormalization Group

Transcorrelated Density Matrix Renormalization Group ( http://arxiv.org/abs/2009.02614v3 )

ライセンス: Link先を確認
Alberto Baiardi and Markus Reiher(参考訳) 強相関系におけるエネルギーの効率的な近似のために,tcdmrg(transcorrelated density matrix renormalization group)理論を導入する。 tcDMRGは、固定ジャストロウまたはグッツウィラー相関器と行列積状態の積として波動関数を符号化する。 後者は、時間依存(TD)DMRGの虚時変分を非エルミート的トランスコリックハミルトニアンに適用することによって最適化される。 我々はDMRGアルゴリズムの2次元Fermi-Hubbard Hamiltonianの例において、異なるサイズ、占有数、相互作用強度に対して、tcDMRGの効率を実証する。 我々は, tcDMRGの高速エネルギー収束を実証し, tcDMRGが準単次元システムを超えて標準DMRGの効率を向上させることを示し, DMRGの動的相関問題に対する一般に強力なアプローチを提供する。

We introduce the transcorrelated Density Matrix Renormalization Group (tcDMRG) theory for the efficient approximation of the energy for strongly correlated systems. tcDMRG encodes the wave function as a product of a fixed Jastrow or Gutzwiller correlator and a matrix product state. The latter is optimized by applying the imaginary-time variant of time-dependent (TD) DMRG to the non-Hermitian transcorrelated Hamiltonian. We demonstrate the efficiency of tcDMRG at the example of the two-dimensional Fermi-Hubbard Hamiltonian, a notoriously difficult target for the DMRG algorithm, for different sizes, occupation numbers, and interaction strengths. We demonstrate fast energy convergence of tcDMRG, which indicates that tcDMRG could increase the efficiency of standard DMRG beyond quasi-monodimensional systems and provides a generally powerful approach toward the dynamic correlation problem of DMRG.
翻訳日:2023-05-03 18:42:25 公開日:2020-11-02
# リレー不能なコンタクトトラクション

Contact Tracing Made Un-relay-able ( http://arxiv.org/abs/2010.12641v2 )

ライセンス: Link先を確認
Marco Casagrande, Mauro Conti, Eleonora Losiouk(参考訳) 自動的接触追跡(automated contact tracing)は、感染リスクを人々に知らせるために、個人間の接触を追跡する、空中伝染性疾患の拡散を制御するための重要なソリューションである。 現在のSARS-CoV-2パンデミックは、多くの国の医療システムに大きな負担を与えた。 政府はウイルスの拡散に対応するために異なるアプローチを選択し、接触追跡アプリは最も効果的なものとみなされた。 特に、bluetoothの低エネルギー技術を活用することで、モバイルアプリは市民のプライバシーを保った接触追跡を実現することができる。 研究者はいくつかの接触追跡手法を提案したが、各政府は独自の接触追跡アプリを開発した。 本稿では、多くの接触追跡アプリ(例えば、イタリア、フランス、スイス政府が推進しているアプリ)がリレー攻撃に対して脆弱であることを実証する。 このような攻撃によって、人々は誤ってSARS-CoV-2に陽性と診断され、隔離され、最終的には医療システムの破綻につながる可能性がある。 この脆弱性に対処するために,我々はリレー攻撃を防止しつつ,現在のアプローチと同じプライバシー保護機能を提供しながら,新しい軽量なソリューションを提案する。 リレー攻撃と新たな防御機構の両方の実現可能性を評価するため,我々は,イタリアのコンタクトトレーシングアプリ (immuni) に対する概念実証を開発した。 私たちの防御デザインは、あらゆる連絡先追跡アプリに組み込むことができます。

Automated contact tracing is a key solution to control the spread of airborne transmittable diseases: it traces contacts among individuals in order to alert people about their potential risk of being infected. The current SARS-CoV-2 pandemic put a heavy strain on the healthcare system of many countries. Governments chose different approaches to face the spread of the virus and the contact tracing apps were considered the most effective ones. In particular, by leveraging on the Bluetooth Low-Energy technology, mobile apps allow to achieve a privacy-preserving contact tracing of citizens. While researchers proposed several contact tracing approaches, each government developed its own national contact tracing app. In this paper, we demonstrate that many popular contact tracing apps (e.g., the ones promoted by the Italian, French, Swiss government) are vulnerable to relay attacks. Through such attacks people might get misleadingly diagnosed as positive to SARS-CoV-2, thus being enforced to quarantine and eventually leading to a breakdown of the healthcare system. To tackle this vulnerability, we propose a novel and lightweight solution that prevents relay attacks, while providing the same privacy-preserving features as the current approaches. To evaluate the feasibility of both the relay attack and our novel defence mechanism, we developed a proof of concept against the Italian contact tracing app (i.e., Immuni). The design of our defence allows it to be integrated into any contact tracing app.
翻訳日:2023-04-27 22:35:14 公開日:2020-11-02
# 4.9e-16相対不安定な小型搬送可能な171yb+単イオン光完全自動化時計

Compact transportable 171Yb+ single-ion optical fully automated clock with 4.9E-16 relative instability ( http://arxiv.org/abs/2010.15244v3 )

ライセンス: Link先を確認
Timur Abbasov, Konstantin Makarenko, Ivan Sherstov, Mikhail Axenov, Ilya Zalivako, Ilya Semerikov, Alexander Borisenko, Ksenia Khabarova, Nikolay Kolachevsky, Sergey Chepurov, Alexei Taichenachev, Sergey Bagaev, and Anton Tausenev(参考訳) 本稿では,高周波四極子トラップの1つの171Yb+イオンをベースとした小型輸送可能な完全自動光時計の開発において得られた成果について述べる。 結果、出力4.9E-16のRF信号の相対的不安定性を298.1kgの重量、2.766kWの入力電力で測定した。 超連続ファイバーレーザー発生器を用いた光周波数コムを用いて超安定光信号のrf域への変換を行った。 変換は初期安定性と信号の精度特性を損なうことなく行われた。

The paper describes the results achieved in the development of the compact transportable fully automated optical clock based on a single 171Yb+ ion in a radiofrequency (RF) quadrupole trap. The resulted measurements demonstrated the 4.9E-16 output RF signal relative instability on 1000 s integration time with 298.1 kg weight, 0.921 volume, and 2.766 kW input power consumption of the device. A transformation of the ultrastable optical signal into the RF range was performed via the optical frequency comb with a supercontinuum fiber laser generator. The transformation was conducted without loss of initial stability and accuracy characteristics of the signal.
翻訳日:2023-04-27 20:48:50 公開日:2020-11-02
# 遺伝的アルゴリズムを用いた絡み合い生成と分布の最適化

Optimizing Entanglement Generation and Distribution Using Genetic Algorithms ( http://arxiv.org/abs/2010.16373v2 )

ライセンス: Link先を確認
Francisco Ferreira da Silva, Ariana Torres-Knoop, Tim Coopmans, David Maier, Stephanie Wehner(参考訳) 絡み合い分布による長距離量子通信は、量子インターネットにとって非常に重要である。 しかし、このような長距離へのスケーリングは、光子の喪失によって困難であることが証明された。 量子リピータは理論上、絡み合いが分散できる距離を延ばすのに使えるが、実際にはハードウェアの品質は依然として不足している。 さらに、メモリ品質や試行率などの特定のリピータパラメータの改善がネットワーク全体のパフォーマンスにどのように影響するかは、一般的には明確ではなく、スケーラブルな量子リピータへの道筋が不明確である。 本研究では,エンタングルメント生成と分布の最適化のために,遺伝的アルゴリズムと量子リピータ連鎖のシミュレーションに基づく手法を提案する。 実世界のファイバートポロジーを含む複数のリピータチェーンのシミュレーションに適用することにより、与えられたネットワーク性能ベンチマークを満たす最小限の量子リピータとは何かといった疑問に答えることができることを示す。 この方法論は、汎ヨーロッパ量子インターネットのための青写真の開発に有用なツールである。 我々は、NetSquidシミュレーションとスマートストップ最適化ツールという形で、コードをローカルまたは高性能コンピューティングセンターで自由に利用できるようにしました。

Long-distance quantum communication via entanglement distribution is of great importance for the quantum internet. However, scaling up to such long distances has proved challenging due to the loss of photons, which grows exponentially with the distance covered. Quantum repeaters could in theory be used to extend the distances over which entanglement can be distributed, but in practice hardware quality is still lacking. Furthermore, it is generally not clear how an improvement in a certain repeater parameter, such as memory quality or attempt rate, impacts the overall network performance, rendering the path towards scalable quantum repeaters unclear. In this work we propose a methodology based on genetic algorithms and simulations of quantum repeater chains for optimization of entanglement generation and distribution. By applying it to simulations of several different repeater chains, including real-world fiber topology, we demonstrate that it can be used to answer questions such as what are the minimum viable quantum repeaters satisfying given network performance benchmarks. This methodology constitutes an invaluable tool for the development of a blueprint for a pan-European quantum internet. We have made our code, in the form of NetSquid simulations and the smart-stopos optimization tool, freely available for use either locally or on high-performance computing centers.
翻訳日:2023-04-26 07:40:44 公開日:2020-11-02
# ネットワーク対応ランダムアクセス量子ビットメモリ

A network-ready random-access qubits memory ( http://arxiv.org/abs/2011.00811v1 )

ライセンス: Link先を確認
S. Langenfeld, O. Morin, M. K\"orber, G. Rempe(参考訳) フォトニック量子ビットメモリは多くの量子ネットワークプロトコルの重要な要素である。 理想的な状況は、量子インターフェースを介して量子通信チャネルに効率的に接続される量子コンピューティングノードである。 ノードは長寿命物質量子ビットの集合を含み、チャネルは光量子ビットの伝播をサポートし、インターフェースは光と物質量子ビットを結合する。 本稿では,光キャビティの同じモードに2つのルビジウム原子を結合した光子に対するランダムアクセスマルチ量子ビット書き込みメモリを実証する。 我々は、10以上の独立したフォトニック量子ビットでメモリをテストし、目立ったクロストークを観測せず、10回の書き込み試行の後でも再初期化は不要である。 読み書き効率は26%、コヒーレンス時間は1msに近づいた。 これらの特徴により、ノードは量子リピータと最終的に量子インターネットのための有望なビルディングブロックを構成する。

Photonic qubits memories are essential ingredients of numerous quantum networking protocols. The ideal situation features quantum computing nodes that are efficiently connected to quantum communication channels via quantum interfaces. The nodes contain a set of long-lived matter qubits, the channels support the propagation of light qubits, and the interface couples light and matter qubits. Towards this vision, we here demonstrate a random-access multi-qubit write-read memory for photons using two rubidium atoms coupled to the same mode of an optical cavity, a setup which is known to feature quantum computing capabilities. We test the memory with more than ten independent photonic qubits, observe no noticeable cross talk, and find no need for re-initialization even after ten write-read attempts. The combined write-read efficiency is 26% and the coherence time approaches 1ms. With these features, the node constitutes a promising building block for a quantum repeater and ultimately a quantum internet.
翻訳日:2023-04-26 01:59:43 公開日:2020-11-02
# オープン量子システムのためのユニバーサルリンドブラッド方程式」へのコメント

Comment on "Universal Lindblad equation for open quantum systems" ( http://arxiv.org/abs/2011.00735v1 )

ライセンス: Link先を確認
Jae Sung Lee and Joonhyun Yeo(参考訳) 本稿では,nathan and rudner [phys. rev. b 102, 115109 (2020)] によって導入された量子マスター方程式の定常解は,時間に依存しない系で与えられる熱ギブス状態ではないことを示す。

In this Comment, we show that the thermal Gibbs state given in terms of a time-independent system Hamiltonian is not a steady state solution of the quantum master equation introduced by Nathan and Rudner [Phys. Rev. B 102, 115109 (2020)], in contrast to their claim.
翻訳日:2023-04-26 01:59:04 公開日:2020-11-02
# 電子波束形成による量子電気力学過程の制御

Control of quantum electrodynamical processes by shaping electron wavepackets ( http://arxiv.org/abs/2011.00714v1 )

ライセンス: Link先を確認
Liang Jie Wong, Nicholas Rivera, Chitraang Murdia, Thomas Christensen, John D. Joannopoulos, Marin Solja\v{c}i\'c and Ido Kaminer(参考訳) 自然放出や電子-光子散乱のような基本的な量子電磁力学(QED)プロセスは、現代の科学と技術の基盤の1つとなる多くの現象を包含する。 従来、QEDや他の場の理論の計算では、入射粒子は単モーメント状態であると仮定していた。 これにより、コヒーレントな重ね合わせ状態(すなわち「形波束」)が基本散乱過程の結果を変える可能性は無視され、代わりに入射運動量の非一貫性(統計的)分布に合計されると仮定される。 ここでは,qedにおける散乱過程の結果を変化させる量子干渉を設計できる自由電子波動整形法を示す。 具体的には、QEDプロセス(例えば光子放出)における2つ以上の経路の干渉は、そのプロセスの速度を正確に制御することができる。 例えば、ブレムスストラルング(bremsstrahlung)は、最先端の医療画像、セキュリティスキャン、材料分析、天体物理学のためのx線源で発生するユビキタス現象である。 自由電子波形は、放出光子の空間分布とスペクトル分布の両方を調整し、その方向と単色性を高め、ブレムスシュトラーンのような放出過程をより多目的に行う自由度を付加できることを示す。 量子干渉による光子放射の時空間特性を調整できることは、電磁スペクトル全体にわたって放射を形成する新しい自由度をもたらす。 より広範に、自由電子の形成による一般的なQEDプロセスの調整能力は、電子顕微鏡における光励起過程(例えばプラズモンとフォノンの放出)から量子状態における自由電子ラシングまでのプロセスにおける新たな制御経路を開く。

Fundamental quantum electrodynamical (QED) processes such as spontaneous emission and electron-photon scattering encompass a wealth of phenomena that form one of the cornerstones of modern science and technology. Conventionally, calculations in QED and in other field theories assume that incoming particles are single-momentum states. The possibility that coherent superposition states, i.e. "shaped wavepackets", will alter the result of fundamental scattering processes is thereby neglected, and is instead assumed to sum to an incoherent (statistical) distribution in the incoming momentum. Here, we show that free-electron wave-shaping can be used to engineer quantum interferences that alter the results of scattering processes in QED. Specifically, the interference of two or more pathways in a QED process (such as photon emission) enables precise control over the rate of that process. As an example, we apply our concept to Bremsstrahlung, a ubiquitous phenomenon that occurs, for instance, in X-ray sources for state-of-the-art medical imaging, security scanning, materials analysis, and astrophysics. We show that free electron wave-shaping can be used to tailor both the spatial and the spectral distribution of emitted photons, enhancing their directionality and monochromaticity, and adding more degrees of freedom that make emission processes like Bremsstrahlung more versatile. The ability to tailor the spatiotemporal attributes of photon emission via quantum interference provides a new degree of freedom in shaping radiation across the entire electromagnetic spectrum. More broadly, the ability to tailor general QED processes through the shaping of free electrons opens up new avenues of control in processes ranging from optical excitation processes (e.g., plasmon and phonon emission) in electron microscopy to free electron lasing in the quantum regime.
翻訳日:2023-04-26 01:58:57 公開日:2020-11-02
# 英語ウィキペディアにおけるwikidatatransclusionの分析

Analyzing Wikidata Transclusion on English Wikipedia ( http://arxiv.org/abs/2011.00997v1 )

ライセンス: Link先を確認
Isaac Johnson(参考訳) wikidataは、言語間リンクの維持だけでなく、記事内のコンテンツの自動化など、wikipediaにとって着実に中心的な存在になりつつある。 しかし、ウィキデータコンテンツがウィキペディアにどの程度浸透しているかはよく分かっていない。 本研究は,wikidatatransclusionの分類を,読者への影響の可能性の観点から,および英語wikipediaにおけるwikidatatransclusionの詳細な分析から提示する。 ウィキペディアの記事の内容に影響を与えるwikidatatransclusionは、以前の統計(61%)よりもずっと低い率(5%)で起こることが判明した。 wikidatatransclusionの評価において、メトリクスやパトロールを支援するためにwikidatatransclusionの現在のトラッキングメカニズムをどのように調整するかを推奨する。

Wikidata is steadily becoming more central to Wikipedia, not just in maintaining interlanguage links, but in automated population of content within the articles themselves. It is not well understood, however, how widespread this transclusion of Wikidata content is within Wikipedia. This work presents a taxonomy of Wikidata transclusion from the perspective of its potential impact on readers and an associated in-depth analysis of Wikidata transclusion within English Wikipedia. It finds that Wikidata transclusion that impacts the content of Wikipedia articles happens at a much lower rate (5%) than previous statistics had suggested (61%). Recommendations are made for how to adjust current tracking mechanisms of Wikidata transclusion to better support metrics and patrollers in their evaluation of Wikidata transclusion.
翻訳日:2023-04-26 01:51:09 公開日:2020-11-02
# 制限量子系における空間的非局所性--量子相関による関係

Spatial non-locality in confined quantum systems: a liaison with quantum correlations ( http://arxiv.org/abs/2011.00967v1 )

ライセンス: Link先を確認
Ivan P. Christov(参考訳) 高度確率法(時間依存量子モンテカルロ、TDQMC)を用いて、高調波トラップ中の最大6ボソンの1Dおよび2D人工原子の基底状態を調べ、これらは長距離および短距離クーロン様ポテンシャル(ボゾン量子ドット)と相互作用する。 非局所相関長と命名されたTDQMCにおける鍵変動パラメータの最適化値は、1つのボソンに対するモンテカルロ試料の標準偏差に近く、相互作用ポテンシャルの範囲に若干依存していることが示されている。 また、2d系におけるボソンの数にはほとんど依存しないため、各粒子が経験する空間的量子非局所性は、残りの粒子が示す空間的不確かさに近いことが確かめられる。 空間的非局所性と量子相関の間の密接な関係は明らかである。

Using advanced stochastic methods (time-dependent quantum Monte Carlo, TDQMC) we explore the ground state of 1D and 2D artificial atoms with up to six bosons in harmonic trap where these interact by long-range and short-range Coulomb-like potentials (bosonic quantum dots). It is shown that the optimized value of the key variational parameter in TDQMC named nonlocal correlation length is close to the standard deviation of the Monte Carlo sample for one boson and it is slightly dependent on the range of the interaction potential. Also it is almost independent on the number of bosons for the 2D system thus confirming that the spatial quantum non-locality experienced by each particle is close to the spatial uncertainty exhibited by the rest of the particles. The intimate connection between spatial non-locality and quantum correlations is clearly evidenced.
翻訳日:2023-04-26 01:50:55 公開日:2020-11-02
# 連続変数ボルンマシン

A Continuous Variable Born Machine ( http://arxiv.org/abs/2011.00904v1 )

ライセンス: Link先を確認
Ieva \v{C}epait\.e, Brian Coyle, Elham Kashefi(参考訳) ジェネレイティブモデリングは、短期量子コンピュータの有望なユースケースとなっている。 特に、量子力学の基本的な確率的性質から、量子コンピュータは自然に確率分布をモデル化し学習するが、これは古典的に達成できるよりも効率的である。 ボルンマシンはそのようなモデルの例であり、近距離量子コンピュータに容易に実装できる。 しかし、元々の形式では、ボルンマシンは自然に離散分布を表すだけである。 連続的な自然の確率分布は世界で一般的であるため、それらを効率的に表現できるモデルを持つことが不可欠である。 文学では、連続分布をより容易に学習するために、個別のボルンマシンを補うためのいくつかの提案がなされているが、これら全ては、ある程度のリソースを常に増加させる。 本研究では、連続変数量子コンピューティングの代替アーキテクチャに基づいて構築された連続変数ボルンマシンについて述べる。 ノイズの有無を含む量子的連続分布と古典的連続分布の両方を学習する能力を示す数値的な結果を提供する。

Generative Modelling has become a promising use case for near term quantum computers. In particular, due to the fundamentally probabilistic nature of quantum mechanics, quantum computers naturally model and learn probability distributions, perhaps more efficiently than can be achieved classically. The Born machine is an example of such a model, easily implemented on near term quantum computers. However, in its original form, the Born machine only naturally represents discrete distributions. Since probability distributions of a continuous nature are commonplace in the world, it is essential to have a model which can efficiently represent them. Some proposals have been made in the literature to supplement the discrete Born machine with extra features to more easily learn continuous distributions, however, all invariably increase the resources required to some extent. In this work, we present the continuous variable Born machine, built on the alternative architecture of continuous variable quantum computing, which is much more suitable for modelling such distributions in a resource-minimal way. We provide numerical results indicating the models ability to learn both quantum and classical continuous distributions, including in the presence of noise.
翻訳日:2023-04-26 01:49:08 公開日:2020-11-02
# モンドリアンの1920-1940年の作曲構造の分析

Analyzing the Structure of Mondrian's 1920-1940 Compositions ( http://arxiv.org/abs/2011.00843v1 )

ライセンス: Link先を確認
Loe Feijs(参考訳) モンドリアンは20世紀の最も重要な画家の一人であった。 彼はデスティル(DeStijl)の著名なメンバーであり、既存の物や人物、状況のイメージを作る義務を負わずに芸術に革命をもたらした。 デスティルは、キュービズム、構成主義、未来主義、ダダを含む20世紀初頭のヨーロッパの相互関係運動の1つであった。 彼らの破壊的な考えは西洋芸術の意味を変えた。 他の誰よりも、ネオプラミズムと呼ばれる理論に基づいて、最も純粋な美と真実の表現を見つけるために無休に働いたのはモンドリアンであった。 彼は存命中すでに有名であり、現在もその名は現代美術のほぼ同義語である。 絵中の黒線系の構造を分析し,再帰的(二元的)分割によって絵画が得られるという仮説を検証した。 我々は,新しいテーラーメイドの対話的分析ツールを用いて,可能な限り多くのモンドリアン絵画に適用した(計147点)。 結果は視覚的に説明されるが,147枚の絵画の分析から統計的に得られた知見も提示する。 我々の主な結論は、分割分解の仮説は一般には正しくないということである。 モンドリアン的な構成を分割することで作ることができるが、分割のみによって機能するならば、多くのネオプラスティックな美しさを見逃してしまう。 すべての横断をティーのペアと考えることは可能だが、それは不器用であり、必須の情報を残している。 さらに、分割によってよく説明されていないキャンバスエッジへの保持距離など、mondrianの他の重要な設計決定がある。

Mondrian was one of the most significant painters of the 20th century. He was a prominent member of DeStijl, the movement which revolutionized art by setting it free of the obligation to make images of existing objects, persons, or situations. DeStijl was one of the interrelated movements in early 20th century Europe including Cubism, Constructivism, the Futurists, and Dada. Their disruptive ideas changed the meaning of Western art. It was Mondrian, more than anyone else, who worked restlessly to find expression for the purest possible kind of beauty and truth, based on a theory called Neoplasticism. He was already famous during his lifetime and still now, his name is almost synonym for modern art. We analyze the structure of the system of black lines in his paintings and put the hypothesis to the test that the paintings could be obtained by recursive (binary) splitting. We used a novel tailor-made interactive analysis tool and apply it to as many Mondrian paintings as possible (in total 147). The results will be explained in a visual manner, but we also present statistical findings from the analysis of the 147 paintings. Our main conclusion is that the hypothesis of splitting decomposition is in general not true. It is possible to make Mondrian-like compositions by splitting, yet one misses out on a great deal of Neoplastic beauty if one would work by splitting only. It is possible to consider all crossings as pairs of Tees, but that is clumsy, and it leaves out essential information. Moreover there are other important design decisions of Mondrian, such as the keeping-distance to the canvas-edge which are not well-described by splitting.
翻訳日:2023-04-26 01:48:51 公開日:2020-11-02
# キャリアの組み合わせによるパッケージ配送最適化の数学的シミュレーション

Mathematical simulation of package delivery optimization using a combination of carriers ( http://arxiv.org/abs/2011.01200v1 )

ライセンス: Link先を確認
Valentyn M. Yanchuk, Andrii G. Tkachuk, Dmitry S. Antoniuk, Tetiana A. Vakaliuk, and Anna A. Humeniuk(参考訳) 現代の世界の様々な商品やサービスは、サービスeコマースプラットフォームのパフォーマンスを恒久的に改善する必要がある。 現代の社会は、郵便配達、オンラインでの商品やサービスの購入と深く統合されており、サービスと良いプロバイダーの競争が重要な選択要因となっている。 ロジスティックでタイムリーでコスト効率の良いデリバリーが重要な役割を果たす限り、著者らは現在の分野、特に人気のある流通センターから離れた地域における改善の可能性を分析することにした。 迅速なデリバリと遅延デリバリの両方を考慮すると、コストの要因はエンドユーザ毎に重要な役割を担います。 例えば、サプライヤ・フリート、ワールド・ウェイド・デリバリー・サービス・フリートによる配送の状況において、eコマース・オーダーの現在の配送コストを分析し、ベンダーのドロップシップや代替手段のチェックがコストを最小化するために使用できるシミュレーションを提案する。 調査の主な対象は、大きな流通センターから遠く離れた中小企業(灯台、アクセシビリティーが非常に限られているエッジロックのようなケースを除く)に焦点をあてるが、日々の活動にeコマースソリューションを積極的に使用することである。 著者らは、世界中のサプライヤーやローカルキャリアが配送する経路を組み合わせて、長距離配送のためのパッケージ配送のコスト最適化の問題を分析して提案した。 現代企業資源計画システムのデータモデルとアドオンが用いられ,フロー選択の変化の観点からさらなる開発が提案されている。 この実験は、米国企業のデータソースをベースとして、幅広いキャリアをデリバリーサービスに使用し、実際の企業のデータソースを使用するが、得られたソリューションのばらつきを分析するために繰り返しシミュレーションを適用する。

A variety of goods and services in the contemporary world requires permanent improvement of services e-commerce platform performance. Modern society is so deeply integrated with mail deliveries, purchasing of goods and services online, that makes competition between service and good providers a key selection factor. As long as logistic, timely, and cost-effective delivery plays important part authors decided to analyze possible ways of improvements in the current field, especially for regions distantly located from popular distribution centers. Considering both: fast and lazy delivery the factor of costs is playing an important role for each end-user. Given work proposes a simulation that analyses the current cost of delivery for e-commerce orders in the context of delivery by the Supplier Fleet, World-Wide delivery service fleet, and possible vendor drop-ship and checks of the alternative ways can be used to minimize the costs. The main object of investigation is focused around mid and small businesses living far from big distribution centers (except edge cases like lighthouses, edge rocks with very limited accessibility) but actively using e-commerce solutions for daily activities fulfillment. Authors analyzed and proposed a solution for the problem of cost optimization for packages delivery for long-distance deliveries using a combination of paths delivered by supplier fleets, worldwide and local carriers. Data models and Add-ons of contemporary Enterprise Resource Planning systems were used, and additional development is proposed in the perspective of the flow selection change. The experiment is based on data sources of the United States companies using a wide range of carriers for delivery services and uses the data sources of the real companies; however, it applies repetitive simulations to analyze variances in obtained solutions.
翻訳日:2023-04-26 01:41:24 公開日:2020-11-02
# クリフォード時空代数による光子量子力学のバージョンの統一

Unification of versions of photon quantum mechanics through Clifford spacetime algebra ( http://arxiv.org/abs/2011.01068v1 )

ライセンス: Link先を確認
Margaret Hawton(参考訳) クリフォード時空のマクスウェル方程式の代数的記述をレビューし、最近発表された光子量子力学のバージョンの統一された図式を示す。 光子波方程式と保存された4電流は、複素化された標準ラグランジアンから導かれる。 運動方程式とスカラー積は運動量空間波動関数のフーリエ変換とスカラー積 [phys. rev. a 102, 042201 (2020)] から得られるものとよく一致していることがわかった。

The Clifford spacetime algebraic description of Maxwell's equations is reviewed and shown to give a unified picture of recently published versions of photon quantum mechanics. Photon wave equations and a conserved four-current are derived from the complexified standard Lagrangian. The equations of motion and scalar product are found to be in good agreement with those obtained from Fourier transformation of momentum space wave function and scalar product [Phys. Rev. A 102, 042201 (2020)].
翻訳日:2023-04-26 01:38:56 公開日:2020-11-02
# 適応変分量子固有ソルバのベンチマーク

Benchmarking adaptive variational quantum eigensolvers ( http://arxiv.org/abs/2011.01279v1 )

ライセンス: Link先を確認
Daniel Claudino, Jerimiah Wright, Alexander J. McCaskey, Travis S. Humble(参考訳) 設計により、変分量子固有解法(VQE)は、変分原理によって導かれる量子状態を作成することにより、与えられたハミルトンの最低エネルギー固有値の回復を試みる。 実際には、準備された量子状態は関連するエネルギーの値によって間接的に評価される。 新しい適応微分型擬似トロッター(adapt) ansatzアプローチと最近の公式な進歩により、量子化学理論と電子構造問題を解決するために用いられる量子状態アンサッツの間に明確な関係が確立される。 ここではVQEとADAPT-VQEの精度をベンチマークし、いくつかの選択された二原子分子(H$_2$, NaH, KH)の電子基底状態とポテンシャルエネルギー曲線を計算する。 数値シミュレーションにより,両手法ともエネルギーと基底状態の良質な推定が得られたが,adapt-vqeのみが最適化手法の特異性にロバストであることが判明した。 もう一つの関連する発見は、勾配に基づく最適化は全体的に経済的であり、勾配なし最適化による類似のシミュレーションよりも優れたパフォーマンスをもたらすことである。 また, 分子サイズの増加傾向を示す, 調製された状態の忠実度に小さな誤差がみられた。

By design, the variational quantum eigensolver (VQE) strives to recover the lowest-energy eigenvalue of a given Hamiltonian by preparing quantum states guided by the variational principle. In practice, the prepared quantum state is indirectly assessed by the value of the associated energy. Novel adaptive derivative-assembled pseudo-trotter (ADAPT) ansatz approaches and recent formal advances now establish a clear connection between the theory of quantum chemistry and the quantum state ansatz used to solve the electronic structure problem. Here we benchmark the accuracy of VQE and ADAPT-VQE to calculate the electronic ground states and potential energy curves for a few selected diatomic molecules, namely H$_2$, NaH, and KH. Using numerical simulation, we find both methods provide good estimates of the energy and ground state, but only ADAPT-VQE proves to be robust to particularities in optimization methods. Another relevant finding is that gradient-based optimization is overall more economical and delivers superior performance than analogous simulations carried out with gradient-free optimizers. The results also identify small errors in the prepared state fidelity which show an increasing trend with molecular size.
翻訳日:2023-04-26 01:32:49 公開日:2020-11-02
# 量子センサネットワークによるフィールド特性の最適測定

Optimal Measurement of Field Properties with Quantum Sensor Networks ( http://arxiv.org/abs/2011.01259v1 )

ライセンス: Link先を確認
Timothy Qian, Jacob Bringewatt, Igor Boettcher, Przemyslaw Bienias, and Alexey V. Gorshkov(参考訳) 量子ビットセンサの量子センサネットワークをフィールド $f(\vec{x};\vec{\theta})$ に結合し、パラメータのベクトル $\vec\theta$ で解析パラメータ化する。 量子ビットセンサは、位置 $\vec{x}_1,\dots,\vec{x}_d$ に固定される。 f(\vec{x};\vec{\theta})$ の関数形式は知られているが、$\vec{\theta}$ のパラメータは知られていない。 任意の解析関数 $q(\vec{\theta})$ を測定する精度の飽和境界を導出し、これらの境界を達成する最適なプロトコルを構築する。 この結果は、線形プログラミングのための量子情報理論と双対定理の組合せから得られる。 量子センサーの最適配置、場の補間、パラメータ化された場の関数の測定など、多くの問題に適用できる。

We consider a quantum sensor network of qubit sensors coupled to a field $f(\vec{x};\vec{\theta})$ analytically parameterized by the vector of parameters $\vec\theta$. The qubit sensors are fixed at positions $\vec{x}_1,\dots,\vec{x}_d$. While the functional form of $f(\vec{x};\vec{\theta})$ is known, the parameters $\vec{\theta}$ are not. We derive saturable bounds on the precision of measuring an arbitrary analytic function $q(\vec{\theta})$ of these parameters and construct the optimal protocols that achieve these bounds. Our results are obtained from a combination of techniques from quantum information theory and duality theorems for linear programming. They can be applied to many problems, including optimal placement of quantum sensors, field interpolation, and the measurement of functionals of parametrized fields.
翻訳日:2023-04-26 01:30:48 公開日:2020-11-02
# 密度演算子の長時間平均の近似:対角アンサンブル

Approximating the long time average of the density operator: Diagonal ensemble ( http://arxiv.org/abs/2011.01257v1 )

ライセンス: Link先を確認
Asl{\i} \c{C}akan, J. Ignacio Cirac, Mari Carmen Ba\~nuls(参考訳) 平衡状態の孤立した一般量子系では、可観測物の長期平均は対角線アンサンブル、すなわちエネルギー固有状態が初期状態と同じ確率で異なるエネルギー間のコヒーレンスを持たない混合状態によって与えられる。 本稿では,テンソルネットワークを用いた対角アンサンブルを近似する手法を提案する。 リアルタイムの進化をシミュレートする代わりに、この問題に対して [Phys. B 101, 144305 (2020)] で導入されたフィルタリングスキームを適応させる。 本研究では, 局所観測値がフィルタの逆幅と多項式的に熱値に収束することを観察する, 非可積分スピン鎖上の手法の性能を解析する。

For an isolated generic quantum system out of equilibrium, the long time average of observables is given by the diagonal ensemble, i.e. the mixed state with the same probability for energy eigenstates as the initial state but without coherences between different energies. In this work we present a method to approximate the diagonal ensemble using tensor networks. Instead of simulating the real time evolution, we adapt a filtering scheme introduced earlier in [Phys. Rev. B 101, 144305 (2020)] to this problem. We analyze the performance of the method on a non-integrable spin chain, for which we observe that local observables converge towards thermal values polynomially with the inverse width of the filter.
翻訳日:2023-04-26 01:30:35 公開日:2020-11-02
# 2層系のゲージ原理とゲージ不変性

Gauge Principle and Gauge Invariance in Two-Level Systems ( http://arxiv.org/abs/2101.00083v1 )

ライセンス: Link先を確認
Salvatore Savasta, Omar Di Stefano, Alessio Settineri, David Zueco, Stephen Hughes, and Franco Nori(参考訳) 量子ラビモデル(quantum rabi model)は、2レベル系と電磁共振器の量子化された単一モードとの結合を広く記述したモデルである。 このモデルのゲージ不変性に関する問題が提起されている。 これらの問題は、光間相互作用がいわゆる超強結合状態に達すると明らかになる。 近年,任意の相互作用系においてゲージ不変な物理結果(エネルギー準位,観測可能性の期待値,量子確率など)を提供できる修正量子rabiモデルが導入された [nature physics 15, 803 (2019)]。 ここでは、ゲージ原理の2状態系において、量子場理論における全ての基本相互作用が導出される原理として、この結果の代替導出を提案する。 この手法は、格子ゲージ理論においてゲージ原理を実装するのに使用される一般手法の2サイト版とみなすことができる。 この手法を応用し、非対称2状態系に対するゲージ不変量子ラビモデルと双極子近似を超えるマルチモードゲージ不変量子ラビモデルを得る。

The quantum Rabi model is a widespread description of the coupling between a two-level system and a quantized single mode of an electromagnetic resonator. Issues about this model's gauge invariance have been raised. These issues become evident when the light-matter interaction reaches the so-called ultrastrong coupling regime. Recently, a modified quantum Rabi model able to provide gauge-invariant physical results (e.g., energy levels, expectation values of observables, quantum probabilities) in any interaction regime was introduced [Nature Physics 15, 803 (2019)]. Here we provide an alternative derivation of this result, based on the implementation in two-state systems of the gauge principle, which is the principle from which all the fundamental interactions in quantum field theory are derived. The adopted procedure can be regarded as the two-site version of the general method used to implement the gauge principle in lattice gauge theories. Applying this method, we also obtain the gauge-invariant quantum Rabi model for asymmetric two-state systems, and the multi-mode gauge-invariant quantum Rabi model beyond the dipole approximation.
翻訳日:2023-04-26 01:22:27 公開日:2020-11-02
# forget-me-block:分散台帳技術を用いた個人情報管理におけるデジタル保存戦略の検討

Forget-me-block: Exploring digital preservation strategies using Distributed Ledger Technology in the context of personal information management ( http://arxiv.org/abs/2011.05759v1 )

ライセンス: Link先を確認
James David Hackman(参考訳) the new york timesが10年前に書いたように、「ウェブは忘れられる終わりを意味している」。 しかし現実には、デジタルレコードはアナログ版と同じようなアクセス損失のリスクを負っている。 多くの場合、このリスクは特殊サードパーティにアウトソースされる。 一般的なユースケースは、個人情報管理(pim: personal information management)、例えばカレンダー、日記、タスクなどである。 多くの場合、これらは2つの削除でアウトソースされる - まず個人から雇用者(例えば企業システム)へ、次に雇用者から外部プロバイダへ。 組織の変化 — 情報が要求される頃には、ユーザとデータをリンクする組織的チェーンが破壊される可能性がある — 雇用主が別のプロバイダに移行し、従業員が会社を去り、isプロバイダが新たなサービスに移行する。 DLT(Distributed Ledger Technology)の出現は、これらのリスクを軽減するのに役立ち、データ生成とオーナシップの関係の再評価につながった。 DLTは不正確な用語であるが、典型的には、組織的に分離されたエンティティを暗号化的にセキュアな形で格納する。 このプロジェクトは、dltをpimの分野に適用する最初の研究であり、ethereumブロックチェーン上のカレンダーアプリケーションの斬新な実装により、デザインサイエンスの最先端技術である。 また、デジタル保存におけるDLTの利用に関する現在の研究、すなわち、個人から集合的関連性へ移行する際のデジタルオブジェクトの所有権の移譲を可能にする、DL内での連続的なアプローチの実施も拡張している。 最後にデジタル保存におけるDLTの今後の利用に関するガイドラインを提供する。

Received wisdom portrays digital records as guaranteeing perpetuity; as the New York Times wrote a decade ago: "the web means the end of forgetting". The reality however is that digital records suffer similar risks of access loss as the analogue versions they replace. Often this risk is outsourced to specialised third parties. Common use cases include Personal Information Management (PIM): e.g. calendars, diaries, tasks, etc. Frequently these are outsourced at two removes - firstly by the individual to their employer (e.g. using a company system) and then by their employer to an external provider. So enters a new risk: organisational change; by the time the information is required the organisational chain that links user to data may be broken: the employer transitions to a different provider, the employee leaves the company, the IS provider pivots to new offerings. The advent of Distributed Ledger Technology (DLT) could help mitigate these risks; and has led to a re-evaluation of the relationship between data creation and ownership. Although DLT is an imprecise term, it typically involves data storage across organisationally separate entities in a cryptographically secure form; and therefore could present a partial solution to the risk. This project presents the first research that applies DLT to the field of PIM, furthering design science state of the art by a novel implementation of a calendar application on the Ethereum blockchain. It also extends current research in utilising DLT in digital preservation, namely by enacting a continuum approach within a DL that allows for transfer of ownership of digital objects as they transition from individual to collective relevance. Finally it provides guidelines for future use of DLT within digital preservation.
翻訳日:2023-04-26 01:21:44 公開日:2020-11-02
# 配車サービスとカーシート:技術認識と利用パターン

Ridesharing Services and Car-Seats: Technological Perceptions and Usage Patterns ( http://arxiv.org/abs/2011.02277v1 )

ライセンス: Link先を確認
Subasish Das(参考訳) 子供たちは交通事故で最も脆弱なグループの一つです。 子供の安全シート(CSS)は、子供のクラッシュ結果の重症度を減らすことができる。 アメリカでは過去40年間でcssの利用が大幅に改善されているが、uberやlyftといった人気のライドシェアサービス(rss)でのcssの利用は普及していないと予測されている。 本稿は,rssの技術的認知に関して,乗客と運転者が子どもの乗客の安全に対する認識を理解することを目的とした,全国的なインターネット調査を行った。 本研究では,厳密な探索データ分析を行い,調査参加者の心理的洞察を明らかにする。 さらに、直観的な洞察を得るために、最近開発された次元還元法を用いて、応答の共起パターンを理解する。 高い教育学位を持つ都会在住の親は、技術上の利点に慣れているため、RSSを使うことが多い。 一方、非アーバンで中等教育を受けた親や保護者は、その技術への信頼が低かったため、子供と一緒に乗れるようにしてRSSの使用を拒否される。

Children are one of the most vulnerable groups in traffic crashes. Child safety seats (CSSs) can decrease the severity of crash outcomes for children. The usage of CSSs has significantly improved in the U.S. over the last 40 years, but it is anticipated that the usage of CSSs in popular ridesharing services (RSSs), such as Uber and Lyft, is not widespread. This paper used a publicly available nationwide internet survey that was designed to gain an understanding of riders and drivers perception toward child passenger safety in regard to technological perception on RSSs. This study performed a rigorous exploratory data analysis to identify the key psychological insights of the survey participants. Additionally, a recently developed dimension-reduction method has been applied to understand the co-occurrence patterns of the responses to gain intuitive insights. It is found that urban-dwelling parents with higher education degrees eventually use RSSs often due to their familiarity of the technological advantages. On the other hand, non-urban and moderately educated parents and guardians are dismissive in using RSSs while having kids with them to ride due to less trust on the technology.
翻訳日:2023-04-26 01:21:15 公開日:2020-11-02
# ハイブリッド量子古典アルゴリズムと量子エラー軽減

Hybrid quantum-classical algorithms and quantum error mitigation ( http://arxiv.org/abs/2011.01382v1 )

ライセンス: Link先を確認
Suguru Endo, Zhenyu Cai, Simon C. Benjamin, Xiao Yuan(参考訳) 量子コンピュータは、量子ビット数で指数関数的に増加するヒルベルト空間を利用することができる。 実験では、最近、50量子ビットを超えるノイズの多い中間スケール量子(NISQ)デバイスを使用して、Googleチームが量子超越性を達成した。 しかしながら、nisqデバイスで何が実装できるかという問題は、まだ完全には検討されておらず、そのようなデバイスで有用なタスクを見つけることは、かなりの関心を集めている。 ハイブリッド量子古典アルゴリズムは、量子コンピュータと古典的コンピュータを組み合わせることで、NISQデバイス上での実行に適していると見なされ、量子コンピューティングにおける最初の有用なアプリケーションとして期待されている。 一方、量子プロセッサ上のエラーの軽減は信頼性の高い結果を得るためにも重要である。 本稿では,ハイブリッド量子古典アルゴリズムと量子誤差軽減手法の基礎結果について概説する。 NISQデバイスを用いた量子コンピューティングは活発に発展している分野であるため、このレビューは今後の研究に有用な基礎になるだろう。

Quantum computers can exploit a Hilbert space whose dimension increases exponentially with the number of qubits. In experiment, quantum supremacy has recently been achieved by the Google team by using a noisy intermediate-scale quantum (NISQ) device with over 50 qubits. However, the question of what can be implemented on NISQ devices is still not fully explored, and discovering useful tasks for such devices is a topic of considerable interest. Hybrid quantum-classical algorithms are regarded as well-suited for execution on NISQ devices by combining quantum computers with classical computers, and are expected to be the first useful applications for quantum computing. Meanwhile, mitigation of errors on quantum processors is also crucial to obtain reliable results. In this article, we review the basic results for hybrid quantum-classical algorithms and quantum error mitigation techniques. Since quantum computing with NISQ devices is an actively developing field, we expect this review to be a useful basis for future studies.
翻訳日:2023-04-26 01:20:58 公開日:2020-11-02
# 偽装と影響の戦略

Deception and the Strategy of Influence ( http://arxiv.org/abs/2011.01331v1 )

ライセンス: Link先を確認
Brian B., William Fleshman, Kevin H., Ryan Kaliszewski, Shawn R(参考訳) 組織は長い間、彼らの議題を追求する上で影響力を発揮する手段として騙しを使っていた。 特に、プロパガンダの配布、反政府抗議の支持、政治的および社会的に有害な秘密の暴露といった情報操作は、第二次世界大戦と冷戦の間に豊富であった。 それぞれの取り組みの重要なコンポーネントは、意図とアイデンティティを隠蔽することでターゲットを欺くことです。 信頼できる情報源からの情報は、敵からの情報よりも影響力があり、したがって意見が薄れやすい。 ソーシャルメディアのユビキタスな普及は、ユーザ生成およびピア拡散コンテンツによって特徴づけられ、世界中で影響力のある操作の頻度、規模、効果が顕著に増加した。 本稿では, オーディエンス構築, メディアハイジャック, コミュニティ・サブバージョンといった詐欺の手法が, 今日のインフルエンス・オペレーターの技法やトレードクラフトにどのように影響を与えるかを考察する。 そこで我々は,適切に装備された情報提供者が,悪性障害の診断と対策を行う方法について論じる。

Organizations have long used deception as a means to exert influence in pursuit of their agendas. In particular, information operations such as propaganda distribution, support of antigovernment protest, and revelation of politically and socially damaging secrets were abundant during World War II and the Cold War. A key component of each of these efforts is deceiving the targets by obscuring intent and identity. Information from a trusted source is more influential than information from an adversary and therefore more likely to sway opinions. The ubiquitous adoption of social media, characterized by user-generated and peer disseminated content, has notably increased the frequency, scale, and efficacy of influence operations worldwide. In this article, we explore how methods of deception including audience building, media hijacking, and community subversion inform the techniques and tradecraft of today's influence operators. We then discuss how a properly equipped and informed public can diagnose and counter malign influence operations.
翻訳日:2023-04-26 01:19:56 公開日:2020-11-02
# 自由電子を用いた量子フォトニック状態の形成

Shaping Quantum Photonic States Using Free Electrons ( http://arxiv.org/abs/2011.01315v1 )

ライセンス: Link先を確認
Adi Ben Hayun, Ori Reinhardt, Jonathan Nemirovsky, Aviv Karnieli, Nicholas Rivera, Ido Kaminer(参考訳) これは、スクイーズ、準ポアソン統計、絡み合いのようなユニークな量子特性を持つ堅牢な決定論的な光状態を生成するという長年の目標である。 このような光の量子状態が、自由電子との相互作用を利用して、古典的な光を生成するために既にユビキタスに使われているものを超えることができるかどうかを考えることは興味深い。 この問題は、量子自由電子との相互作用を通じて光子を操作する新しいプラットフォームである電子顕微鏡の開発によって動機づけられている。 ここでは、自由電子と光キャビティ中の光子との量子相互作用を用いて、光子統計の形状を探索する。 我々は、入力光と電子状態の公平な選択によって生成される様々な光の量子状態を見つける。 例えば、電子をエネルギーコムに形成することで光子変位操作の実装が実現し、例えば、転位されたフォックと転位された圧縮状態の生成が可能になることを示す。 また,電子とキャビティの繰り返し相互作用によって所望のフォック状態を生成する方法を示し,測定を行った。 我々は、単一電子と複数の連続電子と共通の空洞モードの相互作用の理論を発展させる。 今後は、任意の電子-光子量子状態の自由度を利用することにより、出力フォトニック状態の統計と相関の完全な制御が達成され、光の新たな量子状態が生まれるかもしれない。

It is a long-standing goal to generate robust deterministic states of light with unique quantum properties, such as squeezing, sub-Poissonian statistics and entanglement. It is of interest to consider whether such quantum states of light could be generated by exploiting interactions with free electrons, going beyond their already ubiquitous use in generating classical light. This question is motivated by developments in electron microscopy, which present a new platform for manipulating photons through their interaction with quantum free electrons. Here, we explore the shaping of photon statistics using the quantum interactions of free electrons with photons in optical cavities. We find a variety of quantum states of light that can be generated by a judicious choice of the input light and electron states. For example, we show how shaping an electron into an energy comb can provide an implementation of a photon displacement operation, allowing, for instance, the generation of displaced Fock and displaced squeezed states. We also show how one can generate a desired Fock state by repeated interactions of electrons with a cavity, followed by measurements. We develop the underlying theory of the interaction of both a single and many consecutive electrons with a common cavity mode. Looking forward, by exploiting the degrees of freedom of arbitrary electron-photon quantum states, we may achieve complete control over the statistics and correlations of output photonic states, leading to the generation of novel quantum states of light.
翻訳日:2023-04-26 01:19:40 公開日:2020-11-02
# 決定論的勾配勾配の確率性:多目的関数に対する大規模学習率

Stochasticity of Deterministic Gradient Descent: Large Learning Rate for Multiscale Objective Function ( http://arxiv.org/abs/2002.06189v2 )

ライセンス: Link先を確認
Lingkai Kong and Molei Tao(参考訳) 本稿では, 確率勾配近似を用いない決定論的勾配 Descent が, 確率的挙動を示すことを示唆する。 特に、目的関数がマルチスケールな振る舞いを示す場合、その目的のマクロ的詳細のみを解決し、顕微鏡的詳細ではない大きな学習率体制において、決定論的GDダイナミクスは局所的な最小化ではなく統計的分布にカオス的かつ収束しうることを示す。 また、この長期統計限界を再スケールしたギブス分布を近似するための十分な条件も確立されている。 理論的および数値的な実演は共に提供され、理論的な部分は(離散拡散とは対照的に)有界雑音を用いる確率写像の構成に依存する。

This article suggests that deterministic Gradient Descent, which does not use any stochastic gradient approximation, can still exhibit stochastic behaviors. In particular, it shows that if the objective function exhibit multiscale behaviors, then in a large learning rate regime which only resolves the macroscopic but not the microscopic details of the objective, the deterministic GD dynamics can become chaotic and convergent not to a local minimizer but to a statistical distribution. A sufficient condition is also established for approximating this long-time statistical limit by a rescaled Gibbs distribution. Both theoretical and numerical demonstrations are provided, and the theoretical part relies on the construction of a stochastic map that uses bounded noise (as opposed to discretized diffusions).
翻訳日:2023-01-01 04:50:05 公開日:2020-11-02
# PeeledHuman: 3次元人体再構築のためのロバストな形状表現

PeeledHuman: Robust Shape Representation for Textured 3D Human Body Reconstruction ( http://arxiv.org/abs/2002.06664v2 )

ライセンス: Link先を確認
Sai Sagar Jinka, Rohan Chacko, Avinash Sharma and P. J. Narayanan(参考訳) PeeledHumanは、自己閉塞に対して堅牢な、人間の身体の新たな形状表現である。 PeeledHumanは、人間の体を2Dのピール深度とRGBマップの集合としてエンコードし、3Dボディモデル上でレイトレーシングを行い、各光線を最初の交差点を越えて拡張することで得られる。 この定式化により、他の表現よりも効率的に自己閉塞を処理できる。 モノクルなRGB画像が与えられた場合、新しいフレームワークであるPeelGANを用いて、これらのPeeledマップをエンドツーエンドの逆方向で学習する。 我々はPelGANを3D Chamfer損失と他の2D損失を用いて訓練し、デュアルブランチ設定で画素あたりの複数の深さ値と対応するRGBフィールドを生成する。 単純な非パラメトリックな解法では,生成したピール深度マップを3次元空間にバックプロジェクションして,完全なテクスチャ付き3次元形状を得る。 対応するRGBマップは頂点レベルのテクスチャの詳細を提供する。 本手法と現在のパラメトリック法と非パラメトリック法を比較し,最新の結果を得た。 我々は,公開可能なbuffおよびmonoperfcapデータセットと,校正されたマルチkinect設定で収集されたゆるい衣料データに対する表現の有効性を実証する。

We introduce PeeledHuman - a novel shape representation of the human body that is robust to self-occlusions. PeeledHuman encodes the human body as a set of Peeled Depth and RGB maps in 2D, obtained by performing ray-tracing on the 3D body model and extending each ray beyond its first intersection. This formulation allows us to handle self-occlusions efficiently compared to other representations. Given a monocular RGB image, we learn these Peeled maps in an end-to-end generative adversarial fashion using our novel framework - PeelGAN. We train PeelGAN using a 3D Chamfer loss and other 2D losses to generate multiple depth values per-pixel and a corresponding RGB field per-vertex in a dual-branch setup. In our simple non-parametric solution, the generated Peeled Depth maps are back-projected to 3D space to obtain a complete textured 3D shape. The corresponding RGB maps provide vertex-level texture details. We compare our method with current parametric and non-parametric methods in 3D reconstruction and find that we achieve state-of-the-art-results. We demonstrate the effectiveness of our representation on publicly available BUFF and MonoPerfCap datasets as well as loose clothing data collected by our calibrated multi-Kinect setup.
翻訳日:2022-12-31 18:16:45 公開日:2020-11-02
# 条件変数を持つ対象物のベイズ最適化

Practical Bayesian Optimization of Objectives with Conditioning Variables ( http://arxiv.org/abs/2002.09996v2 )

ライセンス: Link先を確認
Michael Pearce, Janis Klaise, Matthew Groves(参考訳) ベイズ最適化(英: Bayesian optimization)は、データ効率のよいモデルに基づくアルゴリズムの一種。 例えば、患者分布の異なる都市を対象とする場合、患者分布に基づく救急車の配置を最適化するなど、利用者が状態変数に条件付きで最適化する必要がある複数の問題に直面している場合を考える。 CIFAR-10のパーティションを考慮し、各パーティションに対してCNNハイパーパラメータを最適化する。 目的間の類似性は、それぞれの目的の最適化を2つの方法で促進する: 目的間のデータ共有によるモデリングと、ある目的の1つのポイントがすべての目的にどのように利益をもたらすかを定量化することで獲得する。 本研究では条件最適化のためのフレームワークであるConBOを提案する。 これは, 多様な獲得関数に基づいて構築可能であり, 新たなハイブリッド知識勾配獲得関数を提案する。 結果として得られる方法は直感的かつ理論的に接地され、最近公表された様々な問題に関する作品とよく似ているか、あるいはかなり良い性能を発揮する。

Bayesian optimization is a class of data efficient model based algorithms typically focused on global optimization. We consider the more general case where a user is faced with multiple problems that each need to be optimized conditional on a state variable, for example given a range of cities with different patient distributions, we optimize the ambulance locations conditioned on patient distribution. Given partitions of CIFAR-10, we optimize CNN hyperparameters for each partition. Similarity across objectives boosts optimization of each objective in two ways: in modelling by data sharing across objectives, and also in acquisition by quantifying how a single point on one objective can provide benefit to all objectives. For this we propose a framework for conditional optimization: ConBO. This can be built on top of a range of acquisition functions and we propose a new Hybrid Knowledge Gradient acquisition function. The resulting method is intuitive and theoretically grounded, performs either similar to or significantly better than recently published works on a range of problems, and is easily parallelized to collect a batch of points.
翻訳日:2022-12-29 09:37:48 公開日:2020-11-02
# ハイパーネットワークのモジュール性について

On the Modularity of Hypernetworks ( http://arxiv.org/abs/2002.10006v2 )

ライセンス: Link先を確認
Tomer Galanti, Lior Wolf(参考訳) 入力 $i$ を関数 $h_i:\mathcal{x}\to \mathbb{r}$ にマッピングする学習の文脈では、次の2つの方法を比較する: (i) $i$ が条件付け信号 $e(i)$ として符号化され、学習された関数が $h_i(x) = q(x,e(i))$ と (ii) ハイパーネットワークという形式をとる固定関数を学習する埋め込みベースメソッドは、関数 $h_i(x) = g(x;\theta_i)$ のウェイト$\theta_i$ が$\theta_i=f(i)$ で与えられる。 本稿では,モジュール性の特性を,各入力インスタンス$i$に対して,異なる関数を効果的に学習する能力として定義する。 この目的のために,本特性の表現論的視点を採用し,defore et al. 1996の理論を拡張し,近似法が堅牢である必要をなくし,関数近似子としてニューラルネットワークの複雑性(訓練可能なパラメータの数)を低くする。 その結果、ある条件下で、そして、関数に$e$と$f$を希望するほど大きくすると、$g$は、桁違いに$q$よりも小さくなることを示すために、$q$と$g$の複雑さを比較するために使用されます。 これは、埋め込みベースの方法と比較してハイパーネットワークのモジュール性に光を当てている。 また,構造化対象関数の場合,ハイパーネットワーク内のトレーニング可能なパラメータの合計数は,標準ニューラルネットワークや埋め込みメソッドのトレーニング可能なパラメータの数よりも桁違いに小さいことを示す。

In the context of learning to map an input $I$ to a function $h_I:\mathcal{X}\to \mathbb{R}$, two alternative methods are compared: (i) an embedding-based method, which learns a fixed function in which $I$ is encoded as a conditioning signal $e(I)$ and the learned function takes the form $h_I(x) = q(x,e(I))$, and (ii) hypernetworks, in which the weights $\theta_I$ of the function $h_I(x) = g(x;\theta_I)$ are given by a hypernetwork $f$ as $\theta_I=f(I)$. In this paper, we define the property of modularity as the ability to effectively learn a different function for each input instance $I$. For this purpose, we adopt an expressivity perspective of this property and extend the theory of Devore et al. 1996 and provide a lower bound on the complexity (number of trainable parameters) of neural networks as function approximators, by eliminating the requirements for the approximation method to be robust. Our results are then used to compare the complexities of $q$ and $g$, showing that under certain conditions and when letting the functions $e$ and $f$ be as large as we wish, $g$ can be smaller than $q$ by orders of magnitude. This sheds light on the modularity of hypernetworks in comparison with the embedding-based method. Besides, we show that for a structured target function, the overall number of trainable parameters in a hypernetwork is smaller by orders of magnitude than the number of trainable parameters of a standard neural network and an embedding method.
翻訳日:2022-12-29 09:30:14 公開日:2020-11-02
# オフポリシーアクタ-クリティック手法のためのオンラインメタクリティック学習

Online Meta-Critic Learning for Off-Policy Actor-Critic Methods ( http://arxiv.org/abs/2003.05334v2 )

ライセンス: Link先を確認
Wei Zhou, Yiying Li, Yongxin Yang, Huaimin Wang, Timothy M. Hospedales(参考訳) Off-Policy Actor-Critic (Off-PAC)法は、様々な連続制御タスクで成功している。 通常、批評家の行動価値関数は時間差を用いて更新され、批評家は、より期待されたリターンで行動を取るように訓練するアクターに損失を与える。 本稿では、学習過程を観察し、アクターにさらなる損失を与え、アクター批判学習を加速し改善する新規で柔軟なメタクリティカルを導入する。 バニラ批判と比較すると、メタ批判ネットワークは学習プロセスを加速するために明示的に訓練されており、既存のメタ学習アルゴリズムと比較して、メタ批判はタスクのファミリーをゆっくりと越えるのではなく、単一のタスクに対してオンラインで急速に学習される。 私たちのメタ批判フレームワークは、現在最先端の強化学習サンプル効率を提供するオフ・ポリティクスベースの学習者向けに設計されています。 オンラインメタクリティカル学習は, DDPG, TD3, 最先端SACと組み合わせることで, 連続制御環境の多様性の向上につながることを示す。

Off-Policy Actor-Critic (Off-PAC) methods have proven successful in a variety of continuous control tasks. Normally, the critic's action-value function is updated using temporal-difference, and the critic in turn provides a loss for the actor that trains it to take actions with higher expected return. In this paper, we introduce a novel and flexible meta-critic that observes the learning process and meta-learns an additional loss for the actor that accelerates and improves actor-critic learning. Compared to the vanilla critic, the meta-critic network is explicitly trained to accelerate the learning process; and compared to existing meta-learning algorithms, meta-critic is rapidly learned online for a single task, rather than slowly over a family of tasks. Crucially, our meta-critic framework is designed for off-policy based learners, which currently provide state-of-the-art reinforcement learning sample efficiency. We demonstrate that online meta-critic learning leads to improvements in avariety of continuous control environments when combined with contemporary Off-PAC methods DDPG, TD3 and the state-of-the-art SAC.
翻訳日:2022-12-24 13:47:52 公開日:2020-11-02
# MZET: メモリ拡張されたゼロショットのきめ細かい名前付きエンティティ型

MZET: Memory Augmented Zero-Shot Fine-grained Named Entity Typing ( http://arxiv.org/abs/2004.01267v2 )

ライセンス: Link先を確認
Tao Zhang, Congying Xia, Chun-Ta Lu, Philip Yu(参考訳) 名前付きエンティティ型付け (named entity typing, net) は、与えられた意味型でコンテキスト内のエンティティ参照を割り当てる分類タスクである。 しかし、エンティティタイプのサイズと粒度の増加に伴い、新たに現れたエンティティタイプに関する以前の研究は稀である。 本稿では,新しいメモリ拡張FNET(Fine-fine NET)モデルであるMZETを提案する。 MZETは文字レベル、単語レベル、文脈レベルの情報を組み込んでエンティティ参照表現を学習する。 さらに、MZETは意味的意味と階層構造をエンティティの型表現として考える。 最後に、エンティティ参照とエンティティタイプの関係をモデル化するメモリコンポーネントを通じて、MZETは、見たエンティティタイプからゼロショットタイプへの知識を転送する。 MZETは最先端のFNETニューラルネットワークモデルを超え、Micro-F1とMacro-F1のスコアが最大7%向上している。

Named entity typing (NET) is a classification task of assigning an entity mention in the context with given semantic types. However, with the growing size and granularity of the entity types, rare researches in previous concern with newly emerged entity types. In this paper, we propose MZET, a novel memory augmented FNET (Fine-grained NET) model, to tackle the unseen types in a zero-shot manner. MZET incorporates character-level, word-level, and contextural-level information to learn the entity mention representation. Besides, MZET considers the semantic meaning and the hierarchical structure into the entity type representation. Finally, through the memory component which models the relationship between the entity mention and the entity type, MZET transfer the knowledge from seen entity types to the zero-shot ones. Extensive experiments on three public datasets show prominent performance obtained by MZET, which surpasses the state-of-the-art FNET neural network models with up to 7% gain in Micro-F1 and Macro-F1 score.
翻訳日:2022-12-17 12:39:13 公開日:2020-11-02
# Google Landmarks Dataset v2 -- インスタンスレベルの認識と検索のための大規模ベンチマーク

Google Landmarks Dataset v2 -- A Large-Scale Benchmark for Instance-Level Recognition and Retrieval ( http://arxiv.org/abs/2004.01804v2 )

ライセンス: Link先を確認
Tobias Weyand, Andre Araujo, Bingyi Cao, Jack Sim(参考訳) 画像検索とインスタンス認識技術は急速に進歩しているが、そのパフォーマンスを正確に測定するためには、挑戦的なデータセットが必要である。 我々は、google landmarksデータセットv2(gldv2)を紹介する。これは、人造および自然ランドマークの領域における、大規模できめ細かいインスタンス認識と画像検索のための新しいベンチマークである。 GLDv2は、500万以上の画像と200万のインスタンスラベルを含む、これまでで最大のデータセットである。 テストセットは118kの画像からなり、検索と認識の両方に真実の注釈が付けられている。 地下では800時間以上のアノテーター作業が行われた。 我々の新しいデータセットは、以前のデータセットが考慮しなかった現実世界のアプリケーションに触発されたいくつかの挑戦的な特性を持っている。 ウィキメディア・コモンズ(Wikimedia Commons)は、世界最大のクラウドソースによるランドマーク写真コレクションである。 我々は,最先端手法に基づく認識と検索の両タスクのベースライン結果と,公開課題からの競合結果を提供する。 さらに,学習した画像埋め込みが独立したデータセット上での競合検索性能を達成することを示すことにより,転送学習のためのデータセットの適合性を示す。 データセットはhttps://github.com/cvdfoundation/google-landmark.com/で入手できる。

While image retrieval and instance recognition techniques are progressing rapidly, there is a need for challenging datasets to accurately measure their performance -- while posing novel challenges that are relevant for practical applications. We introduce the Google Landmarks Dataset v2 (GLDv2), a new benchmark for large-scale, fine-grained instance recognition and image retrieval in the domain of human-made and natural landmarks. GLDv2 is the largest such dataset to date by a large margin, including over 5M images and 200k distinct instance labels. Its test set consists of 118k images with ground truth annotations for both the retrieval and recognition tasks. The ground truth construction involved over 800 hours of human annotator work. Our new dataset has several challenging properties inspired by real world applications that previous datasets did not consider: An extremely long-tailed class distribution, a large fraction of out-of-domain test photos and large intra-class variability. The dataset is sourced from Wikimedia Commons, the world's largest crowdsourced collection of landmark photos. We provide baseline results for both recognition and retrieval tasks based on state-of-the-art methods as well as competitive results from a public challenge. We further demonstrate the suitability of the dataset for transfer learning by showing that image embeddings trained on it achieve competitive retrieval performance on independent datasets. The dataset images, ground-truth and metric scoring code are available at https://github.com/cvdfoundation/google-landmark.
翻訳日:2022-12-17 04:56:28 公開日:2020-11-02
# マルチホップ質問生成のための強化マルチタスクアプローチ

Reinforced Multi-task Approach for Multi-hop Question Generation ( http://arxiv.org/abs/2004.02143v4 )

ライセンス: Link先を確認
Deepak Gupta, Hardik Chauhan, Akella Ravi Tej, Asif Ekbal and Pushpak Bhattacharyya(参考訳) 質問生成(QG)は、文書と回答を与えられた自然言語質問を生成することにより、質問応答の逆問題(QA)を解決する。 シーケンス・シーケンス・ニューラルモデルはQGのルールベースのシステムを上回るが、複数の支援事実に集中する能力は限られている。 QGでは、高品質な質問を生成するために、しばしば複数の支援事実が必要です。 QAにおけるマルチホップ推論の最近の研究に触発されて、我々は、コンテキストにおける支援事実に基づいて関連する質問を生成するマルチホップ質問生成に取り組む。 質問生成の指導には,質問応答認識支援ファクト予測の補助タスクを用いてマルチタスク学習を行う。 さらに,支援事実の利用を最大化するために,強化学習(RL)フレームワークにおける質問認識報酬関数を提案する。 マルチホップ質問応答データセットHotPotQAの実験を通して,提案手法の有効性を示す。 経験的評価は、BLEU, METEOR, ROUGEなどの自動評価指標と、生成した質問の品質とカバレッジに関する人的評価指標の両方において、シングルホップ神経質問生成モデルより優れていることを示す。

Question generation (QG) attempts to solve the inverse of question answering (QA) problem by generating a natural language question given a document and an answer. While sequence to sequence neural models surpass rule-based systems for QG, they are limited in their capacity to focus on more than one supporting fact. For QG, we often require multiple supporting facts to generate high-quality questions. Inspired by recent works on multi-hop reasoning in QA, we take up Multi-hop question generation, which aims at generating relevant questions based on supporting facts in the context. We employ multitask learning with the auxiliary task of answer-aware supporting fact prediction to guide the question generator. In addition, we also proposed a question-aware reward function in a Reinforcement Learning (RL) framework to maximize the utilization of the supporting facts. We demonstrate the effectiveness of our approach through experiments on the multi-hop question answering dataset, HotPotQA. Empirical evaluation shows our model to outperform the single-hop neural question generation models on both automatic evaluation metrics such as BLEU, METEOR, and ROUGE, and human evaluation metrics for quality and coverage of the generated questions.
翻訳日:2022-12-16 12:44:10 公開日:2020-11-02
# JHU-CrOWD++: 大規模クラウドカウントデータセットとベンチマーク手法

JHU-CROWD++: Large-Scale Crowd Counting Dataset and A Benchmark Method ( http://arxiv.org/abs/2004.03597v2 )

ライセンス: Link先を確認
Vishwanath A. Sindagi, Rajeev Yasarla, Vishal M. Patel(参考訳) 現実世界での応用が多種多様であるため、単一の画像ベースの群衆カウントのタスクは近年多くの関心を集めている。 近年,群集カウントにおける様々な問題に対処する手法が提案されている。 これらのアプローチは本質的に畳み込みニューラルネットワークに基づいており、ネットワークパラメータをトレーニングするために大量のデータを必要とする。 これを踏まえて,「1.51百万」アノテーション付き「4,372」画像を含む,新たな大規模無拘束群数データセット(jhu-crowd++)を提案する。 既存のデータセットと比較して,提案データセットはさまざまなシナリオや環境条件下で収集される。 特に、データセットには、天気に基づく劣化と照明のバリエーションのあるいくつかの画像が含まれており、非常に困難なデータセットとなっている。 さらにデータセットは、画像レベルとヘッドレベルの両方で豊富なアノテーションセットで構成されている。 いくつかの手法が評価され、このデータセットで比較される。 データセットはhttp://www.crowd-counting.comからダウンロードできる。 さらに,残差誤差推定により漸進的に群集密度マップを生成する新しい群集計数ネットワークを提案する。 提案手法では,vgg16をバックボーンネットワークとして使用し,最終層が生成する密度マップを粗い予測として活用し,残差学習を用いてより微細な密度マップを洗練・生成する。 さらに、残差学習を不確実性に基づく信頼度重み付け機構により誘導し、精錬経路における高信頼残差のみの流れを許容する。 提案したConfidence Guided Deep Residual Counting Network (CG-DRCN)は、最近の複雑なデータセットで評価され、エラーを大幅に改善する。

Due to its variety of applications in the real-world, the task of single image-based crowd counting has received a lot of interest in the recent years. Recently, several approaches have been proposed to address various problems encountered in crowd counting. These approaches are essentially based on convolutional neural networks that require large amounts of data to train the network parameters. Considering this, we introduce a new large scale unconstrained crowd counting dataset (JHU-CROWD++) that contains "4,372" images with "1.51 million" annotations. In comparison to existing datasets, the proposed dataset is collected under a variety of diverse scenarios and environmental conditions. Specifically, the dataset includes several images with weather-based degradations and illumination variations, making it a very challenging dataset. Additionally, the dataset consists of a rich set of annotations at both image-level and head-level. Several recent methods are evaluated and compared on this dataset. The dataset can be downloaded from http://www.crowd-counting.com . Furthermore, we propose a novel crowd counting network that progressively generates crowd density maps via residual error estimation. The proposed method uses VGG16 as the backbone network and employs density map generated by the final layer as a coarse prediction to refine and generate finer density maps in a progressive fashion using residual learning. Additionally, the residual learning is guided by an uncertainty-based confidence weighting mechanism that permits the flow of only high-confidence residuals in the refinement path. The proposed Confidence Guided Deep Residual Counting Network (CG-DRCN) is evaluated on recent complex datasets, and it achieves significant improvements in errors.
翻訳日:2022-12-16 00:23:26 公開日:2020-11-02
# 中国機械読解理解のための文クローズデータセット

A Sentence Cloze Dataset for Chinese Machine Reading Comprehension ( http://arxiv.org/abs/2004.03116v2 )

ライセンス: Link先を確認
Yiming Cui, Ting Liu, Ziqing Yang, Zhipeng Chen, Wentao Ma, Wanxiang Che, Shijin Wang, Guoping Hu(参考訳) 中国のNLPコミュニティによる継続的な取り組みにより、より多くの中国の機械読解データセットが利用可能になった。 本稿では,この領域に多様性を加えるために,SC-MRC(Sentence Cloze-style Machine Reading Comprehension)と呼ばれる新しいタスクを提案する。 提案課題は,複数の空白を持つ文に適切な候補文を埋めることである。 私たちは、SC-MRCタスクの難しさを評価するためにCMRC 2019という中国のデータセットを構築しました。 さらに,さらに難易度を増すために,機械が文脈における正しさを判断するために必要な,正しい候補と類似した偽候補も作成した。 提案したデータセットは、中国の物語から派生した10K節以内の100K以上の空白(クエスト)を含んでいる。 このデータセットを評価するために,事前学習したモデルに基づいて,いくつかのベースラインシステムを実装した。 コミュニティをさらに促進するために、データセットとベースラインシステムをリリースします。 https://github.com/ymcui/cmrc2019で利用可能なリソース

Owing to the continuous efforts by the Chinese NLP community, more and more Chinese machine reading comprehension datasets become available. To add diversity in this area, in this paper, we propose a new task called Sentence Cloze-style Machine Reading Comprehension (SC-MRC). The proposed task aims to fill the right candidate sentence into the passage that has several blanks. We built a Chinese dataset called CMRC 2019 to evaluate the difficulty of the SC-MRC task. Moreover, to add more difficulties, we also made fake candidates that are similar to the correct ones, which requires the machine to judge their correctness in the context. The proposed dataset contains over 100K blanks (questions) within over 10K passages, which was originated from Chinese narrative stories. To evaluate the dataset, we implement several baseline systems based on the pre-trained models, and the results show that the state-of-the-art model still underperforms human performance by a large margin. We release the dataset and baseline system to further facilitate our community. Resources available through https://github.com/ymcui/cmrc2019
翻訳日:2022-12-15 23:49:23 公開日:2020-11-02
# 話者ベクトルの深部正規化

Deep Normalization for Speaker Vectors ( http://arxiv.org/abs/2004.04095v2 )

ライセンス: Link先を確認
Yunqi Cai, Lantian Li, Dong Wang and Andrew Abel(参考訳) ディープスピーカー埋め込みは、話者認識タスクにおける最先端の性能を示す。 しかし、このアプローチの潜在的な問題は、ディープ埋め込みモデルから導かれる話者ベクトルが個々の話者に対して非ガウス的であり、異なる話者の分布に対して非均一である傾向があることである。 これらの不規則分布は、特に均質なガウス分布を仮定する人気のあるPLDAスコアリング法において、話者認識性能に深刻な影響を及ぼす可能性がある。 本稿では,深層話者ベクトルが深部正規化を必要とすることを論じ,新しい識別正規化フロー(DNF)モデルに基づく深部正規化手法を提案する。 提案手法の有効性を,広く用いられている sitw と cnceleb corpora を用いて実証した。 これらの実験では、DNFをベースとした正規化は大幅な性能向上を実現し、ドメイン外テストでは強力な一般化能力を示した。

Deep speaker embedding has demonstrated state-of-the-art performance in speaker recognition tasks. However, one potential issue with this approach is that the speaker vectors derived from deep embedding models tend to be non-Gaussian for each individual speaker, and non-homogeneous for distributions of different speakers. These irregular distributions can seriously impact speaker recognition performance, especially with the popular PLDA scoring method, which assumes homogeneous Gaussian distribution. In this paper, we argue that deep speaker vectors require deep normalization, and propose a deep normalization approach based on a novel discriminative normalization flow (DNF) model. We demonstrate the effectiveness of the proposed approach with experiments using the widely used SITW and CNCeleb corpora. In these experiments, the DNF-based normalization delivered substantial performance gains and also showed strong generalization capability in out-of-domain tests.
翻訳日:2022-12-15 23:32:17 公開日:2020-11-02
# 異なるプライベートなアスード、ファノ、ル・カム

Differentially Private Assouad, Fano, and Le Cam ( http://arxiv.org/abs/2004.06830v3 )

ライセンス: Link先を確認
Jayadev Acharya, Ziteng Sun, Huanyu Zhang(参考訳) ル・カムの方法、ファノの不等式、アスードの補題は、統計的推定タスクの下位境界を証明するために広く使われている3つの手法である。 セントラルディファレンシャルプライバシの下での類似案を提案する。 我々の結果は単純で簡単に適用でき、いくつかの推定タスクでサンプル複雑性境界を確立するためにそれらを利用する。 総変分距離と$\ell_2$距離で離散分布推定の最適サンプル複雑性を確立する。 また、積分布や対数因子に密接なガウス混合を含む、いくつかの他の分布クラスに対する下界も提供する。 本論文の技術的コンポーネントは,分布間の結合と微分プライバシー下での推定のサンプル複雑性に関するものである。

Le Cam's method, Fano's inequality, and Assouad's lemma are three widely used techniques to prove lower bounds for statistical estimation tasks. We propose their analogues under central differential privacy. Our results are simple, easy to apply and we use them to establish sample complexity bounds in several estimation tasks. We establish the optimal sample complexity of discrete distribution estimation under total variation distance and $\ell_2$ distance. We also provide lower bounds for several other distribution classes, including product distributions and Gaussian mixtures that are tight up to logarithmic factors. The technical component of our paper relates coupling between distributions to the sample complexity of estimation under differential privacy.
翻訳日:2022-12-13 09:31:25 公開日:2020-11-02
# MPNet: 言語理解のためのmaskedとpermuted事前トレーニング

MPNet: Masked and Permuted Pre-training for Language Understanding ( http://arxiv.org/abs/2004.09297v2 )

ライセンス: Link先を確認
Kaitao Song, Xu Tan, Tao Qin, Jianfeng Lu and Tie-Yan Liu(参考訳) BERTは事前トレーニングにマスク付き言語モデリング(MLM)を採用しており、最も成功した事前トレーニングモデルの1つである。 BERTは予測トークン間の依存性を無視するため、XLNetはこの問題に対処するための事前トレーニングのための置換言語モデリング(PLM)を導入している。 しかしながら、XLNetは文の完全な位置情報を利用せず、事前学習と微調整の間に位置のずれが生じる。 本稿では,BERTとXLNetの利点を継承し,その制約を回避する新しい事前学習手法MPNetを提案する。 mpnetはpermuted language modeling(bertのvs. mlm)による予測トークン間の依存性を活用し、補助的な位置情報を入力としてモデルが全文を見るようにし、位置不一致(xlnetのvs. plm)を減らす。 大規模なデータセット(160GB以上のテキストコーパス)でMPNetを事前トレーニングし、さまざまなダウンストリームタスク(GLUE、SQuADなど)で微調整します。 実験の結果,MPNet は MLM と PLM を大きなマージンで上回り,従来の最先端の事前訓練手法 (BERT,XLNet,RoBERTa など) と比較して,これらのタスクにおいて,より優れた結果が得られることがわかった。 コードと事前訓練されたモデルは、https://github.com/microsoft/MPNet.comで入手できる。

BERT adopts masked language modeling (MLM) for pre-training and is one of the most successful pre-training models. Since BERT neglects dependency among predicted tokens, XLNet introduces permuted language modeling (PLM) for pre-training to address this problem. However, XLNet does not leverage the full position information of a sentence and thus suffers from position discrepancy between pre-training and fine-tuning. In this paper, we propose MPNet, a novel pre-training method that inherits the advantages of BERT and XLNet and avoids their limitations. MPNet leverages the dependency among predicted tokens through permuted language modeling (vs. MLM in BERT), and takes auxiliary position information as input to make the model see a full sentence and thus reducing the position discrepancy (vs. PLM in XLNet). We pre-train MPNet on a large-scale dataset (over 160GB text corpora) and fine-tune on a variety of down-streaming tasks (GLUE, SQuAD, etc). Experimental results show that MPNet outperforms MLM and PLM by a large margin, and achieves better results on these tasks compared with previous state-of-the-art pre-trained methods (e.g., BERT, XLNet, RoBERTa) under the same model setting. The code and the pre-trained models are available at: https://github.com/microsoft/MPNet.
翻訳日:2022-12-11 17:45:12 公開日:2020-11-02
# 経験的根拠言語

Experience Grounds Language ( http://arxiv.org/abs/2004.10151v3 )

ライセンス: Link先を確認
Yonatan Bisk, Ari Holtzman, Jesse Thomason, Jacob Andreas, Yoshua Bengio, Joyce Chai, Mirella Lapata, Angeliki Lazaridou, Jonathan May, Aleksandr Nisnevich, Nicolas Pinto, Joseph Turian(参考訳) 言語理解研究は、言語が記述する物理的世界と、それが促進する社会的相互作用とを関連づけることに失敗している。 テキストだけで訓練された後にタスクに取り組むための言語処理モデルの驚くべき効果にもかかわらず、成功した言語コミュニケーションは世界の共有経験に依存している。 発話を意味のあるものにするのは、この共有体験です。 自然言語処理は多様な分野であり、その開発を通しての進歩は、新しい表現論、モデリング技術、データ収集パラダイム、タスクから来ている。 大規模テキストのみのコーパスでトレーニングされた表現学習アプローチの現在の成功は、コミュニケーションのより深い問題に対処するために、言語のより広い物理的、社会的文脈に関する研究の並行的な伝統が必要であると仮定する。

Language understanding research is held back by a failure to relate language to the physical world it describes and to the social interactions it facilitates. Despite the incredible effectiveness of language processing models to tackle tasks after being trained on text alone, successful linguistic communication relies on a shared experience of the world. It is this shared experience that makes utterances meaningful. Natural language processing is a diverse field, and progress throughout its development has come from new representational theories, modeling techniques, data collection paradigms, and tasks. We posit that the present success of representation learning approaches trained on large, text-only corpora requires the parallel tradition of research on the broader physical and social context of language to address the deeper questions of communication.
翻訳日:2022-12-11 05:46:43 公開日:2020-11-02
# 球面上の最適任意の角度パスフィニング

Optimal Any-Angle Pathfinding on a Sphere ( http://arxiv.org/abs/2004.12781v2 )

ライセンス: Link先を確認
Volodymyr Rospotniuk and Rupert Small(参考訳) ユークリッド空間における経路探索はロボット工学やコンピュータゲームでよく見られる問題である。 しかし、地球表面や宇宙空間での長距離航法では、ユークリッドとして幾何学を近似することは、宇宙船、飛行機、ドローン、船などの現実の用途には不十分である。 本稿では球面上の点対間の最短経路を計算するための任意の角度パスフィンディングアルゴリズムについて述べる。 いくつかの新しい適応を導入し、ユークリッド空間に対して (Harabor & Grastien, 2013) で記述されたアニヤが球面幾何学に拡張できることが示されている。 ここで、座標間の最短距離線が大円の経路で定義されるとき、最適解は通常ユークリッド空間の曲線である。 加えて、球面幾何学における最適経路のターニングポイントは、ユークリッド空間にあるから必ずしもコーナーポイントではない。 球面 Anya は、球面幾何学で定義された世界地図のこれらの異なる性質を考えると、球面上の最適経路を返す。 ユークリッド幾何学におけるAnyaの主な利点、すなわち球状Anyaアルゴリズムは、常に球面上の最適経路を返却し、前処理や大きなメモリオーバーヘッドなしに完全にオンライン化する。 パフォーマンスベンチマークは、StarcraftやWarcraft IIIなどいくつかのゲームマップや、NOAAの観測データを用いた地球上の海上航行に提供されている。 Anyaによるユークリッド近似よりも短い経路を返す場合、Spherical Anyaは航路の大部分でAnyaよりも高速で、Game MapsやRandom Mapsでは遅いことが示されている。

Pathfinding in Euclidean space is a common problem faced in robotics and computer games. For long-distance navigation on the surface of the earth or in outer space however, approximating the geometry as Euclidean can be insufficient for real-world applications such as the navigation of spacecraft, aeroplanes, drones and ships. This article describes an any-angle pathfinding algorithm for calculating the shortest path between point pairs over the surface of a sphere. Introducing several novel adaptations, it is shown that Anya as described by (Harabor & Grastien, 2013) for Euclidean space can be extended to Spherical geometry. There, where the shortest-distance line between coordinates is defined instead by a great-circle path, the optimal solution is typically a curved line in Euclidean space. In addition the turning points for optimal paths in Spherical geometry are not necessarily corner points as they are in Euclidean space, as will be shown, making further substantial adaptations to Anya necessary. Spherical Anya returns the optimal path on the sphere, given these different properties of world maps defined in Spherical geometry. It preserves all primary benefits of Anya in Euclidean geometry, namely the Spherical Anya algorithm always returns an optimal path on a sphere and does so entirely on-line, without any preprocessing or large memory overheads. Performance benchmarks are provided for several game maps including Starcraft and Warcraft III as well as for sea navigation on Earth using the NOAA bathymetric dataset. Always returning the shorter path compared with the Euclidean approximation yielded by Anya, Spherical Anya is shown to be faster than Anya for the majority of sea routes and slower for Game Maps and Random Maps.
翻訳日:2022-12-10 04:12:09 公開日:2020-11-02
# VD-BERT:BERTと統合ビジョン・ダイアログ変換器

VD-BERT: A Unified Vision and Dialog Transformer with BERT ( http://arxiv.org/abs/2004.13278v3 )

ライセンス: Link先を確認
Yue Wang, Shafiq Joty, Michael R. Lyu, Irwin King, Caiming Xiong, Steven C.H. Hoi(参考訳) ビジュアルダイアログは、画像コンテンツとダイアログ履歴の推論を通じて、ダイアログエージェントが一連の質問に答える必要がある、難しい視覚言語タスクである。 先行研究は主に、複雑な相互作用をモデル化するための様々な注意メカニズムに焦点を当ててきた。 対照的に、本研究では、Visual Dialogタスクのための事前訓練されたBERT言語モデルを活用する、統合視覚対話トランスフォーマのシンプルかつ効果的なフレームワークであるVD-BERTを提案する。 このモデルは,(1)単一ストリームトランスフォーマーエンコーダを用いて,画像とマルチターンダイアログ間のすべてのインタラクションをキャプチャし,(2)同じアーキテクチャで応答ランキングと応答生成をシームレスにサポートする。 より重要なことは、視覚的グラウンドトレーニングによって視覚と対話内容の効果的な融合にBERTを適用することである。 外部視覚言語データの事前学習を必要とせず、我々のモデルは、視覚対話リーダーボード上のシングルモデルとアンサンブル設定(74.54と75.35のNDCGスコア)の両方において、最高の位置を達成し、新たな技術状態を得る。 私たちのコードとトレーニング済みモデルはhttps://github.com/salesforce/vd-bertでリリースしています。

Visual dialog is a challenging vision-language task, where a dialog agent needs to answer a series of questions through reasoning on the image content and dialog history. Prior work has mostly focused on various attention mechanisms to model such intricate interactions. By contrast, in this work, we propose VD-BERT, a simple yet effective framework of unified vision-dialog Transformer that leverages the pretrained BERT language models for Visual Dialog tasks. The model is unified in that (1) it captures all the interactions between the image and the multi-turn dialog using a single-stream Transformer encoder, and (2) it supports both answer ranking and answer generation seamlessly through the same architecture. More crucially, we adapt BERT for the effective fusion of vision and dialog contents via visually grounded training. Without the need of pretraining on external vision-language data, our model yields new state of the art, achieving the top position in both single-model and ensemble settings (74.54 and 75.35 NDCG scores) on the visual dialog leaderboard. Our code and pretrained models are released at https://github.com/salesforce/VD-BERT.
翻訳日:2022-12-08 22:07:15 公開日:2020-11-02
# 中国語自然言語処理のための事前学習モデルの再検討

Revisiting Pre-Trained Models for Chinese Natural Language Processing ( http://arxiv.org/abs/2004.13922v2 )

ライセンス: Link先を確認
Yiming Cui, Wanxiang Che, Ting Liu, Bing Qin, Shijin Wang, Guoping Hu(参考訳) トランスフォーマー (bert) からの双方向エンコーダ表現は様々な nlp タスクにまたがる素晴らしい改善を示しており、事前学習された言語モデルの性能をさらに向上させるために連続的な変種が提案されている。 本稿では,中国語事前学習言語モデルの再検討を目標とし,非英語での有効性を検証し,中国語事前学習言語モデルシリーズをコミュニティにリリースする。 また,MacBERTと呼ばれるシンプルなモデルを提案し,RoBERTaを改良し,特にMLMをMacとして採用するマスキング戦略を提案する。 提案したMacBERTとともに,既存の学習済み言語モデルを再検討するために,8つの中国語NLPタスクについて広範な実験を行った。 実験の結果,多くのNLPタスクにおいて,MacBERTが最先端のパフォーマンスを達成できることが示唆された。 リソース:https://github.com/ymcui/MacBERT

Bidirectional Encoder Representations from Transformers (BERT) has shown marvelous improvements across various NLP tasks, and consecutive variants have been proposed to further improve the performance of the pre-trained language models. In this paper, we target on revisiting Chinese pre-trained language models to examine their effectiveness in a non-English language and release the Chinese pre-trained language model series to the community. We also propose a simple but effective model called MacBERT, which improves upon RoBERTa in several ways, especially the masking strategy that adopts MLM as correction (Mac). We carried out extensive experiments on eight Chinese NLP tasks to revisit the existing pre-trained language models as well as the proposed MacBERT. Experimental results show that MacBERT could achieve state-of-the-art performances on many NLP tasks, and we also ablate details with several findings that may help future research. Resources available: https://github.com/ymcui/MacBERT
翻訳日:2022-12-08 13:35:43 公開日:2020-11-02
# 韓国語要約のための参照・文書認識意味評価手法

Reference and Document Aware Semantic Evaluation Methods for Korean Language Summarization ( http://arxiv.org/abs/2005.03510v2 )

ライセンス: Link先を確認
Dongyub Lee, Myeongcheol Shin, Taesun Whang, Seungwoo Cho, Byeongil Ko, Daniel Lee, Eunggyun Kim, Jaechoon Jo(参考訳) テキスト要約(英: text summarization)とは、ソース文書からより短い形式のテキストを生成するプロセスである。 テキスト要約のための多くの既存の研究は、一般に、試行評価(ROUGE)スコアのためのリコール指向のアンダースタディを用いて評価される。 しかし、ROUGEスコアはn-gramオーバーラップに基づいて計算されるため、生成された要約と参照要約のセマンティックな対応を反映しない。 韓国語は、様々な形態素を複数の意味を表す単語に結合する凝集言語であるため、ROUGEは韓国語要約には適さない。 本稿では,参照要約の意味を反映した評価指標と,RDASS(Reference and Document Aware Semantic Score)の原文書を提案する。 次に,人間の判断とメトリクスの相関性を改善する手法を提案する。 評価結果から,評価指標ではROUGEスコアよりも人的判断との相関が有意に高いことがわかった。

Text summarization refers to the process that generates a shorter form of text from the source document preserving salient information. Many existing works for text summarization are generally evaluated by using recall-oriented understudy for gisting evaluation (ROUGE) scores. However, as ROUGE scores are computed based on n-gram overlap, they do not reflect semantic meaning correspondences between generated and reference summaries. Because Korean is an agglutinative language that combines various morphemes into a word that express several meanings, ROUGE is not suitable for Korean summarization. In this paper, we propose evaluation metrics that reflect semantic meanings of a reference summary and the original document, Reference and Document Aware Semantic Score (RDASS). We then propose a method for improving the correlation of the metrics with human judgment. Evaluation results show that the correlation with human judgment is significantly higher for our evaluation metrics than for ROUGE scores.
翻訳日:2022-12-08 10:06:35 公開日:2020-11-02
# WikiUMLS: 言語間ニューラルネットワークによるWikipediaへのUMLSのアラインメント

WikiUMLS: Aligning UMLS to Wikipedia via Cross-lingual Neural Ranking ( http://arxiv.org/abs/2005.01281v3 )

ライセンス: Link先を確認
Afshin Rahimi and Timothy Baldwin and Karin Verspoor(参考訳) 本稿では,両リソースのマニュアルアライメントを容易にするために,Unified Medical Language System (UMLS) をウィキペディアにアライメントする作業について述べる。 UMLSの概念をウィキペディアページと一致させる言語間ニューラルリグレードモデルを提案し、72%のリコール@1を達成し、単語とチャリレベルのBM25よりも20%大幅に改善し、最小限の労力で手作業でアライメントを可能にする。 我々は、700kのUMLS概念のためのランク付きウィキペディアページや、UMLSとWikipedia間のアライメントモデルのトレーニングと評価のためのデータセットであるWikiUMLSを含むリソースをリリースする。 これにより、多言語設定を含む医療専門家、患者、NLPシステムのためのWikipediaへのアクセスが容易になる。

We present our work on aligning the Unified Medical Language System (UMLS) to Wikipedia, to facilitate manual alignment of the two resources. We propose a cross-lingual neural reranking model to match a UMLS concept with a Wikipedia page, which achieves a recall@1 of 72%, a substantial improvement of 20% over word- and char-level BM25, enabling manual alignment with minimal effort. We release our resources, including ranked Wikipedia pages for 700k UMLS concepts, and WikiUMLS, a dataset for training and evaluation of alignment models between UMLS and Wikipedia. This will provide easier access to Wikipedia for health professionals, patients, and NLP systems, including in multilingual settings.
翻訳日:2022-12-07 00:37:01 公開日:2020-11-02
# モデルに基づくロバスト深層学習:自然分布データへの一般化

Model-Based Robust Deep Learning: Generalizing to Natural, Out-of-Distribution Data ( http://arxiv.org/abs/2005.10247v2 )

ライセンス: Link先を確認
Alexander Robey, Hamed Hassani, George J. Pappas(参考訳) ディープラーニングは多くのアプリケーション領域で大きなブレークスルーをもたらしたが、ディープラーニングで一般的に使用されるフレームワークは、人工的に構築されたデータの変更に対して脆弱なままである。 この脆弱さに応えて、逆行訓練は、標準有界摂動に対する深層学習の堅牢性を高めるための原則的アプローチとして登場した。 しかし、より一般的であり、十分に研究されていない深層学習には、他の脆弱性源がある。 実際、照明や気象条件などの自然変動は、訓練されたニューラルネットワークの精度を著しく低下させ、そのような自然変動がディープラーニングにとって重要な課題であることを示す。 本稿では,摂動に基づく逆方向の強靭性からモデルに基づく頑健な深層学習へのパラダイムシフトを提案する。 我々の目標は、深層ニューラルネットワークを訓練し、データの自然な変動に対して堅牢にするための一般的なトレーニングアルゴリズムを提供することです。 我々のパラダイムにとって重要なことは、まず、様々な自然条件におけるデータの変動に使用できる自然変動のモデルを得ることである。 このようなモデルは、プリオリや、データから学んだものでも知られている。 後者の場合,本モデルを用いて,現実的な条件に整合した自然変動のモデルを学ぶことができることを示す。 次に,これらのモデルを3つの新しいモデルベースロバストトレーニングアルゴリズムに利用して,与えられたモデルに対するディープラーニングのロバスト性を高める。 我々の広範な実験は、自然に発生するさまざまな条件や、さまざまなデータセットにわたって、モデルベースのアルゴリズムで訓練されたディープニューラルネットワークが、標準ディープラーニングアルゴリズムとノルムバウンドな堅牢ディープラーニングアルゴリズムの両方を著しく上回っていることを示している。

While deep learning has resulted in major breakthroughs in many application domains, the frameworks commonly used in deep learning remain fragile to artificially-crafted and imperceptible changes in the data. In response to this fragility, adversarial training has emerged as a principled approach for enhancing the robustness of deep learning with respect to norm-bounded perturbations. However, there are other sources of fragility for deep learning that are arguably more common and less thoroughly studied. Indeed, natural variation such as lighting or weather conditions can significantly degrade the accuracy of trained neural networks, proving that such natural variation presents a significant challenge for deep learning. In this paper, we propose a paradigm shift from perturbation-based adversarial robustness toward model-based robust deep learning. Our objective is to provide general training algorithms that can be used to train deep neural networks to be robust against natural variation in data. Critical to our paradigm is first obtaining a model of natural variation which can be used to vary data over a range of natural conditions. Such models may be either known a priori or else learned from data. In the latter case, we show that deep generative models can be used to learn models of natural variation that are consistent with realistic conditions. We then exploit such models in three novel model-based robust training algorithms in order to enhance the robustness of deep learning with respect to the given model. Our extensive experiments show that across a variety of naturally-occurring conditions and across various datasets, deep neural networks trained with our model-based algorithms significantly outperform both standard deep learning algorithms as well as norm-bounded robust deep learning algorithms.
翻訳日:2022-12-01 04:28:30 公開日:2020-11-02
# 区分線形力学系の変分推論と学習

Variational Inference and Learning of Piecewise-linear Dynamical Systems ( http://arxiv.org/abs/2006.01668v2 )

ライセンス: Link先を確認
Xavier Alameda-Pineda, Vincent Drouard and Radu Horaud(参考訳) データの時間的挙動のモデル化は、多くの科学および工学分野において基礎的な重要性を持つ。 ベースライン法は、動的方程式と観測方程式の両方が線形ゲージモデルに従うと仮定する。 しかし、単一の線形な振る舞いで特徴づけられない現実世界のプロセスは数多く存在する。 あるいは、スイッチング機構と組み合わさった分割線形モデルを考えることも可能であり、複数の動作モードが必要な場合に適している。 それでも、動的システムの切り替えは、計算複雑性が時間とともに指数関数的に増加するため、困難である。 本稿では,一方向線形力学系の変分近似を提案する。 2つの変分期待最大化アルゴリズム(フィルタとスムーザ)の導出について、詳細を述べる。 モデルパラメータは静的パラメータと動的パラメータの2つの集合に分割でき、元のパラメータは線形モードの数やスイッチング変数の状態の数とともにオフラインで推定できることを示す。 提案手法を視覚的トラッキング問題,すなわち頭部追跡問題に適用し,本アルゴリズムとアートトラッカーのいくつかの状態を徹底的に比較する。

Modeling the temporal behavior of data is of primordial importance in many scientific and engineering fields. Baseline methods assume that both the dynamic and observation equations follow linear-Gaussian models. However, there are many real-world processes that cannot be characterized by a single linear behavior. Alternatively, it is possible to consider a piecewise-linear model which, combined with a switching mechanism, is well suited when several modes of behavior are needed. Nevertheless, switching dynamical systems are intractable because of their computational complexity increases exponentially with time. In this paper, we propose a variational approximation of piecewise linear dynamical systems. We provide full details of the derivation of two variational expectation-maximization algorithms, a filter and a smoother. We show that the model parameters can be split into two sets, static and dynamic parameters, and that the former parameters can be estimated off-line together with the number of linear modes, or the number of states of the switching variable. We apply the proposed method to a visual tracking problem, namely head-pose tracking, and we thoroughly compare our algorithm with several state of the art trackers.
翻訳日:2022-11-25 23:07:32 公開日:2020-11-02
# 医用画像の3次元自己監督法

3D Self-Supervised Methods for Medical Imaging ( http://arxiv.org/abs/2006.03829v3 )

ライセンス: Link先を確認
Aiham Taleb, Winfried Loetzsch, Noel Danz, Julius Severin, Thomas Gaertner, Benjamin Bergner, and Christoph Lippert(参考訳) 自己教師付き学習手法は、複数のアプリケーション分野で成功した後、近年の関心の高まりを目撃している。 本研究では,これらの手法を応用し,プロキシタスクの形式で,5種類の自己教師付き手法の3次元バージョンを提案する。 提案手法は,未ラベルの3次元画像からニューラルネットワークの特徴学習を容易にする。 開発したアルゴリズムは、3D Contrastive Predictive Coding, 3D Rotation Prediction, 3D Jigsaw puzzles, Relative 3D patch location, 3D Exemplar Networkである。 実験では,3dタスクを用いた事前トレーニングモデルにより,より強力な意味表現が得られ,スクラッチからモデルをトレーニングし2dスライスで事前トレーニングするよりも,下流タスクをより正確かつ効率的に解決できることを示した。 医用画像領域からの下流3つの課題に対する方法の有効性を実証する。 i) 3次元mriによる脳腫瘍の分画 二 膵腫瘍の3次元CTからの分離、及び 三 糖尿病網膜症の2次元眼底画像による検出 各タスクにおいて、データ効率、性能、収束速度の利得を評価する。 興味深いことに、学習した表現を大きなラベルのない3Dコーパスから小さな下流特化データセットに転送する際の利益も得られる。 計算コストのごく一部で最先端のソリューションと競合する結果を得る。 開発したアルゴリズム(3D版と2D版の両方)の実装をオープンソースライブラリとして公開し、他の研究者がデータセットにメソッドを適用して拡張できるようにしています。

Self-supervised learning methods have witnessed a recent surge of interest after proving successful in multiple application fields. In this work, we leverage these techniques, and we propose 3D versions for five different self-supervised methods, in the form of proxy tasks. Our methods facilitate neural network feature learning from unlabeled 3D images, aiming to reduce the required cost for expert annotation. The developed algorithms are 3D Contrastive Predictive Coding, 3D Rotation prediction, 3D Jigsaw puzzles, Relative 3D patch location, and 3D Exemplar networks. Our experiments show that pretraining models with our 3D tasks yields more powerful semantic representations, and enables solving downstream tasks more accurately and efficiently, compared to training the models from scratch and to pretraining them on 2D slices. We demonstrate the effectiveness of our methods on three downstream tasks from the medical imaging domain: i) Brain Tumor Segmentation from 3D MRI, ii) Pancreas Tumor Segmentation from 3D CT, and iii) Diabetic Retinopathy Detection from 2D Fundus images. In each task, we assess the gains in data-efficiency, performance, and speed of convergence. Interestingly, we also find gains when transferring the learned representations, by our methods, from a large unlabeled 3D corpus to a small downstream-specific dataset. We achieve results competitive to state-of-the-art solutions at a fraction of the computational expense. We publish our implementations for the developed algorithms (both 3D and 2D versions) as an open-source library, in an effort to allow other researchers to apply and extend our methods on their datasets.
翻訳日:2022-11-24 21:44:35 公開日:2020-11-02
# 確率的および逆進的エピソードMDPの知識遷移による同時学習

Simultaneously Learning Stochastic and Adversarial Episodic MDPs with Known Transition ( http://arxiv.org/abs/2006.05606v2 )

ライセンス: Link先を確認
Tiancheng Jin, Haipeng Luo(参考訳) 本研究は、既知の遷移とバンディットフィードバックを用いたエピソディックマルコフ決定過程の学習の問題を研究する。 損失が確率的であれば$\mathcal{O}(log T)$後悔を達成し、損失が逆数であっても$\tilde{\mathcal{O}}(\sqrt{T})$後悔を享受する。 より一般的には、損失が合計$C$によって破損する中間設定で$\tilde{\mathcal{O}}(\sqrt{C})$ regretを達成する。 このアルゴリズムは Zimin と Neu (2013) の Follow-the-Regularized-Leader 法に基づいており、Zimmert et al. (2019a, 2019b) の最近の研究から着想を得た新しいハイブリッド正規化器を用いている。 重要なことに、我々の正則化器は、非常に複雑な逆数を持つ非対角ヘッセンを許容する。 このような正規化剤を分析して、特定の自発的な後悔の保証を導出することは、私たちの重要な技術的貢献であり、独立した関心を持つかもしれない。

This work studies the problem of learning episodic Markov Decision Processes with known transition and bandit feedback. We develop the first algorithm with a ``best-of-both-worlds'' guarantee: it achieves $\mathcal{O}(log T)$ regret when the losses are stochastic, and simultaneously enjoys worst-case robustness with $\tilde{\mathcal{O}}(\sqrt{T})$ regret even when the losses are adversarial, where $T$ is the number of episodes. More generally, it achieves $\tilde{\mathcal{O}}(\sqrt{C})$ regret in an intermediate setting where the losses are corrupted by a total amount of $C$. Our algorithm is based on the Follow-the-Regularized-Leader method from Zimin and Neu (2013), with a novel hybrid regularizer inspired by recent works of Zimmert et al. (2019a, 2019b) for the special case of multi-armed bandits. Crucially, our regularizer admits a non-diagonal Hessian with a highly complicated inverse. Analyzing such a regularizer and deriving a particular self-bounding regret guarantee is our key technical contribution and might be of independent interest.
翻訳日:2022-11-23 04:21:27 公開日:2020-11-02
# ナノパブリケーションによる言語コーパスの出現

Provenance for Linguistic Corpora Through Nanopublications ( http://arxiv.org/abs/2006.06341v2 )

ライセンス: Link先を確認
Timo Lek, Anna de Groot, Tobias Kuhn, Roser Morante(参考訳) 計算言語学の研究は、新しいツールや方法論を訓練し、テストするためにテキストコーパスに依存する。 多数の注釈付き言語情報が存在するが、これらのコーパスはしばしば重要な手作業なしでは相互運用できない。 さらに、これらのアノテーションは異なるバージョンに進化した可能性があり、研究者がデータの出所を知ることは困難である。 本稿では、イベントアノテートコーパスのケーススタディと、ナノパブリケーションの形で、より相互運用可能な新しいデータ表現を作成することで、この問題に対処する。 分離したコーパスからの言語アノテーションが最初から確実にリンク可能であることを実証し、単一のデータセットであるかのようにアクセスおよび問い合わせを行う。 このようなナノパブリケーションをどのように作成し、新しい表現から興味深いコンテンツを抽出するためにSPARQLクエリをどのように実行できるかを示す。 複数のコーパスの情報が一様データ形式で表現されているため、複数のコーパスの情報をより簡単かつ効果的に検索できることを示す。

Research in Computational Linguistics is dependent on text corpora for training and testing new tools and methodologies. While there exists a plethora of annotated linguistic information, these corpora are often not interoperable without significant manual work. Moreover, these annotations might have evolved into different versions, making it challenging for researchers to know the data's provenance. This paper addresses this issue with a case study on event annotated corpora and by creating a new, more interoperable representation of this data in the form of nanopublications. We demonstrate how linguistic annotations from separate corpora can be reliably linked from the start, and thereby be accessed and queried as if they were a single dataset. We describe how such nanopublications can be created and demonstrate how SPARQL queries can be performed to extract interesting content from the new representations. The queries show that information of multiple corpora can be retrieved more easily and effectively because the information of different corpora is represented in a uniform data format.
翻訳日:2022-11-22 13:49:49 公開日:2020-11-02
# NeuroCard: すべてのテーブルに対する1つの心電図推定器

NeuroCard: One Cardinality Estimator for All Tables ( http://arxiv.org/abs/2006.08109v2 )

ライセンス: Link先を確認
Zongheng Yang, Amog Kamsetty, Sifei Luan, Eric Liang, Yan Duan, Xi Chen, and Ion Stoica(参考訳) クエリオプティマイザは、適切な実行計画を生成するために正確な濃度推定に依存する。 何十年にもわたっての研究にもかかわらず、既存の濃度推定器は複雑なクエリには不正確である。 本研究では,データベース内のすべてのテーブルにまたがる相関関係を独立性の仮定なしで学習可能であることを示す。 データベース全体にわたって単一の神経密度推定器を構築する結合濃度推定器neurocardを提案する。 結合サンプリングと現代の深層自己回帰モデルを活用して、NeuroCardは確率的モデリングにおいて、テーブル間またはカラム間独立の仮定をしない。 NeuroCardは従来の方法よりも桁違いに精度が高く(JOB-lightでは8.5$\times$ max error)、数十のテーブルにスケールするが、空間(複数のMB)はコンパクトで、構成や更新(秒から数分)が効率的である。

Query optimizers rely on accurate cardinality estimates to produce good execution plans. Despite decades of research, existing cardinality estimators are inaccurate for complex queries, due to making lossy modeling assumptions and not capturing inter-table correlations. In this work, we show that it is possible to learn the correlations across all tables in a database without any independence assumptions. We present NeuroCard, a join cardinality estimator that builds a single neural density estimator over an entire database. Leveraging join sampling and modern deep autoregressive models, NeuroCard makes no inter-table or inter-column independence assumptions in its probabilistic modeling. NeuroCard achieves orders of magnitude higher accuracy than the best prior methods (a new state-of-the-art result of 8.5$\times$ maximum error on JOB-light), scales to dozens of tables, while being compact in space (several MBs) and efficient to construct or update (seconds to minutes).
翻訳日:2022-11-21 05:01:15 公開日:2020-11-02
# 敵対的訓練の喪失状況について-課題の特定と克服方法

On the Loss Landscape of Adversarial Training: Identifying Challenges and How to Overcome Them ( http://arxiv.org/abs/2006.08403v2 )

ライセンス: Link先を確認
Chen Liu, Mathieu Salzmann, Tao Lin, Ryota Tomioka, Sabine S\"usstrunk(参考訳) 本研究は,機械学習モデルのロスランドスケープに及ぼす敵意学習の影響を分析する。 この目的のために,我々はまず,異なる逆予算下での逆損失関数の特性に関する分析研究を行う。 次に, 曲率の増大と散乱勾配の増大により, 対向損失景観は最適化に適さないことを示した。 本研究の結論は,大規模対向予算下でのトレーニングが最適外乱初期化の回避を阻害し,非消滅勾配を生じさせ,モデルがよりシャープな最小値を求めることを示す数値解析によって検証された。 これらの結果から,pas(cyclic adversarial scheduling)戦略がこれらの課題を効果的に克服し,学習率の選択に敏感さを保ちつつ,バニラ逆訓練よりも優れた結果が得られることを示した。

We analyze the influence of adversarial training on the loss landscape of machine learning models. To this end, we first provide analytical studies of the properties of adversarial loss functions under different adversarial budgets. We then demonstrate that the adversarial loss landscape is less favorable to optimization, due to increased curvature and more scattered gradients. Our conclusions are validated by numerical analyses, which show that training under large adversarial budgets impede the escape from suboptimal random initialization, cause non-vanishing gradients and make the model find sharper minima. Based on these observations, we show that a periodic adversarial scheduling (PAS) strategy can effectively overcome these challenges, yielding better results than vanilla adversarial training while being much less sensitive to the choice of learning rate.
翻訳日:2022-11-21 03:05:22 公開日:2020-11-02
# Jensen-Shannon-Divergence を利用したマルチモーダル生成学習

Multimodal Generative Learning Utilizing Jensen-Shannon-Divergence ( http://arxiv.org/abs/2006.08242v3 )

ライセンス: Link先を確認
Thomas M. Sutter, Imant Daunhawer, Julia E. Vogt(参考訳) さまざまなデータタイプから学ぶことは、機械学習研究の長年の目標であり、複数の情報ソースが自然現象を記述するときに共起する。 しかし、マルチモーダルELBOを近似する既存の生成モデルは、共同分布とモダリティ間の依存関係を学習する難易度または非効率なトレーニングスキームに依存している。 本稿では,Jensen-Shannon分散を複数の分布に利用した,新しい効率的な目的関数を提案する。 同時に、動的前駆体を介して一方向と関節の多モード後駆体を直接近似する。 さらに,新たなマルチモーダルJS分割(mmJSD)の目的がELBOを最適化することを理論的に証明した。 広範な実験において,提案するmmjsdモデルのアドバンテージを,教師なし生成学習タスクにおける従来の作業と比較して実証した。

Learning from different data types is a long-standing goal in machine learning research, as multiple information sources co-occur when describing natural phenomena. However, existing generative models that approximate a multimodal ELBO rely on difficult or inefficient training schemes to learn a joint distribution and the dependencies between modalities. In this work, we propose a novel, efficient objective function that utilizes the Jensen-Shannon divergence for multiple distributions. It simultaneously approximates the unimodal and joint multimodal posteriors directly via a dynamic prior. In addition, we theoretically prove that the new multimodal JS-divergence (mmJSD) objective optimizes an ELBO. In extensive experiments, we demonstrate the advantage of the proposed mmJSD model compared to previous work in unsupervised, generative learning tasks.
翻訳日:2022-11-21 02:57:12 公開日:2020-11-02
# STEER: ニューラルネットワークの時間正規化

STEER: Simple Temporal Regularization For Neural ODEs ( http://arxiv.org/abs/2006.10711v3 )

ライセンス: Link先を確認
Arnab Ghosh, Harkirat Singh Behl, Emilien Dupont, Philip H. S. Torr, Vinay Namboodiri(参考訳) ニューラル正規微分方程式(ODE)の訓練は、しばしば計算コストがかかる。 実際、そのようなモデルの前方通過を計算するには、訓練中に任意に複雑になるODEを解く必要がある。 近年の研究では、ODEのダイナミクスを規則化することで、これを部分的に緩和できることが示されている。 本稿では,訓練中のODEの終了時刻をランダムにサンプリングする,新しい正規化手法を提案する。 提案された正規化は実装が簡単で、オーバーヘッドを無視でき、様々なタスクで有効である。 さらに、この手法はODEの力学を規則化するために提案された他のいくつかの手法と直交しており、それらと併用することができる。 本稿では,フローの正規化,時系列モデル,画像認識などの実験を通じて,提案した正規化がトレーニング時間を大幅に短縮し,ベースラインモデルよりも性能を向上できることを示す。

Training Neural Ordinary Differential Equations (ODEs) is often computationally expensive. Indeed, computing the forward pass of such models involves solving an ODE which can become arbitrarily complex during training. Recent works have shown that regularizing the dynamics of the ODE can partially alleviate this. In this paper we propose a new regularization technique: randomly sampling the end time of the ODE during training. The proposed regularization is simple to implement, has negligible overhead and is effective across a wide variety of tasks. Further, the technique is orthogonal to several other methods proposed to regularize the dynamics of ODEs and as such can be used in conjunction with them. We show through experiments on normalizing flows, time series models and image recognition that the proposed regularization can significantly decrease training time and even improve performance over baseline models.
翻訳日:2022-11-19 12:56:09 公開日:2020-11-02
# 分布と特徴の階層化によるディープ・インバーティブル・ネットワークによる異常検出の理解

Understanding Anomaly Detection with Deep Invertible Networks through Hierarchies of Distributions and Features ( http://arxiv.org/abs/2006.10848v3 )

ライセンス: Link先を確認
Robin Tibor Schirrmeister, Yuxuan Zhou, Tonio Ball and Dan Zhang(参考訳) CIFAR10のような自然画像データセット上で最大限に訓練された深層生成ネットワークは、しばしば異なるオブジェクト(例えばSVHN)を持つデータセットからの画像に高い確率を割り当てる。 非可逆生成ネットワークの異常検出におけるこの障害に関する以前の調査を精査し、モデルバイアスとドメイン事前の組み合わせとして明確に説明する: 畳み込みネットワークは、任意の自然言語データセットでトレーニングされたときに、同様の低レベル特徴分布を学習し、これらの低レベル特徴が、その可能性を支配している。 したがって、インレーヤとアウトレーヤの識別的特徴が高レベルである場合、例えばオブジェクトの形状や異常検出が特に困難になる。 モデルバイアスとドメインが高レベルの差を検出する前に負の影響を除去するため、まず2つの同一モデルの対数精度比を用いて、分布内データ(例えば、CIFAR10)と、より一般的な画像(例えば、8000万ティニー画像)でトレーニングした2つの手法を提案する。 また, より一般的な分布からサンプルの分布内ネットワークに対する新たな出力損失を導出し, さらなる性能向上を図る。 次に、glowのようなマルチスケールモデルを用いて、低レベルの機能が主に初期のスケールでキャプチャされることを示す。 したがって、最終尺度の確率寄与のみを用いることで、分布域外と分布域の高レベル特徴差を検出することができる。 この方法は、適切な一般分布にアクセスできない場合に特に有用である。 本手法は,教師なし設定では強い異常検出性能を示し,教師付き設定では最先端の分類器に基づく手法ではわずかに性能が劣る。 コードはhttps://github.com/boschresearch/hierarchical_anomaly_detectionにある。

Deep generative networks trained via maximum likelihood on a natural image dataset like CIFAR10 often assign high likelihoods to images from datasets with different objects (e.g., SVHN). We refine previous investigations of this failure at anomaly detection for invertible generative networks and provide a clear explanation of it as a combination of model bias and domain prior: Convolutional networks learn similar low-level feature distributions when trained on any natural image dataset and these low-level features dominate the likelihood. Hence, when the discriminative features between inliers and outliers are on a high-level, e.g., object shapes, anomaly detection becomes particularly challenging. To remove the negative impact of model bias and domain prior on detecting high-level differences, we propose two methods, first, using the log likelihood ratios of two identical models, one trained on the in-distribution data (e.g., CIFAR10) and the other one on a more general distribution of images (e.g., 80 Million Tiny Images). We also derive a novel outlier loss for the in-distribution network on samples from the more general distribution to further improve the performance. Secondly, using a multi-scale model like Glow, we show that low-level features are mainly captured at early scales. Therefore, using only the likelihood contribution of the final scale performs remarkably well for detecting high-level feature differences of the out-of-distribution and the in-distribution. This method is especially useful if one does not have access to a suitable general distribution. Overall, our methods achieve strong anomaly detection performance in the unsupervised setting, and only slightly underperform state-of-the-art classifier-based methods in the supervised setting. Code can be found at https://github.com/boschresearch/hierarchical_anomaly_detection.
翻訳日:2022-11-19 09:43:22 公開日:2020-11-02
# 計測条件生成モデルによる圧縮センシング

Compressed Sensing via Measurement-Conditional Generative Models ( http://arxiv.org/abs/2007.00873v2 )

ライセンス: Link先を確認
Kyung-Su Kim, Jung Hyun Lee, Eunho Yang(参考訳) プリトレーニングされたジェネレータは、NNの前の信号を効果的に推定できるため、圧縮センシング(CS)に頻繁に採用されている。 そこで本研究では,nnに基づく事前学習をさらに洗練するために,所定の測定値から追加情報を活用し,信号の正確な予測を可能にする枠組みを提案する。 我々のフレームワークは単純な形式であるため、事前学習したジェネレータを用いた既存のCSメソッドにも容易に適用できる。 広範囲にわたる実験により,我々のフレームワークは性能が一様で高いマージンを示し,一部のアプリケーションではレコンストラクションエラーを1桁まで低減できることを示した。 また,この理論における実験的な成功を,信号回復の成功を保証するために必要となる拘束的な信号存在条件を少し緩和できることを示して説明する。

A pre-trained generator has been frequently adopted in compressed sensing (CS) due to its ability to effectively estimate signals with the prior of NNs. In order to further refine the NN-based prior, we propose a framework that allows the generator to utilize additional information from a given measurement for prior learning, thereby yielding more accurate prediction for signals. As our framework has a simple form, it is easily applied to existing CS methods using pre-trained generators. We demonstrate through extensive experiments that our framework exhibits uniformly superior performances by large margin and can reduce the reconstruction error up to an order of magnitude for some applications. We also explain the experimental success in theory by showing that our framework can slightly relax the stringent signal presence condition, which is required to guarantee the success of signal recovery.
翻訳日:2022-11-14 13:17:12 公開日:2020-11-02
# CORD19STS: COVID-19セマンティックテキスト類似性データセット

CORD19STS: COVID-19 Semantic Textual Similarity Dataset ( http://arxiv.org/abs/2007.02461v2 )

ライセンス: Link先を確認
Xiao Guo and Hengameh Mirzaalian and Ekraam Sabir and Ayush Jaiswal and Wael Abd-Almageed(参考訳) 新型コロナウイルス(COVID-19)のパンデミックに対抗するため、ダイアログ診断システムや情報検索エンジンなど、さまざまな自然言語処理の恩恵を受けることができる。 これらのアプリケーションは、セマンティックテキスト類似度(STS)を測定する能力に依存しており、STSをいくつかの下流アプリケーションに役立つ基本的なタスクにしている。 しかし、既存のSTSデータセットやモデルは、そのパフォーマンスをCOVID-19のようなドメイン固有の環境に変換することができない。 このギャップを克服するために、covid-19 open research dataset(cord-19)チャレンジから収集された13,710個の注釈付き文ペアを含むcord19stsデータセットを紹介する。 具体的には、異なるサンプリング戦略を用いて100万文ペアを生成しました。 次に,SCI-CORD19-BERTと呼ばれる細分化BERT型言語モデルを用いて文ペア間の類似度スコアを計算し,各意味類似度レベルに対するバランスの取れたデータセットを提供することにより,合計32Kの文ペアを得る。 それぞれの文対はアマゾン・メカニカル・トルコ(AMT)の5人の群衆労働者によって注釈付けされ、それぞれのラベルは文対間の意味的類似度(関係性、関係性、非関連性)が異なる。 収集したアノテーションの検証に厳格な資格タスクを使用した後、最後のCORD19STSデータセットは13,710の文対を含む。

In order to combat the COVID-19 pandemic, society can benefit from various natural language processing applications, such as dialog medical diagnosis systems and information retrieval engines calibrated specifically for COVID-19. These applications rely on the ability to measure semantic textual similarity (STS), making STS a fundamental task that can benefit several downstream applications. However, existing STS datasets and models fail to translate their performance to a domain-specific environment such as COVID-19. To overcome this gap, we introduce CORD19STS dataset which includes 13,710 annotated sentence pairs collected from COVID-19 open research dataset (CORD-19) challenge. To be specific, we generated one million sentence pairs using different sampling strategies. We then used a finetuned BERT-like language model, which we call Sen-SCI-CORD19-BERT, to calculate the similarity scores between sentence pairs to provide a balanced dataset with respect to the different semantic similarity levels, which gives us a total of 32K sentence pairs. Each sentence pair was annotated by five Amazon Mechanical Turk (AMT) crowd workers, where the labels represent different semantic similarity levels between the sentence pairs (i.e. related, somewhat-related, and not-related). After employing a rigorous qualification tasks to verify collected annotations, our final CORD19STS dataset includes 13,710 sentence pairs.
翻訳日:2022-11-13 08:12:24 公開日:2020-11-02
# ニューラル格子言語モデルによる音声表現の学習

Learning Spoken Language Representations with Neural Lattice Language Modeling ( http://arxiv.org/abs/2007.02629v2 )

ライセンス: Link先を確認
Chao-Wei Huang and Yun-Nung Chen(参考訳) 事前訓練された言語モデルは、多くのNLPタスクで大幅に改善されている。 しかし、これらの手法は通常、テキストとして設計されているため、音声言語の特性を考慮しない。 そこで本論文は,認識系が生成する格子に事前学習する言語モデルの概念を一般化することを目的としている。 音声言語理解タスクのための文脈表現を提供するために,ニューラルネットワーク言語モデルを訓練するフレームワークを提案する。 提案する2段階事前学習手法は,音声データの要求を低減し,効率を向上する。 意図検出と対話行動認識データセットの実験により,提案手法は音声入力による評価において,強いベースラインを一貫して上回ることを示した。 コードはhttps://github.com/MiuLab/Lattice-ELMoで公開されている。

Pre-trained language models have achieved huge improvement on many NLP tasks. However, these methods are usually designed for written text, so they do not consider the properties of spoken language. Therefore, this paper aims at generalizing the idea of language model pre-training to lattices generated by recognition systems. We propose a framework that trains neural lattice language models to provide contextualized representations for spoken language understanding tasks. The proposed two-stage pre-training approach reduces the demands of speech data and has better efficiency. Experiments on intent detection and dialogue act recognition datasets demonstrate that our proposed method consistently outperforms strong baselines when evaluated on spoken inputs. The code is available at https://github.com/MiuLab/Lattice-ELMo.
翻訳日:2022-11-13 01:08:30 公開日:2020-11-02
# 視覚・触覚による3次元形状復元

3D Shape Reconstruction from Vision and Touch ( http://arxiv.org/abs/2007.03778v2 )

ライセンス: Link先を確認
Edward J. Smith, Roberto Calandra, Adriana Romero, Georgia Gkioxari, David Meger, Jitendra Malik, Michal Drozdzal(参考訳) 幼児が新しいおもちゃを提示すると、その直感的な行動は、それを拾い上げて手と目で調べ、その表面をはっきりと探して、自分が何を遊んでいるかを正確に理解することである。 いずれにせよ、タッチは高忠実度ローカライズされた情報を提供する一方、ビジョンは補完的なグローバルコンテキストを提供する。 しかし, 3次元形状再構成では, 視覚と触覚の相補的な融合は未解明のままである。 そこで本研究では,ロボットハンドと多数の3Dオブジェクトの相互作用から,触覚と視覚信号のシミュレーションデータセットを導入する。 その結果,(1)視覚信号とタッチ信号の両方を活用することで,単一モダリティベースラインの一貫性が向上し,(2)本手法は代替モダリティ融合法よりも優れ,提案するチャートベース構造からの利点が強く,(3)把持数の増加とともに建設品質が向上し,(4)タッチ情報はタッチサイトにおける再構築の強化だけでなく,その周辺への外挿も可能となった。

When a toddler is presented a new toy, their instinctual behaviour is to pick it upand inspect it with their hand and eyes in tandem, clearly searching over its surface to properly understand what they are playing with. At any instance here, touch provides high fidelity localized information while vision provides complementary global context. However, in 3D shape reconstruction, the complementary fusion of visual and haptic modalities remains largely unexplored. In this paper, we study this problem and present an effective chart-based approach to multi-modal shape understanding which encourages a similar fusion vision and touch information.To do so, we introduce a dataset of simulated touch and vision signals from the interaction between a robotic hand and a large array of 3D objects. Our results show that (1) leveraging both vision and touch signals consistently improves single-modality baselines; (2) our approach outperforms alternative modality fusion methods and strongly benefits from the proposed chart-based structure; (3) there construction quality increases with the number of grasps provided; and (4) the touch information not only enhances the reconstruction at the touch site but also extrapolates to its local neighborhood.
翻訳日:2022-11-12 20:27:24 公開日:2020-11-02
# 火薬から飲む: webスケール自然言語による継続的な学習

Drinking from a Firehose: Continual Learning with Web-scale Natural Language ( http://arxiv.org/abs/2007.09335v2 )

ライセンス: Link先を確認
Hexiang Hu, Ozan Sener, Fei Sha, Vladlen Koltun(参考訳) 継続的な学習システムは、人間、互いに、そして時間を通して物理的な世界と相互作用し、学習し、適応し続けます。 継続的学習の重要なオープン問題は、アルゴリズムの現実的な評価を可能にする大規模ベンチマークである。 本稿では,大規模に連続学習を行うための自然環境について検討する。 我々はパーソナライズされたオンライン言語学習(POLL)の問題を紹介し、パーソナライズされた言語モデルを時間とともに進化するユーザの集団に適合させる。 POLLの研究を容易にするため、Twitter投稿の膨大なデータセットを収集します。 これらのデータセット、Firehose10MとFirehose100Mは6年間で100万人のユーザーが投稿した1億ツイートで構成されている。 ファイアホースデータセットによって実現された連続学習アルゴリズムの厳密な評価を前例のない規模で提示する。 そこで本研究では,firehoseデータセットおよびそれ以前のベンチマークにおいて,事前の連続学習手法に勝る連続勾配降下(congrad)のための簡易アルゴリズムを開発した。 POLL問題設定、Firehoseデータセット、ConGraDアルゴリズムは、Webスケールの連続学習に関する再現可能な研究のための完全なベンチマークを可能にする。

Continual learning systems will interact with humans, with each other, and with the physical world through time -- and continue to learn and adapt as they do. An important open problem for continual learning is a large-scale benchmark that enables realistic evaluation of algorithms. In this paper, we study a natural setting for continual learning on a massive scale. We introduce the problem of personalized online language learning (POLL), which involves fitting personalized language models to a population of users that evolves over time. To facilitate research on POLL, we collect massive datasets of Twitter posts. These datasets, Firehose10M and Firehose100M, comprise 100 million tweets, posted by one million users over six years. Enabled by the Firehose datasets, we present a rigorous evaluation of continual learning algorithms on an unprecedented scale. Based on this analysis, we develop a simple algorithm for continual gradient descent (ConGraD) that outperforms prior continual learning methods on the Firehose datasets as well as earlier benchmarks. Collectively, the POLL problem setting, the Firehose datasets, and the ConGraD algorithm enable a complete benchmark for reproducible research on web-scale continual learning.
翻訳日:2022-11-09 05:07:34 公開日:2020-11-02
# 構造化予測における学習結果埋め込み

Learning Output Embeddings in Structured Prediction ( http://arxiv.org/abs/2007.14703v3 )

ライセンス: Link先を確認
Luc Brogat-Motte, Alessandro Rudi, C\'eline Brouard, Juho Rousu, Florence d'Alch\'e-Buc(参考訳) 構造化予測に対する強力で柔軟なアプローチは、予測される構造化オブジェクトを出力カーネルによって無限次元の機能空間に埋め込み、この出力空間における回帰問題を解決することである。 画像前問題を解決することにより、原空間での予測を算出する。 このようなアプローチでは、学習フェーズに先立って、目標損失にリンクした埋め込みが定義される。 本研究では,新しい特徴空間への出力埋め込みと回帰関数の有限近似を共同で学習することを提案する。 その目的のために、我々は、出力に関する優先順位情報と、構造化予測問題でよく利用可能な教師なし出力データを活用する。 得られた構造的予測器が一貫した推定器であることを証明し、過剰なリスク境界を導出する。 さらに、新しい構造化予測ツールは、以前の出力カーネル法よりも計算の複雑さがかなり小さい。 様々な構造化予測問題に対して実験的に検証されたアプローチは、汎用性があり、大規模なデータセットを扱うことができることを示している。

A powerful and flexible approach to structured prediction consists in embedding the structured objects to be predicted into a feature space of possibly infinite dimension by means of output kernels, and then, solving a regression problem in this output space. A prediction in the original space is computed by solving a pre-image problem. In such an approach, the embedding, linked to the target loss, is defined prior to the learning phase. In this work, we propose to jointly learn a finite approximation of the output embedding and the regression function into the new feature space. For that purpose, we leverage a priori information on the outputs and also unexploited unsupervised output data, which are both often available in structured prediction problems. We prove that the resulting structured predictor is a consistent estimator, and derive an excess risk bound. Moreover, the novel structured prediction tool enjoys a significantly smaller computational complexity than former output kernel methods. The approach empirically tested on various structured prediction problems reveals to be versatile and able to handle large datasets.
翻訳日:2022-11-05 19:44:07 公開日:2020-11-02
# 子供のように数えるロボット:カウントとポインティングの発達モデル

A robot that counts like a child: a developmental model of counting and pointing ( http://arxiv.org/abs/2008.02366v2 )

ライセンス: Link先を確認
Leszek Pecyna, Angelo Cangelosi, Alessandro Di Nuovo(参考訳) 本稿では,実物数を計測可能な新しいニューロロボットモデルを提案する。 このモデルにより,具体化と数値認識の相互作用を検証できる。 これは画像処理とシーケンシャルなタスクパフォーマンスが可能なディープニューラルネットワークと、具体化を提供するロボットプラットフォーム、icubヒューマノイドロボットで構成されている。 ネットワークは、ロボットのカメラからの画像と関節からの受容信号を使って訓練される。 トレーニングされたモデルは、アイテムのセットをカウントすることができ、同時にそれらを指し示します。 ポインティングが計数過程に及ぼす影響について検討し,本研究の結果と子どもとの比較を行った。 本論文では,ネットワークが1から10までのポインティングとナンバーリサイクリングを行うことができるように,事前学習ルーチンを用いて,複数のトレーニングアプローチを提示する。 対象物に対する計数セットサイズと距離の影響について検討した。 その結果, 計測性能は人間の研究と類似性を示した。

In this paper, a novel neuro-robotics model capable of counting real items is introduced. The model allows us to investigate the interaction between embodiment and numerical cognition. This is composed of a deep neural network capable of image processing and sequential tasks performance, and a robotic platform providing the embodiment - the iCub humanoid robot. The network is trained using images from the robot's cameras and proprioceptive signals from its joints. The trained model is able to count a set of items and at the same time points to them. We investigate the influence of pointing on the counting process and compare our results with those from studies with children. Several training approaches are presented in this paper all of them uses pre-training routine allowing the network to gain the ability of pointing and number recitation (from 1 to 10) prior to counting training. The impact of the counted set size and distance to the objects are investigated. The obtained results on counting performance show similarities with those from human studies.
翻訳日:2022-11-02 18:13:38 公開日:2020-11-02
# 人とのギブスサンプリング

Gibbs Sampling with People ( http://arxiv.org/abs/2008.02595v2 )

ライセンス: Link先を確認
Peter M. C. Harrison, Raja Marjieh, Federico Adolfi, Pol van Rijn, Manuel Anglada-Tort, Ofer Tchernichovski, Pauline Larrouy-Maestri, Nori Jacoby(参考訳) 認知科学と機械学習における中核的な問題は、人間がリンゴの色、音楽コードからの快楽、顔からの深刻さなどの知覚対象から意味表現を導出する方法を理解することである。 マルコフ連鎖モンテカルロ・アンド・ピープル(mcmcp、markov chain monte carlo with people)は、マルコフ連鎖モンテカルロ受容規則に従うように構成された二元選択試験を参加者に提示する手法である。 しかしながら、mcmcpは強い漸近性を持つが、その二項選択パラダイムは試行ごとに比較的少ない情報を生成し、局所的な提案関数はパラメータ空間の探索と分布のモードの探索を遅くする。 そこで MCMCP を連続サンプリングパラダイムに一般化し、各イテレーションにおいて参加者はスライダを用いて1つの刺激次元を連続的に操作し、「不快性」のような与えられた基準を最適化する。 実用理論の観点から両手法を定式化し,新しい手法を「人による共有サンプリング(GSP)」と解釈できることを示す。 さらに、遷移ステップにアグリゲーションパラメータを導入し、ギブスサンプリングと決定論的最適化の間を柔軟にシフトするためにこのパラメータを操作できることを示す。 最初の研究では、GSPがCMCPより明らかに優れており、GSPは他の3つのドメイン、すなわち音楽コード、声の感情、顔に対して、斬新で解釈可能な結果をもたらすことを示した。 これらの結果を大規模知覚評価実験により検証する。 最後の実験では、GSPを用いて、高次元知覚空間にGSPを適用するための有望なアプローチである最先端画像合成ネットワーク(StyleGAN)の潜時空間をナビゲートする。 今後の認知的応用と倫理的含意について論じる。

A core problem in cognitive science and machine learning is to understand how humans derive semantic representations from perceptual objects, such as color from an apple, pleasantness from a musical chord, or seriousness from a face. Markov Chain Monte Carlo with People (MCMCP) is a prominent method for studying such representations, in which participants are presented with binary choice trials constructed such that the decisions follow a Markov Chain Monte Carlo acceptance rule. However, while MCMCP has strong asymptotic properties, its binary choice paradigm generates relatively little information per trial, and its local proposal function makes it slow to explore the parameter space and find the modes of the distribution. Here we therefore generalize MCMCP to a continuous-sampling paradigm, where in each iteration the participant uses a slider to continuously manipulate a single stimulus dimension to optimize a given criterion such as 'pleasantness'. We formulate both methods from a utility-theory perspective, and show that the new method can be interpreted as 'Gibbs Sampling with People' (GSP). Further, we introduce an aggregation parameter to the transition step, and show that this parameter can be manipulated to flexibly shift between Gibbs sampling and deterministic optimization. In an initial study, we show GSP clearly outperforming MCMCP; we then show that GSP provides novel and interpretable results in three other domains, namely musical chords, vocal emotions, and faces. We validate these results through large-scale perceptual rating experiments. The final experiments use GSP to navigate the latent space of a state-of-the-art image synthesis network (StyleGAN), a promising approach for applying GSP to high-dimensional perceptual spaces. We conclude by discussing future cognitive applications and ethical implications.
翻訳日:2022-11-02 06:54:31 公開日:2020-11-02
# エンド・ツー・エンド異種センサ計測マッチングのための深部位相相関

Deep Phase Correlation for End-to-End Heterogeneous Sensor Measurements Matching ( http://arxiv.org/abs/2008.09474v4 )

ライセンス: Link先を確認
Zexi Chen, Xuecheng Xu, Yue Wang, Rong Xiong(参考訳) ローカライゼーションの重要なステップは、現在の観測をマップに合わせることです。 2つのセンサモダリティが著しく異なる場合、マッチングは困難になる。 本稿では,異種センサ計測に適合するエンド・ツー・エンドディープ位相相関ネットワーク(DPCN)を提案する。 DPCNでは、主成分は、ポーズエラーを学習可能な特徴抽出器にバックプロパガンダする、微分可能な相関に基づく推定器である。 また, 従来手法の徹底的な評価を排除し, 効率を向上する。 解釈可能なモデリングにより、ネットワークは軽量化され、より良い一般化が期待できる。 衛星や航空ロボットが取得した異種センサ画像と空中画像からなるシミュレーションデータとAero-Ground Datasetの両方でシステムを評価する。 その結果,本手法は,従来の位相相関法と他の学習ベース法と比較して,不均質なセンサ測定と一致できることがわかった。 コードはhttps://github.com/jessychen1016/DPCNで入手できる。

The crucial step for localization is to match the current observation to the map. When the two sensor modalities are significantly different, matching becomes challenging. In this paper, we present an end-to-end deep phase correlation network (DPCN) to match heterogeneous sensor measurements. In DPCN, the primary component is a differentiable correlation-based estimator that back-propagates the pose error to learnable feature extractors, which addresses the problem that there are no direct common features for supervision. Also, it eliminates the exhaustive evaluation in some previous methods, improving efficiency. With the interpretable modeling, the network is light-weighted and promising for better generalization. We evaluate the system on both the simulation data and Aero-Ground Dataset which consists of heterogeneous sensor images and aerial images acquired by satellites or aerial robots. The results show that our method is able to match the heterogeneous sensor measurements, outperforming the comparative traditional phase correlation and other learning-based methods. Code is available at https://github.com/jessychen1016/DPCN .
翻訳日:2022-10-26 22:12:23 公開日:2020-11-02
# ニューロンアライメントによるモード接続の最適化

Optimizing Mode Connectivity via Neuron Alignment ( http://arxiv.org/abs/2009.02439v2 )

ライセンス: Link先を確認
N. Joseph Tatro, Pin-Yu Chen, Payel Das, Igor Melnyk, Prasanna Sattigeri, Rongjie Lai(参考訳) ディープニューラルネットワークの損失状況は、その高い非凸性のためによく理解されていない。 経験上、これらの損失関数の局所的極小はモデル空間の学習曲線によって接続され、損失はほぼ一定であり、モード接続として知られる。 しかし、現在の曲線探索アルゴリズムはモデルウェイト置換によって生じる損失面における対称性の影響を考慮していない。 本研究では,ネットワークの重みの置換を考慮し,景観接続性に対する対称性の影響を調べるためのより一般的な枠組みを提案する。 最適な置換を近似するために,ニューロンアライメントと呼ばれる安価なヒューリスティックを導入する。 ニューロンアライメントは、曲線に沿ったモデルの中間活性化の分布の類似性を促進する。 この単純なヒューリスティックに基づくモード接続へのアライメントの利点を確立するための理論的解析を提供する。 アライメントによって与えられる置換は、近位交互最小化スキームによって局所的に最適であることを実証的に検証する。 経験上、重み置換の最適化は、ネットワーク間の単純で平面的で低損失の曲線を効率的に学習するのに不可欠である。 我々のアライメント法は、2つの対向ロバストモデルを結ぶ経路上の最近同定されたロバスト損失障壁を著しく軽減し、経路上のよりロバストで正確なモデルを見つけることができる。

The loss landscapes of deep neural networks are not well understood due to their high nonconvexity. Empirically, the local minima of these loss functions can be connected by a learned curve in model space, along which the loss remains nearly constant; a feature known as mode connectivity. Yet, current curve finding algorithms do not consider the influence of symmetry in the loss surface created by model weight permutations. We propose a more general framework to investigate the effect of symmetry on landscape connectivity by accounting for the weight permutations of the networks being connected. To approximate the optimal permutation, we introduce an inexpensive heuristic referred to as neuron alignment. Neuron alignment promotes similarity between the distribution of intermediate activations of models along the curve. We provide theoretical analysis establishing the benefit of alignment to mode connectivity based on this simple heuristic. We empirically verify that the permutation given by alignment is locally optimal via a proximal alternating minimization scheme. Empirically, optimizing the weight permutation is critical for efficiently learning a simple, planar, low-loss curve between networks that successfully generalizes. Our alignment method can significantly alleviate the recently identified robust loss barrier on the path connecting two adversarial robust models and find more robust and accurate models on the path.
翻訳日:2022-10-21 20:42:40 公開日:2020-11-02
# SPARQLセッションレベルにおけるシークレットの発見

Revealing Secrets in SPARQL Session Level ( http://arxiv.org/abs/2009.06625v2 )

ライセンス: Link先を確認
Xinyue Zhang, Meng Wang, Muhammad Saleem, Axel-Cyrille Ngonga Ngomo, Guilin Qi, and Haofen Wang(参考訳) Semantic Web技術をベースにしたナレッジグラフは、ユーザがライブSPARQLサービスを使用して興味のある情報を見つけるのに役立つ。 Answer-seekerはしばしば中間結果を反復的に調べ、検索セッションで繰り返しSPARQLクエリを変更する。 この文脈では、ユーザの振る舞いを理解することは効果的な意図予測とクエリ最適化にとって重要である。 しかしながら、これらの振る舞いはSPARQLセッションレベルで体系的に研究されていない。 本稿では,大規模現実世界のSPARQLクエリログを網羅的に調査することにより,セッションレベルのユーザ検索行動の秘密を明らかにする。 特に、ユーザによるSPARQLクエリの構造的およびデータ駆動機能によるクエリ変更を徹底的に評価する。 この手法は,効率的なSPARQLキャッシング,自動補完,クエリ提案,近似,緩和技術の開発に有用かもしれない。

Based on Semantic Web technologies, knowledge graphs help users to discover information of interest by using live SPARQL services. Answer-seekers often examine intermediate results iteratively and modify SPARQL queries repeatedly in a search session. In this context, understanding user behaviors is critical for effective intention prediction and query optimization. However, these behaviors have not yet been researched systematically at the SPARQL session level. This paper reveals secrets of session-level user search behaviors by conducting a comprehensive investigation over massive real-world SPARQL query logs. In particular, we thoroughly assess query changes made by users w.r.t. structural and data-driven features of SPARQL queries. To illustrate the potentiality of our findings, we employ an application example of how to use our findings, which might be valuable to devise efficient SPARQL caching, auto-completion, query suggestion, approximation, and relaxation techniques in the future.
翻訳日:2022-10-19 03:16:47 公開日:2020-11-02
# 反発的注意:マルチヘッド注意をベイズ推論として再考

Repulsive Attention: Rethinking Multi-head Attention as Bayesian Inference ( http://arxiv.org/abs/2009.09364v2 )

ライセンス: Link先を確認
Bang An, Jie Lyu, Zhenyi Wang, Chunyuan Li, Changwei Hu, Fei Tan, Ruiyi Zhang, Yifan Hu, Changyou Chen(参考訳) ニューラルアテンション機構は多くの自然言語処理アプリケーションにおいて重要な役割を果たす。 特に、マルチヘッドアテンションの使用は、モデルが異なる視点から情報に共同で出席できるようにすることにより、シングルヘッドアテンションを拡張する。 しかし、明示的な制約がなければ、マルチヘッドの注意は注意の崩壊に悩まされる可能性がある。 本稿では,ベイジアンの視点からのマルチヘッドアテンションの新たな理解を初めて提供する。 最近開発された粒子最適化サンプリング技術に基づいて,マルチヘッドにおける反発性を明示的に改善し,モデル表現性を向上する非パラメトリック手法を提案する。 私たちのベイズ解釈は、よく理解されていない疑問に理論的インスピレーションを与えています。 様々な注意モデルおよび応用に関する広範囲な実験により、提案する反発的注意は、学習された特徴の多様性を改善し、様々なタスクにおいて一貫したパフォーマンス改善を伴うより有益な表現をもたらすことが示されている。

The neural attention mechanism plays an important role in many natural language processing applications. In particular, the use of multi-head attention extends single-head attention by allowing a model to jointly attend information from different perspectives. Without explicit constraining, however, multi-head attention may suffer from attention collapse, an issue that makes different heads extract similar attentive features, thus limiting the model's representation power. In this paper, for the first time, we provide a novel understanding of multi-head attention from a Bayesian perspective. Based on the recently developed particle-optimization sampling techniques, we propose a non-parametric approach that explicitly improves the repulsiveness in multi-head attention and consequently strengthens model's expressiveness. Remarkably, our Bayesian interpretation provides theoretical inspirations on the not-well-understood questions: why and how one uses multi-head attention. Extensive experiments on various attention models and applications demonstrate that the proposed repulsive attention can improve the learned feature diversity, leading to more informative representations with consistent performance improvement on various tasks.
翻訳日:2022-10-16 12:33:16 公開日:2020-11-02
# SuPEr-SAM:個人防護機器認識のための空間アテンションモジュールの訓練のためのPose Estimatorからのスーパービジョン信号の利用

SuPEr-SAM: Using the Supervision Signal from a Pose Estimator to Train a Spatial Attention Module for Personal Protective Equipment Recognition ( http://arxiv.org/abs/2009.12339v2 )

ライセンス: Link先を確認
Adrian Sandru, Georgian-Emilian Duta, Mariana-Iuliana Georgescu, Radu Tudor Ionescu(参考訳) 本研究では, ヘルメット, 手術用マスク, 反射ベスト, ブーツなどの個人用防護具(PPE)を画像から自動的に検出する深層学習手法を提案する。 ディープラーニングに基づくPPE検出の典型的なアプローチ (i)上記のような項目について物体探知機を訓練すること、又は (ii)検知器と、検知器が予測する境界ボックスを取り、着用者と対応するppeアイテムを着用していない者とを判別する分類器を訓練する。 本稿では,人物検知器,身体ポーズ推定器,分類器の3つの要素を用いた新しい高精度なアプローチを提案する。 我々の新規性は、訓練時にのみポーズ推定器を使用し、分類器の予測性能を向上させることである。 我々は、ポーズ推定器の監視信号を用いて訓練された空間的注意機構を付加することにより、分類器のニューラルアーキテクチャを変更する。 このようにして、分類器は、推論中にほとんど計算オーバーヘッドのないポーズ推定器からの知識を用いて、PEアイテムにフォーカスすることを学ぶ。

We propose a deep learning method to automatically detect personal protective equipment (PPE), such as helmets, surgical masks, reflective vests, boots and so on, in images of people. Typical approaches for PPE detection based on deep learning are (i) to train an object detector for items such as those listed above or (ii) to train a person detector and a classifier that takes the bounding boxes predicted by the detector and discriminates between people wearing and people not wearing the corresponding PPE items. We propose a novel and accurate approach that uses three components: a person detector, a body pose estimator and a classifier. Our novelty consists in using the pose estimator only at training time, to improve the prediction performance of the classifier. We modify the neural architecture of the classifier by adding a spatial attention mechanism, which is trained using supervision signal from the pose estimator. In this way, the classifier learns to focus on PPE items, using knowledge from the pose estimator with almost no computational overhead during inference.
翻訳日:2022-10-14 23:06:45 公開日:2020-11-02
# OpenTraj: データセットの予測複雑性を評価する

OpenTraj: Assessing Prediction Complexity in Human Trajectories Datasets ( http://arxiv.org/abs/2010.00890v2 )

ライセンス: Link先を確認
Javad Amirian, Bingqing Zhang, Francisco Valente Castro, Juan Jose Baldelomar, Jean-Bernard Hayet and Julien Pettre(参考訳) HTP(Human Trajectory Prediction)はここ数年で勢いを増し、それを解決するために多くの解決策が提案されている。 提案論文は,提案手法の比較において重要な課題であり,予測問題に関して,与えられたデータセットがどの程度複雑であるかを評価する問題に対処する。 データセットの複雑さを評価するために、私たちは3つの概念に関する一連の指標を定義します。 これらの指標に照らして、htpで使用される最も一般的なデータセットを比較し、htpアルゴリズムのベンチマークについて論じる。 ソースコードはgithubからリリースしています。

Human Trajectory Prediction (HTP) has gained much momentum in the last years and many solutions have been proposed to solve it. Proper benchmarking being a key issue for comparing methods, this paper addresses the question of evaluating how complex is a given dataset with respect to the prediction problem. For assessing a dataset complexity, we define a series of indicators around three concepts: Trajectory predictability; Trajectory regularity; Context complexity. We compare the most common datasets used in HTP in the light of these indicators and discuss what this may imply on benchmarking of HTP algorithms. Our source code is released on Github.
翻訳日:2022-10-12 01:41:33 公開日:2020-11-02
# グラフ畳み込みネットワークを用いた報酬伝播

Reward Propagation Using Graph Convolutional Networks ( http://arxiv.org/abs/2010.02474v2 )

ライセンス: Link先を確認
Martin Klissarov and Doina Precup(参考訳) ポテンシャルに基づく報酬形成は、学習のスピードアップを目的として、優れた報酬関数を設計するためのアプローチを提供する。 しかし、複雑な環境でのポテンシャル関数の自動発見は難しい問題である(実際には、値関数をスクラッチから学習するのと同じ困難さ)。 本稿では,グラフ表現学習のアイデアを活用した潜在機能学習フレームワークを提案する。 本手法は,強化学習の確率的推論と組み合わせて,重要な要素として使用するグラフ畳み込みネットワークに依存している。 より正確には、グラフ畳み込みネットワークを利用して報奨状態からメッセージパッシングを行う。 伝達されたメッセージは、学習を加速するために報酬形成の潜在的な機能として使用できる。 我々は,本手法が小・高次元の制御問題において,大幅な改善を達成できることを実証的に検証した。

Potential-based reward shaping provides an approach for designing good reward functions, with the purpose of speeding up learning. However, automatically finding potential functions for complex environments is a difficult problem (in fact, of the same difficulty as learning a value function from scratch). We propose a new framework for learning potential functions by leveraging ideas from graph representation learning. Our approach relies on Graph Convolutional Networks which we use as a key ingredient in combination with the probabilistic inference view of reinforcement learning. More precisely, we leverage Graph Convolutional Networks to perform message passing from rewarding states. The propagated messages can then be used as potential functions for reward shaping to accelerate learning. We verify empirically that our approach can achieve considerable improvements in both small and high-dimensional control problems.
翻訳日:2022-10-10 05:36:38 公開日:2020-11-02
# 野生におけるマルチモーダル感情認識のための音声・ビデオ深層・伝達学習フレームワーク

An Audio-Video Deep and Transfer Learning Framework for Multimodal Emotion Recognition in the wild ( http://arxiv.org/abs/2010.03692v3 )

ライセンス: Link先を確認
Denis Dresvyanskiy, Elena Ryumina, Heysem Kaya, Maxim Markitantov, Alexey Karpov and Wolfgang Minker(参考訳) 本稿では,ABAWの表情課題への貢献について述べる。 提案システムとチャレンジプロトコルに準拠した公式チャレンジ結果について報告する。 エンドツーエンドのディープラーニングを使用して、トランスファーラーニングアプローチの恩恵を受けながら、テストセットの課題パフォーマンス指標である42.10%に達しました。

In this paper, we present our contribution to ABAW facial expression challenge. We report the proposed system and the official challenge results adhering to the challenge protocol. Using end-to-end deep learning and benefiting from transfer learning approaches, we reached a test set challenge performance measure of 42.10%.
翻訳日:2022-10-10 00:30:27 公開日:2020-11-02
# 話題案内型会話推薦システムに向けて

Towards Topic-Guided Conversational Recommender System ( http://arxiv.org/abs/2010.04125v2 )

ライセンス: Link先を確認
Kun Zhou, Yuanhang Zhou, Wayne Xin Zhao, Xiaoke Wang and Ji-Rong Wen(参考訳) 対話型推薦システム(CRS)は,対話型対話を通じて高品質な項目をユーザに推薦することを目的としている。 効率的なCRSを開発するためには、高品質なデータセットのサポートが不可欠である。 既存のCRSデータセットは主にユーザからの即時要求に焦点を当てているが、レコメンデーションシナリオに対する積極的なガイダンスがない。 本稿では,新しい CRS データセットである \textbf{TG-ReDial} (\textbf{Re}commendation through \textbf{T}opic-\textbf{G}uided \textbf{Dial}og。 私たちのデータセットには2つの大きな特徴があります。 まず、トピックスレッドを組み込んで、推奨シナリオに対する自然なセマンティックな遷移を強制する。 第2に、半自動的な方法で作成されるため、人間のアノテーションはより合理的で制御可能である。 本稿では,TG-ReDialに基づいてトピック誘導型会話推薦の課題を提示し,この課題に対する効果的なアプローチを提案する。 提案手法の有効性を,トピック予測,項目推薦,応答生成という3つのサブタスクで実証した。 TG-ReDialはhttps://github.com/RUCAIBox/TG-ReDialで入手できる。

Conversational recommender systems (CRS) aim to recommend high-quality items to users through interactive conversations. To develop an effective CRS, the support of high-quality datasets is essential. Existing CRS datasets mainly focus on immediate requests from users, while lack proactive guidance to the recommendation scenario. In this paper, we contribute a new CRS dataset named \textbf{TG-ReDial} (\textbf{Re}commendation through \textbf{T}opic-\textbf{G}uided \textbf{Dial}og). Our dataset has two major features. First, it incorporates topic threads to enforce natural semantic transitions towards the recommendation scenario. Second, it is created in a semi-automatic way, hence human annotation is more reasonable and controllable. Based on TG-ReDial, we present the task of topic-guided conversational recommendation, and propose an effective approach to this task. Extensive experiments have demonstrated the effectiveness of our approach on three sub-tasks, namely topic prediction, item recommendation and response generation. TG-ReDial is available at https://github.com/RUCAIBox/TG-ReDial.
翻訳日:2022-10-09 12:52:47 公開日:2020-11-02
# 協調関係強化注意による長距離関係抽出の改善

Improving Long-Tail Relation Extraction with Collaborating Relation-Augmented Attention ( http://arxiv.org/abs/2010.03773v2 )

ライセンス: Link先を確認
Yang Li, Tao Shen, Guodong Long, Jing Jiang, Tianyi Zhou, Chengqi Zhang(参考訳) ワーンラベル問題とロングテール関係は、関係抽出における遠隔監督による主な課題である。 近年の研究では,多言語学習による選択的注意による誤ったラベル付けが緩和されているが,知識を共有するために関係の階層が導入されたとしても,長い尾関係をうまく扱えない。 そこで本研究では,不適切なラベル付けとロングテール関係の両方を扱うために,コラボレーティング・リレーション・オーグメンテーション(cora)を用いた新しいニューラルネットワークを提案する。 特に,関係強化型アテンションネットワークをベースモデルとして提案する。 誤ラベリングの効果を最小限に抑えるために、文対関係の注意を向けた文袋で動作する。 そして,提案モデルにより,階層内の関係間で共有される協調関係機能を導入し,関係強化プロセスを促進し,長期関係のためのトレーニングデータのバランスをとる。 文袋の関係を予測するための主訓練目的の他に、より正確な袋レベル表現のための関係提示過程を導くために補助目的を用いる。 人気のベンチマークデータセットNYTの実験では、提案されたCoRAは、Precision@N、AUC、Hits@Kの点で大きなマージンで、従来の最先端のパフォーマンスを改善している。 さらに、競合相手とは対照的に、長い尾関係を扱う優れた能力を検証する。

Wrong labeling problem and long-tail relations are two main challenges caused by distant supervision in relation extraction. Recent works alleviate the wrong labeling by selective attention via multi-instance learning, but cannot well handle long-tail relations even if hierarchies of the relations are introduced to share knowledge. In this work, we propose a novel neural network, Collaborating Relation-augmented Attention (CoRA), to handle both the wrong labeling and long-tail relations. Particularly, we first propose relation-augmented attention network as base model. It operates on sentence bag with a sentence-to-relation attention to minimize the effect of wrong labeling. Then, facilitated by the proposed base model, we introduce collaborating relation features shared among relations in the hierarchies to promote the relation-augmenting process and balance the training data for long-tail relations. Besides the main training objective to predict the relation of a sentence bag, an auxiliary objective is utilized to guide the relation-augmenting process for a more accurate bag-level representation. In the experiments on the popular benchmark dataset NYT, the proposed CoRA improves the prior state-of-the-art performance by a large margin in terms of Precision@N, AUC and Hits@K. Further analyses verify its superior capability in handling long-tail relations in contrast to the competitors.
翻訳日:2022-10-09 12:07:14 公開日:2020-11-02
# 粒子物理学のシミュレーションに基づく推論法

Simulation-based inference methods for particle physics ( http://arxiv.org/abs/2010.06439v2 )

ライセンス: Link先を確認
Johann Brehmer and Kyle Cranmer(参考訳) 粒子物理学過程の予測は複雑なシミュレータの連鎖によって実現される。 高忠実度シミュレーションデータを生成することができるが、観測データを用いた理論パラメータの推測には適していない。 高次元LHCデータの可能性関数が明示的に評価できない理由、なぜこれがデータ解析に重要であるのか、そしてこの問題を回避するためにフィールドが伝統的に行ってきたことを再検討する。 次に,機械学習技術とシミュレータの情報を組み合わせることで,高次元データを直接解析するシミュレーションベース推論手法について検討する。 最初の研究は、これらの技術がlhc測定の精度を大幅に改善する可能性を示唆している。 最後に,シミュレータの潜在プロセスに推論を拡張可能な,新たなパラダイムである確率的プログラミングについて論じる。

Our predictions for particle physics processes are realized in a chain of complex simulators. They allow us to generate high-fidelity simulated data, but they are not well-suited for inference on the theory parameters with observed data. We explain why the likelihood function of high-dimensional LHC data cannot be explicitly evaluated, why this matters for data analysis, and reframe what the field has traditionally done to circumvent this problem. We then review new simulation-based inference methods that let us directly analyze high-dimensional data by combining machine learning techniques and information from the simulator. Initial studies indicate that these techniques have the potential to substantially improve the precision of LHC measurements. Finally, we discuss probabilistic programming, an emerging paradigm that lets us extend inference to the latent process of the simulator.
翻訳日:2022-10-08 00:40:59 公開日:2020-11-02
# BERTと畳み込みニューラルネットワークを用いたマニフェストのテキスト分類とCOVID-19プレスブリーフィング

Text Classification of Manifestos and COVID-19 Press Briefings using BERT and Convolutional Neural Networks ( http://arxiv.org/abs/2010.10267v2 )

ライセンス: Link先を確認
Kakia Chatsiou(参考訳) 我々は、既存の人間専門家によるマニュフェストプロジェクト(volkens et al., 2020a)からの政治的マニフェストのコーパスを注釈付けした文レベルの政治的談話分類器を構築し、それらをcovid-19press briefings(chatsiou, 2020)のコーパスに適用する。 我々は、手動でアノテートされた政治マニフェストを訓練データとして、ローカルトピックのCNN(ConvolutionalNeural Network)分類器をトレーニングし、それをCOVID-19PressBriefings Corpusに適用して、テストコーパス内の文を自動的に分類する。 CNNがBERTのような変換器と組み合わせることで、CNNと他の埋め込み(Word2Vec、Glove、ELMo)を併用し、事前学習した分類器を用いて、追加の訓練をすることなく、異なる政治的テキストの自動分類を行うことができることを示す。

We build a sentence-level political discourse classifier using existing human expert annotated corpora of political manifestos from the Manifestos Project (Volkens et al., 2020a) and applying them to a corpus ofCOVID-19Press Briefings (Chatsiou, 2020). We use manually annotated political manifestos as training data to train a local topic ConvolutionalNeural Network (CNN) classifier; then apply it to the COVID-19PressBriefings Corpus to automatically classify sentences in the test corpus.We report on a series of experiments with CNN trained on top of pre-trained embeddings for sentence-level classification tasks. We show thatCNN combined with transformers like BERT outperforms CNN combined with other embeddings (Word2Vec, Glove, ELMo) and that it is possible to use a pre-trained classifier to conduct automatic classification on different political texts without additional training.
翻訳日:2022-10-05 06:01:38 公開日:2020-11-02
# ダイナミックチャネルマスキングを用いたディープニューラルネットワークのオートプルーニング

AutoPruning for Deep Neural Network with Dynamic Channel Masking ( http://arxiv.org/abs/2010.12021v2 )

ライセンス: Link先を確認
Baopu Li, Yanwen Fan, Zhihong Pan, Gang Zhang(参考訳) 現代のディープニューラルネットワークモデルは大規模で計算集約的である。 この問題の典型的な解決策は、モデルプルーニングである。 しかし、現在のプルーニングアルゴリズムのほとんどは手作りのルールやドメインの専門知識に依存している。 そこで本研究では,最近の自動機械学習(automl)に触発された深層ニューラルネットワークのための学習ベースの自動刈り込みアルゴリズムを提案する。 各層の重みと最善のチャネルを目標とする2つの目的の問題は、最初に定式化される。 次に、最適なチャネル数と重みを同時に導出するための代替最適化手法を提案する。 刈り取りの過程では,探索可能なハイパーパラメータ,残比を用いて各畳み込み層内のチャネル数を示し,対応するチャネルの進化を記述するために動的マスキングプロセスを提案する。 さらに、モデルの精度と浮動小数点演算のプルーニング比とのトレードオフを制御するために、新たな損失関数を導入する。 ベンチマークデータセットの予備実験結果から,ニューラルネットワークのプルーニングにおける競合的な結果が得られた。

Modern deep neural network models are large and computationally intensive. One typical solution to this issue is model pruning. However, most current pruning algorithms depend on hand crafted rules or domain expertise. To overcome this problem, we propose a learning based auto pruning algorithm for deep neural network, which is inspired by recent automatic machine learning(AutoML). A two objectives' problem that aims for the the weights and the best channels for each layer is first formulated. An alternative optimization approach is then proposed to derive the optimal channel numbers and weights simultaneously. In the process of pruning, we utilize a searchable hyperparameter, remaining ratio, to denote the number of channels in each convolution layer, and then a dynamic masking process is proposed to describe the corresponding channel evolution. To control the trade-off between the accuracy of a model and the pruning ratio of floating point operations, a novel loss function is further introduced. Preliminary experimental results on benchmark datasets demonstrate that our scheme achieves competitive results for neural network pruning.
翻訳日:2022-10-04 07:08:18 公開日:2020-11-02
# ラベル伝播とグラフニューラルネットワークの簡易モデルの組み合わせ

Combining Label Propagation and Simple Models Out-performs Graph Neural Networks ( http://arxiv.org/abs/2010.13993v2 )

ライセンス: Link先を確認
Qian Huang, Horace He, Abhay Singh, Ser-Nam Lim, Austin R. Benson(参考訳) グラフニューラルネットワーク(GNN)は、グラフを学習するための主要なテクニックである。 しかし、GNNが実際に成功している理由や、優れたパフォーマンスに必要とされるかどうかについては、ほとんど理解されていない。 ここでは、多くの標準的なトランスダクティブノード分類ベンチマークにおいて、グラフ構造を無視する浅いモデルとラベル構造の相関を利用した2つの単純な後処理ステップを組み合わせることで、最先端のGNNの性能を上回り、一致させることができることを示す。 (i)トレーニングデータの残差エラーを拡散してテストデータのエラーを補正する「エラー相関」 (ii)テストデータの予測を円滑にする「予測相関」。 我々は、この全体的な手順をC&S(Correct and Smooth)と呼び、初期のグラフに基づく半教師付き学習手法から標準ラベル伝搬技術に簡単な修正を加えて後処理を行う。 我々の手法は、様々なベンチマークで最先端のGNNの性能を上回るか、ほぼ一致している。 例えば、OGB-Productsデータセットで最もよく知られたGNNのパフォーマンスを超え、パラメータは137倍、トレーニング時間は100倍以上です。 提案手法の性能は,学習アルゴリズムにラベル情報を直接組み込むことによって,より容易かつ実質的な性能向上が得られることを示す。 当社の技術を大きなGNNモデルに組み込むことも可能です。 OGBの結果のコードはhttps://github.com/Chillee/CorrectAndSmooth.com/。

Graph Neural Networks (GNNs) are the predominant technique for learning over graphs. However, there is relatively little understanding of why GNNs are successful in practice and whether they are necessary for good performance. Here, we show that for many standard transductive node classification benchmarks, we can exceed or match the performance of state-of-the-art GNNs by combining shallow models that ignore the graph structure with two simple post-processing steps that exploit correlation in the label structure: (i) an "error correlation" that spreads residual errors in training data to correct errors in test data and (ii) a "prediction correlation" that smooths the predictions on the test data. We call this overall procedure Correct and Smooth (C&S), and the post-processing steps are implemented via simple modifications to standard label propagation techniques from early graph-based semi-supervised learning methods. Our approach exceeds or nearly matches the performance of state-of-the-art GNNs on a wide variety of benchmarks, with just a small fraction of the parameters and orders of magnitude faster runtime. For instance, we exceed the best known GNN performance on the OGB-Products dataset with 137 times fewer parameters and greater than 100 times less training time. The performance of our methods highlights how directly incorporating label information into the learning algorithm (as was done in traditional techniques) yields easy and substantial performance gains. We can also incorporate our techniques into big GNN models, providing modest gains. Our code for the OGB results is at https://github.com/Chillee/CorrectAndSmooth.
翻訳日:2022-10-02 13:00:57 公開日:2020-11-02
# Simultaenous Sieves:非モノトン部分モジュラー最大化のための決定論的ストリーミングアルゴリズム

Simultaenous Sieves: A Deterministic Streaming Algorithm for Non-Monotone Submodular Maximization ( http://arxiv.org/abs/2010.14367v3 )

ライセンス: Link先を確認
Alan Kuhnle(参考訳) 本研究では,濃度制約(SMCC)に関して,必ずしも単調ではない部分モジュラ関数を最大化する問題に対して,組合せ的決定論的単一パスストリーミングアルゴリズムを提案する。 関数がモノトーンの場合、アルゴリズムはバダニディユルら(2014)の最適なストリーミングアルゴリズムに還元される。 一般に、このアルゴリズムは$\alpha / (1 + \alpha) - \varepsilon$、任意の$\varepsilon > 0$に対して、$\alpha$は後処理に使用されるsmccのオフライン(決定論的)アルゴリズムの比率である。 したがって、指数計算時間が許された場合、アルゴリズムは決定論的に最適な1/2$比を達成する。 これらの結果は、最近提案されたランダムなストリーミングアルゴリズムとほぼ一致し、予測の同じ比率を達成する。 決定論的で単一パスのストリーミングアルゴリズムでは、多項式時間で、最良近似係数を以前の文献の1/9ドルから約 0.2689$に改善する。

In this work, we present a combinatorial, deterministic single-pass streaming algorithm for the problem of maximizing a submodular function, not necessarily monotone, with respect to a cardinality constraint (SMCC). In the case the function is monotone, our algorithm reduces to the optimal streaming algorithm of Badanidiyuru et al. (2014). In general, our algorithm achieves ratio $\alpha / (1 + \alpha) - \varepsilon$, for any $\varepsilon > 0$, where $\alpha$ is the ratio of an offline (deterministic) algorithm for SMCC used for post-processing. Thus, if exponential computation time is allowed, our algorithm deterministically achieves nearly the optimal $1/2$ ratio. These results nearly match those of a recently proposed, randomized streaming algorithm that achieves the same ratios in expectation. For a deterministic, single-pass streaming algorithm, our algorithm achieves in polynomial time an improvement of the best approximation factor from $1/9$ of previous literature to $\approx 0.2689$.
翻訳日:2022-10-02 12:58:46 公開日:2020-11-02
# Russian SuperGLUE: ロシア語理解評価ベンチマーク

RussianSuperGLUE: A Russian Language Understanding Evaluation Benchmark ( http://arxiv.org/abs/2010.15925v2 )

ライセンス: Link先を確認
Tatiana Shavrina and Alena Fenogenova and Anton Emelyanov and Denis Shevelev and Ekaterina Artemova and Valentin Malykh and Vladislav Mikhailov and Maria Tikhonova and Andrey Chertok and Andrey Evlampiev(参考訳) 本稿では,ロシアの汎用言語理解評価ベンチマークである russianglue について紹介する。 近年のユニバーサル言語モデルとトランスフォーマーの分野での進歩は、自然言語の推論、常識推論、テキストの主題や辞書に関わらず単純な論理操作を実行する能力など、幅広い知識スキルの診断とテストのための方法論の開発を必要としている。 初めて、スーパーグルーの方法論に類似した9つのタスクのベンチマークがロシア語でスクラッチから開発された。 我々は、ベースライン、人間レベルの評価、モデル評価のためのオープンソースフレームワーク(https://github.com/russiannlp/russiansuperglue)、ロシア語のトランスフォーマーモデルの全体的なリーダーボードを提供する。 さらに,適応型診断テストセットにおける多言語モデルの比較を行い,言語に依存しない最先端モデルをさらに拡張・評価するための第一歩を示す。

In this paper, we introduce an advanced Russian general language understanding evaluation benchmark -- RussianGLUE. Recent advances in the field of universal language models and transformers require the development of a methodology for their broad diagnostics and testing for general intellectual skills - detection of natural language inference, commonsense reasoning, ability to perform simple logical operations regardless of text subject or lexicon. For the first time, a benchmark of nine tasks, collected and organized analogically to the SuperGLUE methodology, was developed from scratch for the Russian language. We provide baselines, human level evaluation, an open-source framework for evaluating models (https://github.com/RussianNLP/RussianSuperGLUE), and an overall leaderboard of transformer models for the Russian language. Besides, we present the first results of comparing multilingual models in the adapted diagnostic test set and offer the first steps to further expanding or assessing state-of-the-art models independently of language.
翻訳日:2022-10-01 21:59:37 公開日:2020-11-02
# 信号依存ノイズの統計的解析:画像スプライシング偽造のブラインド定位への応用

Statistical Analysis of Signal-Dependent Noise: Application in Blind Localization of Image Splicing Forgery ( http://arxiv.org/abs/2010.16211v2 )

ライセンス: Link先を確認
Mian Zou, Heng Yao, Chuan Qin, and Xinpeng Zhang(参考訳) 視覚ノイズはしばしば画像品質の乱れと見なされるが、画像ベースの法医学的タスクにとって重要な手がかりとなることもある。 従来、ノイズは、推定される付加ガウスモデルからなり、異常を明らかにするために使用されると仮定される。 しかし、実際のセンサノイズに対しては、信号依存ノイズ(SDN)としてモデル化されるべきである。 本研究では, SDN をフォージェリローカライゼーションタスクのスプライシングに適用する。 SDNモデルの統計的解析により、ある輝度に対するガウス近似としてノイズをモデル化できると仮定し、雑音レベル関数の確率モデルを提案する。 最大後続マルコフ確率場(MAP-MRF)フレームワークを構築することで、ノイズの可能性を生かし、スプリケートされた物体の異領域を明らかにする。 完全盲検検出を実現するため, MRFパラメータを推定するために反復交替法が採用された。 実験結果から,本手法は有効であり,比較ローカライゼーション性能が得られた。

Visual noise is often regarded as a disturbance in image quality, whereas it can also provide a crucial clue for image-based forensic tasks. Conventionally, noise is assumed to comprise an additive Gaussian model to be estimated and then used to reveal anomalies. However, for real sensor noise, it should be modeled as signal-dependent noise (SDN). In this work, we apply SDN to splicing forgery localization tasks. Through statistical analysis of the SDN model, we assume that noise can be modeled as a Gaussian approximation for a certain brightness and propose a likelihood model for a noise level function. By building a maximum a posterior Markov random field (MAP-MRF) framework, we exploit the likelihood of noise to reveal the alien region of spliced objects, with a probability combination refinement strategy. To ensure a completely blind detection, an iterative alternating method is adopted to estimate the MRF parameters. Experimental results demonstrate that our method is effective and provides a comparative localization performance.
翻訳日:2022-10-01 17:27:48 公開日:2020-11-02
# ブラックボックス攻撃改善のための抽出モデルアドバナリーの活用

Leveraging Extracted Model Adversaries for Improved Black Box Attacks ( http://arxiv.org/abs/2010.16336v2 )

ライセンス: Link先を確認
Naveen Jafer Nizar, Ari Kobren(参考訳) 本稿では,ブラックボックスモデルに対する逆入力生成手法を提案する。 私たちのアプローチは2つのステップで構成されています。 まず,被害者のブラックボックスモデルをモデル抽出により近似する(krishna et al., 2020)。 第二に、近似モデルに失敗する入力摂動を生成するのに、独自のホワイトボックス法を用いる。 これらの混乱した入力は被害者に対して使用される。 実験では,アダニー攻撃(White box attack)とアダセント攻撃(AddSent attack--------------- ブラックボックス攻撃(Jia and Liang, 2017)の有効性を改善した。

We present a method for adversarial input generation against black box models for reading comprehension based question answering. Our approach is composed of two steps. First, we approximate a victim black box model via model extraction (Krishna et al., 2020). Second, we use our own white box method to generate input perturbations that cause the approximate model to fail. These perturbed inputs are used against the victim. In experiments we find that our method improves on the efficacy of the AddAny---a white box attack---performed on the approximate model by 25% F1, and the AddSent attack---a black box attack---by 11% F1 (Jia and Liang, 2017).
翻訳日:2022-10-01 15:51:42 公開日:2020-11-02
# コンセンサス機械学習におけるコミュニティ構造の影響

Impact of Community Structure on Consensus Machine Learning ( http://arxiv.org/abs/2011.01334v1 )

ライセンス: Link先を確認
Bao Huynh, Haimonti Dutta, Dane Taylor(参考訳) コンセンサスダイナミクスは、クラウドコンピュートクラスタにまたがる、あるいはモノのインターネットに分散したデータに対して、分散機械学習をサポートする。 これらのその他の設定では、$\tau_\epsilon$が$\epsilon>0$の誤差の範囲内でコンセンサスを得るのに必要な時間を最小限に抑えることを目指している。 一般に$\tau_\epsilon$は基礎となる通信ネットワークのトポロジーに依存し、多くのアルゴリズムでは$\tau_\epsilon$はネットワークの正規化されたラプラシアン行列の2番目に小さい固有値$\lambda_2\in[0,1]$に依存する。 ここでは、例えば計算ノード/センサが空間的にクラスタ化されている場合に発生するネットワークコミュニティ構造の$\tau_\epsilon$の効果を分析する。 確率ブロックモデルから抽出されたネットワーク上でのコンセンサス機械学習について検討し、異なる大きさと密度の異種コミュニティを含むランダムネットワークを生成する。 ランダム行列理論を用いて、コミュニティが$\lambda_2$とコンセンサスに与える影響を分析し、コミュニティ構造を減少させるにつれて、$\lambda_2$は一般的に増加する(つまり、$\tau_\epsilon$が減少する)。 さらに、$\tau_\epsilon$が下限に達し、もはやコミュニティの存在によって制限されない、コミュニティ構造の臨界レベルが存在することも観察する。 分散支援ベクトルマシンの実証実験により,本研究を支援した。

Consensus dynamics support decentralized machine learning for data that is distributed across a cloud compute cluster or across the internet of things. In these and other settings, one seeks to minimize the time $\tau_\epsilon$ required to obtain consensus within some $\epsilon>0$ margin of error. $\tau_\epsilon$ typically depends on the topology of the underlying communication network, and for many algorithms $\tau_\epsilon$ depends on the second-smallest eigenvalue $\lambda_2\in[0,1]$ of the network's normalized Laplacian matrix: $\tau_\epsilon\sim\mathcal{O}(\lambda_2^{-1})$. Here, we analyze the effect on $\tau_\epsilon$ of network community structure, which can arise when compute nodes/sensors are spatially clustered, for example. We study consensus machine learning over networks drawn from stochastic block models, which yield random networks that can contain heterogeneous communities with different sizes and densities. Using random matrix theory, we analyze the effects of communities on $\lambda_2$ and consensus, finding that $\lambda_2$ generally increases (i.e., $\tau_\epsilon$ decreases) as one decreases the extent of community structure. We further observe that there exists a critical level of community structure at which $\tau_\epsilon$ reaches a lower bound and is no longer limited by the presence of communities. We support our findings with empirical experiments for decentralized support vector machines.
翻訳日:2022-09-30 13:28:47 公開日:2020-11-02
# スケーラブル情報ボトルネックの関連・複雑性領域について

On the Relevance-Complexity Region of Scalable Information Bottleneck ( http://arxiv.org/abs/2011.01352v1 )

ライセンス: Link先を確認
Mohammad Mahdi Mahvari, Mari Kobayashi, Abdellatif Zaidi(参考訳) 情報ボトルネック法は、最小記述長による圧縮複雑性と対数損失尺度で評価された歪みとの適切なトレードオフを通じて、精度と一般化能力の適切なバランスを求める学習手法である。 本稿では,エンコーダがよりリッチな特徴を持つ観測の複数の記述を出力する,スケーラブルな情報ボトルネックと呼ばれる問題のバリエーションについて検討する。 問題の動機は、一般化の許容レベルに応じて様々なレベルの精度を必要とするアプリケーションシナリオにある。 まず、メモリレスガウスソースとメモリレスバイナリソースの関連性-複雑度領域の明示的(分析的な)特徴付けを行う。 そこでBlahut-Arimoto型アルゴリズムを導出し、一般の離散情報源に対して領域を計算(近似)することができる。 最後に、パターン分類問題における応用例と数値結果とを合わせて述べる。

The Information Bottleneck method is a learning technique that seeks a right balance between accuracy and generalization capability through a suitable tradeoff between compression complexity, measured by minimum description length, and distortion evaluated under logarithmic loss measure. In this paper, we study a variation of the problem, called scalable information bottleneck, where the encoder outputs multiple descriptions of the observation with increasingly richer features. The problem at hand is motivated by some application scenarios that require varying levels of accuracy depending on the allowed level of generalization. First, we establish explicit (analytic) characterizations of the relevance-complexity region for memoryless Gaussian sources and memoryless binary sources. Then, we derive a Blahut-Arimoto type algorithm that allows us to compute (an approximation of) the region for general discrete sources. Finally, an application example in the pattern classification problem is provided along with numerical results.
翻訳日:2022-09-30 13:28:14 公開日:2020-11-02
# 線形二次適応制御の厳密漸近性

Exact Asymptotics for Linear Quadratic Adaptive Control ( http://arxiv.org/abs/2011.01364v1 )

ライセンス: Link先を確認
Feicheng Wang and Lucas Janson(参考訳) 強化学習の最近の進歩は、様々なアプリケーションで顕著なパフォーマンスをもたらしたが、ハイテイクな設定での展開は、非常に稀である。 ひとつは強化アルゴリズムの振る舞いの限定的な理解であり、その後悔と基礎となるシステムのダイナミクスを学習する能力の両面において、既存の作業はほとんど特性化率にのみ焦点を合わせており、実際は極めて重要な速度を乗じる定数にはほとんど注意を払わない。 この課題に取り組むために,線形二次適応制御(lqac)という,最も単純な非帯域強化学習問題について検討する。 LQAC問題に対する最近の有限サンプル性能境界と、特定の(最近の)マーチンゲール中央極限定理を慎重に組み合わせることで、リット、推定誤差、およびレート最適ステップワイド更新LQACアルゴリズムの予測誤差を漸近的に表すことができる。 安定系と不安定系のシミュレーションにおいて、我々の漸近理論はアルゴリズムの有限サンプル挙動を著しくうまく記述している。

Recent progress in reinforcement learning has led to remarkable performance in a range of applications, but its deployment in high-stakes settings remains quite rare. One reason is a limited understanding of the behavior of reinforcement algorithms, both in terms of their regret and their ability to learn the underlying system dynamics---existing work is focused almost exclusively on characterizing rates, with little attention paid to the constants multiplying those rates that can be critically important in practice. To start to address this challenge, we study perhaps the simplest non-bandit reinforcement learning problem: linear quadratic adaptive control (LQAC). By carefully combining recent finite-sample performance bounds for the LQAC problem with a particular (less-recent) martingale central limit theorem, we are able to derive asymptotically-exact expressions for the regret, estimation error, and prediction error of a rate-optimal stepwise-updating LQAC algorithm. In simulations on both stable and unstable systems, we find that our asymptotic theory also describes the algorithm's finite-sample behavior remarkably well.
翻訳日:2022-09-30 13:27:15 公開日:2020-11-02
# 変換器-RNN変換器音声認識のためのマルチタスク学習と共同最適化

Multitask Learning and Joint Optimization for Transformer-RNN-Transducer Speech Recognition ( http://arxiv.org/abs/2011.00771v1 )

ライセンス: Link先を確認
Jae-Jin Jeon, Eesung Kim(参考訳) 近年,トランスデューサと呼ばれるエンドツーエンド音声認識方式がいくつか導入されている。 これらの方法によれば、転写ネットワークは一般的にトランスフォーマーベースのニューラルネットワークによってモデル化され、予測ネットワークはトランスフォーマーまたはリカレントニューラルネットワーク(RNN)によってモデル化される。 本稿では,マルチタスク学習,共同最適化,および変換器-RNN-トランスデューサシステムの共同復号法について検討する。 提案手法は,大規模なテキストコーパスの情報をモデルが維持できるという点で大きな利点がある。 広く使われているLibrispeechデータセットのESPNETツールキットを用いて実験を行い,その有効性を証明する。 また,提案手法では,モデル全体の構造を変更したり,外部のlmを利用することなく,それぞれ16.6 %,13.3 %の単語誤り率 (wer) を削減できることを示した。

Recently, several types of end-to-end speech recognition methods named transformer-transducer were introduced. According to those kinds of methods, transcription networks are generally modeled by transformer-based neural networks, while prediction networks could be modeled by either transformers or recurrent neural networks (RNN). This paper explores multitask learning, joint optimization, and joint decoding methods for transformer-RNN-transducer systems. Our proposed methods have the main advantage in that the model can maintain information on the large text corpus. We prove their effectiveness by performing experiments utilizing the well-known ESPNET toolkit for the widely used Librispeech datasets. We also show that the proposed methods can reduce word error rate (WER) by 16.6 % and 13.3 % for test-clean and test-other datasets, respectively, without changing the overall model structure nor exploiting an external LM.
翻訳日:2022-09-30 13:18:28 公開日:2020-11-02
# midiデータに基づく注意機構を用いた双方向lstmモデルによる独特な楽曲生成

Using a Bi-directional LSTM Model with Attention Mechanism trained on MIDI Data for Generating Unique Music ( http://arxiv.org/abs/2011.00773v1 )

ライセンス: Link先を確認
Ashish Ranjan, Varun Nagesh Jolly Behera, Motahar Reza(参考訳) 音楽の生成は、機械学習の分野で興味深い、そして難しい問題である。 人間の創造性を模倣することは近年、特にコンピュータビジョンと画像処理の分野で人気がある。 GANの出現により、トレーニングされたデータに基づいて、新しい類似した画像を生成することができる。 しかし、音楽には時間的余分な次元があるため、同様のことは音楽にはできない。 したがって、音楽がデジタル形式でどのように表現されるかを理解する必要がある。 この生成タスクを実行するモデルを構築する場合には、MIDI(Musical Instrument Digital Interface)やスコアなどのハイレベルな表現で学習と生成を行う。 そこで本稿では,MIDIデータに基づく類似音楽を生成するためのアテンション機構を備えた双方向LSTM(Long Short-term memory)モデルを提案する。 モデルが生成する音楽は、モデルがトレーニングする音楽のテーマ/スタイルに従う。 また、MIDIの性質から、テンポ、楽器、その他のパラメータを定義し、変更し、後生成することができる。

Generating music is an interesting and challenging problem in the field of machine learning. Mimicking human creativity has been popular in recent years, especially in the field of computer vision and image processing. With the advent of GANs, it is possible to generate new similar images, based on trained data. But this cannot be done for music similarly, as music has an extra temporal dimension. So it is necessary to understand how music is represented in digital form. When building models that perform this generative task, the learning and generation part is done in some high-level representation such as MIDI (Musical Instrument Digital Interface) or scores. This paper proposes a bi-directional LSTM (Long short-term memory) model with attention mechanism capable of generating similar type of music based on MIDI data. The music generated by the model follows the theme/style of the music the model is trained on. Also, due to the nature of MIDI, the tempo, instrument, and other parameters can be defined, and changed, post generation.
翻訳日:2022-09-30 13:18:12 公開日:2020-11-02
# 未知状態行列を持つ線形系の構造制御の強化学習

Reinforcement Learning of Structured Control for Linear Systems with Unknown State Matrix ( http://arxiv.org/abs/2011.01128v1 )

ライセンス: Link先を確認
Sayak Mukherjee, Thanh Long Vu(参考訳) 本稿では,制御が一般的な構造制約を受けるような未知の状態行列を持つ連続線形系の安定化フィードバック制御ゲインを設計する。 我々は,強化学習(rl)のアイデアを十分な安定性と性能保証とともに提示し,状態と制御の軌跡測定を用いて構造化ゲインを設計する。 まず,動的プログラミング(dp)を用いたモデルベースフレームワークを定式化し,線形二次レギュレータ(lqr)ゲイン計算に構造制約を埋め込む。 その後、このLQR定式化をポリシー反復RLアルゴリズムに変換し、フィードバックゲイン構造を維持しながら、既知の状態行列の要求を緩和する。 理論的保証は、構造化RL(SRL)アルゴリズムの安定性と収束のために提供される。 導入されたRLフレームワークは一般的なもので、任意の制御構造に適用できる。 このフレームワークによって実現される特別な制御構造は、多くの大規模サイバー物理システムに必要な分散学習制御である。 そこで我々は,マルチエージェントネットワーク型線形時間不変系(LTI)の数値シミュレーションにより理論的結果を検証する。

This paper delves into designing stabilizing feedback control gains for continuous linear systems with unknown state matrix, in which the control is subject to a general structural constraint. We bring forth the ideas from reinforcement learning (RL) in conjunction with sufficient stability and performance guarantees in order to design these structured gains using the trajectory measurements of states and controls. We first formulate a model-based framework using dynamic programming (DP) to embed the structural constraint to the Linear Quadratic Regulator (LQR) gain computation in the continuous-time setting. Subsequently, we transform this LQR formulation into a policy iteration RL algorithm that can alleviate the requirement of known state matrix in conjunction with maintaining the feedback gain structure. Theoretical guarantees are provided for stability and convergence of the structured RL (SRL) algorithm. The introduced RL framework is general and can be applied to any control structure. A special control structure enabled by this RL framework is distributed learning control which is necessary for many large-scale cyber-physical systems. As such, we validate our theoretical results with numerical simulations on a multi-agent networked linear time-invariant (LTI) dynamic system.
翻訳日:2022-09-30 13:17:59 公開日:2020-11-02
# 森林火災イベント解析における動的コミュニティ検出

Dynamic Community Detection into Analyzing of Wildfires Events ( http://arxiv.org/abs/2011.01140v1 )

ライセンス: Link先を確認
Alessandra Marli, Didier A Vega-Oliveros, Mosh\'e Cotacallapa, Leonardo N Ferreira, Elbert EN Macau, Marcos G Quiles(参考訳) 複雑なシステムの研究と理解は21世紀の重要な知的・科学的課題である。 このシナリオでは、ネットワーク科学はそのようなシステムの研究を支援する数学的ツールとして登場した。 例えば、野火のような環境プロセスは、人間の生活に大きな影響を与えることで知られている。 しかし、ネットワーク科学の観点からは、山火事の研究がかなり不足している。 ここでは,2つの連続するイベントが発生した場合にノードがリンクされる時間的ネットワークである時系列ネットワークの概念を用いて,動的コミュニティ構造が山火事のダイナミクスについて明らかにする情報を調べる。 特に,2段階の動的コミュニティ検出手法,すなわち,一連のスナップショットにルービンアルゴリズムを適用した。 次に、Jaccard類似度係数を使用して、隣接スナップショット間のコミュニティをマッチングしました。 アマゾン盆地の火災イベントのMODISデータセットを用いた実験を行った。 その結果, 自然群落は年間を通じて野火のパターンを明らかにすることができた。

The study and comprehension of complex systems are crucial intellectual and scientific challenges of the 21st century. In this scenario, network science has emerged as a mathematical tool to support the study of such systems. Examples include environmental processes such as wildfires, which are known for their considerable impact on human life. However, there is a considerable lack of studies of wildfire from a network science perspective. Here, employing the chronological network concept -- a temporal network where nodes are linked if two consecutive events occur between them -- we investigate the information that dynamic community structures reveal about the wildfires' dynamics. Particularly, we explore a two-phase dynamic community detection approach, i.e., we applied the Louvain algorithm on a series of snapshots. Then we used the Jaccard similarity coefficient to match communities across adjacent snapshots. Experiments with the MODIS dataset of fire events in the Amazon basing were conducted. Our results show that the dynamic communities can reveal wildfire patterns observed throughout the year.
翻訳日:2022-09-30 13:17:44 公開日:2020-11-02
# SIMDive:可変精度FPGA用SIMDソフト乗算器

SIMDive: Approximate SIMD Soft Multiplier-Divider for FPGAs with Tunable Accuracy ( http://arxiv.org/abs/2011.01148v1 )

ライセンス: Link先を確認
Zahra Ebrahimi and Salim Ullah and Akash Kumar(参考訳) ユビキタスマルチメディアおよびディープニューラルネットワーク(DNN)アプリケーションにおけるデータレベルの並列性と可変精度の追求は、単一命令、多重データ(SIMD)アーキテクチャの使用を動機付けている。 エネルギーを主資源制約として緩和するために、近似コンピューティングは再導入され、主にアプリケーション特化集積回路(ASIC)の実装に特化している。 本稿では,フィールドプログラミング可能なゲートアレー(fpga)を対象とした,可変精度を持つ新しい乗算器と除算器に基づくsimdアーキテクチャを初めて提示する。 提案したハイブリッドアーキテクチャはMitchellのアルゴリズムを実装し、8ビットから32ビットの精度変数をサポートする。 Vivado, マルチメディア, DNN アプリケーションから得られた実験結果から, 提案したアーキテクチャ(SISD と SIMD の両方)が, 精度と最先端の近似よりも優れていることが示された。 特に、提案されたsisd除算器は、xilinxが提供する正確な知的所有権(ip)除算器を4倍の速度で4.6倍のエネルギーで上回り、0.8%の誤差しか満たさない。 さらに,提案したSIMD乗算器は,それぞれ26%,45%,36%,56%の面積,スループット,電力,エネルギーの改善を達成し,SIMD乗算器の精度を向上した。

The ever-increasing quest for data-level parallelism and variable precision in ubiquitous multimedia and Deep Neural Network (DNN) applications has motivated the use of Single Instruction, Multiple Data (SIMD) architectures. To alleviate energy as their main resource constraint, approximate computing has re-emerged,albeit mainly specialized for their Application-Specific Integrated Circuit (ASIC) implementations. This paper, presents for the first time, an SIMD architecture based on novel multiplier and divider with tunable accuracy, targeted for Field-Programmable Gate Arrays (FPGAs). The proposed hybrid architecture implements Mitchell's algorithms and supports precision variability from 8 to 32 bits. Experimental results obtained from Vivado, multimedia and DNN applications indicate superiority of proposed architecture (both SISD and SIMD) over accurate and state-of-the-art approximate counterparts. In particular, the proposed SISD divider outperforms the accurate Intellectual Property (IP) divider provided by Xilinx with 4x higher speed and 4.6x less energy and tolerating only < 0.8% error. Moreover, the proposed SIMD multiplier-divider supersede accurate SIMD multiplier by achieving up to 26%, 45%, 36%, and 56% improvement in area, throughput, power, and energy, respectively.
翻訳日:2022-09-30 13:17:31 公開日:2020-11-02
# DNN加速器の相互接続帯域幅とメモリアクセスに対する部分和の影響について

On the Impact of Partial Sums on Interconnect Bandwidth and Memory Accesses in a DNN Accelerator ( http://arxiv.org/abs/2011.00850v1 )

ライセンス: Link先を確認
Mahesh Chandra(参考訳) 専用アクセラレータは、ディープニューラルネットワーク(DNN)アプリケーションの巨大なリソース要件に対応するように設計されている。 PPA(Power, Performance and Area)制約は、これらのアクセラレータで利用可能なMACの数を制限する。 多くのMACを必要とする畳み込み層は、しばしば複数の反復的なサブタスクに分割される。 これにより、インターコネクトやメモリ帯域幅といった利用可能なシステムリソースに大きなプレッシャーがかかる。 これらのサブタスクに対する特徴マップの最適分割は、帯域幅の要求を大幅に削減することができる。 一部のアクセラレータはローカルメモリを実装することでオフチップやインターコネクト転送を回避しているが、メモリアクセスはまだ実行されており、帯域幅の削減はそのようなアーキテクチャの電力節約に役立つ。 本稿では,帯域幅に最適な特徴マップを分割し,その分割が帯域幅に与える影響を評価するための第1次解析手法を提案する。 この帯域幅は、基本演算を実行できるアクティブメモリコントローラを設計することで節約できる。 最適なパーティショニングとアクティブメモリコントローラは最大40%の帯域幅削減を達成できることが示されている。

Dedicated accelerators are being designed to address the huge resource requirement of the deep neural network (DNN) applications. The power, performance and area (PPA) constraints limit the number of MACs available in these accelerators. The convolution layers which require huge number of MACs are often partitioned into multiple iterative sub-tasks. This puts huge pressure on the available system resources such as interconnect and memory bandwidth. The optimal partitioning of the feature maps for these sub-tasks can reduce the bandwidth requirement substantially. Some accelerators avoid off-chip or interconnect transfers by implementing local memories; however, the memory accesses are still performed and a reduced bandwidth can help in saving power in such architectures. In this paper, we propose a first order analytical method to partition the feature maps for optimal bandwidth and evaluate the impact of such partitioning on the bandwidth. This bandwidth can be saved by designing an active memory controller which can perform basic arithmetic operations. It is shown that the optimal partitioning and active memory controller can achieve up to 40% bandwidth reduction.
翻訳日:2022-09-30 13:10:00 公開日:2020-11-02
# 注:asrソースターゲット注意層のための正規化法

Focus on the present: a regularization method for the ASR source-target attention layer ( http://arxiv.org/abs/2011.01210v1 )

ライセンス: Link先を確認
Nanxin Chen, Piotr \.Zelasko, Jes\'us Villalba, Najim Dehak(参考訳) 本稿では,現在最先端の終末音声認識モデルにおいて,コネクティビスト時間分類(CTC)とアテンショントレーニングを併用した新たな手法を提案する。 提案手法は,CTCとソースターゲットの双方が同一のエンコーダ表現に作用しているという事実に基づいている。 注意機能を理解するために、CTCを適用して、注意出力に応じてトークン後部を計算する。 ソースターゲットのアテンションヘッドは、現在のトークンよりも先にいくつかのトークンを予測できることがわかった。 この観測にインスパイアされた新たな正規化手法が提案され、CTCを利用してデコーダによって予測される出力トークンに対応するフレームにソースターゲットの注意を集中させる。 TED-Lium 2 と LibriSpeech の正則化が提案された場合, 安定な改善率は 7 % と 13 % となる。

This paper introduces a novel method to diagnose the source-target attention in state-of-the-art end-to-end speech recognition models with joint connectionist temporal classification (CTC) and attention training. Our method is based on the fact that both, CTC and source-target attention, are acting on the same encoder representations. To understand the functionality of the attention, CTC is applied to compute the token posteriors given the attention outputs. We found that the source-target attention heads are able to predict several tokens ahead of the current one. Inspired by the observation, a new regularization method is proposed which leverages CTC to make source-target attention more focused on the frames corresponding to the output token being predicted by the decoder. Experiments reveal stable improvements up to 7\% and 13\% relatively with the proposed regularization on TED-LIUM 2 and LibriSpeech.
翻訳日:2022-09-30 13:08:03 公開日:2020-11-02
# 生成モデルを用いた不完全なデモによる強化学習のための形づくり

Shaping Rewards for Reinforcement Learning with Imperfect Demonstrations using Generative Models ( http://arxiv.org/abs/2011.01298v1 )

ライセンス: Link先を確認
Yuchen Wu, Melissa Mozifian, Florian Shkurti(参考訳) 実際のロボットシステムに対するモデルフリー強化学習の潜在的な利点は、収束の遅さ、データ効率の欠如、環境との不要な相互作用につながる非情報探索によって制限される。 これらの欠点に対処するために,生成モデルを用いて,報酬関数と実演データから学習される状態と行動に依存したポテンシャルを形作ることで,強化学習と模倣学習を組み合わせる手法を提案する。 このことは,まず探索する価値のある状態空間と行動空間の高価値領域を指定することで,政策学習を加速させることを示す。 最善のデモンストレーションを想定し、そのデモンストレーションデータをポリシー最適化の厳しい制約として取り入れる既存の手法と異なり、我々は、デモデータを、状態とアクションの生成モデルとして訓練された報酬形成ポテンシャルの形でアドバイスとして組み込む。 特に,これらのポテンシャルを表現するために,正規化フローと生成逆ネットワークの両方について検討する。 実演を厳密な制約として取り入れた既存のアプローチとは異なり,我々のアプローチは準最適かつ雑音の多い実演においても偏りがない。 我々は,Franka Emika 7DOF アームの広範囲なシミュレーションと実験を行い,本手法の実用性を実証した。

The potential benefits of model-free reinforcement learning to real robotics systems are limited by its uninformed exploration that leads to slow convergence, lack of data-efficiency, and unnecessary interactions with the environment. To address these drawbacks we propose a method that combines reinforcement and imitation learning by shaping the reward function with a state-and-action-dependent potential that is trained from demonstration data, using a generative model. We show that this accelerates policy learning by specifying high-value areas of the state and action space that are worth exploring first. Unlike the majority of existing methods that assume optimal demonstrations and incorporate the demonstration data as hard constraints on policy optimization, we instead incorporate demonstration data as advice in the form of a reward shaping potential trained as a generative model of states and actions. In particular, we examine both normalizing flows and Generative Adversarial Networks to represent these potentials. We show that, unlike many existing approaches that incorporate demonstrations as hard constraints, our approach is unbiased even in the case of suboptimal and noisy demonstrations. We present an extensive range of simulations, as well as experiments on the Franka Emika 7DOF arm, to demonstrate the practicality of our method.
翻訳日:2022-09-30 13:07:37 公開日:2020-11-02
# Visual SLAMのための回転平均化のエンベロープ

Pushing the Envelope of Rotation Averaging for Visual SLAM ( http://arxiv.org/abs/2011.01163v1 )

ライセンス: Link先を確認
Xinyi Li, Lin Yuan, Longin Jan Latecki, Haibin Ling(参考訳) structure from motion (sfm) と concurrent localization and mapping (slam) システムの本質的な部分として、動き平均化は近年広く研究され、研究の注目を集めている。 バンドル調整のような標準的アプローチは、ロボットナビゲーションの軌道を推定・更新するために、ほとんどの最先端SLAMシステムに受け継がれているが、SLAMシステムにおけるバンドル調整の実践的実装は、計算複雑性、信頼できない収束、理想的な初期化の厳密な要件によって本質的に制限されている。 本稿では,これらの制約を解消し,従来の単分子SLAMパイプラインの精度,効率,堅牢性を向上させるために,回転平均化を利用した視覚SLAMシステムの新しい最適化バックボーンを提案する。 本研究では,まずカメラ剛体変換における回転パラメータと変換パラメータを分離し,高次元の非凸非線形問題を低次元のトラクタブル線形サブプロブレムに変換することにより,サブプロブレムを適切な制約で独立に解けることを示す。 ポーズグラフの最適化に$l_1$-normのスケールパラメータを適用し、オフ値に対する平均ロバスト性に対処する。 さらに,提案手法のグローバル最適性を検証し,初期化スキーム,純粋回転シーンハンドリング,異常処理を再検討し,対処する。 当社のアプローチは,公開ベンチマークにおける技術状況に対して,同等の精度で最大10倍の速度で実現可能であることを示す。

As an essential part of structure from motion (SfM) and Simultaneous Localization and Mapping (SLAM) systems, motion averaging has been extensively studied in the past years and continues to attract surging research attention. While canonical approaches such as bundle adjustment are predominantly inherited in most of state-of-the-art SLAM systems to estimate and update the trajectory in the robot navigation, the practical implementation of bundle adjustment in SLAM systems is intrinsically limited by the high computational complexity, unreliable convergence and strict requirements of ideal initializations. In this paper, we lift these limitations and propose a novel optimization backbone for visual SLAM systems, where we leverage rotation averaging to improve the accuracy, efficiency and robustness of conventional monocular SLAM pipelines. In our approach, we first decouple the rotational and translational parameters in the camera rigid body transformation and convert the high-dimensional non-convex nonlinear problem into tractable linear subproblems in lower dimensions, and show that the subproblems can be solved independently with proper constraints. We apply the scale parameter with $l_1$-norm in the pose-graph optimization to address the rotation averaging robustness against outliers. We further validate the global optimality of our proposed approach, revisit and address the initialization schemes, pure rotational scene handling and outlier treatments. We demonstrate that our approach can exhibit up to 10x faster speed with comparable accuracy against the state of the art on public benchmarks.
翻訳日:2022-09-30 13:01:00 公開日:2020-11-02
# 組織像からの骨肉腫検出に関する深層学習研究

A Deep Learning Study on Osteosarcoma Detection from Histological Images ( http://arxiv.org/abs/2011.01177v1 )

ライセンス: Link先を確認
D M Anisuzzaman, Hosein Barzekar, Ling Tong, Jake Luo, Zeyun Yu(参考訳) 米国では、新しい小児がん症例の5-10\%が原発性骨腫瘍である。 最も一般的な原発性悪性骨腫瘍は骨肉腫である。 本研究の目的は,コンピュータ支援診断(CAD)と診断(CADx)を用いて骨肉腫の検出と診断を改善することである。 畳み込みニューラルネットワーク(CNN)のようなツールは、外科医の作業量を著しく減らし、患者の状態の予後を良くする。 CNNは、より信頼できるパフォーマンスを達成するために、大量のデータをトレーニングする必要があります。 本研究では, 骨肉腫の組織像に関する一般データセットに, 非壊死組織および健康組織からの壊死像を検出するために, トランスファー学習技術であるcnnを適応させた。 まず、データセットが前処理され、異なる分類が適用される。 次に、VGG19やInception V3などのトランスファー学習モデルを用いて、パッチなしで全スライド画像(WSI)をトレーニングし、出力の精度を向上させる。 最後に、モデルがバイナリやマルチクラス分類器を含む様々な分類問題に適用される。 実験結果から,VGG19の精度は最大96 %であり,全てのバイナリクラスにおける性能とマルチクラス分類が得られた。 組織像に基づく骨肉腫の悪性度検出における最先端のパフォーマンスを示す。

In the U.S, 5-10\% of new pediatric cases of cancer are primary bone tumors. The most common type of primary malignant bone tumor is osteosarcoma. The intention of the present work is to improve the detection and diagnosis of osteosarcoma using computer-aided detection (CAD) and diagnosis (CADx). Such tools as convolutional neural networks (CNNs) can significantly decrease the surgeon's workload and make a better prognosis of patient conditions. CNNs need to be trained on a large amount of data in order to achieve a more trustworthy performance. In this study, transfer learning techniques, pre-trained CNNs, are adapted to a public dataset on osteosarcoma histological images to detect necrotic images from non-necrotic and healthy tissues. First, the dataset was preprocessed, and different classifications are applied. Then, Transfer learning models including VGG19 and Inception V3 are used and trained on Whole Slide Images (WSI) with no patches, to improve the accuracy of the outputs. Finally, the models are applied to different classification problems, including binary and multi-class classifiers. Experimental results show that the accuracy of the VGG19 has the highest, 96\%, performance amongst all binary classes and multiclass classification. Our fine-tuned model demonstrates state-of-the-art performance on detecting malignancy of Osteosarcoma based on histologic images.
翻訳日:2022-09-30 13:00:35 公開日:2020-11-02
# c-lasso -- 制約付きスパースとロバストな回帰と分類のためのpythonパッケージ

c-lasso -- a Python package for constrained sparse and robust regression and classification ( http://arxiv.org/abs/2011.00898v1 )

ライセンス: Link先を確認
L\'eo Simpson, Patrick L. Combettes, Christian L. M\"uller(参考訳) 我々は,線形等式制約付き線形回帰と分類を可能にするpythonパッケージであるc-lassoを紹介する。 基礎となる統計フォワードモデルは以下の形式のものと仮定される: \[ y = X \beta + \sigma \epsilon \qquad \textrm{subject to} \qquad C\beta=0 \] ここで、$X \in \mathbb{R}^{n\times d}$is a given design matrix and vector $y \in \mathbb{R}^{n}$ is a continuous or binary response vector。 行列 $C$ は一般制約行列である。 ベクトル $\beta \in \mathbb{r}^{d}$ は未知係数を含み、$\sigma$ は未知スケールである。 代表的なユースケースは、構成データによる(少ない)ログコントラスト回帰で、$X$であり、制約の1_d^T \beta = 0$ (Aitchion and Bacon-Shone 1984) と、記述された問題の特別なケースである一般化ラッソ(例えば (James, Paulson, Rusmevichientong 2020), 例3である。 c-lassoパッケージは、いくつかの凸損失関数に対して \[ \min_{\beta \in \mathbb{r}^d, \sigma \in \mathbb{r}_{0}} f\left(x\betay,{\sigma} \right) + \lambda \left\lvert \beta\right\rvert_1 \qquad \textrm{subject to} \qquad c\beta = 0 \] という形の未知の係数とスケールを推定するための推定器を提供する。 これには制約付きラッソ、制約付きスケール付きラッソ、線形等式制約を持つスパースフーバー M-推定器が含まれる。

We introduce c-lasso, a Python package that enables sparse and robust linear regression and classification with linear equality constraints. The underlying statistical forward model is assumed to be of the following form: \[ y = X \beta + \sigma \epsilon \qquad \textrm{subject to} \qquad C\beta=0 \] Here, $X \in \mathbb{R}^{n\times d}$is a given design matrix and the vector $y \in \mathbb{R}^{n}$ is a continuous or binary response vector. The matrix $C$ is a general constraint matrix. The vector $\beta \in \mathbb{R}^{d}$ contains the unknown coefficients and $\sigma$ an unknown scale. Prominent use cases are (sparse) log-contrast regression with compositional data $X$, requiring the constraint $1_d^T \beta = 0$ (Aitchion and Bacon-Shone 1984) and the Generalized Lasso which is a special case of the described problem (see, e.g, (James, Paulson, and Rusmevichientong 2020), Example 3). The c-lasso package provides estimators for inferring unknown coefficients and scale (i.e., perspective M-estimators (Combettes and M\"uller 2020a)) of the form \[ \min_{\beta \in \mathbb{R}^d, \sigma \in \mathbb{R}_{0}} f\left(X\beta - y,{\sigma} \right) + \lambda \left\lVert \beta\right\rVert_1 \qquad \textrm{subject to} \qquad C\beta = 0 \] for several convex loss functions $f(\cdot,\cdot)$. This includes the constrained Lasso, the constrained scaled Lasso, and sparse Huber M-estimators with linear equality constraints.
翻訳日:2022-09-30 12:59:57 公開日:2020-11-02
# サーベイサンプリングからモンテカルロ法へのサンプリングアルゴリズム--チュートリアルと文献レビュー

Sampling Algorithms, from Survey Sampling to Monte Carlo Methods: Tutorial and Literature Review ( http://arxiv.org/abs/2011.00901v1 )

ライセンス: Link先を確認
Benyamin Ghojogh, Hadi Nekoei, Aydin Ghojogh, Fakhri Karray, Mark Crowley(参考訳) 本稿では,サンプリングアルゴリズムに関するチュートリアルと文献レビューを行う。 統計学では2つの主な種類がある。 最初のタイプは、集合や集団からサンプルを抽出するサーベイサンプリングである。 第2のタイプは、確率密度または質量関数がある確率分布からのサンプリングである。 本稿では,両種類のサンプリングについて述べる。 まず, 平均二乗誤差, 分散, バイアス, 最大確率推定, ベルヌーイ分布, 双項分布, および超幾何学分布, ホルヴィッツ・トンプソン推定器, マルコフ特性について, 必要な背景を考察する。 次に, 単純なランダムサンプリング, ブートストラップ, 階層化サンプリング, クラスタサンプリングの理論を説明する。 また,多段サンプリング,ネットワークサンプリング,雪球サンプリングについても簡単に紹介する。 その後、分布からサンプリングに切り替える。 累積分布関数からのサンプリング,モンテカルロ近似,単純モンテカルロ法,マルコフ連鎖モンテカルロ法について述べる。 反復が独立な単純なモンテカルロ法については,重要度サンプリングと拒否サンプリングについて述べる。 MCMC法では,Metropolisアルゴリズム,Metropolis-Hastingsアルゴリズム,Gibbsサンプリング,スライスサンプリングを網羅する。 次に,モンテカルロ法とより効率的なモンテカルロ法について,ハミルトニアン(あるいはハイブリッド)モンテカルロ法,アドラーのオーバーリラクシエーション法,順序付きオーバーリラクシエーション法について解説する。 最後に,サンプリング法の特徴,長所,短所をそれぞれ比較して要約する。 本稿では,統計学,機械学習,強化学習,計算物理学の分野において有用である。

This paper is a tutorial and literature review on sampling algorithms. We have two main types of sampling in statistics. The first type is survey sampling which draws samples from a set or population. The second type is sampling from probability distribution where we have a probability density or mass function. In this paper, we cover both types of sampling. First, we review some required background on mean squared error, variance, bias, maximum likelihood estimation, Bernoulli, Binomial, and Hypergeometric distributions, the Horvitz-Thompson estimator, and the Markov property. Then, we explain the theory of simple random sampling, bootstrapping, stratified sampling, and cluster sampling. We also briefly introduce multistage sampling, network sampling, and snowball sampling. Afterwards, we switch to sampling from distribution. We explain sampling from cumulative distribution function, Monte Carlo approximation, simple Monte Carlo methods, and Markov Chain Monte Carlo (MCMC) methods. For simple Monte Carlo methods, whose iterations are independent, we cover importance sampling and rejection sampling. For MCMC methods, we cover Metropolis algorithm, Metropolis-Hastings algorithm, Gibbs sampling, and slice sampling. Then, we explain the random walk behaviour of Monte Carlo methods and more efficient Monte Carlo methods, including Hamiltonian (or hybrid) Monte Carlo, Adler's overrelaxation, and ordered overrelaxation. Finally, we summarize the characteristics, pros, and cons of sampling methods compared to each other. This paper can be useful for different fields of statistics, machine learning, reinforcement learning, and computational physics.
翻訳日:2022-09-30 12:59:10 公開日:2020-11-02
# p値ピーキングと極値推定

p-value peeking and estimating extrema ( http://arxiv.org/abs/2011.01343v1 )

ライセンス: Link先を確認
Akshay Balsubramani(参考訳) 統計的仮説テストにおける広範な問題は、報告された$p$-valuesがデータ"覗き見"によって下位に偏っていることだ。 いくつかの一般的なシナリオで覗き見の効果を直接取り扱うような,テスト統計の動作の極端さを推定するための原理的なメカニズムを開発した。

A pervasive issue in statistical hypothesis testing is that the reported $p$-values are biased downward by data "peeking" -- the practice of reporting only progressively extreme values of the test statistic as more data samples are collected. We develop principled mechanisms to estimate such running extrema of test statistics, which directly address the effect of peeking in some general scenarios.
翻訳日:2022-09-30 12:58:44 公開日:2020-11-02
# mRNA発現を用いたグリオーマ患者の生存予測とリスク評価

Survival prediction and risk estimation of Glioma patients using mRNA expressions ( http://arxiv.org/abs/2011.00659v1 )

ライセンス: Link先を確認
Navodini Wijethilake, Dulani Meedeniya, Charith Chitraranjan, Indika Perera(参考訳) グリオーマは致死型の中枢神経系腫瘍であり予後不良である。 近年, マイクロアレイ技術の進歩に伴い, グリオーマ患者の遺伝子発現関連データが数千件取得され, 有意な解析が可能となった。 このように、ゲノム学は予後解析の分野に現れている。 本研究では,生存に関連する7つの遺伝子シグネチャを同定し,生存予測とリスク推定のための2つのアプローチを検討する。 生存予測のために,従来の機械学習アルゴリズムよりも優れた確率的プログラミングに基づく新しい手法を提案する。 提案アルゴリズムでは,平均4倍精度が74%である。 さらに,グリオーマ患者のリスク推定のための予後リスクモデルを構築した。 このモデルは、低生存率患者のリスクが高いグリオーマ患者の生存率を反映している。

Gliomas are lethal type of central nervous system tumors with a poor prognosis. Recently, with the advancements in the micro-array technologies thousands of gene expression related data of glioma patients are acquired, leading for salient analysis in many aspects. Thus, genomics are been emerged into the field of prognosis analysis. In this work, we identify survival related 7 gene signature and explore two approaches for survival prediction and risk estimation. For survival prediction, we propose a novel probabilistic programming based approach, which outperforms the existing traditional machine learning algorithms. An average 4 fold accuracy of 74% is obtained with the proposed algorithm. Further, we construct a prognostic risk model for risk estimation of glioma patients. This model reflects the survival of glioma patients, with high risk for low survival patients.
翻訳日:2022-09-30 12:58:37 公開日:2020-11-02
# 円滑な学習による言語間文書検索

Cross-Lingual Document Retrieval with Smooth Learning ( http://arxiv.org/abs/2011.00701v1 )

ライセンス: Link先を確認
Jiapeng Liu, Xiao Zhang, Dan Goldwasser, Xiao Wang(参考訳) クロスリンガル文書検索(cross-lingual document search)は、クエリの言語が文書の言語と異なる情報検索タスクである。 本稿では,ニューラル文書検索モデルの不安定性を考察し,異なる文書言語を用いた言語間検索の性能向上を実現するための,エンドツーエンドのロバストフレームワークを提案する。 このフレームワークは、クエリとドキュメント間の関連性、スムーズなコサイン類似性の新たな尺度と、新しい損失関数であるSmooth Ordinal Search Lossをその目的とする。 さらに,提案フレームワークの一般化誤差を理論的に保証する。 提案手法を他の文書検索モデルと比較する実験を行い,様々な言語における言語間文書検索タスクにおいて,一般的なランキング指標下での有意な向上を観察した。

Cross-lingual document search is an information retrieval task in which the queries' language differs from the documents' language. In this paper, we study the instability of neural document search models and propose a novel end-to-end robust framework that achieves improved performance in cross-lingual search with different documents' languages. This framework includes a novel measure of the relevance, smooth cosine similarity, between queries and documents, and a novel loss function, Smooth Ordinal Search Loss, as the objective. We further provide theoretical guarantee on the generalization error bound for the proposed framework. We conduct experiments to compare our approach with other document search models, and observe significant gains under commonly used ranking metrics on the cross-lingual document retrieval task in a variety of languages.
翻訳日:2022-09-30 12:58:27 公開日:2020-11-02
# 自動音声認識と多言語音声翻訳を組み合わせたデュアルデコーダトランスフォーマ

Dual-decoder Transformer for Joint Automatic Speech Recognition and Multilingual Speech Translation ( http://arxiv.org/abs/2011.00747v1 )

ライセンス: Link先を確認
Hang Le, Juan Pino, Changhan Wang, Jiatao Gu, Didier Schwab, Laurent Besacier(参考訳) 本稿では,自動音声認識 (asr) と多言語音声翻訳 (st) を組み合わせた新しいモデルアーキテクチャであるデュアルデコーダトランスフォーマを提案する。 我々のモデルは、オリジナルのTransformerアーキテクチャ(Vaswani et al., 2017)に基づいており、それぞれ1つのタスク(ASRまたはST)に責任を負う2つのデコーダで構成されています。 私たちの大きな貢献は、これらのデコーダが相互にどのように相互作用するかにあります。 並列およびクロスデュアルデコーダ変換器と呼ばれる,デコーダ間の依存関係の異なる2つのレベルに対応する2種類のアーキテクチャを提案する。 must-cデータセットに関する広範囲な実験により、我々のモデルは、前述した多言語環境での翻訳性能よりも優れており、二言語間1対1の結果よりも優れています。 さらに、並列モデルは、バニラマルチタスクアーキテクチャと比較して、ASRとSTのトレードオフを示さない。 私たちのコードと事前トレーニングされたモデルは、https://github.com/formiel/speech-translationで利用可能です。

We introduce dual-decoder Transformer, a new model architecture that jointly performs automatic speech recognition (ASR) and multilingual speech translation (ST). Our models are based on the original Transformer architecture (Vaswani et al., 2017) but consist of two decoders, each responsible for one task (ASR or ST). Our major contribution lies in how these decoders interact with each other: one decoder can attend to different information sources from the other via a dual-attention mechanism. We propose two variants of these architectures corresponding to two different levels of dependencies between the decoders, called the parallel and cross dual-decoder Transformers, respectively. Extensive experiments on the MuST-C dataset show that our models outperform the previously-reported highest translation performance in the multilingual settings, and outperform as well bilingual one-to-one results. Furthermore, our parallel models demonstrate no trade-off between ASR and ST compared to the vanilla multi-task architecture. Our code and pre-trained models are available at https://github.com/formiel/speech-translation.
翻訳日:2022-09-30 12:52:16 公開日:2020-11-02
# 超音波シーアウェーブエラストグラフィーを用いた肝線維症自動診断のための多モード能動学習

Multi-Modal Active Learning for Automatic Liver Fibrosis Diagnosis based on Ultrasound Shear Wave Elastography ( http://arxiv.org/abs/2011.00694v1 )

ライセンス: Link先を確認
Lufei Gao, Ruisong Zhou, Changfeng Dong, Cheng Feng, Zhen Li, Xiang Wan and Li Liu(参考訳) 放射線治療の発展に伴い,超音波などの非侵襲的診断は肝線維症自動診断(ALFD)において極めて重要である。 ノイズの多いデータ、アメリカの画像の高価なアノテーションのため、AI(Artificial Intelligence)アプローチの応用はボトルネックに直面する。 さらに、mono-modal usデータの使用により、分類結果のさらなる改善が制限される。 本研究では, ALFD にアクティブラーニング(MMFN-AL)を付加したマルチモーダル融合ネットワークを提案する。 米国を含む4つの画像モダリティと3種類のせん断波エラストグラフィー(SWE)を利用する。 肝生検の結果から得られたラベルを用いて, 214個の候補から得られたこれらのモダリティを含む新しいデータセットを収集し, 事前処理した。 実験の結果,提案手法は30%未満のデータを用いて最先端性能を向上し,80%程度のデータのみを用いて高いAUC 89.27%,精度70.59%を達成した。

With the development of radiomics, noninvasive diagnosis like ultrasound (US) imaging plays a very important role in automatic liver fibrosis diagnosis (ALFD). Due to the noisy data, expensive annotations of US images, the application of Artificial Intelligence (AI) assisting approaches encounters a bottleneck. Besides, the use of mono-modal US data limits the further improve of the classification results. In this work, we innovatively propose a multi-modal fusion network with active learning (MMFN-AL) for ALFD to exploit the information of multiple modalities, eliminate the noisy data and reduce the annotation cost. Four image modalities including US and three types of shear wave elastography (SWEs) are exploited. A new dataset containing these modalities from 214 candidates is well-collected and pre-processed, with the labels obtained from the liver biopsy results. Experimental results show that our proposed method outperforms the state-of-the-art performance using less than 30% data, and by using only around 80% data, the proposed fusion network achieves high AUC 89.27% and accuracy 70.59%.
翻訳日:2022-09-30 12:51:54 公開日:2020-11-02
# データ富化GANを用いたセグメンテーションのためのデータフリー知識蒸留

Data-free Knowledge Distillation for Segmentation using Data-Enriching GAN ( http://arxiv.org/abs/2011.00809v1 )

ライセンス: Link先を確認
Kaushal Bhogale(参考訳) 巨大な事前学習ネットワークからの知識を蒸留して、小さなネットワークの性能を向上させることで、多くのリアルタイムおよびモバイルアプリケーションで使用されるディープラーニングモデルが好まれている。 この分野での成功を示すいくつかのアプローチでは、真のトレーニングデータセットを使用して関連する知識を抽出している。 しかし、Trueデータセットがなければ、ディープネットワークから知識を抽出することは依然として困難である。 データフリー知識蒸留に関する最近の研究は、分類タスクにおいてそのようなテクニックを実証している。 この目的のために,セグメンテーションタスクのためのデータフリーな知識蒸留の課題について検討する。 まず、セグメンテーションに特有のいくつかの課題を特定する。 我々は,degan training frameworkを用いて,少数のクラスが過小評価されている環境で多様性を強制する新しい損失関数を提案する。 さらに,データフリー環境で知識蒸留を行うための新たなトレーニングフレームワークについても検討する。 これまでのアプローチよりも6.93%改善しています。

Distilling knowledge from huge pre-trained networks to improve the performance of tiny networks has favored deep learning models to be used in many real-time and mobile applications. Several approaches that demonstrate success in this field have made use of the true training dataset to extract relevant knowledge. In absence of the True dataset, however, extracting knowledge from deep networks is still a challenge. Recent works on data-free knowledge distillation demonstrate such techniques on classification tasks. To this end, we explore the task of data-free knowledge distillation for segmentation tasks. First, we identify several challenges specific to segmentation. We make use of the DeGAN training framework to propose a novel loss function for enforcing diversity in a setting where a few classes are underrepresented. Further, we explore a new training framework for performing knowledge distillation in a data-free setting. We get an improvement of 6.93% in Mean IoU over previous approaches.
翻訳日:2022-09-30 12:51:35 公開日:2020-11-02
# 脳腫瘍分離のためのnnU-Net

nnU-Net for Brain Tumor Segmentation ( http://arxiv.org/abs/2011.00848v1 )

ライセンス: Link先を確認
Fabian Isensee, Paul F. Jaeger, Peter M. Full, Philipp Vollmuth, Klaus H. Maier-Hein(参考訳) 我々はBraTS 2020チャレンジのセグメンテーションタスクにnnU-Netを適用する。 未修正のnnU-Netベースライン構成は、すでに見事な結果が得られる。 ポストプロセッシング、リージョンベーストレーニング、より積極的なデータ拡張、nnunetパイプラインのマイナーな変更に関するbrats固有の変更を組み込むことで、セグメント化性能を大幅に改善することができる。 さらに、我々のnU-Net変種のうちどれが最も適しているかを決定するために、BraTSランキングスキームを再実装する。 ブラッツ2020では88.95,85.06,82.03点,hd958.498,17.337点,17.805点のdiceスコアがそれぞれ,腫瘍,腫瘍コア,造影腫瘍のそれぞれにおいて第1位となった。

We apply nnU-Net to the segmentation task of the BraTS 2020 challenge. The unmodified nnU-Net baseline configuration already achieves a respectable result. By incorporating BraTS-specific modifications regarding postprocessing, region-based training, a more aggressive data augmentation as well as several minor modifications to the nnUNet pipeline we are able to improve its segmentation performance substantially. We furthermore re-implement the BraTS ranking scheme to determine which of our nnU-Net variants best fits the requirements imposed by it. Our final ensemble took the first place in the BraTS 2020 competition with Dice scores of 88.95, 85.06 and 82.03 and HD95 values of 8.498,17.337 and 17.805 for whole tumor, tumor core and enhancing tumor, respectively.
翻訳日:2022-09-30 12:51:23 公開日:2020-11-02
# コンピュータ支援による腫瘍の診断・治療における深層学習

Deep Learning in Computer-Aided Diagnosis and Treatment of Tumors: A Survey ( http://arxiv.org/abs/2011.00940v1 )

ライセンス: Link先を確認
Dan Zhao, Guizhi Xu, Zhenghua XU, Thomas Lukasiewicz, Minmin Xue, Zhigang Fu(参考訳) コンピュータ支援による腫瘍の診断と治療は近年のディープラーニングのホットトピックであり、腫瘍マーカーの検出、腫瘍の余暇のアウトライン、腫瘍のサブタイプとステージ、治療効果の予測、薬物開発など、一連の医療課題を構成する。 一方、メインストリームのタスクシナリオで発生する正確な位置決めと優れたパフォーマンスを備えたディープラーニングモデルもある。 このようにして、主に医療タスクの改善に焦点を当てたタスク指向の深層学習手法を導入する。 In-Vitro diagnosis (IVD) , Imaging diagnosis (ID) , Pathological diagnosis (PD) , Treatment Planning (TP) と命名された4段階の腫瘍診断と治療の最近の進歩を要約する。 各ステージの特定のデータタイプと医療課題に基づき,コンピュータ支援腫瘍診断・治療における深層学習の応用と,その優れた研究成果の分析を行った。 この調査は、研究課題を議論し、今後の改善に向けた課題を提案することで締めくくられる。

Computer-Aided Diagnosis and Treatment of Tumors is a hot topic of deep learning in recent years, which constitutes a series of medical tasks, such as detection of tumor markers, the outline of tumor leisures, subtypes and stages of tumors, prediction of therapeutic effect, and drug development. Meanwhile, there are some deep learning models with precise positioning and excellent performance produced in mainstream task scenarios. Thus follow to introduce deep learning methods from task-orient, mainly focus on the improvements for medical tasks. Then to summarize the recent progress in four stages of tumor diagnosis and treatment, which named In-Vitro Diagnosis (IVD), Imaging Diagnosis (ID), Pathological Diagnosis (PD), and Treatment Planning (TP). According to the specific data types and medical tasks of each stage, we present the applications of deep learning in the Computer-Aided Diagnosis and Treatment of Tumors and analyzing the excellent works therein. This survey concludes by discussing research issues and suggesting challenges for future improvement.
翻訳日:2022-09-30 12:51:05 公開日:2020-11-02
# ASIST:顕微鏡ビデオ解析のためのアノテーションなし合成インスタンスセグメンテーションと追跡

ASIST: Annotation-free synthetic instance segmentation and tracking for microscope video analysis ( http://arxiv.org/abs/2011.01009v1 )

ライセンス: Link先を確認
Quan Liu, Isabella M. Gaeta, Mengyang Zhao, Ruining Deng, Aadarsh Jha, Bryan A. Millis, Anita Mahadevan-Jansen, Matthew J. Tyska, Yuankai Huo(参考訳) 例 オブジェクトのセグメンテーションとトラッキングは、顕微鏡ビデオ全体のオブジェクトの包括的な定量化を提供する。 最近のシングルステージのpixel-embeddingベースのディープラーニングアプローチは、"segment-then-associate"の二段階ソリューションよりも優れたパフォーマンスを示している。 しかし、顕微鏡ビデオに教師付きピクセル埋め込み法を適用する際の大きな制限は、数百の重なり合ったオブジェクトをビデオフレーム間で時間的関連で追跡するリソース集約型手動ラベリングである。 近年のgenerative adversarial network (gan) に基づくアノテーションフリー画像セグメンテーションに触発され,マイクロヴィリの顕微鏡映像を解析するためのアノテーションフリー合成インスタンスセグメンテーション・トラッキング (asist) アルゴリズムを提案する。 本論文の貢献は3つある:(1)新しいアノテーションのないビデオ分析パラダイムを提案する。 2)包括的枠組みとしてアノテーションフリー合成学習を用いた組込み型インスタンスセグメンテーションとトラッキングを集約し,(3)我々の知識を最大限に活用するために,組込み型ディープラーニングを用いたマイクロヴィリアーなインスタンスセグメンテーションとトラッキングを初めて検討した。 実験結果から,提案手法は教師あり学習よりも優れた性能を示した。

Instance object segmentation and tracking provide comprehensive quantification of objects across microscope videos. The recent single-stage pixel-embedding based deep learning approach has shown its superior performance compared with "segment-then-associate" two-stage solutions. However, one major limitation of applying a supervised pixel-embedding based method to microscope videos is the resource-intensive manual labeling, which involves tracing hundreds of overlapped objects with their temporal associations across video frames. Inspired by the recent generative adversarial network (GAN) based annotation-free image segmentation, we propose a novel annotation-free synthetic instance segmentation and tracking (ASIST) algorithm for analyzing microscope videos of sub-cellular microvilli. The contributions of this paper are three-fold: (1) proposing a new annotation-free video analysis paradigm is proposed. (2) aggregating the embedding based instance segmentation and tracking with annotation-free synthetic learning as a holistic framework; and (3) to the best of our knowledge, this is first study to investigate microvilli instance segmentation and tracking using embedding based deep learning. From the experimental results, the proposed annotation-free method achieved superior performance compared with supervised learning.
翻訳日:2022-09-30 12:50:24 公開日:2020-11-02
# 学習可能な特徴インプテーションを用いた画像インペインティング

Image Inpainting with Learnable Feature Imputation ( http://arxiv.org/abs/2011.01077v1 )

ライセンス: Link先を確認
H{\aa}kon Hukkel{\aa}s, Frank Lindseth, Rudolf Mester(参考訳) 既知の領域や未知の領域に対して同じようにフィルタを適用する通常の畳み込み層は、塗装された画像に視覚的なアーティファクトを引き起こす。 いくつかの研究は、畳み込みの出力に関する特徴的再正規化でこの問題に対処している。 しかし、これらのモデルは機能の再正規化のためにかなりの量の学習可能なパラメータを使用するか、出力の確実性のバイナリ表現を仮定する。 畳み込みに欠落した入力値の(層別)特徴的含意を提案する。 学習した特徴再正規化とは対照的に,本手法は効率的であり,パラメータも最小である。 さらに,画像塗布における勾配ペナルティの修正と,敵対的損失に特化して訓練された新しいGANアーキテクチャを提案する。 fdfデータセットの定量的評価は,改良された勾配ペナルティと代替畳み込みが生成画像品質を大幅に改善することを示す。 我々はCelebA-HQとPlaces2を比較し,そのモデルを検証する。

A regular convolution layer applying a filter in the same way over known and unknown areas causes visual artifacts in the inpainted image. Several studies address this issue with feature re-normalization on the output of the convolution. However, these models use a significant amount of learnable parameters for feature re-normalization, or assume a binary representation of the certainty of an output. We propose (layer-wise) feature imputation of the missing input values to a convolution. In contrast to learned feature re-normalization, our method is efficient and introduces a minimal number of parameters. Furthermore, we propose a revised gradient penalty for image inpainting, and a novel GAN architecture trained exclusively on adversarial loss. Our quantitative evaluation on the FDF dataset reflects that our revised gradient penalty and alternative convolution improves generated image quality significantly. We present comparisons on CelebA-HQ and Places2 to current state-of-the-art to validate our model.
翻訳日:2022-09-30 12:49:33 公開日:2020-11-02
# 音声による顔のキーポイントシーケンス生成

Facial Keypoint Sequence Generation from Audio ( http://arxiv.org/abs/2011.01114v1 )

ライセンス: Link先を確認
Prateek Manocha and Prithwijit Guha(参考訳) 話すたびに、私たちの声には顔の動きと表情が伴います。 いくつかの最近の研究では、会話する顔の高度に写実的なビデオが合成されているが、ターゲットの顔を動かすためにソースビデオを必要とするか、固定された頭ポーズでビデオを生成するだけである。 この顔の動きの欠如は、これらの作品のほとんどが、残りの顔のキーポイントの固定的な性質を仮定しながら、音声と同期して唇の動きに焦点を当てているためである。 これを解決するために、224pと25fpsで15万本以上のビデオのユニークなオーディオキーポイントデータセットを導入し、与えられたオーディオの顔キーポイントの動きを関連づける。 このデータセットは、さらにモデルであるaudio2keypointをトレーニングするために使われます。 ターゲット人物の1つの画像とオーディオシーケンス(任意の言語で)が与えられた後、Audio2Keypointは入力された音声と同期して、入力画像に条件付けされた可塑性キーポイント移動シーケンスを生成し、対象人物の顔の特徴を保存する。 我々の知る限りでは、これはオーディオキーポイントデータセットを提案して、任意の長さの音声を出力するための可算キーポイントシーケンスを出力するモデルを学ぶ最初の作品である。 Audio2Keypointは、異なる顔構造を持つ見えない人々を一般化し、あらゆる音源や合成音声から音声のシーケンスを生成する。 この研究は、音声からビデオ領域への直接マッピングを学ぶ代わりに、PIVエンコーダを用いて人物の身元を保存しながら、平面内および平面外の頭部回転を可能にするオーディオキーポイントマッピングを学習することを目的としている。

Whenever we speak, our voice is accompanied by facial movements and expressions. Several recent works have shown the synthesis of highly photo-realistic videos of talking faces, but they either require a source video to drive the target face or only generate videos with a fixed head pose. This lack of facial movement is because most of these works focus on the lip movement in sync with the audio while assuming the remaining facial keypoints' fixed nature. To address this, a unique audio-keypoint dataset of over 150,000 videos at 224p and 25fps is introduced that relates the facial keypoint movement for the given audio. This dataset is then further used to train the model, Audio2Keypoint, a novel approach for synthesizing facial keypoint movement to go with the audio. Given a single image of the target person and an audio sequence (in any language), Audio2Keypoint generates a plausible keypoint movement sequence in sync with the input audio, conditioned on the input image to preserve the target person's facial characteristics. To the best of our knowledge, this is the first work that proposes an audio-keypoint dataset and learns a model to output the plausible keypoint sequence to go with audio of any arbitrary length. Audio2Keypoint generalizes across unseen people with a different facial structure allowing us to generate the sequence with the voice from any source or even synthetic voices. Instead of learning a direct mapping from audio to video domain, this work aims to learn the audio-keypoint mapping that allows for in-plane and out-of-plane head rotations, while preserving the person's identity using a Pose Invariant (PIV) Encoder.
翻訳日:2022-09-30 12:49:19 公開日:2020-11-02
# 二段階連続学習

Bilevel Continual Learning ( http://arxiv.org/abs/2011.01168v1 )

ライセンス: Link先を確認
Ammar Shaker, Francesco Alesiani, Shujian Yu, Wenzhe Yin(参考訳) 連続学習(CL)は,タスク列を1回ずつ学習する問題を研究し,各タスクの学習が,以前に学習した特徴を活用しながら,それまでのタスクに対するパフォーマンスの劣化を招かないようにした。 本稿では,二段階最適化と近年の深層ニューラルネットワークのメタラーニングの進歩を融合した,連続学習のための汎用フレームワークであるBilevel Continual Learning(BiCL)を提案する。 BiCLは、オンライン連続学習の保守的な設定の下で、深い差別モデルと生成モデルの両方を訓練することができる。 実験結果から,BiCLは破滅的忘れ込みの効果を低減しつつ,現在のタスクの精度で競争性能を提供することがわかった。 これは[1]との同時処理である。 aaai 2020とijcai 2020に提出しました。 そして今、記録のためにarxivに載せた。 [1]とは異なり、連続生成モデルも考慮する。 同時に、著者らは、継続学習のための2レベル最適化に基づくコアセット構築に関する最近の提案 [2] を認識している。 [1] Pham, D. Sahoo, C. Liu, S. C. Hoi。 二段階連続学習。 arxiv プレプリント arxiv:2007.15553, 2020 [2] Z. Borsos、M. Mutny、A. Krause。 継続的学習とストリーミングのための2レベル最適化によるcoresets。 arxivプレプリントarxiv:2006.03875, 2020

Continual learning (CL) studies the problem of learning a sequence of tasks, one at a time, such that the learning of each new task does not lead to the deterioration in performance on the previously seen ones while exploiting previously learned features. This paper presents Bilevel Continual Learning (BiCL), a general framework for continual learning that fuses bilevel optimization and recent advances in meta-learning for deep neural networks. BiCL is able to train both deep discriminative and generative models under the conservative setting of the online continual learning. Experimental results show that BiCL provides competitive performance in terms of accuracy for the current task while reducing the effect of catastrophic forgetting. This is a concurrent work with [1]. We submitted it to AAAI 2020 and IJCAI 2020. Now we put it on the arxiv for record. Different from [1], we also consider continual generative model as well. At the same time, the authors are aware of a recent proposal on bilevel optimization based coreset construction for continual learning [2]. [1] Q. Pham, D. Sahoo, C. Liu, and S. C. Hoi. Bilevel continual learning. arXiv preprint arXiv:2007.15553, 2020. [2] Z. Borsos, M. Mutny, and A. Krause. Coresets via bilevel optimization for continual learning and streaming. arXiv preprint arXiv:2006.03875, 2020
翻訳日:2022-09-30 12:42:10 公開日:2020-11-02
# ディープラーニングアルゴリズムによる組織的意思決定の強化 - 原則,約束,課題

Augmenting Organizational Decision-Making with Deep Learning Algorithms: Principles, Promises, and Challenges ( http://arxiv.org/abs/2011.02834v1 )

ライセンス: Link先を確認
Yash Raj Shrestha, Vaibhav Krishna, Georg von Krogh(参考訳) 管理と組織研究における人工知能の理論と研究の最近の拡大は、組織における意思決定の理論と研究を活性化させた。 特に、最近のディープラーニング(dl)アルゴリズムの進歩は、従業員の情報処理を支援し、分析能力を増強し、より創造的な仕事に移行するのを助けるなど、組織内の意思決定の利点を約束している。

The current expansion of theory and research on artificial intelligence in management and organization studies has revitalized the theory and research on decision-making in organizations. In particular, recent advances in deep learning (DL) algorithms promise benefits for decision-making within organizations, such as assisting employees with information processing, thereby augment their analytical capabilities and perhaps help their transition to more creative work.
翻訳日:2022-09-30 12:41:37 公開日:2020-11-02
# サンプリング分解型生成広告レコメンダ

Sampling-Decomposable Generative Adversarial Recommender ( http://arxiv.org/abs/2011.00956v1 )

ライセンス: Link先を確認
Binbin Jin, Defu Lian, Zheng Liu, Qi Liu, Jianhui Ma, Xing Xie, Enhong Chen(参考訳) 勧告手法は情報過負荷を軽減するための重要なアプローチである。 暗黙のユーザフィードバックでトレーニングされることも多いため、多くの推奨者は、明示的なネガティブなサンプルが欠如しているため、疎外性の課題に悩まされる。 ganスタイルのレコメンダ(すなわちirgan)は、ジェネレータと識別器を敵対的に学習することで、識別対象の最適化を加速するために、ジェネレータが識別器に対してますます難しいサンプルを生成するという課題に対処している。 しかし, 発電機からのサンプル生成には非常に時間がかかり, 実験により, トップk項目の推薦において判別器が不十分であることが確認された。 この目的のためにgan型アルゴリズムの理論的解析を行い、限界容量生成器が最適生成器から逸脱していることを示す。 これは判別器の性能の限界を解釈することができる。 これらの知見に基づき,サンプル分解可能な生成適応レコメンダ (SD-GAR) を提案する。 本発明の枠組みは、あるジェネレータと最適値のばらつきを自己正規化重要サンプリングにより補償し、サンプル生成の効率をサンプリング分解可能なジェネレータで改善し、各サンプルをVose-Alias法でO(1)で生成することができる。 興味深いことに、サンプリングの非合成性のため、ジェネレータはgan型アルゴリズムのポリシー勾配とは異なる、交互に閉形式解で最適化することができる。 提案アルゴリズムを5つの実世界のレコメンデーションデータセットを用いて広範囲に評価する。 その結果、SD-GARはIRGANを12.4%上回り、SOTA勧告者は平均10%上回った。 さらに、識別器のトレーニングは、120K以上のアイテムを持つデータセットで20倍高速になる。

Recommendation techniques are important approaches for alleviating information overload. Being often trained on implicit user feedback, many recommenders suffer from the sparsity challenge due to the lack of explicitly negative samples. The GAN-style recommenders (i.e., IRGAN) addresses the challenge by learning a generator and a discriminator adversarially, such that the generator produces increasingly difficult samples for the discriminator to accelerate optimizing the discrimination objective. However, producing samples from the generator is very time-consuming, and our empirical study shows that the discriminator performs poor in top-k item recommendation. To this end, a theoretical analysis is made for the GAN-style algorithms, showing that the generator of limit capacity is diverged from the optimal generator. This may interpret the limitation of discriminator's performance. Based on these findings, we propose a Sampling-Decomposable Generative Adversarial Recommender (SD-GAR). In the framework, the divergence between some generator and the optimum is compensated by self-normalized importance sampling; the efficiency of sample generation is improved with a sampling-decomposable generator, such that each sample can be generated in O(1) with the Vose-Alias method. Interestingly, due to decomposability of sampling, the generator can be optimized with the closed-form solutions in an alternating manner, being different from policy gradient in the GAN-style algorithms. We extensively evaluate the proposed algorithm with five real-world recommendation datasets. The results show that SD-GAR outperforms IRGAN by 12.4% and the SOTA recommender by 10% on average. Moreover, discriminator training can be 20x faster on the dataset with more than 120K items.
翻訳日:2022-09-30 12:41:15 公開日:2020-11-02
# nsf収束法による基礎研究から実践へ

NSF Convergence Approach to Transition Basic Research into Practice ( http://arxiv.org/abs/2011.01251v1 )

ライセンス: Link先を確認
Shelby Smith and Chaitanya Baru(参考訳) 国立科学財団コンバージェンス加速器は、使用に触発されたコンバージェンス研究を通じて全国規模の社会問題に対処する。 収束アプローチを活用することで、Convergence Acceleratorは基本的な研究と発見に基づいて、新型コロナウイルス感染症2019を含むいくつかの重要な研究開発優先領域とプラクティスに関連する国連のイノベーションエコシステムを強化するためのタイムリーな投資を行い、データ革命、仕事の未来、量子技術を活用する。 人工知能は、これらすべての領域における重要なテーマである。

The National Science Foundation Convergence Accelerator addresses national-scale societal challenges through use-inspired convergence research. Leveraging a convergence approach the Convergence Accelerator builds upon basic research and discovery to make timely investments to strengthen the Nations innovation ecosystem associated with several key R&D priority areas and practices to include the coronavirus disease 2019, harnessing the data revolution, the future of work, and quantum technology. Artificial Intelligence is a key underlying theme across all of these areas.
翻訳日:2022-09-30 12:40:44 公開日:2020-11-02
# 危機管理のためのオントロジーベースのチャットボット--ユースケースウイルス

An ontology-based chatbot for crises management: use case coronavirus ( http://arxiv.org/abs/2011.02340v1 )

ライセンス: Link先を確認
Khouloud Hwerbi(参考訳) 今日は機械の知性の時代です。 人工知能の進歩により、機械はさまざまな人間の特性を模倣し始めており、チャットボットは会話型サービス分野における次の大きな存在だ。 チャットボットは、人と自然な会話を行うことのできる仮想人です。 それらは、音声、視覚、テキストのフォーマットで人間と会話できるスキルを含むことができる。 チャットボット、会話エージェント、対話システムとも呼ばれる人工知能の会話エンティティは、そのようなマシンの優れた例である。 適切なタイミングで適切な情報を取得することは,効果的な災害管理の鍵である。 災害管理」という用語は自然災害と人的災害の両方を包含する。 市民を支援するために、我々のプロジェクトは、24時間以内の最新の情報を提供する新型コロナウイルスアシスタントを作ることです。 world wide webの成長に伴い、ユーザがswiftと関連する正しい情報に興味を持っていることは、非常に理解できます。 チャットボットは、専門家がユーザに知識を提供する質問応答システムと見なすことができる。 このマスター論文は、COVID Assistantチャットボットについて議論し、各コンポーネントの詳細を説明することを目的としている。 提案したチャットボットの設計は,Ontology, Web Scrapingモジュール, DB, State Machine,キーワードExtractor, Trained chatbot, User Interfaceの7つのコンポーネントによって導入された。

Today is the era of intelligence in machines. With the advances in Artificial Intelligence, machines have started to impersonate different human traits, a chatbot is the next big thing in the domain of conversational services. A chatbot is a virtual person who is capable to carry out a natural conversation with people. They can include skills that enable them to converse with the humans in audio, visual, or textual formats. Artificial intelligence conversational entities, also called chatbots, conversational agents, or dialogue system, are an excellent example of such machines. Obtaining the right information at the right time and place is the key to effective disaster management. The term "disaster management" encompasses both natural and human-caused disasters. To assist citizens, our project is to create a COVID Assistant to provide the need of up to date information to be available 24 hours. With the growth in the World Wide Web, it is quite intelligible that users are interested in the swift and relatedly correct information for their hunt. A chatbot can be seen as a question-and-answer system in which experts provide knowledge to solicit users. This master thesis is dedicated to discuss COVID Assistant chatbot and explain each component in detail. The design of the proposed chatbot is introduced by its seven components: Ontology, Web Scraping module, DB, State Machine, keyword Extractor, Trained chatbot, and User Interface.
翻訳日:2022-09-30 12:40:32 公開日:2020-11-02
# selfpose:ヘッドセット搭載カメラによる3dエゴセントリックなポーズ推定

SelfPose: 3D Egocentric Pose Estimation from a Headset Mounted Camera ( http://arxiv.org/abs/2011.01519v1 )

ライセンス: Link先を確認
Denis Tome, Thiemo Alldieck, Patrick Peluse, Gerard Pons-Moll, Lourdes Agapito, Hernan Badino and Fernando De la Torre(参考訳) 頭部装着型VR装置の縁に設置した下向きの魚眼カメラから撮影した単眼画像から,エゴセントリックな3Dボディポーズ推定法を提案する。 この異常な視点は、下半身と上半身の解像度に劇的な違いをもたらす、厳密な自己閉塞と視点歪みを伴う独特の視覚的外観のイメージにつながる。 本稿では,2次元予測の不確実性を考慮した新しいマルチブランチデコーダを用いたエンコーダデコーダアーキテクチャを提案する。 合成および実世界のデータセットに基づく定量的評価は、我々の戦略が、アートエゴセントリックなアプローチの状況よりも精度を大幅に向上させることを示している。 ラベル付きデータの欠如に対処するため、大規模な写真リアルな合成データセットも導入しました。 xr-egoposeは、様々なスキントーン、体型、衣服を持つ人々の高品質なレンダリングを提供し、さまざまなアクションを実行します。 実験の結果,我々の新しい合成学習コーパスの高変動は,実世界の映像や実世界の実世界のデータセットにおける技術結果のステートメントに優れた一般化をもたらすことがわかった。 さらに,Human3.6Mベンチマークを用いて評価した結果,従来の3次元人間のポーズ問題に対する従来の手法と同等の性能を示した。

We present a solution to egocentric 3D body pose estimation from monocular images captured from downward looking fish-eye cameras installed on the rim of a head mounted VR device. This unusual viewpoint leads to images with unique visual appearance, with severe self-occlusions and perspective distortions that result in drastic differences in resolution between lower and upper body. We propose an encoder-decoder architecture with a novel multi-branch decoder designed to account for the varying uncertainty in 2D predictions. The quantitative evaluation, on synthetic and real-world datasets, shows that our strategy leads to substantial improvements in accuracy over state of the art egocentric approaches. To tackle the lack of labelled data we also introduced a large photo-realistic synthetic dataset. xR-EgoPose offers high quality renderings of people with diverse skintones, body shapes and clothing, performing a range of actions. Our experiments show that the high variability in our new synthetic training corpus leads to good generalization to real world footage and to state of theart results on real world datasets with ground truth. Moreover, an evaluation on the Human3.6M benchmark shows that the performance of our method is on par with top performing approaches on the more classic problem of 3D human pose from a third person viewpoint.
翻訳日:2022-09-30 12:34:00 公開日:2020-11-02
# ABNIRML:ニューラルIRモデルの挙動解析

ABNIRML: Analyzing the Behavior of Neural IR Models ( http://arxiv.org/abs/2011.00696v1 )

ライセンス: Link先を確認
Sean MacAvaney, Sergey Feldman, Nazli Goharian, Doug Downey, Arman Cohan(参考訳) BERT や T5 のような事前訓練された文脈言語モデルがアドホック検索に有効であることを示す研究が数多くある。 しかし、なぜこれらの方法がこれほど効果的なのか、なぜ他の方法よりも効果が高いのか、またどのような落とし穴があるのかはよく理解されていない。 本稿では,従来の手法では対応していない単語順に対する感度など,いくつかの特徴を探索可能な新しいタイプの診断テストを含む,ニューラルirモデル(abnirml)の挙動解析のための新しい包括的フレームワークを提案する。 フレームワークの価値を示すために、神経モデルの利益に寄与する要因についての洞察を与え、モデルが提示する意図しないバイアスを識別する、広範な実証研究を行う。 近年のニューラルランキングモデルが,先行するランキングモデルと根本的に異なる特徴を持つことを示す。 例えば、これらのモデルは、変化した文書語順、文順、および屈折端の影響を受けやすい。 また、ドキュメントに追加のコンテンツを追加したり、文書が異なる流動性や形式性で表現されたりするときに予期せぬ振る舞いを示すこともできる。 これらの違いは、基礎となる言語モデルだけでなく、アーキテクチャにも依存します。

Numerous studies have demonstrated the effectiveness of pretrained contextualized language models such as BERT and T5 for ad-hoc search. However, it is not well-understood why these methods are so effective, what makes some variants more effective than others, and what pitfalls they may have. We present a new comprehensive framework for Analyzing the Behavior of Neural IR ModeLs (ABNIRML), which includes new types of diagnostic tests that allow us to probe several characteristics---such as sensitivity to word order---that are not addressed by previous techniques. To demonstrate the value of the framework, we conduct an extensive empirical study that yields insights into the factors that contribute to the neural model's gains, and identify potential unintended biases the models exhibit. We find evidence that recent neural ranking models have fundamentally different characteristics from prior ranking models. For instance, these models can be highly influenced by altered document word order, sentence order and inflectional endings. They can also exhibit unexpected behaviors when additional content is added to documents, or when documents are expressed with different levels of fluency or formality. We find that these differences can depend on the architecture and not just the underlying language model.
翻訳日:2022-09-30 12:33:17 公開日:2020-11-02
# 2020年代の機械翻訳の政治経済

The 2020s Political Economy of Machine Translation ( http://arxiv.org/abs/2011.01007v1 )

ライセンス: Link先を確認
Steven Weber(参考訳) 本稿は、機械翻訳技術が今後数年にわたって展開されるにつれて、現在コミュニケーションと貿易における相互運用性の障壁となっている人間の言語の多様性が著しく低下する、という仮説を考察する。しかし、この新たな境界を破る技術は、すべての境界を均等に減らすものではなく、アイデアの流通とイノベーションと経済成長の新たな課題を生み出している。

This paper explores the hypothesis that the diversity of human languages, right now a barrier to interoperability in communication and trade, will become significantly less of a barrier as machine translation technologies are deployed over the next several years.But this new boundary-breaking technology does not reduce all boundaries equally, and it creates new challenges for the distribution of ideas and thus for innovation and economic growth.
翻訳日:2022-09-30 12:32:57 公開日:2020-11-02
# トランスポート型グラフカーネル

Transport based Graph Kernels ( http://arxiv.org/abs/2011.00745v1 )

ライセンス: Link先を確認
Kai Ma, Peng Wan, Daoqiang Zhang(参考訳) グラフカーネルはグラフ間の類似性を測定する強力なツールである。 既存のグラフカーネルのほとんどはノードラベルや属性に注目しており、グラフ階層構造情報を無視している。 グラフ階層構造情報を効果的に活用するために,最適輸送(OT)に基づくピラミッドグラフカーネルを提案する。 各グラフはピラミッドの階層構造に埋め込まれている。 次に、ot距離を用いて階層構造におけるグラフ間の類似度を測定する。 また, ot距離を用いてサブグラフ間の類似度を測定し, otに基づくサブグラフカーネルを提案する。 最適輸送距離に基づくグラフカーネルの正半定値(p.s.d)は必ずしも不可能ではない。 さらに、OTに基づく正規化グラフカーネルを提案し、p.s.dカーネル行列を得るために、元の最適輸送距離にカーネル正規化を追加する。 提案するグラフカーネルをいくつかのベンチマーク分類タスクで評価し,その性能を既存のグラフカーネルと比較した。 ほとんどの場合、提案するグラフカーネルアルゴリズムは競合する手法よりも優れている。

Graph kernel is a powerful tool measuring the similarity between graphs. Most of the existing graph kernels focused on node labels or attributes and ignored graph hierarchical structure information. In order to effectively utilize graph hierarchical structure information, we propose pyramid graph kernel based on optimal transport (OT). Each graph is embedded into hierarchical structures of the pyramid. Then, the OT distance is utilized to measure the similarity between graphs in hierarchical structures. We also utilize the OT distance to measure the similarity between subgraphs and propose subgraph kernel based on OT. The positive semidefinite (p.s.d) of graph kernels based on optimal transport distance is not necessarily possible. We further propose regularized graph kernel based on OT where we add the kernel regularization to the original optimal transport distance to obtain p.s.d kernel matrix. We evaluate the proposed graph kernels on several benchmark classification tasks and compare their performance with the existing state-of-the-art graph kernels. In most cases, our proposed graph kernel algorithms outperform the competing methods.
翻訳日:2022-09-30 12:32:31 公開日:2020-11-02
# 漸進的懐疑的ガウス過程を用いた野生の学習

Learning in the Wild with Incremental Skeptical Gaussian Processes ( http://arxiv.org/abs/2011.00928v1 )

ライセンス: Link先を確認
Andrea Bontempelli, Stefano Teso, Fausto Giunchiglia, Andrea Passerini(参考訳) 人間の監督から学ぶ能力は、パーソナルアシスタントや他のAIのインタラクティブな応用に基本である。 対話型学習者を野生に展開する上での2つの重要な課題は、監督の信頼性の低い性質と予測タスクの複雑さである。 我々は,監視が騒がしく,時間が経つにつれてクラス数が増加する,野放しでは,単純だが代表的な設定である漸進的な分類に対処した。 そこで本研究では,ガウス過程(gps)を中心とした懐疑的学習の再設計を提案する。 懐疑的学習は最近の対話的戦略であり、もし機械が例が誤記されていると十分に確信しているなら、注釈官にフィードバックを再考するよう依頼する。 多くの場合、これはクリーンな監視を得るのに十分である。 我々の再設計はISGPと呼ばれ、特にノイズの存在下でのラベル付けと矛盾クエリをより適切に割り当てるために、GPが供給する不確実性推定を活用する。 人工的・実世界のデータを用いた実験の結果,懐疑的学習の原型は,完全に失敗しうる自信過剰なモデルを生成するが,isgpは様々なノイズレベルや新しいクラスが観察されるように機能することが示された。

The ability to learn from human supervision is fundamental for personal assistants and other interactive applications of AI. Two central challenges for deploying interactive learners in the wild are the unreliable nature of the supervision and the varying complexity of the prediction task. We address a simple but representative setting, incremental classification in the wild, where the supervision is noisy and the number of classes grows over time. In order to tackle this task, we propose a redesign of skeptical learning centered around Gaussian Processes (GPs). Skeptical learning is a recent interactive strategy in which, if the machine is sufficiently confident that an example is mislabeled, it asks the annotator to reconsider her feedback. In many cases, this is often enough to obtain clean supervision. Our redesign, dubbed ISGP, leverages the uncertainty estimates supplied by GPs to better allocate labeling and contradiction queries, especially in the presence of noise. Our experiments on synthetic and real-world data show that, as a result, while the original formulation of skeptical learning produces over-confident models that can fail completely in the wild, ISGP works well at varying levels of noise and as new classes are observed.
翻訳日:2022-09-30 12:31:55 公開日:2020-11-02
# marnet:3dポイントクラウド解析のためのマルチアブストラクションリファインメントネットワーク

MARNet: Multi-Abstraction Refinement Network for 3D Point Cloud Analysis ( http://arxiv.org/abs/2011.00923v1 )

ライセンス: Link先を確認
Rahul Chakwate, Arulkumar Subramaniam, Anurag Mittal(参考訳) 3次元点雲からの表現学習は、空間における置換不変性や不規則分布の性質から困難である。 既存のディープラーニング手法は、ハイレベルな抽象的特徴を低レベル特徴から導出する階層的特徴抽出パラダイムに従っている。 しかし、これらの特徴間の相互作用が限られているため、異なる情報の粒度を利用することができない。 そこで本研究では,マルチレベル機能間の情報交換を効果的に行うマルチ・アブストラクション・リファインメント・ネットワーク(marnet)を提案する。 形状分類と粒度の粗いセマンティックセマンティックセグメンテーションの2つの課題に対して,MARNetの有効性を実証的に示す。 MARNetは、ベースラインよりも2%高い分類性能を向上し、セマンティックセグメンテーションタスクにおける最先端メソッドよりも優れています。

Representation learning from 3D point clouds is challenging due to their inherent nature of permutation invariance and irregular distribution in space. Existing deep learning methods follow a hierarchical feature extraction paradigm in which high-level abstract features are derived from low-level features. However, they fail to exploit different granularity of information due to the limited interaction between these features. To this end, we propose Multi-Abstraction Refinement Network (MARNet) that ensures an effective exchange of information between multi-level features to gain local and global contextual cues while effectively preserving them till the final layer. We empirically show the effectiveness of MARNet in terms of state-of-the-art results on two challenging tasks: Shape classification and Coarse-to-fine grained semantic segmentation. MARNet significantly improves the classification performance by 2% over the baseline and outperforms the state-of-the-art methods on semantic segmentation task.
翻訳日:2022-09-30 12:25:25 公開日:2020-11-02
# 知識推論による画像キャプション向上

Boost Image Captioning with Knowledge Reasoning ( http://arxiv.org/abs/2011.00927v1 )

ライセンス: Link先を確認
Feicheng Huang, Zhixin Li, Haiyang Wei, Canlong Zhang, Huifang Ma(参考訳) 画像の人間的な記述を自動的に生成することは、人工知能の潜在的な研究であり、近年は注目を集めている。 既存の注目手法の多くは、文中の単語と画像内の領域間のマッピング関係を探索するが、予測不可能な一致は、しばしば、生成されたキャプションの品質を低下させる不調和なアライメントを引き起こす。 本稿では,より正確で有意義なキャプションを推論する試みについて述べる。 まず,逐次的な記述を単語毎に生成する際の視覚的注意の正確性を改善するために,単語注意を提案する。 特別な単語アテンションは、入力画像の異なる領域にフォーカスする際の単語の重要性を強調し、内部アノテーション知識をフル活用して視覚的アテンションの計算を支援する。 次に,機械で直接表現できないような理解不能な意図を明らかにするために,知識グラフから抽出した外部知識をエンコーダ・デコーダフレームワークに注入し,意味のある字幕作成を容易にする新たな戦略を提案する。 最後に、当社のモデルを、Microsoft COCOデータセットとFlickr30kデータセットの2つの利用可能なキャプションベンチマークで検証する。 その結果,本手法は最先端の性能を達成し,既存手法よりも優れていることがわかった。

Automatically generating a human-like description for a given image is a potential research in artificial intelligence, which has attracted a great of attention recently. Most of the existing attention methods explore the mapping relationships between words in sentence and regions in image, such unpredictable matching manner sometimes causes inharmonious alignments that may reduce the quality of generated captions. In this paper, we make our efforts to reason about more accurate and meaningful captions. We first propose word attention to improve the correctness of visual attention when generating sequential descriptions word-by-word. The special word attention emphasizes on word importance when focusing on different regions of the input image, and makes full use of the internal annotation knowledge to assist the calculation of visual attention. Then, in order to reveal those incomprehensible intentions that cannot be expressed straightforwardly by machines, we introduce a new strategy to inject external knowledge extracted from knowledge graph into the encoder-decoder framework to facilitate meaningful captioning. Finally, we validate our model on two freely available captioning benchmarks: Microsoft COCO dataset and Flickr30k dataset. The results demonstrate that our approach achieves state-of-the-art performance and outperforms many of the existing approaches.
翻訳日:2022-09-30 12:25:11 公開日:2020-11-02
# 3次元多体:不明瞭な画像データに対する可塑性3次元人間のモデルセット

3D Multi-bodies: Fitting Sets of Plausible 3D Human Models to Ambiguous Image Data ( http://arxiv.org/abs/2011.00980v1 )

ライセンス: Link先を確認
Benjamin Biggs, S\'ebastien Ehrhadt, Hanbyul Joo, Benjamin Graham, Andrea Vedaldi and David Novotny(参考訳) 単眼・部分閉塞視からヒトの高密度3次元再構成を実現することの問題点を考察する。 このような場合、視覚的証拠は3次元再構成を一意に識別するには不十分であり、入力データと互換性のある複数の可視的再構成を復元することを目指している。 ヒトのSMPLのような適切な3次元モデルを用いて身体形状やポーズをパラメータ化することで、曖昧さをより効果的にモデル化できることが示唆された。 そこで本研究では,M仮説のそれぞれが生成モデルを用いて,可塑性な人間のポーズの多様体上に置かれることが制約されているマルチハイプセシスニューラルネットワーク回帰器について検討する。 提案手法は,3次元人間の標準ベンチマークにおいて,曖昧なポーズリカバリを行うための代替手法に勝ることを示す。

We consider the problem of obtaining dense 3D reconstructions of humans from single and partially occluded views. In such cases, the visual evidence is usually insufficient to identify a 3D reconstruction uniquely, so we aim at recovering several plausible reconstructions compatible with the input data. We suggest that ambiguities can be modelled more effectively by parametrizing the possible body shapes and poses via a suitable 3D model, such as SMPL for humans. We propose to learn a multi-hypothesis neural network regressor using a best-of-M loss, where each of the M hypotheses is constrained to lie on a manifold of plausible human poses by means of a generative model. We show that our method outperforms alternative approaches in ambiguous pose recovery on standard benchmarks for 3D humans, and in heavily occluded versions of these benchmarks.
翻訳日:2022-09-30 12:24:18 公開日:2020-11-02
# PBP-Net:3Dポイントクラウドセグメンテーションのためのポイントプロジェクションとバックプロジェクションネットワーク

PBP-Net: Point Projection and Back-Projection Network for 3D Point Cloud Segmentation ( http://arxiv.org/abs/2011.00988v1 )

ライセンス: Link先を確認
JuYoung Yang, Chanho Lee, Pyunghwan Ahn, Haeil Lee, Eojindl Yi and Junmo Kim(参考訳) 3Dスキャン技術の発展に伴い、近年では2D畳み込みニューラルネットワーク(CNN)を利用する方法など、様々な3D視覚タスクのアプローチが提案されている。 しかしながら、2d cnnは多くの2dビジョンタスクで高いパフォーマンスを達成しているが、既存の作業は3dビジョンタスクに効果的に適用していない。 特にセグメンテーションは、リッチな特徴表現を必要とする各点の密度予測が困難であるため、十分に研究されていない。 本稿では,3dポイントクラウドセグメンテーションに2d cnnを利用する,pbp-net(point projection and back-projection network)という簡易かつ効率的なアーキテクチャを提案する。 それぞれが3dポイントクラウドを2dプレーンに配置し、2dcnnバックボーンを使用して機能を抽出し、元の3dポイントクラウドにバックプロジェクト機能を組み込む。 2次元cnnを用いた効果的な3次元特徴抽出を行うため,最近の手法との比較を含む様々な実験を行った。 提案するモジュールをアブレーション解析し,オブジェクト部分セグメンテーション(shapenet-part dataset)と室内シーン意味セグメンテーション(s3dis dataset)の実験を行った。 実験の結果,提案したPBP-Netは既存の最先端手法に匹敵する性能を示した。

Following considerable development in 3D scanning technologies, many studies have recently been proposed with various approaches for 3D vision tasks, including some methods that utilize 2D convolutional neural networks (CNNs). However, even though 2D CNNs have achieved high performance in many 2D vision tasks, existing works have not effectively applied them onto 3D vision tasks. In particular, segmentation has not been well studied because of the difficulty of dense prediction for each point, which requires rich feature representation. In this paper, we propose a simple and efficient architecture named point projection and back-projection network (PBP-Net), which leverages 2D CNNs for the 3D point cloud segmentation. 3 modules are introduced, each of which projects 3D point cloud onto 2D planes, extracts features using a 2D CNN backbone, and back-projects features onto the original 3D point cloud. To demonstrate effective 3D feature extraction using 2D CNN, we perform various experiments including comparison to recent methods. We analyze the proposed modules through ablation studies and perform experiments on object part segmentation (ShapeNet-Part dataset) and indoor scene semantic segmentation (S3DIS dataset). The experimental results show that proposed PBP-Net achieves comparable performance to existing state-of-the-art methods.
翻訳日:2022-09-30 12:24:00 公開日:2020-11-02
# 栄養情報に富んだ新しい大規模レシピデータセットのカロリー予測のためのマルチタスク学習

Multi-Task Learning for Calorie Prediction on a Novel Large-Scale Recipe Dataset Enriched with Nutritional Information ( http://arxiv.org/abs/2011.01082v1 )

ライセンス: Link先を確認
Robin Ruede, Verena Heusser, Lukas Frank, Alina Roitberg, Monica Haurilet, Rainer Stiefelhagen(参考訳) 食べ物のレシピなど、オンラインで投稿されるコンテンツの急増は、視覚と言語の交差点で新しいエキサイティングなアプリケーションへの扉を開く。 本研究では,インターネット上で公開されているレシピから学習することで,画像から食事のカロリー量を直接推定することを目的として,時間を要する手動データアノテーションを省略する。 制約のない環境で取得可能な大規模データセットは少ないため,写真や材料,指示など7万以上のレシピから,308,000枚の画像を含むpic2kcalベンチマークを提案する。 原料の栄養情報を取得し,地味のカロリー値を自動的に決定するために,レシピ中の成分と食品データベースからの構造化情報とをマッチングする。 様々なニューラルネットワークを用いて、カロリーのレグレッションを評価し、マルチタスクパラダイムで拡張する。 本手法は, カロリー推定とタンパク質, 炭水化物, 脂肪量の予測を併用し, 多ラベル成分の分類を行う。 本実験は, マルチタスク学習によるカロリー推定の利点を明らかにし, シングルタスクのカロリー回帰を9.9%上回った。 このタスクのさらなる研究を奨励するため、データセットを生成するためのコードとモデルを公開する。

A rapidly growing amount of content posted online, such as food recipes, opens doors to new exciting applications at the intersection of vision and language. In this work, we aim to estimate the calorie amount of a meal directly from an image by learning from recipes people have published on the Internet, thus skipping time-consuming manual data annotation. Since there are few large-scale publicly available datasets captured in unconstrained environments, we propose the pic2kcal benchmark comprising 308,000 images from over 70,000 recipes including photographs, ingredients and instructions. To obtain nutritional information of the ingredients and automatically determine the ground-truth calorie value, we match the items in the recipes with structured information from a food item database. We evaluate various neural networks for regression of the calorie quantity and extend them with the multi-task paradigm. Our learning procedure combines the calorie estimation with prediction of proteins, carbohydrates, and fat amounts as well as a multi-label ingredient classification. Our experiments demonstrate clear benefits of multi-task learning for calorie estimation, surpassing the single-task calorie regression by 9.9%. To encourage further research on this task, we make the code for generating the dataset and the models publicly available.
翻訳日:2022-09-30 12:23:34 公開日:2020-11-02
# ビデオオブジェクトセグメンテーションデータセットにおけるアノテーションの削減

Reducing the Annotation Effort for Video Object Segmentation Datasets ( http://arxiv.org/abs/2011.01142v1 )

ライセンス: Link先を確認
Paul Voigtlaender and Lishu Luo and Chun Yuan and Yong Jiang and Bastian Leibe(参考訳) ビデオオブジェクトセグメンテーション(VOS)のさらなる進歩には、より大きく、より多様な、より困難なデータセットが必要である。 しかし、ピクセルマスクでフレームを密にラベル付けしても、大きなデータセットにはスケールしない。 深層畳み込みネットワークを用いて、より安価なバウンディングボックスアノテーションからピクセルレベルで擬似ラベルを自動生成し、そのような擬似ラベルがいかにして最先端のVOSアプローチをトレーニングできるかを調べる。 本研究の非常に有望な成果は、各オブジェクトに1つのビデオフレームのみに手動でアノテートされたマスクを追加することで、vosメソッドをトレーニングして、完全にセグメント化されたビデオでトレーニングする場合とほぼ同じパフォーマンスレベルに達することができる擬似ラベルを生成するのに十分であるということです。 このワークフローを使って、困難な追跡データセットtaoのトレーニングセット用のピクセル擬似ラベルを作成し、バリデーションセットのサブセットを手動で注釈付けします。 TAO-VOS ベンチマークは www.vision.rwth-aachen.de/page/taovos で公開されています。 既存のデータセットにおける最先端のメソッドのパフォーマンスは飽和し始めているが、TAO-VOSは現在のアルゴリズムでは非常に困難であり、その欠点を明らかにしている。

For further progress in video object segmentation (VOS), larger, more diverse, and more challenging datasets will be necessary. However, densely labeling every frame with pixel masks does not scale to large datasets. We use a deep convolutional network to automatically create pseudo-labels on a pixel level from much cheaper bounding box annotations and investigate how far such pseudo-labels can carry us for training state-of-the-art VOS approaches. A very encouraging result of our study is that adding a manually annotated mask in only a single video frame for each object is sufficient to generate pseudo-labels which can be used to train a VOS method to reach almost the same performance level as when training with fully segmented videos. We use this workflow to create pixel pseudo-labels for the training set of the challenging tracking dataset TAO, and we manually annotate a subset of the validation set. Together, we obtain the new TAO-VOS benchmark, which we make publicly available at www.vision.rwth-aachen.de/page/taovos. While the performance of state-of-the-art methods on existing datasets starts to saturate, TAO-VOS remains very challenging for current algorithms and reveals their shortcomings.
翻訳日:2022-09-30 12:23:14 公開日:2020-11-02
# ビデオフレーム補間における適応畳み込みの再検討

Revisiting Adaptive Convolutions for Video Frame Interpolation ( http://arxiv.org/abs/2011.01280v1 )

ライセンス: Link先を確認
Simon Niklaus and Long Mai and Oliver Wang(参考訳) ビデオフレーム補間(英語版)は、新しいビューを時間内に合成することであり、多くの新しい論文が芸術の状態を更に前進させ、ますます人気のある研究方向である。 しかし、各新しいメソッドには補間品質に影響する変数のホストがあるため、このタスクで実際に何が重要かを知るのは難しい。 本研究では, より古い, より単純なアプローチ, すなわち適応的分離可能な畳み込みを, 微妙な低レベル改善によって実現できることを, やや驚くべきことに示している。 そこで本稿では,フレーム補間品質を改善するための直感的だが効果的な手法を多数提案する。また,バースト画像の復調,ジョイント画像のフィルタリング,ビデオ予測など,他の適応的畳み込みの応用にも可能性を持っている。

Video frame interpolation, the synthesis of novel views in time, is an increasingly popular research direction with many new papers further advancing the state of the art. But as each new method comes with a host of variables that affect the interpolation quality, it can be hard to tell what is actually important for this task. In this work, we show, somewhat surprisingly, that it is possible to achieve near state-of-the-art results with an older, simpler approach, namely adaptive separable convolutions, by a subtle set of low level improvements. In doing so, we propose a number of intuitive but effective techniques to improve the frame interpolation quality, which also have the potential to other related applications of adaptive convolutions such as burst image denoising, joint image filtering, or video prediction.
翻訳日:2022-09-30 12:22:33 公開日:2020-11-02
# セマンティックビデオセグメンテーションのためのハイウェイ駆動データセット

Highway Driving Dataset for Semantic Video Segmentation ( http://arxiv.org/abs/2011.00674v1 )

ライセンス: Link先を確認
Byungju Kim, Junho Yim and Junmo Kim(参考訳) シーン理解はセマンティックセグメンテーションに欠かせない技法である。 セマンティックセグメンテーションに使用できるデータセットはいくつか存在するが、主に大きなディープニューラルネットワークを用いたセマンティックイメージセグメンテーションに焦点を当てている。 したがって、これらのネットワークはリアルタイムアプリケーション、特に自動運転システムでは役に立たない。 この問題を解決するために、セマンティックセグメンテーションタスクに2つの貢献をする。 最初のコントリビューションは、セマンティックビデオセグメンテーションタスクのための高密度アノテーション付きベンチマークである、セマンティックビデオデータセットであるHighway Drivingデータセットを導入することである。 高速道路の運転データセットは、30hzのフレームレートを持つ20の動画シーケンスで構成され、各フレームは密に注釈付けされている。 次に,時間相関を利用したベースラインアルゴリズムを提案する。 時間的相関を解析しようとする試みとともに、高速道路走行データセットがセマンティックビデオセグメンテーションの研究を促進することを期待している。

Scene understanding is an essential technique in semantic segmentation. Although there exist several datasets that can be used for semantic segmentation, they are mainly focused on semantic image segmentation with large deep neural networks. Therefore, these networks are not useful for real time applications, especially in autonomous driving systems. In order to solve this problem, we make two contributions to semantic segmentation task. The first contribution is that we introduce the semantic video dataset, the Highway Driving dataset, which is a densely annotated benchmark for a semantic video segmentation task. The Highway Driving dataset consists of 20 video sequences having a 30Hz frame rate, and every frame is densely annotated. Secondly, we propose a baseline algorithm that utilizes a temporal correlation. Together with our attempt to analyze the temporal correlation, we expect the Highway Driving dataset to encourage research on semantic video segmentation.
翻訳日:2022-09-30 12:16:40 公開日:2020-11-02
# コンテキストベース画像セグメントラベリング(cbisl)

Context-based Image Segment Labeling (CBISL) ( http://arxiv.org/abs/2011.00784v1 )

ライセンス: Link先を確認
Tobias Schlagenhauf, Yefeng Xia, J\"urgen Fleischer(参考訳) 画像を扱う場合、不完全な情報や不明瞭な情報に悩まされることが多い。 画像の塗装は画像領域の復元に使用することができるが、画素強度、画素方位方向、色などの低レベルの画像特徴に焦点を当てている。 本稿では,画像における意味的画像特徴(物体と位置)の復元を目的とする。 公開ゲート型画素cnnsに基づいて,行方不明のオブジェクトを回収し,コンテキストに基づいたオブジェクトの位置を返すために,四角方向pixelcnnと呼ばれる新しいアプローチを実証する。 このアプローチをコンテキストベース画像セグメントラベル (CBISL) と呼ぶ。 その結果,4方向モデルが1方向モデル(pixelcnn)を上回っており,人間比較可能な性能が得られることが示唆された。

Working with images, one often faces problems with incomplete or unclear information. Image inpainting can be used to restore missing image regions but focuses, however, on low-level image features such as pixel intensity, pixel gradient orientation, and color. This paper aims to recover semantic image features (objects and positions) in images. Based on published gated PixelCNNs, we demonstrate a new approach referred to as quadro-directional PixelCNN to recover missing objects and return probable positions for objects based on the context. We call this approach context-based image segment labeling (CBISL). The results suggest that our four-directional model outperforms one-directional models (gated PixelCNN) and returns a human-comparable performance.
翻訳日:2022-09-30 12:16:06 公開日:2020-11-02
# 非定位グローバルテクスチャアライメントによる効率的なテクスチャマッピング

Efficient texture mapping via a non-iterative global texture alignment ( http://arxiv.org/abs/2011.00870v1 )

ライセンス: Link先を確認
Mohammad Rouhani, Matthieu Fradet, Caroline Baillard(参考訳) テクスチャの再構築技術は一般的に、キーフレームのポーズの誤りに苦しむ。 与えられた3次元シーンのシームレスなテクスチャ再構築のための非定位的手法を提案する。 本手法は,グローバル最適化フレームワークを用いて,単一ショットで最高のテクスチャアライメントを求める。 まず、メッシュの各顔のテクスチャに最適なキーフレームを自動的に選択します。 これにより、メッシュは、同じキーフレームに関連する接続面の小さなグループに分解される。 このようなグループをフラグメントと呼ぶ。 そこで, フラグメント境界付近で抽出された3次元キーポイント間の幾何対応マッチング手法を提案し, マッチングゾーンをマージンサイズで制御する。 これらの制約は最適アライメントを見つけるための最小二乗(LS)モデルにつながる。 最後に、高速な色補正を施すことにより、視覚効果をさらに低減する。 画素分割法とは対照的に、非常に高速で非イテレーティブな線形方程式のスパース系を解いて最適アライメントを求める。 実験結果は他のアライメント法と比較して計算の複雑さと性能が低かったことを示している。

Texture reconstruction techniques generally suffer from the errors in keyframe poses. We present a non-iterative method for seamless texture reconstruction of a given 3D scene. Our method finds the best texture alignment in a single shot using a global optimisation framework. First, we automatically select the best keyframe to texture each face of the mesh. This leads to a decomposition of the mesh into small groups of connected faces associated to a same keyframe. We call such groups fragments. Then, we propose a geometry-aware matching technique between the 3D keypoints extracted around the fragment borders, where the matching zone is controlled by the margin size. These constraints lead to a least squares (LS) model for finding the optimal alignment. Finally, visual seams are further reduced by applying a fast colour correction. In contrast to pixel-wise methods, we find the optimal alignment by solving a sparse system of linear equations, which is very fast and non-iterative. Experimental results demonstrate low computational complexity and outperformance compared to other alignment methods.
翻訳日:2022-09-30 12:13:54 公開日:2020-11-02
# ポーズ不変顔認識のための顔のuvマップ補完--協調注意残差に基づく新しい敵対的アプローチ

Facial UV Map Completion for Pose-invariant Face Recognition: A Novel Adversarial Approach based on Coupled Attention Residual UNets ( http://arxiv.org/abs/2011.00912v1 )

ライセンス: Link先を確認
In Seop Na, Chung Tran, Dung Nguyen and Sang Dinh(参考訳) ポーズ不変顔認識(Pose-invariant face recognition)とは、異なるポーズから撮影された顔画像を分析して人物を識別または検証する問題である。 この問題は、ポーズ、照明、表情の多様さによって困難である。 ポーズの変化に対処するための有望なアプローチは、未完成なUVマップをWildの顔から抽出し、完成したUVマップを装着された3Dメッシュにアタッチし、最終的に任意のポーズの異なる2D顔を生成することである。 合成顔は、深層顔認識モデルの訓練のためのポーズ変動を増大させ、テストフェーズにおけるポーズ差を低減する。 本稿では,UVマップの完成度を向上させるために,Attention ResCUNet-GANと呼ばれる新しい生成モデルを提案する。 元のUV-GANを2つのU-Netを用いて拡張する。 特に、各u-net内のスキップ接続はアテンションゲートによって促進される。 一方、2つのu-netの機能にはトレーニング可能なスカラー重みが組み込まれている。 また,Multi-PIE,LFW,CPLWF,CFPデータセットなどのベンチマーク実験により,提案手法が既存手法に比べて優れた性能を示した。

Pose-invariant face recognition refers to the problem of identifying or verifying a person by analyzing face images captured from different poses. This problem is challenging due to the large variation of pose, illumination and facial expression. A promising approach to deal with pose variation is to fulfill incomplete UV maps extracted from in-the-wild faces, then attach the completed UV map to a fitted 3D mesh and finally generate different 2D faces of arbitrary poses. The synthesized faces increase the pose variation for training deep face recognition models and reduce the pose discrepancy during the testing phase. In this paper, we propose a novel generative model called Attention ResCUNet-GAN to improve the UV map completion. We enhance the original UV-GAN by using a couple of U-Nets. Particularly, the skip connections within each U-Net are boosted by attention gates. Meanwhile, the features from two U-Nets are fused with trainable scalar weights. The experiments on the popular benchmarks, including Multi-PIE, LFW, CPLWF and CFP datasets, show that the proposed method yields superior performance compared to other existing methods.
翻訳日:2022-09-30 12:13:41 公開日:2020-11-02
# 非ラテン文字定期刊行物の自動転写--トルコの印刷アーカイブを事例として

Automated Transcription of Non-Latin Script Periodicals: A Case Study in the Ottoman Turkish Print Archive ( http://arxiv.org/abs/2011.01139v1 )

ライセンス: Link先を確認
Suphan Kirmizialtin, David Wrisley(参考訳) 本研究は,19世紀後半から20世紀前半にかけて,トランスクリバスプラットフォームを用いてアラビア語のトルコ語(ot)で書かれた定期刊行物の自動書き起こしに深層学習手法を用いる。 我々は、otテキストコレクションの歴史的状況と、それが多くのラテン文字言語で起こった20世紀後半のコーポラデジタル化からほとんど排除された経緯について論じる。 この除外には2つの基本的な理由がある:アラビア語のスクリプト言語におけるOCRの技術的課題と、トルコの歴史的文脈におけるその文字の急速な放棄である。 OTの特定の場合において、デジタルツールに定期的なコレクションを開くには、トルコの現代の読者のラテン文字システムで文字を生成するために、HTRモデルを訓練する必要がある。 本稿では,20世紀初頭の2つのOT周期を用いたHTR実験に基づいて,書記システム間の一対一対応が存在しないようなモデルを訓練する上での課題について論じる。 最後に、時空間差を示す歴史言語におけるHTRモデルの潜在的なドメインバイアスと、言語改革とスクリプト変更を経験した言語コミュニティのための記述システム間の作業の重要性を考察する。

Our study utilizes deep learning methods for the automated transcription of late nineteenth- and early twentieth-century periodicals written in Arabic script Ottoman Turkish (OT) using the Transkribus platform. We discuss the historical situation of OT text collections and how they were excluded for the most part from the late twentieth century corpora digitization that took place in many Latin script languages. This exclusion has two basic reasons: the technical challenges of OCR for Arabic script languages, and the rapid abandonment of that very script in the Turkish historical context. In the specific case of OT, opening periodical collections to digital tools require training HTR models to generate transcriptions in the Latin writing system of contemporary readers of Turkish, and not, as some may expect, in right-to-left Arabic script text. In the paper we discuss the challenges of training such models where one-to-one correspondence between the writing systems do not exist, and we report results based on our HTR experiments with two OT periodicals from the early twentieth century. Finally, we reflect on potential domain bias of HTR models in historical languages exhibiting spatio-temporal variance as well as the significance of working between writing systems for language communities that have experienced language reform and script change.
翻訳日:2022-09-30 12:07:18 公開日:2020-11-02
# The Devil is in the details: Evaluations of Transformer-based Methods for Granular Tasks

The Devil is in the Details: Evaluating Limitations of Transformer-based Methods for Granular Tasks ( http://arxiv.org/abs/2011.01196v1 )

ライセンス: Link先を確認
Brihi Joshi, Neil Shah, Francesco Barbieri, Leonardo Neves(参考訳) トランスフォーマティブベースのニューラルネットワークモデルから派生した文脈埋め込みは、近年、質問応答、感情分析、テキストの類似性など、さまざまなタスクにおいて最先端のパフォーマンスを示している。 広範な研究は、そのようなモデルがテキストに存在する抽象的で意味的な情報をいかに正確に表現できるかを示している。 本研究では,より粒度の高い表現を必要とするタスクに対して,接する方向を探索し,それらのモデルの性能を解析する。 本稿では,文書の粒度レベルでのマッチング(テキスト中の微細な属性をキャプチャする埋め込みの要求)と抽象的なレベル(全体のテキスト意味をキャプチャする埋め込みの要求)という2つの視点からテキスト類似性の問題に焦点を当てる。 異なるドメインの2つのデータセットにまたがって、予想したように抽象的なドキュメントマッチングのパフォーマンスは高いが、コンテキスト埋め込みはtf-idfのような単純なベースラインによって、より細かいタスクに対して一貫して(そして、そのほとんどを)上回っていることを実証する。 次に、文脈埋め込みを用いたモデルにTF-IDFを組み込むことにより、粒度のタスクに対して最大36%の相対的な改善を達成できる簡易かつ効果的な手法を提案する。

Contextual embeddings derived from transformer-based neural language models have shown state-of-the-art performance for various tasks such as question answering, sentiment analysis, and textual similarity in recent years. Extensive work shows how accurately such models can represent abstract, semantic information present in text. In this expository work, we explore a tangent direction and analyze such models' performance on tasks that require a more granular level of representation. We focus on the problem of textual similarity from two perspectives: matching documents on a granular level (requiring embeddings to capture fine-grained attributes in the text), and an abstract level (requiring embeddings to capture overall textual semantics). We empirically demonstrate, across two datasets from different domains, that despite high performance in abstract document matching as expected, contextual embeddings are consistently (and at times, vastly) outperformed by simple baselines like TF-IDF for more granular tasks. We then propose a simple but effective method to incorporate TF-IDF into models that use contextual embeddings, achieving relative improvements of up to 36% on granular tasks.
翻訳日:2022-09-30 12:06:37 公開日:2020-11-02
# パルス結合型オシレータネットワークにおける摂動誘起スイッチング制御

Controlled Perturbation-Induced Switching in Pulse-Coupled Oscillator Networks ( http://arxiv.org/abs/2011.00888v1 )

ライセンス: Link先を確認
Fabio Schittler Neves and Marc Timme(参考訳) スパイクニューラルネットワークのようなパルス結合系は、ユニットが群に同期する不安定なサドル周期軌道を引き付ける形で非自明な不変集合を示す。 このような軌道間のヘテロクリニック接続は、原則としてこれらのネットワークのスイッチングプロセスをサポートし、新しい種類のニューラル計算を可能にする。 本稿では,結合発振器の小さなネットワークについて,摂動によって引き起こされるスイッチング遷移をシステム対称性が強制または禁止する条件について検討する。 5つの発振器のネットワークに対して、2つのクラスター対称性が連続的に結合された発振器から逸脱する明示的な遷移規則を導出する。 第3対称性は、その対称性とそれらの間の接続を持つ全ての不安定な誘引子の集合からなるヘテロクリニックネットワークを生成する。 パルス結合系は、特定の遷移規則に従う複雑な時空間パターンの集合を確実に生成できることを示す。 スパイクニューラルシステムによる計算の可能性について簡単に論じる。

Pulse-coupled systems such as spiking neural networks exhibit nontrivial invariant sets in the form of attracting yet unstable saddle periodic orbits where units are synchronized into groups. Heteroclinic connections between such orbits may in principle support switching processes in those networks and enable novel kinds of neural computations. For small networks of coupled oscillators we here investigate under which conditions and how system symmetry enforces or forbids certain switching transitions that may be induced by perturbations. For networks of five oscillators we derive explicit transition rules that for two cluster symmetries deviate from those known from oscillators coupled continuously in time. A third symmetry yields heteroclinic networks that consist of sets of all unstable attractors with that symmetry and the connections between them. Our results indicate that pulse-coupled systems can reliably generate well-defined sets of complex spatiotemporal patterns that conform to specific transition rules. We briefly discuss possible implications for computation with spiking neural systems.
翻訳日:2022-09-30 12:06:13 公開日:2020-11-02
# negation-limited inverters問題における解法戦略の興味深い新しい結果

A Curious New Result of Resolution Strategies in Negation-Limited Inverters Problem ( http://arxiv.org/abs/2011.00775v1 )

ライセンス: Link先を確認
Ruo Ando, Yoshiyasu Takefuji(参考訳) 一般に、否定限定インバータ問題は、ANDゲートとORゲートと数個のインバータを備えたインバータを構築するパズルとして知られている。 本稿では,2つの強力なATP (Automated Theorem Proving) 戦略の有効性に関する興味深い新しい結果を紹介する。 2つの解像度戦略はUR(Unit Resulting)解像度とハイパー解像度である。 実験では3入力/出力インバータと4入力/出力BCDカウンタ回路の2種類の自動回路構成を行った。 どちらの回路も少数のインバータで構成されている。 UR分解能はSOS(Set of Support)の測定において超解像よりも大幅に高速であることが判明した。 さらに,ur分解能とハイパーレゾリューションの間で計算コストのかなりの差を引き起こす構文的・意味的基準について考察する。

Generally, negation-limited inverters problem is known as a puzzle of constructing an inverter with AND gates and OR gates and a few inverters. In this paper, we introduce a curious new result about the effectiveness of two powerful ATP (Automated Theorem Proving) strategies on tackling negation limited inverter problem. Two resolution strategies are UR (Unit Resulting) resolution and hyper-resolution. In experiment, we come two kinds of automated circuit construction: 3 input/output inverters and 4 input/output BCD Counter Circuit. Both circuits are constructed with a few limited inverters. Curiously, it has been turned out that UR resolution is drastically faster than hyper-resolution in the measurement of the size of SOS (Set of Support). Besides, we discuss the syntactic and semantic criteria which might causes considerable difference of computation cost between UR resolution and hyper-resolution.
翻訳日:2022-09-30 12:05:55 公開日:2020-11-02
# 予算制約付き特殊グラフ上での配向問題に対するk-最適ゴール探索

Searching k-Optimal Goals for an Orienteering Problem on a Specialized Graph with Budget Constraints ( http://arxiv.org/abs/2011.00781v1 )

ライセンス: Link先を確認
Abhinav Sharma, Advait Deshpande, Yanming Wang, Xinyi Xu, Prashan Madumal, Anbin Hou(参考訳) 予算制約のある特殊グラフ上で報酬を最大化する k 最適目標を求めるための,非ランダム化常用オリエンテーリングアルゴリズムを提案する。 この特殊グラフは、kが最も最適なゴール状態を見つけるオリエンテーリング問題に類似した実世界のシナリオを表す。

We propose a novel non-randomized anytime orienteering algorithm for finding k-optimal goals that maximize reward on a specialized graph with budget constraints. This specialized graph represents a real-world scenario which is analogous to an orienteering problem of finding k-most optimal goal states.
翻訳日:2022-09-30 12:05:41 公開日:2020-11-02
# 多次元多目的ベイズ最適化:出力空間エントロピー探索手法

Multi-Fidelity Multi-Objective Bayesian Optimization: An Output Space Entropy Search Approach ( http://arxiv.org/abs/2011.01542v1 )

ライセンス: Link先を確認
Syrine Belakaria, Aryan Deshwal and Janardhan Rao Doppa(参考訳) 本研究では,複数目的のブラックボックス最適化の問題点について,資源消費量とその精度に異なる多元性関数評価を用いて検討する。 全体的な目標は、機能評価のために消費されるリソースを最小限にすることで、真のパレートのソリューションセットを近似することである。 例えば、電力系統設計の最適化では、設計評価のためにマルチフィデリティシミュレータを用いてコスト、サイズ、効率、耐熱性をトレードオフする設計を見つける必要があります。 本稿では,MF-OSEMO(Multi-Fidelity Output Space Entropy Search for Multi-Objective Optimization)と呼ばれる新しい手法を提案する。 重要なアイデアは、単位リソースコスト当たりの真のパレートフロントに関する情報を最大化する、候補入力と忠実-ベクトルペアのシーケンスを選択することである。 MF-OSEMOは, 両近似を用いて, 多目的最適化のための最先端の単一忠実度アルゴリズムよりも大幅に改善されていることを示す。

We study the novel problem of blackbox optimization of multiple objectives via multi-fidelity function evaluations that vary in the amount of resources consumed and their accuracy. The overall goal is to approximate the true Pareto set of solutions by minimizing the resources consumed for function evaluations. For example, in power system design optimization, we need to find designs that trade-off cost, size, efficiency, and thermal tolerance using multi-fidelity simulators for design evaluations. In this paper, we propose a novel approach referred as Multi-Fidelity Output Space Entropy Search for Multi-objective Optimization (MF-OSEMO) to solve this problem. The key idea is to select the sequence of candidate input and fidelity-vector pairs that maximize the information gained about the true Pareto front per unit resource cost. Our experiments on several synthetic and real-world benchmark problems show that MF-OSEMO, with both approximations, significantly improves over the state-of-the-art single-fidelity algorithms for multi-objective optimization.
翻訳日:2022-09-30 12:05:13 公開日:2020-11-02
# COSMO: ゼロショットコモンセンス質問応答のための条件付きSEQ2SEQに基づく混合モデル

COSMO: Conditional SEQ2SEQ-based Mixture Model for Zero-Shot Commonsense Question Answering ( http://arxiv.org/abs/2011.00777v1 )

ライセンス: Link先を確認
Farhad Moghimifar, Lizhen Qu, Yue Zhuo, Mahsa Baktashmotlagh, Gholamreza Haffari(参考訳) 常識推論(commonsense reasoning)とは、社会的状況を評価し、それに応じて行動する能力のこと。 社会的文脈の暗黙的な原因と影響の特定は、機械が常識的推論を行うことができる駆動能力である。 社会的相互作用の動的な世界は、そのような基盤となる情報を推測するためにコンテキスト依存のオンデマンドシステムを必要とする。 しかし、この領域における現在のアプローチは、多種多様な暗黙の社会的関係を識別できないために、目に見えない状況に直面して常識的推論を行う能力が欠如している。 したがって、正しい推論経路を見積もることができない。 本稿では,条件付きSEQ2SEQに基づく混合モデル(COSMO)を提案する。 我々は,コモンセンス推論のための動的知識グラフ(kg)を形成する文脈依存節の生成にコスモを用いる。 このモデルの文脈依存型知識生成への適応性を示すため,ゼロショットコモンセンス質問応答の課題に対処した。 実験結果は、最先端のモデルよりも最大5.2%改善したことを示している。

Commonsense reasoning refers to the ability of evaluating a social situation and acting accordingly. Identification of the implicit causes and effects of a social context is the driving capability which can enable machines to perform commonsense reasoning. The dynamic world of social interactions requires context-dependent on-demand systems to infer such underlying information. However, current approaches in this realm lack the ability to perform commonsense reasoning upon facing an unseen situation, mostly due to incapability of identifying a diverse range of implicit social relations. Hence they fail to estimate the correct reasoning path. In this paper, we present Conditional SEQ2SEQ-based Mixture model (COSMO), which provides us with the capabilities of dynamic and diverse content generation. We use COSMO to generate context-dependent clauses, which form a dynamic Knowledge Graph (KG) on-the-fly for commonsense reasoning. To show the adaptability of our model to context-dependant knowledge generation, we address the task of zero-shot commonsense question answering. The empirical results indicate an improvement of up to +5.2% over the state-of-the-art models.
翻訳日:2022-09-30 11:58:07 公開日:2020-11-02
# コンテキスト依存型セマンティックパーシング:サーベイ

Context Dependent Semantic Parsing: A Survey ( http://arxiv.org/abs/2011.00797v1 )

ライセンス: Link先を確認
Zhuang Li, Lizhen Qu, Gholamreza Haffari(参考訳) 意味構文解析は、自然言語発話を機械可読な意味表現に変換するタスクである。 現在、ほとんどの意味解析手法は文脈情報(例えば対話やコメント履歴)を活用できないため、意味解析性能を向上させる大きな可能性を秘めている。 この問題に対処するため、コンテキスト依存のセマンティック解析が最近多くの注目を集めている。 本研究では,現在のデータセットとタスクと並行して,文脈依存意味解析手法の進歩について検討する。 そして、この分野における今後の研究の課題と課題を指摘する。 このトピックの収集されたリソースは、https://github.com/zhuang-li/Contextual-Semantic-Parsing-Paper-Listにある。

Semantic parsing is the task of translating natural language utterances into machine-readable meaning representations. Currently, most semantic parsing methods are not able to utilize contextual information (e.g. dialogue and comments history), which has a great potential to boost semantic parsing performance. To address this issue, context dependent semantic parsing has recently drawn a lot of attention. In this survey, we investigate progress on the methods for the context dependent semantic parsing, together with the current datasets and tasks. We then point out open problems and challenges for future research in this area. The collected resources for this topic are available at:https://github.com/zhuang-li/Contextual-Semantic-Parsing-Paper-List.
翻訳日:2022-09-30 11:57:51 公開日:2020-11-02
# 変換による比較:構文と語彙意味論からutcをリバースエンジニアリングする

Comparison by Conversion: Reverse-Engineering UCCA from Syntax and Lexical Semantics ( http://arxiv.org/abs/2011.00834v1 )

ライセンス: Link先を確認
Daniel Hershcovich, Nathan Schneider, Dotan Dvir, Jakob Prange, Miryam de Lhoneux and Omri Abend(参考訳) 堅牢な自然言語理解システムの構築には、さまざまな言語的意味表現が相互に補完するかどうか、明確に評価する必要がある。 体系的な比較分析を行うために,異なるフレームワークの意味表現間のマッピングを2つの補完的手法を用いて評価する。 (i)ルールベースのコンバータ、及び (ii)一方の情報のみを特徴として用いる一方のフレームワークにパースする教師付き辞書化パーサ。 本稿では,STREUSLEコーパス(構文および語彙意味アノテーション)をUCCA(グラフ構造化完全文表現)に変換する手法を提案する。 どちらのメソッドも、完全に管理されたUCCAパーサの品質に近い驚くほど正確なターゲット表現を生成します。 このようなフレームワーク間の相当な収束にもかかわらず、分岐の重要な領域がいくつか見つかる。

Building robust natural language understanding systems will require a clear characterization of whether and how various linguistic meaning representations complement each other. To perform a systematic comparative analysis, we evaluate the mapping between meaning representations from different frameworks using two complementary methods: (i) a rule-based converter, and (ii) a supervised delexicalized parser that parses to one framework using only information from the other as features. We apply these methods to convert the STREUSLE corpus (with syntactic and lexical semantic annotations) to UCCA (a graph-structured full-sentence meaning representation). Both methods yield surprisingly accurate target representations, close to fully supervised UCCA parser quality---indicating that UCCA annotations are partially redundant with STREUSLE annotations. Despite this substantial convergence between frameworks, we find several important areas of divergence.
翻訳日:2022-09-30 11:57:41 公開日:2020-11-02
# マスケッド言語モデルにおける言語知識の概観:アメリカ英語における相対的クロースの場合

A Closer Look at Linguistic Knowledge in Masked Language Models: The Case of Relative Clauses in American English ( http://arxiv.org/abs/2011.00960v1 )

ライセンス: Link先を確認
Marius Mosbach, Stefania Degaetano-Ortlieb, Marie-Pauline Krielke, Badr M. Abdullah, Dietrich Klakow(参考訳) トランスフォーマティブベースの言語モデルは、さまざまなタスクで高いパフォーマンスを達成していますが、学習し、依存する言語知識の理解が不足しています。 我々は,3つのモデル (BERT, RoBERTa, ALBERT) を評価し,その文法的および意味的知識を文レベル探索, 診断事例, マスク付き予測タスクによって検証した。 我々は,文脈情報と先行的な識別を必要とする複雑な現象として,相対節(アメリカ英語)に注目した。 自然主義的なデータセットに基づいて、すべての3つのモデルが文法に関する言語的知識を実際に捉え、高い性能を達成することを示す。 しかし, 詳細な言語知識を考慮に入れた診断事例と予測課題の評価は, モデル固有の弱点を顕著に示し, モデルの性能に強い影響を与えている。 私たちの結果は重要性を強調します (a)評価課題におけるモデル比較及び b) モデル性能の主張とそれらが獲得する言語知識を純粋に探索に基づく評価を超えて構築する。

Transformer-based language models achieve high performance on various tasks, but we still lack understanding of the kind of linguistic knowledge they learn and rely on. We evaluate three models (BERT, RoBERTa, and ALBERT), testing their grammatical and semantic knowledge by sentence-level probing, diagnostic cases, and masked prediction tasks. We focus on relative clauses (in American English) as a complex phenomenon needing contextual information and antecedent identification to be resolved. Based on a naturalistic dataset, probing shows that all three models indeed capture linguistic knowledge about grammaticality, achieving high performance. Evaluation on diagnostic cases and masked prediction tasks considering fine-grained linguistic knowledge, however, shows pronounced model-specific weaknesses especially on semantic knowledge, strongly impacting models' performance. Our results highlight the importance of (a)model comparison in evaluation task and (b) building up claims of model performance and the linguistic knowledge they capture beyond purely probing-based evaluations.
翻訳日:2022-09-30 11:56:57 公開日:2020-11-02
# 自然言語推論のためのイベントセマンティクスとDegreeセマンティクスを組み合わせる

Combining Event Semantics and Degree Semantics for Natural Language Inference ( http://arxiv.org/abs/2011.00961v1 )

ライセンス: Link先を確認
Izumi Haruta, Koji Mineshima, and Daisuke Bekki(参考訳) 形式的意味論では、2つのよく開発された意味論フレームワークがある: 動詞と副詞をイベントの概念を用いて扱うイベントセマンティクスと、次数の概念を用いて形容詞と比較を分析する次数セマンティクスである。 しかし、これらの枠組みが、関係する現象が相互に相互作用しているケースを扱うために組み合わさることができるかどうかは明らかではない。 本稿では,自然言語推論(nli)に着目してこの問題を研究する。 イベントセマンティクスと次数セマンティクスを組み合わせた論理ベースのNLIシステムを構築し,それらの語彙知識との相互作用について述べる。 言語学的課題を含む様々なnliデータセット上でシステムを評価する。 その結果,従来の論理ベースシステムやディープラーニングベースシステムと比較して,これらのデータセットに対して高い精度を達成できた。 このことは、どちらのフレームワークの利点を損なうことなく、2つの意味論フレームワークを一貫して組み合わせて言語現象の様々な組み合わせを扱うことができることを示唆している。

In formal semantics, there are two well-developed semantic frameworks: event semantics, which treats verbs and adverbial modifiers using the notion of event, and degree semantics, which analyzes adjectives and comparatives using the notion of degree. However, it is not obvious whether these frameworks can be combined to handle cases in which the phenomena in question are interacting with each other. Here, we study this issue by focusing on natural language inference (NLI). We implement a logic-based NLI system that combines event semantics and degree semantics and their interaction with lexical knowledge. We evaluate the system on various NLI datasets containing linguistically challenging problems. The results show that the system achieves high accuracies on these datasets in comparison with previous logic-based systems and deep-learning-based systems. This suggests that the two semantic frameworks can be combined consistently to handle various combinations of linguistic phenomena without compromising the advantage of either framework.
翻訳日:2022-09-30 11:56:40 公開日:2020-11-02
# n-best音声認識リストを再現するdnnに基づく意味モデル

DNN-Based Semantic Model for Rescoring N-best Speech Recognition List ( http://arxiv.org/abs/2011.00975v1 )

ライセンス: Link先を確認
Dominique Fohr, Irina Illina(参考訳) 自動音声認識(asr)システムの単語誤り率(wer)は、トレーニングと雑音等によるテスト条件とのミスマッチが発生した場合に増加する。 この場合、音響情報は信頼性が低下する。 本研究の目的は、歪み音の特徴を補うための長期意味関係をモデル化することで、ASRを改善することである。 我々は、ASR N-best仮説リストの再構成によりこれを実行することを提案する。 これを実現するために、ディープニューラルネットワーク(DNN)を訓練する。 我々のDNN再構成モデルは、セマンティック一貫性が良く、従ってWERが低い仮説を選択することを目的としている。 DNNモデルへの入力機能の一部として,静的単語埋め込み(word2vec)と動的文脈埋め込み(BERT)の2種類の表現について検討する。 音響的・言語的特徴も含む。 実雑音を混合した公開データセットted-lium上で実験を行う。 提案手法は, 2つの雑音条件とn-gram, RNNLMでモデルを再構成することなく, ASRシステムに対してWERを大幅に改善する。

The word error rate (WER) of an automatic speech recognition (ASR) system increases when a mismatch occurs between the training and the testing conditions due to the noise, etc. In this case, the acoustic information can be less reliable. This work aims to improve ASR by modeling long-term semantic relations to compensate for distorted acoustic features. We propose to perform this through rescoring of the ASR N-best hypotheses list. To achieve this, we train a deep neural network (DNN). Our DNN rescoring model is aimed at selecting hypotheses that have better semantic consistency and therefore lower WER. We investigate two types of representations as part of input features to our DNN model: static word embeddings (from word2vec) and dynamic contextual embeddings (from BERT). Acoustic and linguistic features are also included. We perform experiments on the publicly available dataset TED-LIUM mixed with real noise. The proposed rescoring approaches give significant improvement of the WER over the ASR system without rescoring models in two noisy conditions and with n-gram and RNNLM.
翻訳日:2022-09-30 11:56:23 公開日:2020-11-02
# Biased TextRank: 教師なしグラフベースのコンテンツ抽出

Biased TextRank: Unsupervised Graph-Based Content Extraction ( http://arxiv.org/abs/2011.01026v1 )

ライセンス: Link先を確認
Ashkan Kazemi, Ver\'onica P\'erez-Rosas, Rada Mihalcea(参考訳) テキストスパンを言語処理タスクにおける重要度や,入力「フォーカス」との関連度に応じてランク付けする,一般的なtextrankアルゴリズムに触発された,グラフに基づくコンテンツ抽出手法であるbiasted textrankを提案する。 Biased TextRankは、TextRankの実行時にランダム再起動を変更することで、テキストのコンテンツ抽出を可能にする。 ランダムな再起動確率は、タスクの焦点に対するグラフノードの関連性に基づいて割り当てられる。 偏り付きテキストランクの応用として,集中型要約と説明抽出の2つの応用を行い,アルゴリズムが2つの異なるデータセットの性能を,ルージュnスコアマージンで向上させることを示した。 前者と同様、biasted textrankは教師なしで実装が容易で、同様のタスクで現在の最先端自然言語処理メソッドよりも高速で軽量である。

We introduce Biased TextRank, a graph-based content extraction method inspired by the popular TextRank algorithm that ranks text spans according to their importance for language processing tasks and according to their relevance to an input "focus." Biased TextRank enables focused content extraction for text by modifying the random restarts in the execution of TextRank. The random restart probabilities are assigned based on the relevance of the graph nodes to the focus of the task. We present two applications of Biased TextRank: focused summarization and explanation extraction, and show that our algorithm leads to improved performance on two different datasets by significant ROUGE-N score margins. Much like its predecessor, Biased TextRank is unsupervised, easy to implement and orders of magnitude faster and lighter than current state-of-the-art Natural Language Processing methods for similar tasks.
翻訳日:2022-09-30 11:56:06 公開日:2020-11-02
# 歴史に関する推論:コンテキスト対応のビジュアルダイアログ

Reasoning Over History: Context Aware Visual Dialog ( http://arxiv.org/abs/2011.00669v1 )

ライセンス: Link先を確認
Muhammad A. Shah, Shikib Mehri, Tejas Srinivasan(参考訳) ニューラルモデルはシングルターン視覚的質問応答(VQA)タスクに強いパフォーマンスを示すことが示されているが、VQAをマルチターンに拡張することは依然として課題である。 この課題に対処する1つの方法は、既存の強力なニューラルネットワークVQAモデルを、以前のダイアログのターンからの情報を保持するメカニズムで強化することである。 1つの強力なVQAモデルはMACネットワークであり、タスクを一連の注意に基づく推論ステップに分解する。 しかし、MACネットワークは単ターン質問応答用に設計されているため、過去のダイアログのターンを参照することはできない。 具体的には、ダイアログ履歴、特にコリファレンスレゾリューションの推論を必要とするタスクに苦労している。 我々は,macのネットワークアーキテクチャを,過去のダイアログの制御状態に応答し,現在の質問に対して必要な推論操作を決定するコンテキスト認識注意メモリ(cam)で拡張する。 CAMを持つMACネットは、CLEVR-Dialogデータセットで最大98.25%の精度を実現し、既存の最先端を30%上回っている(絶対)。 誤差分析の結果,camでは,コリファレンスの解決を必要とする質問に対して,特にモデルの性能が向上したことが示された。

While neural models have been shown to exhibit strong performance on single-turn visual question answering (VQA) tasks, extending VQA to a multi-turn, conversational setting remains a challenge. One way to address this challenge is to augment existing strong neural VQA models with the mechanisms that allow them to retain information from previous dialog turns. One strong VQA model is the MAC network, which decomposes a task into a series of attention-based reasoning steps. However, since the MAC network is designed for single-turn question answering, it is not capable of referring to past dialog turns. More specifically, it struggles with tasks that require reasoning over the dialog history, particularly coreference resolution. We extend the MAC network architecture with Context-aware Attention and Memory (CAM), which attends over control states in past dialog turns to determine the necessary reasoning operations for the current question. MAC nets with CAM achieve up to 98.25% accuracy on the CLEVR-Dialog dataset, beating the existing state-of-the-art by 30% (absolute). Our error analysis indicates that with CAM, the model's performance particularly improved on questions that required coreference resolution.
翻訳日:2022-09-30 11:49:03 公開日:2020-11-02
# IndoLEMとIndoBERT:インドネシアNLPのためのベンチマークデータセットと事前学習言語モデル

IndoLEM and IndoBERT: A Benchmark Dataset and Pre-trained Language Model for Indonesian NLP ( http://arxiv.org/abs/2011.00677v1 )

ライセンス: Link先を確認
Fajri Koto and Afshin Rahimi and Jey Han Lau and Timothy Baldwin(参考訳) インドネシア語は2億人近くが話しており、世界で10番目に多く話されている言語であるが、nlp研究では少数派である。 インドネシアでの以前の作業は、注釈付きデータセットの欠如、言語リソースのスパーシティ、リソース標準化の欠如によって妨げられている。 本研究では,インドネシア語の7つのタスクからなるindolemデータセット(モーフォシンタックス,セマンティクス,談話)をリリースする。 さらにインドネシアの新たなトレーニング済み言語モデルであるIndoBERTもリリースし、既存のリソースに対するベンチマークに加えて、IndoLEMよりも評価しています。 IndoBERTはIndoLEMのタスクの多くに対して最先端のパフォーマンスを実現している。

Although the Indonesian language is spoken by almost 200 million people and the 10th most spoken language in the world, it is under-represented in NLP research. Previous work on Indonesian has been hampered by a lack of annotated datasets, a sparsity of language resources, and a lack of resource standardization. In this work, we release the IndoLEM dataset comprising seven tasks for the Indonesian language, spanning morpho-syntax, semantics, and discourse. We additionally release IndoBERT, a new pre-trained language model for Indonesian, and evaluate it over IndoLEM, in addition to benchmarking it against existing resources. Our experiments show that IndoBERT achieves state-of-the-art performance over most of the tasks in IndoLEM.
翻訳日:2022-09-30 11:48:39 公開日:2020-11-02
# liputan6: テキスト要約のための大規模インドネシアデータセット

Liputan6: A Large-scale Indonesian Dataset for Text Summarization ( http://arxiv.org/abs/2011.00679v1 )

ライセンス: Link先を確認
Fajri Koto and Jey Han Lau and Timothy Baldwin(参考訳) 本稿では,インドネシアの大規模要約データセットを紹介する。 オンラインニュースポータルであるLiputan6.comから記事を抽出し、215,827のドキュメント-要約ペアを取得する。 事前学習した言語モデルを用いて、多言語および単言語BERTモデルを用いたデータセット上で、ベンチマーク抽出および抽象的な要約手法を開発する。 我々は,ルージュスコアの低いマシン生成サマリーについて徹底的なエラー解析を行い,ルージュit自身と抽出および抽象要約モデルの両方の問題を明らかにする。

In this paper, we introduce a large-scale Indonesian summarization dataset. We harvest articles from Liputan6.com, an online news portal, and obtain 215,827 document-summary pairs. We leverage pre-trained language models to develop benchmark extractive and abstractive summarization methods over the dataset with multilingual and monolingual BERT-based models. We include a thorough error analysis by examining machine-generated summaries that have low ROUGE scores, and expose both issues with ROUGE it-self, as well as with extractive and abstractive summarization models.
翻訳日:2022-09-30 11:48:25 公開日:2020-11-02
# リフレクティブ・アナフォラの意味を学ぶシーケンス・ツー・シーケンス・ネットワーク

Sequence-to-Sequence Networks Learn the Meaning of Reflexive Anaphora ( http://arxiv.org/abs/2011.00682v1 )

ライセンス: Link先を確認
Robert Frank and Jackson Petty(参考訳) 反射的アナフォラは意味論的解釈の挑戦であり、その意味は抽象変数を必要とするように見える方法で文脈によって異なる。 過去の研究は、この課題に対処する再帰的なネットワークの能力に疑問を呈している。 本稿では,関連する文脈変動を組み込んだ英語の断片の文脈において,この問題を考察する。 再帰単位を持つシーケンス・ツー・シーケンス・アーキテクチャを考察し,そのようなネットワークが,新しい先行概念に一般化した反射性アナフォラの意味解釈を学習できることを示した。 注意機構と異なるリカレント・ユニットタイプが成功に必要となるトレーニングデータの種類に与える影響を,2つの方法で測定する: 抽象的反射的意味(トレーニング中に何つの異なる反射的先行詞を発生しなければならないか)を導き出すために,語彙的支援がどの程度必要か,また,この名詞句への反射的解釈の一般化を支援するために名詞句が出現しなければならないか。

Reflexive anaphora present a challenge for semantic interpretation: their meaning varies depending on context in a way that appears to require abstract variables. Past work has raised doubts about the ability of recurrent networks to meet this challenge. In this paper, we explore this question in the context of a fragment of English that incorporates the relevant sort of contextual variability. We consider sequence-to-sequence architectures with recurrent units and show that such networks are capable of learning semantic interpretations for reflexive anaphora which generalize to novel antecedents. We explore the effect of attention mechanisms and different recurrent unit types on the type of training data that is needed for success as measured in two ways: how much lexical support is needed to induce an abstract reflexive meaning (i.e., how many distinct reflexive antecedents must occur during training) and what contexts must a noun phrase occur in to support generalization of reflexive interpretation to this noun phrase?
翻訳日:2022-09-30 11:48:16 公開日:2020-11-02
# mrp 2020における \'ufal:permutation-invariant semantic parsing in perin

\'UFAL at MRP 2020: Permutation-invariant Semantic Parsing in PERIN ( http://arxiv.org/abs/2011.00758v1 )

ライセンス: Link先を確認
David Samuel, Milan Straka(参考訳) 本稿では,文間セマンティック解析のための新しい置換不変手法PERINを提案する。 perinは、セマンティクス構造の普遍的なモデリングのための汎用的でクロスフレームワークで言語に依存しないアーキテクチャである。 筆者らは,CNLL 2020共有タスクであるCross-Framework Meaning Representation Parsing (MRP 2020)に参加し,4言語にわたる5つのフレームワーク(AMR,DRG,EDS,PTG,UCCA)で評価を行った。 PERINは共有タスクの勝者の1人です。 ソースコードと事前訓練されたモデルはhttps://github.com/ufal/perin.comで入手できる。

We present PERIN, a novel permutation-invariant approach to sentence-to-graph semantic parsing. PERIN is a versatile, cross-framework and language independent architecture for universal modeling of semantic structures. Our system participated in the CoNLL 2020 shared task, Cross-Framework Meaning Representation Parsing (MRP 2020), where it was evaluated on five different frameworks (AMR, DRG, EDS, PTG and UCCA) across four languages. PERIN was one of the winners of the shared task. The source code and pretrained models are available at https://github.com/ufal/perin.
翻訳日:2022-09-30 11:47:34 公開日:2020-11-02
# 非自己回帰的翻訳のための文脈対応クロスアテンション

Context-Aware Cross-Attention for Non-Autoregressive Translation ( http://arxiv.org/abs/2011.00770v1 )

ライセンス: Link先を確認
Liang Ding, Longyue Wang, Di Wu, Dacheng Tao and Zhaopeng Tu(参考訳) 非自己回帰翻訳(NAT)は、ターゲットシーケンス全体を予測することによって推論プロセスを著しく加速する。 しかし、デコーダにおけるターゲット依存性モデリングの欠如のため、条件付き生成プロセスはクロスアテンションに大きく依存する。 本稿では,NATの相互注意における局所性知覚の問題を明らかにする。 この問題を軽減するために,近隣のソーストークンの信号を従来のクロスアテンションに拡張することを提案する。 いくつかの代表的なデータセットに対する実験結果から,本手法は強力なNATベースラインよりも翻訳品質を継続的に向上できることが示された。 拡張されたクロスアテンションは、ローカル情報とグローバル情報の両方を活用することにより、ソースコンテキストのより良い活用を実現する。

Non-autoregressive translation (NAT) significantly accelerates the inference process by predicting the entire target sequence. However, due to the lack of target dependency modelling in the decoder, the conditional generation process heavily depends on the cross-attention. In this paper, we reveal a localness perception problem in NAT cross-attention, for which it is difficult to adequately capture source context. To alleviate this problem, we propose to enhance signals of neighbour source tokens into conventional cross-attention. Experimental results on several representative datasets show that our approach can consistently improve translation quality over strong NAT baselines. Extensive analyses demonstrate that the enhanced cross-attention achieves better exploitation of source contexts by leveraging both local and global information.
翻訳日:2022-09-30 11:46:57 公開日:2020-11-02
# VLEngagement:人口ベースエンゲージメント評価のための科学ビデオ講義のデータセット

VLEngagement: A Dataset of Scientific Video Lectures for Evaluating Population-based Engagement ( http://arxiv.org/abs/2011.02273v1 )

ライセンス: Link先を確認
Sahan Bulathwela and Maria Perez-Ortiz and Emine Yilmaz and John Shawe-Taylor(参考訳) eラーニングやパーソナライズド教育の出現に伴い、デジタル教育資源の生産と流通が盛んになった。 ビデオ講義は、現在デジタル時代の大衆に知識を与える主要なモダリティの1つとなっている。 講義コンテンツの迅速な作成は、現在確立されている人間中心のモデレーションと品質保証パイプラインに挑戦し、学習リソースを管理するためのより効率的でスケーラブルで自動的なソリューションを要求する。 教育ビデオへのエンゲージメントに関連するデータセットはいくつか存在するが、学術ビデオ講義における学習者エンゲージメントを理解することを目的としたデータや研究は依然として重要なニーズである。 本稿では,VLEngagementについて紹介する。VLEngagementは,公開科学ビデオ講義から抽出したコンテンツベースおよびビデオ特有の特徴と,ユーザエンゲージメントに関連するいくつかの指標からなる新しいデータセットである。 本稿では,ビデオ講義における文脈に依存しないエンゲージメントの予測と理解に関する新しいタスクを紹介し,予備的ベースラインを提供する。 このようなタスクを扱う私たちの知識では、これは最大かつ最も多様な公開データセットです。 Wikipediaトピックベースの機能を抽出することで、より洗練されたウィキペディアベースの機能をデータセットに関連付けることで、これらのタスクのパフォーマンスを向上させることもできる。 データセット、ヘルパーツール、サンプルコードスニペットはhttps://github.com/sahanbull/context-agnostic-engagementで公開されている。

With the emergence of e-learning and personalised education, the production and distribution of digital educational resources have boomed. Video lectures have now become one of the primary modalities to impart knowledge to masses in the current digital age. The rapid creation of video lecture content challenges the currently established human-centred moderation and quality assurance pipeline, demanding for more efficient, scalable and automatic solutions for managing learning resources. Although a few datasets related to engagement with educational videos exist, there is still an important need for data and research aimed at understanding learner engagement with scientific video lectures. This paper introduces VLEngagement, a novel dataset that consists of content-based and video-specific features extracted from publicly available scientific video lectures and several metrics related to user engagement. We introduce several novel tasks related to predicting and understanding context-agnostic engagement in video lectures, providing preliminary baselines. This is the largest and most diverse publicly available dataset to our knowledge that deals with such tasks. The extraction of Wikipedia topic-based features also allows associating more sophisticated Wikipedia based features to the dataset to improve the performance in these tasks. The dataset, helper tools and example code snippets are available publicly at https://github.com/sahanbull/context-agnostic-engagement
翻訳日:2022-09-30 11:40:22 公開日:2020-11-02
# マルチモーダル・シームズニューラルネットワークによる脳変性の予測

Predicting Brain Degeneration with a Multimodal Siamese Neural Network ( http://arxiv.org/abs/2011.00840v1 )

ライセンス: Link先を確認
Cecilia Ostertag, Marie Beurton-Aimar, Muriel Visani, Thierry Urruty, Karell Bertet(参考訳) 神経変性疾患を研究するために, ボランティア患者を対象とした縦断的研究を行った。 数ヶ月から数年の間、彼らは定期的に医療訪問を行い、生物学的サンプル、認知テスト、構造的および機能的イメージングなどの様々な指標からデータを取得する。 これらの変数は異種であるが、すべて患者の健康状態に依存しており、全ての形態の間に不明な関係がある可能性がある。 ある情報は特定のモダリティであり、あるものは相補的であり、あるものは冗長である。 一部のデータも欠落している可能性がある。 本研究では, マルチモーダル学習のためのニューラルネットワークアーキテクチャを提案する。脳神経変性疾患の進展を予測するために, 画像と臨床データを2つの時点から利用できる。 我々のマルチモーダルネットワークは、57人の被験者を対象に、92.5\%の精度とAUCスコア0.978の精度を実現している。 また,マルチモーダルアーキテクチャの優位性を示すとともに,検査対象者の臨床測定値の最大37.5\%の欠落を,臨床モダリティのみを用いたモデルと比較した。

To study neurodegenerative diseases, longitudinal studies are carried on volunteer patients. During a time span of several months to several years, they go through regular medical visits to acquire data from different modalities, such as biological samples, cognitive tests, structural and functional imaging. These variables are heterogeneous but they all depend on the patient's health condition, meaning that there are possibly unknown relationships between all modalities. Some information may be specific to some modalities, others may be complementary, and others may be redundant. Some data may also be missing. In this work we present a neural network architecture for multimodal learning, able to use imaging and clinical data from two time points to predict the evolution of a neurodegenerative disease, and robust to missing values. Our multimodal network achieves 92.5\% accuracy and an AUC score of 0.978 over a test set of 57 subjects. We also show the superiority of the multimodal architecture, for up to 37.5\% of missing values in test set subjects' clinical measurements, compared to a model using only the clinical modality.
翻訳日:2022-09-30 11:39:58 公開日:2020-11-02
# 医用画像分割のためのu-netとその変種:理論と応用

U-Net and its variants for medical image segmentation: theory and applications ( http://arxiv.org/abs/2011.01118v1 )

ライセンス: Link先を確認
Nahian Siddique, Paheding Sidike, Colin Elkin and Vijay Devabhaktuni(参考訳) U-netは、主に医療画像解析のために開発された画像分割技術であり、訓練データの少ない量で正確に画像を分割することができる。 これらの特徴により、U-netは医用画像のコミュニティ内で非常に高いユーティリティを提供し、医用画像のセグメンテーションタスクの主要なツールとして広く採用されている。 U-netの成功は、CTスキャンやMRIからX線、顕微鏡まで、あらゆる主要な画像モダリティで広く利用されていることは明らかである。 さらに、U-netは主にセグメンテーションツールであるが、他のアプリケーションでU-netが使われている例もある。 U-netのポテンシャルがまだ高まっているため、このレビューでは、U-netアーキテクチャで行われている様々な展開を概観し、最近のトレンドを考察する。 深層学習における様々なイノベーションについて検討し、これらのツールがU-netをどのように促進するかについて議論する。 さらに,U-netが適用された画像のモダリティや適用領域についても検討する。

U-net is an image segmentation technique developed primarily for medical image analysis that can precisely segment images using a scarce amount of training data. These traits provide U-net with a very high utility within the medical imaging community and have resulted in extensive adoption of U-net as the primary tool for segmentation tasks in medical imaging. The success of U-net is evident in its widespread use in all major image modalities from CT scans and MRI to X-rays and microscopy. Furthermore, while U-net is largely a segmentation tool, there have been instances of the use of U-net in other applications. As the potential of U-net is still increasing, in this review we look at the various developments that have been made in the U-net architecture and provide observations on recent trends. We examine the various innovations that have been made in deep learning and discuss how these tools facilitate U-net. Furthermore, we look at image modalities and application areas where U-net has been applied.
翻訳日:2022-09-30 11:39:39 公開日:2020-11-02
# Patch2Self: 自己監督学習による拡散MRI

Patch2Self: Denoising Diffusion MRI with Self-Supervised Learning ( http://arxiv.org/abs/2011.01355v1 )

ライセンス: Link先を確認
Shreyas Fadnavis, Joshua Batson, Eleftherios Garyfallidis(参考訳) 拡散強調磁気共鳴イメージング(dwi)は、生体脳の微細構造を定量化し、ホワイトマッター経路を再構築する唯一の非侵襲的方法である。 複数の音源からのゆらぎはDWIデータに顕著な付加ノイズを生じさせ、その後の微細構造解析の前に抑制する必要がある。 本研究では,DWIデータに対する自己教師付き学習手法であるPatch2Selfを導入する。 DWIデータのオーバーサンプリングされたq-スペースを利用することで、Patch2Selfはノイズから構造を分離することができる。 我々はPatch2Selfの有効性を、実データおよびシミュレーションデータにおける他の教師なし手法と比較して、マイクロ構造モデリング、(ファイババンドルコヒーレンシーによる)追跡、モデル推定における定量的および定性的な改善を通して示す。

Diffusion-weighted magnetic resonance imaging (DWI) is the only noninvasive method for quantifying microstructure and reconstructing white-matter pathways in the living human brain. Fluctuations from multiple sources create significant additive noise in DWI data which must be suppressed before subsequent microstructure analysis. We introduce a self-supervised learning method for denoising DWI data, Patch2Self, which uses the entire volume to learn a full-rank locally linear denoiser for that volume. By taking advantage of the oversampled q-space of DWI data, Patch2Self can separate structure from noise without requiring an explicit model for either. We demonstrate the effectiveness of Patch2Self via quantitative and qualitative improvements in microstructure modeling, tracking (via fiber bundle coherency) and model estimation relative to other unsupervised methods on real and simulated data.
翻訳日:2022-09-30 11:38:57 公開日:2020-11-02
# 信頼できるAI

Trustworthy AI ( http://arxiv.org/abs/2011.02272v1 )

ライセンス: Link先を確認
Richa Singh, Mayank Vatsa, Nalini Ratha(参考訳) 現代のAIシステムは、新しい学習方法の利点を享受している。 利用が増えるにつれて、これらのシステムの限界と欠点を認識しています。 入力データの小さな敵意の変化に対する不安定性、決定を説明する能力、トレーニングデータのバイアスに対処する能力、システムの系統を明らかにすることによる不透明性、トレーニングとテストの方法、パラメータと条件によって特定のレベルのパフォーマンスを確実に保証できることなどが、最も顕著な制限である。 データのプライバシとセキュリティの確保、データソースへの適切なクレジットの割り当て、適切なアウトプットの提供も、AIシステムの必須機能である。 我々は,AIシステムに対するユーザおよび公的な信頼を高める上で,6つの重要な問題に対処するために,信頼に値するAIに関するチュートリアルを提案する。 (i)偏見と公平性 (ii)説明可能性 (iii)敵対的攻撃のロバストな緩和 (iv)モデル構築におけるプライバシーとセキュリティの改善。 (v)まともで、かつ (vi)データソースへの適切なクレジット割り当てレベル、モデルアーキテクチャ、系統の透明性を含むモデル属性。

Modern AI systems are reaping the advantage of novel learning methods. With their increasing usage, we are realizing the limitations and shortfalls of these systems. Brittleness to minor adversarial changes in the input data, ability to explain the decisions, address the bias in their training data, high opacity in terms of revealing the lineage of the system, how they were trained and tested, and under which parameters and conditions they can reliably guarantee a certain level of performance, are some of the most prominent limitations. Ensuring the privacy and security of the data, assigning appropriate credits to data sources, and delivering decent outputs are also required features of an AI system. We propose the tutorial on Trustworthy AI to address six critical issues in enhancing user and public trust in AI systems, namely: (i) bias and fairness, (ii) explainability, (iii) robust mitigation of adversarial attacks, (iv) improved privacy and security in model building, (v) being decent, and (vi) model attribution, including the right level of credit assignment to the data sources, model architectures, and transparency in lineage.
翻訳日:2022-09-30 11:38:39 公開日:2020-11-02
# 不正確な計算としてリアルタイム深層学習サービスをスケジューリングする

Scheduling Real-time Deep Learning Services as Imprecise Computations ( http://arxiv.org/abs/2011.01112v1 )

ライセンス: Link先を確認
Shuochao Yao, Yifan Hao, Yiran Zhao, Huajie Shao, Dongxin Liu, Shengzhong Liu, Tianshi Wang, Jinyang Li, Tarek Abdelzaher(参考訳) 本稿では,音声認識,lidar処理,マシンビジョンなどの機械学習タスクを実行するインテリジェントなリアルタイムエッジサービスのための効率的なリアルタイムスケジューリングアルゴリズムを提案する。 この研究は、リアルタイムコンピューティングにおける最近の方向性に貢献し、いつでも予測できる機械学習タスクのスケジューリングアルゴリズムを開発した。 ディープニューラルネットワークのワークフローは、それぞれが必須部分とオプション部分を持ち、実行ユーティリティが入力データに依存した不正確な計算としてキャスト可能であることを示す。 リアルタイムスケジューラの目標は、必要最低限のオプション部分の余分な隠蔽のおかげで、タスクの期限を満たしながら、ディープニューラルネットワーク出力の平均精度を最大化することである。 この仕事の動機は、ユビキタスだがリソースに制約のある組み込みデバイス(自動運転車からモノのインターネットまで)の普及と、それらにインテリジェンスを持たせるサービスを開発することにある。 最近のGPUハードウェアの実験と、マシンビジョンのための最先端ニューラルネットワークの現状は、我々のスキームが(ほぼ)納期遅れを発生しながらも、全体の精度を10%から20%向上できることを示している。

The paper presents an efficient real-time scheduling algorithm for intelligent real-time edge services, defined as those that perform machine intelligence tasks, such as voice recognition, LIDAR processing, or machine vision, on behalf of local embedded devices that are themselves unable to support extensive computations. The work contributes to a recent direction in real-time computing that develops scheduling algorithms for machine intelligence tasks with anytime prediction. We show that deep neural network workflows can be cast as imprecise computations, each with a mandatory part and (several) optional parts whose execution utility depends on input data. The goal of the real-time scheduler is to maximize the average accuracy of deep neural network outputs while meeting task deadlines, thanks to opportunistic shedding of the least necessary optional parts. The work is motivated by the proliferation of increasingly ubiquitous but resource-constrained embedded devices (for applications ranging from autonomous cars to the Internet of Things) and the desire to develop services that endow them with intelligence. Experiments on recent GPU hardware and a state of the art deep neural network for machine vision illustrate that our scheme can increase the overall accuracy by 10%-20% while incurring (nearly) no deadline misses.
翻訳日:2022-09-30 11:38:22 公開日:2020-11-02
# コンテキストオブジェクト分割潜在空間を用いた多様な画像キャプション

Diverse Image Captioning with Context-Object Split Latent Spaces ( http://arxiv.org/abs/2011.00966v1 )

ライセンス: Link先を確認
Shweta Mahajan, Stefan Roth(参考訳) 横画像キャプションモデルは、画像やテキストなどのドメイン横断データセットに固有の1対多マッピングを学習することを目的としている。 このタスクの現在の手法は生成的潜在変数モデル(例えば構造的潜在空間を持つvaes)に基づいている。 しかし、事前の作業によって取得されるマルチモダリティの量は、ペア化されたトレーニングデータに限られる。 この制限に対処するために、異なる視覚シーンで同様のコンテキストを説明するデータセットのコンテキスト記述を利用する。 この目的のために,データセット内の画像やテキスト間の文脈記述の多様性をモデル化するために,潜在空間の新たな因子分解(context-object split)を導入する。 本フレームワークは,文脈に基づく疑似監視による多種多様なキャプションを可能にするだけでなく,新たなオブジェクトを持つ画像に拡張し,トレーニングデータにペアのキャプションを持たない。 我々はCOS-CVAEのアプローチを、標準COCOデータセットと、新しいオブジェクトを持つ画像からなるホールドアウトCOCOデータセットで評価し、精度と多様性を大きく向上させた。

Diverse image captioning models aim to learn one-to-many mappings that are innate to cross-domain datasets, such as of images and texts. Current methods for this task are based on generative latent variable models, e.g. VAEs with structured latent spaces. Yet, the amount of multimodality captured by prior work is limited to that of the paired training data -- the true diversity of the underlying generative process is not fully captured. To address this limitation, we leverage the contextual descriptions in the dataset that explain similar contexts in different visual scenes. To this end, we introduce a novel factorization of the latent space, termed context-object split, to model diversity in contextual descriptions across images and texts within the dataset. Our framework not only enables diverse captioning through context-based pseudo supervision, but extends this to images with novel objects and without paired captions in the training data. We evaluate our COS-CVAE approach on the standard COCO dataset and on the held-out COCO dataset consisting of images with novel objects, showing significant gains in accuracy and diversity.
翻訳日:2022-09-30 11:31:36 公開日:2020-11-02
# 観測空間問題:ベンチマークと最適化アルゴリズム

Observation Space Matters: Benchmark and Optimization Algorithm ( http://arxiv.org/abs/2011.00756v1 )

ライセンス: Link先を確認
Joanne Taery Kim and Sehoon Ha(参考訳) 深層強化学習(deep rl)の最近の進歩により、研究者はシミュレーション環境から現実世界のロボットタスクまで、難しい制御問題を解決できる。 しかし、深いRLアルゴリズムは、観測空間、アクション空間、報酬関数を含む問題定式化に敏感であることが知られている。 観測空間には多くの選択肢があるが、確立された原理の欠如のため、事前知識のみに基づいて設計されることが多い。 本研究では,デカルト変換,二項接触フラグ,短い履歴,大域的位置といった観測空間の共通設計選択を検証するためのベンチマーク実験を行う。 そこで,様々な観測空間を探索し,ドロップアウト置換試験により不要な観測チャネルを除去する最適観測空間を求める探索アルゴリズムを提案する。 本アルゴリズムは,手動で設計した観測空間と比較して学習速度を大幅に向上することを示した。 また,提案アルゴリズムを異なるパラメータを用いて解析する。

Recent advances in deep reinforcement learning (deep RL) enable researchers to solve challenging control problems, from simulated environments to real-world robotic tasks. However, deep RL algorithms are known to be sensitive to the problem formulation, including observation spaces, action spaces, and reward functions. There exist numerous choices for observation spaces but they are often designed solely based on prior knowledge due to the lack of established principles. In this work, we conduct benchmark experiments to verify common design choices for observation spaces, such as Cartesian transformation, binary contact flags, a short history, or global positions. Then we propose a search algorithm to find the optimal observation spaces, which examines various candidate observation spaces and removes unnecessary observation channels with a Dropout-Permutation test. We demonstrate that our algorithm significantly improves learning speed compared to manually designed observation spaces. We also analyze the proposed algorithm by evaluating different hyperparameters.
翻訳日:2022-09-30 11:31:16 公開日:2020-11-02
# ウォルマートEコマースにおける個人化会話音声モデルのためのエンドツーエンドMLシステム

An End-to-End ML System for Personalized Conversational Voice Models in Walmart E-Commerce ( http://arxiv.org/abs/2011.00866v1 )

ライセンス: Link先を確認
Rahul Radhakrishnan Iyer, Praveenkumar Kanumala, Stephen Guo, Kannan Achan(参考訳) 推薦システムの進化により、eコマース業界では、製品に関する意思決定や意思決定がますます簡単になっている。 パーソナライゼーションとレコメンデーションシステムは、顧客が自分のショッピングニーズを満たし、そのプロセスにおける体験を改善するために、手を差し伸べてきた。 ショッピングにおける対話型プラットフォームの普及に伴い、大量のデータの流れを処理し、リアルタイムで推論を行うために、大規模にパーソナライズされたモデルを構築することが重要になっている。 本研究では,対話型音声コマースのためのエンドツーエンド機械学習システムを提案する。 モデルへの暗黙的なフィードバック、モデルトレーニング、更新の評価、リアルタイム推論エンジンといったコンポーネントが含まれています。 われわれのシステムはWalmart Groceryの顧客向けの音声ショッピングをパーソナライズしており、現在Google Assistant、Siri、Google Homeデバイス経由で利用できる。

Searching for and making decisions about products is becoming increasingly easier in the e-commerce space, thanks to the evolution of recommender systems. Personalization and recommender systems have gone hand-in-hand to help customers fulfill their shopping needs and improve their experiences in the process. With the growing adoption of conversational platforms for shopping, it has become important to build personalized models at scale to handle the large influx of data and perform inference in real-time. In this work, we present an end-to-end machine learning system for personalized conversational voice commerce. We include components for implicit feedback to the model, model training, evaluation on update, and a real-time inference engine. Our system personalizes voice shopping for Walmart Grocery customers and is currently available via Google Assistant, Siri and Google Home devices.
翻訳日:2022-09-30 11:31:00 公開日:2020-11-02
# NEARL:ロボット制御のための非明示的行動強化学習

NEARL: Non-Explicit Action Reinforcement Learning for Robotic Control ( http://arxiv.org/abs/2011.01046v1 )

ライセンス: Link先を確認
Nan Lin, Yuxuan Li, Yujun Zhu, Ruolin Wang, Xiayu Zhang, Jianmin Ji, Keke Tang, Xiaoping Chen, Xinming Zhang(参考訳) 従来、強化学習法は、現在の状態に基づいて次の行動を予測する。 しかし、多くの場合、制御システムやロボットに直接アクションを適用することは危険であり、アクションがかなり低レベルであるため予期せぬ行動を引き起こす可能性がある。 本稿では,明示的な動作を伴わない新しい階層的強化学習フレームワークを提案する。 我々のメタポリシーは次の最適な状態を操作し、実際のアクションは逆ダイナミクスモデルによって生成される。 学習過程の安定化のために,我々は,敵対的学習と情報ボトルネックをフレームワークに統合する。 我々のフレームワークでは、広く利用可能な州のみのデモンストレーションを模倣学習に効果的に活用することができる。 また、メタポリシーに事前の知識と制約を適用することもできる。 我々はシミュレーションタスクでアルゴリズムをテストし、模倣学習と組み合わせた。 実験結果は,アルゴリズムの信頼性とロバスト性を示す。

Traditionally, reinforcement learning methods predict the next action based on the current state. However, in many situations, directly applying actions to control systems or robots is dangerous and may lead to unexpected behaviors because action is rather low-level. In this paper, we propose a novel hierarchical reinforcement learning framework without explicit action. Our meta policy tries to manipulate the next optimal state and actual action is produced by the inverse dynamics model. To stabilize the training process, we integrate adversarial learning and information bottleneck into our framework. Under our framework, widely available state-only demonstrations can be exploited effectively for imitation learning. Also, prior knowledge and constraints can be applied to meta policy. We test our algorithm in simulation tasks and its combination with imitation learning. The experimental results show the reliability and robustness of our algorithms.
翻訳日:2022-09-30 11:30:11 公開日:2020-11-02
# 適応的長方形および他の区分的機能テンプレートを用いたリッジ回帰

Ridge regression with adaptive additive rectangles and other piecewise functional templates ( http://arxiv.org/abs/2011.01048v1 )

ライセンス: Link先を確認
Edoardo Belli, Simone Vantini(参考訳) 本研究では,関数型線形回帰モデルに対する$l_{2}$に基づくペナリゼーションアルゴリズムを提案する。ここでは係数関数をデータ駆動型テンプレート $\gamma$ に縮小し,基底展開を制限して分割関数のクラスに属するように制約する。 特に、$\gamma$ が回帰誤差に対して適応的に位置付けられた $q$ 長方形の和として表現できる場合に焦点を当てる。 ピースワイズ関数の最適結び目配置を求める問題は非凸であり、提案したパラメトリゼーションはグローバル最適化スキームの変数数を減らし、適切なテンプレートの近似と凸リッジのような問題の解を交互に行うフィッティングアルゴリズムを実現する。 本手法の予測能力と解釈性は,複数のシミュレーションと実世界の2つのケーススタディで示される。

We propose an $L_{2}$-based penalization algorithm for functional linear regression models, where the coefficient function is shrunk towards a data-driven shape template $\gamma$, which is constrained to belong to a class of piecewise functions by restricting its basis expansion. In particular, we focus on the case where $\gamma$ can be expressed as a sum of $q$ rectangles that are adaptively positioned with respect to the regression error. As the problem of finding the optimal knot placement of a piecewise function is nonconvex, the proposed parametrization allows to reduce the number of variables in the global optimization scheme, resulting in a fitting algorithm that alternates between approximating a suitable template and solving a convex ridge-like problem. The predictive power and interpretability of our method is shown on multiple simulations and two real world case studies.
翻訳日:2022-09-30 11:29:37 公開日:2020-11-02
# 強化学習におけるインスタンスベース一般化

Instance based Generalization in Reinforcement Learning ( http://arxiv.org/abs/2011.01089v1 )

ライセンス: Link先を確認
Martin Bertran, Natalia Martinez, Mariano Phielipp, Guillermo Sapiro(参考訳) 深層強化学習(RL)を介して訓練されたエージェントは、トレーニングレベルと同じ基礎となるダイナミクスを共有している場合でも、通常、目に見えない環境に一般化できない。 RLの一般化特性を理解することは、現代の機械学習の課題の1つである。 この目標に向けて,部分的に観察可能なマルコフ決定プロセス(pomdps)の文脈でポリシ学習を分析し,トレーニングレベルのダイナミクスをインスタンスとして定式化する。 探索戦略とは独立して、インスタンスの再利用は、エージェントがトレーニング中に観察する効果的なマルコフダイナミクスに大きな変化をもたらすことを証明します。 期待される報酬の最大化は、訓練セットに最適である一般化可能なものではなく、望ましくないインスタンス固有のスピードランニングポリシーを誘導することによってエージェントの学習された信念状態に影響を与える。 トレーニングインスタンスの数に基づいて,トレーニング環境とテスト環境の値ギャップを一般化し,これらに基づく洞察を用いて,目に見えないレベルのパフォーマンスを向上させる。 我々は、データ収集に使用されるコンセンサスポリシーを計算し、インスタンス固有のエクスプロイトを許可しない、一連の専門ポリシーの共有信念表現のトレーニングを提案する。 我々はCoinRunベンチマークによる理論,観測,提案した計算解を実験的に検証した。

Agents trained via deep reinforcement learning (RL) routinely fail to generalize to unseen environments, even when these share the same underlying dynamics as the training levels. Understanding the generalization properties of RL is one of the challenges of modern machine learning. Towards this goal, we analyze policy learning in the context of Partially Observable Markov Decision Processes (POMDPs) and formalize the dynamics of training levels as instances. We prove that, independently of the exploration strategy, reusing instances introduces significant changes on the effective Markov dynamics the agent observes during training. Maximizing expected rewards impacts the learned belief state of the agent by inducing undesired instance specific speedrunning policies instead of generalizeable ones, which are suboptimal on the training set. We provide generalization bounds to the value gap in train and test environments based on the number of training instances, and use insights based on these to improve performance on unseen levels. We propose training a shared belief representation over an ensemble of specialized policies, from which we compute a consensus policy that is used for data collection, disallowing instance specific exploitation. We experimentally validate our theory, observations, and the proposed computational solution over the CoinRun benchmark.
翻訳日:2022-09-30 11:23:11 公開日:2020-11-02
# マトリックス関節ブロック対角化の同定

Identification of Matrix Joint Block Diagonalization ( http://arxiv.org/abs/2011.01111v1 )

ライセンス: Link先を確認
Yunfeng Cai and Ping Li(参考訳) 正方行列の集合 $\mathcal{c}=\{c_i\}_{i=1}^m$ が与えられたとき、行列ブラインドジョイントブロック対角化問題(英語版)(bjbdp)は、すべての$i$に対して$c_i=a\sigma_ia^\text{t}$となるような列ランク行列$a$を求めることである。 BJBDPは独立部分空間解析(ISA)において重要な役割を果たしている。 本稿では, bjbdpの同定問題, すなわち, どのような条件下で, どのような方法で, ダイアゴナライザ $a$ とブロック対角構造 $\sigma_i$ を識別することができるか, 特に $c_i$ のノイズがある場合について考察する。 本稿では,bjbdp の解法として ‘bi-block diagonalization'' 法を提案し,その解法が達成できる条件を定式化する。 数値シミュレーションは我々の理論結果を検証する。 著者の知識を最大限に活用するため,既存のbjbdpの数値解法では正確な解の同定を理論的に保証していない。

Given a set $\mathcal{C}=\{C_i\}_{i=1}^m$ of square matrices, the matrix blind joint block diagonalization problem (BJBDP) is to find a full column rank matrix $A$ such that $C_i=A\Sigma_iA^\text{T}$ for all $i$, where $\Sigma_i$'s are all block diagonal matrices with as many diagonal blocks as possible. The BJBDP plays an important role in independent subspace analysis (ISA). This paper considers the identification problem for BJBDP, that is, under what conditions and by what means, we can identify the diagonalizer $A$ and the block diagonal structure of $\Sigma_i$, especially when there is noise in $C_i$'s. In this paper, we propose a ``bi-block diagonalization'' method to solve BJBDP, and establish sufficient conditions under which the method is able to accomplish the task. Numerical simulations validate our theoretical results. To the best of the authors' knowledge, existing numerical methods for BJBDP have no theoretical guarantees for the identification of the exact solution, whereas our method does.
翻訳日:2022-09-30 11:22:50 公開日:2020-11-02
# 地域説明可能性に関する学習理論的視点

A Learning Theoretic Perspective on Local Explainability ( http://arxiv.org/abs/2011.01205v1 )

ライセンス: Link先を確認
Jeffrey Li, Vaishnavh Nagarajan, Gregory Plumb, Ameet Talwalkar(参考訳) 本稿では,局所近似のレンズによる解釈可能な機械学習と学習理論の関連性を検討する。 まず,性能の一般化という従来の問題に取り組み,局所的に説明できるという概念を用いて,モデルのテスト時間精度を限定する。 第二に,有限サンプルベース局所近似説明のクラスが増大する上で重要な関心事となる,説明一般化の新たな問題を検討する。 最後に、我々の理論結果を実証的に検証し、実際に見られるものを反映していることを示す。

In this paper, we explore connections between interpretable machine learning and learning theory through the lens of local approximation explanations. First, we tackle the traditional problem of performance generalization and bound the test-time accuracy of a model using a notion of how locally explainable it is. Second, we explore the novel problem of explanation generalization which is an important concern for a growing class of finite sample-based local approximation explanations. Finally, we validate our theoretical results empirically and show that they reflect what can be seen in practice.
翻訳日:2022-09-30 11:21:10 公開日:2020-11-02
# 深いガウス過程を用いたサンプル効率強化学習

Sample-efficient reinforcement learning using deep Gaussian processes ( http://arxiv.org/abs/2011.01226v1 )

ライセンス: Link先を確認
Charles Gadd, Markus Heinonen, Harri L\"ahdesm\"aki and Samuel Kaski(参考訳) 強化学習は、試行錯誤を通じてタスクを完了するためのアクションを制御するためのフレームワークを提供する。 相互作用を観察する多くのアプリケーションは高価であり、サンプル効率の学習を必要とする。 モデルに基づく強化学習効率は、世界力学をシミュレートする学習によって改善される。 課題は、モデル不正確性が計画された軌道上に急速に蓄積することである。 合成の深さがモデル複雑性をもたらすのに対して、ダイナミックスに関する事前の知識は滑らかさと構造をもたらす。 我々のアプローチは、軌跡上のベイズ後部をサンプリングすることができる。 競合する手法よりも早期サンプル効率が向上した。 これは多数の連続制御タスクにまたがって示され、例えば、接触ダイナミクスが以前のサンプル効率の良いガウス過程に基づくモデルにとって不可解な問題となったハーフチーターを含む。

Reinforcement learning provides a framework for learning to control which actions to take towards completing a task through trial-and-error. In many applications observing interactions is costly, necessitating sample-efficient learning. In model-based reinforcement learning efficiency is improved by learning to simulate the world dynamics. The challenge is that model inaccuracies rapidly accumulate over planned trajectories. We introduce deep Gaussian processes where the depth of the compositions introduces model complexity while incorporating prior knowledge on the dynamics brings smoothness and structure. Our approach is able to sample a Bayesian posterior over trajectories. We demonstrate highly improved early sample-efficiency over competing methods. This is shown across a number of continuous control tasks, including the half-cheetah whose contact dynamics have previously posed an insurmountable problem for earlier sample-efficient Gaussian process based models.
翻訳日:2022-09-30 11:21:04 公開日:2020-11-02
# occluded画像分類のための深部特徴強調

Deep Feature Augmentation for Occluded Image Classification ( http://arxiv.org/abs/2011.00768v1 )

ライセンス: Link先を確認
Feng Cen (1), Xiaoyu Zhao (1), Wuzhuang Li (1) and Guanghui Wang (2) ((1) The Department of Control Science & Engineering, College of Electronics and Information Engineering, Tongji University, Shanghai 201804, China, (2) Department of Computer Science, Ryerson University, Toronto, ON, Canada M5B 2K3)(参考訳) タスク固有の隠蔽画像の取得が困難であるため、深い畳み込みニューラルネットワーク(CNN)による隠蔽画像の分類は非常に困難である。 大規模画像データセットへの依存を軽減するため,拡張深度特徴ベクトル(DFV)を用いた事前学習モデルの微調整により,隠蔽画像の分類精度を向上させる新しい手法を提案する。 強化DFVのセットは、オリジナルのDFVと擬似DFVで構成されている。 擬似DFVは、少数の清浄画像対から抽出された差分ベクトル(DV)を実DFVにランダムに付加して生成される。 微調整では、DFVデータフロー上でバックプロパゲーションを行い、ネットワークパラメータを更新する。 各種データセットおよびネットワーク構造を用いた実験により, 深層特徴の強化により, クリーン画像の性能に顕著な影響を及ぼさずに, オクルード画像の分類精度が著しく向上することが示された。 具体的には、合成オクルード画像を用いたilsvrc2012データセットにおいて、オクルージョン排他的およびオクルージョン排他的トレーニングセットに微調整されたresnet50ネットワークの分類精度が、それぞれ11.21%および9.14%向上する。

Due to the difficulty in acquiring massive task-specific occluded images, the classification of occluded images with deep convolutional neural networks (CNNs) remains highly challenging. To alleviate the dependency on large-scale occluded image datasets, we propose a novel approach to improve the classification accuracy of occluded images by fine-tuning the pre-trained models with a set of augmented deep feature vectors (DFVs). The set of augmented DFVs is composed of original DFVs and pseudo-DFVs. The pseudo-DFVs are generated by randomly adding difference vectors (DVs), extracted from a small set of clean and occluded image pairs, to the real DFVs. In the fine-tuning, the back-propagation is conducted on the DFV data flow to update the network parameters. The experiments on various datasets and network structures show that the deep feature augmentation significantly improves the classification accuracy of occluded images without a noticeable influence on the performance of clean images. Specifically, on the ILSVRC2012 dataset with synthetic occluded images, the proposed approach achieves 11.21% and 9.14% average increases in classification accuracy for the ResNet50 networks fine-tuned on the occlusion-exclusive and occlusion-inclusive training sets, respectively.
翻訳日:2022-09-30 11:20:35 公開日:2020-11-02
# 畳み込みニューラルネットワークのトポロジカルアプローチ

A topological approach to exploring convolutional neural networks ( http://arxiv.org/abs/2011.00789v1 )

ライセンス: Link先を確認
Yang Zhao and Hao Zhang(参考訳) トポロジの観点からは,畳み込みニューラルネットワーク(CNN)に関する理解を深め,トポロジ的データ分析を用いて2つのトピックを解釈する理論的枠組みを提示する。 まず、cnnフィルタのトポロジカルな本質を明らかにする。 提案理論はまず,CNNフィルタにおける特徴位置のトポロジ的表現,特徴トポロジ(特徴トポロジ)を抽象化し,開始端密度を定義することによって特徴付ける。 我々は,CNNフィルタの原理を明らかにする。同じカテゴリの特徴トポロジを整理する傾向があるため,そのような組織を統計的に記述するSEDディストリビューションを提案する。 sed分布のコンパクト性におけるcnnフィルタの効果を実証し,それを測定するためにフィルタエントロピーを導入する。 注目すべきことに、トレーニング中のフィルタエントロピーの変化は、cnnトレーニングの本質であるフィルタエントロピー-デフレアーゼプロセスを明らかにする。 また,この原理に基づき,フィルタ性能を評価するための指標を与える。 第2の方法は、モデルに依存しない方法でクラス間識別性を調査する。 各クラスについて,与えられたカテゴリの固有構造を特徴付けることでカテゴリを区別できる分布であるmbc分布を提案する。 マルチクラスについては、2つのカテゴリ間の距離を測るカテゴリ距離を導入し、さらに、各カテゴリの区別可能性だけでなく、各カテゴリの区別可能な程度を総合的に評価するCD行列を提案する。 最後に、実験結果は我々の理論を裏付ける。

Motivated by the elusive understanding concerning convolution neural networks (CNNs) in view of topology, we present two theoretical frameworks to interpret two topics by using topological data analysis. The first one reveals the topological essence of CNN filters. Our theory first abstracts a topological representation of how the features locate for a CNN filter, named feature topology, and characterises it by defining the starting edge density. We reveal a principle of CNN filters: tending to organize the feature topologies for the same category, and thus propose the SED Distribution to statistically describe such an organization. We demonstrate the effectiveness of CNN filters reflects in the compactness of SED Distribution, and introduce filter entropy to measure it. Remarkably, the variation of filter entropy during training reveals the essence of CNN training: a filter-entropy-decrease process. Also, based on the principle, we give a metric to assess the filter performance. The second one investigates the inter-class distinguishability in a model-agnostic way. For each class, we propose the MBC Distribution, a distribution that could differentiate categories by characterising the intrinsic organization of the given category. As for multi-classes, we introduce the category distance which metricizes the distance between two categories, and moreover propose the CD Matrix that comprehensively evaluates not just the distinguishability between each two category pair but the distinguishable degree for each category. Finally, our experiment results confirm our theories.
翻訳日:2022-09-30 11:20:15 公開日:2020-11-02
# コンペティションゲームにおける強化学習におけるコンペティタリーの活用

Incorporating Rivalry in Reinforcement Learning for a Competitive Game ( http://arxiv.org/abs/2011.01337v1 )

ライセンス: Link先を確認
Pablo Barros, Ana Tanevska, Ozge Yalcin, Alessandra Sciutti(参考訳) 近年,ソーシャルエージェントによる強化学習の進歩により,対話作業における人間レベルのパフォーマンス向上が図られている。 しかしながら、ほとんどの対話的なシナリオは、エンドゴールのパフォーマンスだけでは無く、代わりに、人間と対話する際のこれらのエージェントの社会的影響は重要である。 この事前登録研究は、競合する社会的影響に基づく新しい学習メカニズムの提供に焦点を当てている。 本シナリオでは,人間プレイヤーと競合するカードゲームを行う強化学習型エージェントについて検討した。 本研究は,競争競合の概念に基づいて,これらのエージェントの評価を人間の視点から変えられるかを検討することを目的とする。

Recent advances in reinforcement learning with social agents have allowed us to achieve human-level performance on some interaction tasks. However, most interactive scenarios do not have as end-goal performance alone; instead, the social impact of these agents when interacting with humans is as important and, in most cases, never explored properly. This preregistration study focuses on providing a novel learning mechanism based on a rivalry social impact. Our scenario explored different reinforcement learning-based agents playing a competitive card game against human players. Based on the concept of competitive rivalry, our analysis aims to investigate if we can change the assessment of these agents from a human perspective.
翻訳日:2022-09-30 11:13:37 公開日:2020-11-02
# 均質な選択ラベル問題に対する最適政策

Optimal Policies for the Homogeneous Selective Labels Problem ( http://arxiv.org/abs/2011.01381v1 )

ライセンス: Link先を確認
Dennis Wei(参考訳) 選択的ラベルは一連の意思決定アプリケーションの一般的な特徴であり、考えられる決定の1つの下で観察された結果が欠如していることに言及している。 本稿では,選択ラベルに直面する意思決定方針の学習について述べる。 最適政策の決定を容易にするために個人の特徴を無視し、将来のユーティリティと学習において生じるコストのバランスをとるためのオンライン設定の両方が、単純化された同質な設定である。 割引総報酬を最大化するために、最適政策は閾値政策であることが示され、問題は最適停止の1つである。 対照的に、数え切れない無限水平平均報酬の場合、最適ポリシーは全ての状態において肯定的な受容確率を持つ。 これらの結果から生じる今後の課題について論じる。

Selective labels are a common feature of consequential decision-making applications, referring to the lack of observed outcomes under one of the possible decisions. This paper reports work in progress on learning decision policies in the face of selective labels. The setting considered is both a simplified homogeneous one, disregarding individuals' features to facilitate determination of optimal policies, and an online one, to balance costs incurred in learning with future utility. For maximizing discounted total reward, the optimal policy is shown to be a threshold policy, and the problem is one of optimal stopping. In contrast, for undiscounted infinite-horizon average reward, optimal policies have positive acceptance probability in all states. Future work stemming from these results is discussed.
翻訳日:2022-09-30 11:13:25 公開日:2020-11-02
# スタック型長期記憶ネットワークを用いた時系列予測

Time Series Forecasting with Stacked Long Short-Term Memory Networks ( http://arxiv.org/abs/2011.00697v1 )

ライセンス: Link先を確認
Frank Xiao(参考訳) LSTM(Long Short-Term Memory)ネットワークは、しばしば時間依存パターンをキャプチャするために使用される。 多層LSTMネットワークを積み重ねることで、さらに複雑なパターンをキャプチャすることができる。 本稿では,時系列予測領域,特に交通量予測におけるLSTMネットワークの適用の有効性について検討する。 交通量をより正確に予測できることは、より良い計画につながり、運用コストを大幅に削減し、全体の効率を向上させる。

Long Short-Term Memory (LSTM) networks are often used to capture temporal dependency patterns. By stacking multi-layer LSTM networks, it can capture even more complex patterns. This paper explores the effectiveness of applying stacked LSTM networks in the time series prediction domain, specifically, the traffic volume forecasting. Being able to predict traffic volume more accurately can result in better planning, thus greatly reduce the operation cost and improve overall efficiency.
翻訳日:2022-09-30 11:13:14 公開日:2020-11-02
# 多変量点過程のノイズコントラスト推定

Noise-Contrastive Estimation for Multivariate Point Processes ( http://arxiv.org/abs/2011.00717v1 )

ライセンス: Link先を確認
Hongyuan Mei, Tom Wan, Jason Eisner(参考訳) 生成モデルの対数類似性は、しばしば正項と負項の両方を含む。 時間的多変量点過程において、負の項は、全ての可能なイベントタイプを各時間に合計し、可能なすべての時間にわたって積分する。 その結果、最大確率推定は高価である。 より安価な確率的目的を持つ一般パラメータ推定法として,ノイズコントラスト推定のバージョンを適用する方法を示す。 この一般的なアイデアの具体的インスタンス化は、興味深いことに非自明な方法で機能し、その最適性、一貫性、効率性を保証することができます。 複数の合成および実世界のデータセットにおいて、この手法は、以下の利点を示している: モデルがホールドアウトデータに対して同じレベルのログライク性を達成するためには、この手法は、かなり少ない機能評価と壁時計時間を必要とする。

The log-likelihood of a generative model often involves both positive and negative terms. For a temporal multivariate point process, the negative term sums over all the possible event types at each time and also integrates over all the possible times. As a result, maximum likelihood estimation is expensive. We show how to instead apply a version of noise-contrastive estimation---a general parameter estimation method with a less expensive stochastic objective. Our specific instantiation of this general idea works out in an interestingly non-trivial way and has provable guarantees for its optimality, consistency and efficiency. On several synthetic and real-world datasets, our method shows benefits: for the model to achieve the same level of log-likelihood on held-out data, our method needs considerably fewer function evaluations and less wall-clock time.
翻訳日:2022-09-30 11:12:51 公開日:2020-11-02
# 資源を検閲したマルチアームバンディット

Multi-Armed Bandits with Censored Consumption of Resources ( http://arxiv.org/abs/2011.00813v1 )

ライセンス: Link先を確認
Viktor Bengs and Eyke H\"ullermeier(参考訳) 各ラウンドにおいて、学習者はarmを選択し、リソース制限を決定する。 その後、使用済みリソースの(ランダム)量が限界以下である場合、対応する(ランダム)報酬を観測する。 さもなくば、観察は検閲され、すなわち報酬は得られない。 そこで本研究では,各学習ラウンドの割り当てリソースの実際の量と,実現可能な報酬の最適性を考慮した後悔の尺度を提案する。 したがって、後悔を最小限に抑えるために、学習者はリソース制限を設定して、予め定義されたリソース制限内で高い報酬を実現するチャンスが高く、リソース制限自体を可能な限り低くしておく必要がある。 我々は、累積的後悔の理論的下限を導出し、下限に一致する後悔の上限を持つ学習アルゴリズムを提案する。 シミュレーション研究により,本学習アルゴリズムは,標準的なマルチアームバンディットアルゴリズムの単純な拡張よりも優れていることを示す。

We consider a resource-aware variant of the classical multi-armed bandit problem: In each round, the learner selects an arm and determines a resource limit. It then observes a corresponding (random) reward, provided the (random) amount of consumed resources remains below the limit. Otherwise, the observation is censored, i.e., no reward is obtained. For this problem setting, we introduce a measure of regret, which incorporates the actual amount of allocated resources of each learning round as well as the optimality of realizable rewards. Thus, to minimize regret, the learner needs to set a resource limit and choose an arm in such a way that the chance to realize a high reward within the predefined resource limit is high, while the resource limit itself should be kept as low as possible. We derive the theoretical lower bound on the cumulative regret and propose a learning algorithm having a regret upper bound that matches the lower bound. In a simulation study, we show that our learning algorithm outperforms straightforward extensions of standard multi-armed bandit algorithms.
翻訳日:2022-09-30 11:12:17 公開日:2020-11-02
# WRSE -- ICUにおける個人生存分布予測のための非パラメトリック重み付き解像度アンサンブル

WRSE -- a non-parametric weighted-resolution ensemble for predicting individual survival distributions in the ICU ( http://arxiv.org/abs/2011.00865v1 )

ライセンス: Link先を確認
Jonathan Heitz, Joanna Ficek, Martin Faltys, Tobias M. Merz, Gunnar R\"atsch, Matthias H\"user(参考訳) 集中治療室(ICU)における死亡リスクの動的評価は、患者を階層化し、治療効果を知らせたり、早期警戒システムの一部として機能したりすることができる。 APACHEやSAPSのような静的リスクスコアシステムは、最近データ駆動型アプローチで補われ、時間とともに動的死亡リスクを追跡する。 最近の研究は、ポイント予測や固定地平線リスクの代わりに完全な生存率分布を作ることによって、臨床医に提供される情報をさらに強化することに焦点を当てている。 本研究では,非パラメトリックアンサンブルモデルWRSE(Weighted Resolution Survival Ensemble)を提案する。 アンサンブル手法の単純さと堅牢性から着想を得た提案手法は,短期的死亡予測の妥当性を反映した崩壊関数に従って配置された2値分類器の集合を組み合わせたものである。 モデルとベースラインは、ICU実践におけるモデルの実用性を深く反映した個別生存分布の重み付けキャリブレーションおよび識別指標に基づいて評価される。 最新確率モデルでは, トレーニング時間を2~9倍に抑えながら, 競争力のある結果を示す。

Dynamic assessment of mortality risk in the intensive care unit (ICU) can be used to stratify patients, inform about treatment effectiveness or serve as part of an early-warning system. Static risk scoring systems, such as APACHE or SAPS, have recently been supplemented with data-driven approaches that track the dynamic mortality risk over time. Recent works have focused on enhancing the information delivered to clinicians even further by producing full survival distributions instead of point predictions or fixed horizon risks. In this work, we propose a non-parametric ensemble model, Weighted Resolution Survival Ensemble (WRSE), tailored to estimate such dynamic individual survival distributions. Inspired by the simplicity and robustness of ensemble methods, the proposed approach combines a set of binary classifiers spaced according to a decay function reflecting the relevance of short-term mortality predictions. Models and baselines are evaluated under weighted calibration and discrimination metrics for individual survival distributions which closely reflect the utility of a model in ICU practice. We show competitive results with state-of-the-art probabilistic models, while greatly reducing training time by factors of 2-9x.
翻訳日:2022-09-30 11:11:47 公開日:2020-11-02
# 回帰木と分類木における単調制約をより良く強制する方法

A better method to enforce monotonic constraints in regression and classification trees ( http://arxiv.org/abs/2011.00986v1 )

ライセンス: Link先を確認
Charles Auguste (IMI), Sean Malory, Ivan Smirnov(参考訳) 本稿では,回帰木と分類木に単調制約を課す2つの新しい方法を提案する。 1つは現在のLightGBMよりも良い結果をもたらし、同様の計算時間を持つ。 もう1つはより優れた結果をもたらすが、現在のLightGBMよりもずっと遅い。 また,直近の利得に対して単調分割を選択することで,優越的に木を分割することが最適とはほど遠いことを考慮したヒューリスティックを提案する。 そして、この結果とLightGBMライブラリの制約実装を、よく知られたアダルト公開データセットを用いて比較する。 報告書全体を通して、私たちはlightgbmライブラリ用に作ったメソッドの実装に重点を置いています。 提案する最良の方法(単調分割のペナル化に結合した木を分割するより賢い方法)は、LightGBMの現在の実装を一貫して上回っている。 小木や平均木では、トレーニングの初期段階では1%の損失削減が可能であり、成人データセットの損失ピーク時には約0.1%に減少する。 結果はもっと大きな木の方が良いだろう。 実験では、正規化パラメータのチューニングはあまり行わず、テストセットでのメソッドのパフォーマンスが向上していることに驚きはありません。

In this report we present two new ways of enforcing monotone constraints in regression and classification trees. One yields better results than the current LightGBM, and has a similar computation time. The other one yields even better results, but is much slower than the current LightGBM. We also propose a heuristic that takes into account that greedily splitting a tree by choosing a monotone split with respect to its immediate gain is far from optimal. Then, we compare the results with the current implementation of the constraints in the LightGBM library, using the well known Adult public dataset. Throughout the report, we mostly focus on the implementation of our methods that we made for the LightGBM library, even though they are general and could be implemented in any regression or classification tree. The best method we propose (a smarter way to split the tree coupled to a penalization of monotone splits) consistently beats the current implementation of LightGBM. With small or average trees, the loss reduction can be as high as 1% in the early stages of training and decreases to around 0.1% at the loss peak for the Adult dataset. The results would be even better with larger trees. In our experiments, we didn't do a lot of tuning of the regularization parameters, and we wouldn't be surprised to see that increasing the performance of our methods on test sets.
翻訳日:2022-09-30 11:11:25 公開日:2020-11-02
# CNN画像認識とガウスクラスタリングを用いたリサイクル型廃棄物識別

Recyclable Waste Identification Using CNN Image Recognition and Gaussian Clustering ( http://arxiv.org/abs/2011.01353v1 )

ライセンス: Link先を確認
Yuheng Wang, Wen Jie Zhao, Jiahui Xu and Raymond Hong(参考訳) 廃棄物リサイクルは生産過程においてエネルギーと材料を節約する重要な方法である。 一般に、リサイクル可能なオブジェクトはリサイクル不可能なオブジェクトと混同され、識別と分類の必要性が高まる。 本稿では,両タスクを補完する畳み込みニューラルネットワーク(CNN)モデルを提案する。 このモデルは、事前訓練されたResnet-50 CNNからの転送学習を使用して特徴抽出を完了する。 その後の完全接続された分類層は、拡張されたsestnetデータセット[1]でトレーニングされた。 アプリケーションでは、スライディングウィンドウは、事前分類段階のイメージセグメンテーションに使用される。 分類後の段階では、ラベル付きサンプルポイントをガウスクラスタリングと統合してオブジェクトを見つける。 結果として得られたモデル全体の検出率は48.4%であり、最終分類精度は92.4%である。

Waste recycling is an important way of saving energy and materials in the production process. In general cases recyclable objects are mixed with unrecyclable objects, which raises a need for identification and classification. This paper proposes a convolutional neural network (CNN) model to complete both tasks. The model uses transfer learning from a pretrained Resnet-50 CNN to complete feature extraction. A subsequent fully connected layer for classification was trained on the augmented TrashNet dataset [1]. In the application, sliding-window is used for image segmentation in the pre-classification stage. In the post-classification stage, the labelled sample points are integrated with Gaussian Clustering to locate the object. The resulting model has achieved an overall detection rate of 48.4% in simulation and final classification accuracy of 92.4%.
翻訳日:2022-09-30 11:04:28 公開日:2020-11-02
# マルチエージェント強化学習によるグラフ描画の解釈

Interpreting Graph Drawing with Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2011.00748v1 )

ライセンス: Link先を確認
Ilkin Safarli, Youjia Zhou, Bei Wang(参考訳) グラフ描画に機械学習技術を適用することは、可視化研究の創発的な領域となっている。 本稿では,グラフ描画をマルチエージェント強化学習(marl)問題として解釈する。 まず,MARL のフレームワーク内では,強制方向のレイアウトや応力の局所化など,多数の古典的グラフ描画アルゴリズムが解釈可能であることを示す。 この解釈を用いて、グラフ内のノードは、報酬関数を持つエージェントに割り当てられる。 マルチエージェント報酬の最大化により,従来のアルゴリズムの出力に匹敵する美的なグラフレイアウトが得られる。 グラフ描画のためのMARLフレームワークの主な強みは、一般的な定式化において古典的描画アルゴリズムを統一するだけでなく、様々な報酬関数を導入することで、新しいグラフ描画アルゴリズムの作成をサポートすることである。

Applying machine learning techniques to graph drawing has become an emergent area of research in visualization. In this paper, we interpret graph drawing as a multi-agent reinforcement learning (MARL) problem. We first demonstrate that a large number of classic graph drawing algorithms, including force-directed layouts and stress majorization, can be interpreted within the framework of MARL. Using this interpretation, a node in the graph is assigned to an agent with a reward function. Via multi-agent reward maximization, we obtain an aesthetically pleasing graph layout that is comparable to the outputs of classic algorithms. The main strength of a MARL framework for graph drawing is that it not only unifies a number of classic drawing algorithms in a general formulation but also supports the creation of novel graph drawing algorithms by introducing a diverse set of reward functions.
翻訳日:2022-09-30 11:04:19 公開日:2020-11-02
# 協調型深層強化学習

Cooperative Heterogeneous Deep Reinforcement Learning ( http://arxiv.org/abs/2011.00791v1 )

ライセンス: Link先を確認
Han Zheng, Pengfei Wei, Jing Jiang, Guodong Long, Qinghua Lu, Chengqi Zhang(参考訳) 多くの深層強化学習エージェントが提案されており、それぞれに強みと欠陥がある。 本研究では、異種エージェントの利点を統合することで、政策を学習できる協調的異種深層強化学習(CHDRL)フレームワークを提案する。 具体的には、異種エージェントをグローバルエージェントとローカルエージェントの2つのクラスに分類する協調学習フレームワークを提案する。 グローバルエージェントは、他のエージェントの経験を活用できるオフポリシーエージェントである。 ローカルエージェントは、オンポリシーエージェントまたは人口ベースの進化アルゴリズム(eas)エージェントであり、効果的に地域を探索することができる。 我々は,局所エージェントの学習を導くために,サンプル効率のよいグローバルエージェントを用いて,サンプル効率のよいエージェントのメリットを享受し,そのメリット,例えば安定性を同時に維持する。 グローバルエージェントは効果的なローカル検索の恩恵を受ける。 mujocoベンチマークによる一連の連続制御タスクに関する実験的研究は、chdrlが最先端のベースラインよりも優れたパフォーマンスを達成していることを示している。

Numerous deep reinforcement learning agents have been proposed, and each of them has its strengths and flaws. In this work, we present a Cooperative Heterogeneous Deep Reinforcement Learning (CHDRL) framework that can learn a policy by integrating the advantages of heterogeneous agents. Specifically, we propose a cooperative learning framework that classifies heterogeneous agents into two classes: global agents and local agents. Global agents are off-policy agents that can utilize experiences from the other agents. Local agents are either on-policy agents or population-based evolutionary algorithms (EAs) agents that can explore the local area effectively. We employ global agents, which are sample-efficient, to guide the learning of local agents so that local agents can benefit from sample-efficient agents and simultaneously maintain their advantages, e.g., stability. Global agents also benefit from effective local searches. Experimental studies on a range of continuous control tasks from the Mujoco benchmark show that CHDRL achieves better performance compared with state-of-the-art baselines.
翻訳日:2022-09-30 11:04:05 公開日:2020-11-02
# 依存型マルチラベル損失関数の柔軟なクラス

A Flexible Class of Dependence-aware Multi-Label Loss Functions ( http://arxiv.org/abs/2011.00792v1 )

ライセンス: Link先を確認
Eyke H\"ullermeier, Marcel Wever, Eneldo Loza Mencia, Johannes F\"urnkranz, Michael Rapp(参考訳) マルチラベル分類は、ラベルのサブセットを所定のクエリインスタンスに割り当てるタスクである。 このような予測を評価するには、予測されたラベルの集合を、そのインスタンスに関連する基底ラベル集合と比較する必要があるが、この目的のために様々な損失関数が提案されている。 予測精度の評価に加えて、この点における重要な関心事は、学習者のラベル依存を捉える能力の育成と分析である。 本稿では,ハミングやサブセット0/1といった一般的な損失の欠点を克服するマルチラベル分類のための新しい損失関数のクラスを提案する。 この目的のために、我々は非加法測度と積分の数学的枠組みを利用する。 大まかに言えば、加法的でない尺度では、ラベルサブセットの正しい予測の重要性(シングルラベルの代わりに)をモデル化することができ、それによって、それらが全体的な評価に与える影響を柔軟な方法で評価することができる。 本稿では、ハミングとサブセット 0/1 を特別な場合として構成し、モデリングの観点から特に魅力的と思われるこのクラスの具体的インスタンス化について述べる。 これらの損失の観点からのマルチラベル分類器の評価は経験的研究で示される。

Multi-label classification is the task of assigning a subset of labels to a given query instance. For evaluating such predictions, the set of predicted labels needs to be compared to the ground-truth label set associated with that instance, and various loss functions have been proposed for this purpose. In addition to assessing predictive accuracy, a key concern in this regard is to foster and to analyze a learner's ability to capture label dependencies. In this paper, we introduce a new class of loss functions for multi-label classification, which overcome disadvantages of commonly used losses such as Hamming and subset 0/1. To this end, we leverage the mathematical framework of non-additive measures and integrals. Roughly speaking, a non-additive measure allows for modeling the importance of correct predictions of label subsets (instead of single labels), and thereby their impact on the overall evaluation, in a flexible way - by giving full importance to single labels and the entire label set, respectively, Hamming and subset 0/1 are rather extreme in this regard. We present concrete instantiations of this class, which comprise Hamming and subset 0/1 as special cases, and which appear to be especially appealing from a modeling perspective. The assessment of multi-label classifiers in terms of these losses is illustrated in an empirical study.
翻訳日:2022-09-30 11:03:46 公開日:2020-11-02
# 能動的特徴獲得による強化学習

Reinforcement Learning with Efficient Active Feature Acquisition ( http://arxiv.org/abs/2011.00825v1 )

ライセンス: Link先を確認
Haiyan Yin and Yingzhen Li and Sinno Jialin Pan and Cheng Zhang and Sebastian Tschiatschek(参考訳) 部分観測可能性の下で、実生活におけるシーケンシャルな意思決定問題を解決するには、探索・探索の問題が伴う。 成功させるためには、エージェントは報酬決定を行うために、世界の状況に関する貴重な情報を効率的に収集する必要がある。 しかし、実生活では、価値ある情報を得ることは、しばしば高いコストがかかる。例えば、医療領域では、情報取得は、患者に対して医療検査を行うことに相当する可能性がある。 これはエージェントが情報取得のコストを削減しつつタスクを最適に実行する上で大きな課題となる。 本稿では,その実行時の探索・探索問題を解決するために,能動的特徴獲得ポリシーを学習するモデルベース強化学習フレームワークを提案する。 成功の鍵となるのは、部分的に観察された状態から高品質な表現を学習する、新しいシーケンシャルな変分自動エンコーダである。 本稿では, 医療シミュレータを用いて, 制御領域における提案フレームワークの有効性を実証する。 どちらのタスクにおいても,提案手法は従来のベースラインを上回っており,コスト効率の高いポリシーとなる。

Solving real-life sequential decision making problems under partial observability involves an exploration-exploitation problem. To be successful, an agent needs to efficiently gather valuable information about the state of the world for making rewarding decisions. However, in real-life, acquiring valuable information is often highly costly, e.g., in the medical domain, information acquisition might correspond to performing a medical test on a patient. This poses a significant challenge for the agent to perform optimally for the task while reducing the cost for information acquisition. In this paper, we propose a model-based reinforcement learning framework that learns an active feature acquisition policy to solve the exploration-exploitation problem during its execution. Key to the success is a novel sequential variational auto-encoder that learns high-quality representations from partially observed states, which are then used by the policy to maximize the task reward in a cost efficient manner. We demonstrate the efficacy of our proposed framework in a control domain as well as using a medical simulator. In both tasks, our proposed method outperforms conventional baselines and results in policies with greater cost efficiency.
翻訳日:2022-09-30 11:03:25 公開日:2020-11-02
# Chess2vec: チェスのベクトル表現を学ぶ

Chess2vec: Learning Vector Representations for Chess ( http://arxiv.org/abs/2011.01014v1 )

ライセンス: Link先を確認
Berk Kapicioglu, Ramiz Iqbal, Tarik Koc, Louis Nicolas Andre, Katharina Sophia Volz(参考訳) 本研究は,チェス駒のベクトル表現の生成と評価を行うための最初の研究である。 特に,チェスの駒や動きの潜伏構造を明らかにするとともに,チェスの位置からチェスの動きを予測する。 我々は、教師付きフィードバックから直接これらの埋め込みを学ぶニューラルネットワークアーキテクチャに関する現在進行中の作業を予測する予備的な結果を共有する。

We conduct the first study of its kind to generate and evaluate vector representations for chess pieces. In particular, we uncover the latent structure of chess pieces and moves, as well as predict chess moves from chess positions. We share preliminary results which anticipate our ongoing work on a neural network architecture that learns these embeddings directly from supervised feedback.
翻訳日:2022-09-30 11:02:43 公開日:2020-11-02
# randomforestmlp : 次元の呪いに対するアンサンブルベースの多層パーセプトロン

RandomForestMLP: An Ensemble-Based Multi-Layer Perceptron Against Curse of Dimensionality ( http://arxiv.org/abs/2011.01188v1 )

ライセンス: Link先を確認
Mohamed Mejri and Aymen Mejri(参考訳) 本稿では,randomforestmlpと呼ばれる新しい実用的な深層学習パイプラインを提案する。 このコア訓練可能な分類エンジンは、畳み込みニューラルネットワークバックボーンと、分類タスクのためのアンサンブルベースの多層パーセプトロンコアとからなる。 これは、非常に小さなデータセットでトレーニングしながら過度な適合を避けるために、自己および半教師付き学習タスクのコンテキストで設計されている。 本稿では、ランダムフォレストmlpのアーキテクチャを詳述し、ニューラルネットワーク決定集約のための異なる戦略を提案する。 そして、現実的な画像データセットでトレーニングされた場合の過剰フィッティングに対する堅牢性を評価し、その分類性能を既存の正規分類器と比較する。

We present a novel and practical deep learning pipeline termed RandomForestMLP. This core trainable classification engine consists of a convolutional neural network backbone followed by an ensemble-based multi-layer perceptrons core for the classification task. It is designed in the context of self and semi-supervised learning tasks to avoid overfitting while training on very small datasets. The paper details the architecture of the RandomForestMLP and present different strategies for neural network decision aggregation. Then, it assesses its robustness to overfitting when trained on realistic image datasets and compares its classification performance with existing regular classifiers.
翻訳日:2022-09-30 11:02:36 公開日:2020-11-02
# 任意のアドバイスから有用な方針不変形作法

Useful Policy Invariant Shaping from Arbitrary Advice ( http://arxiv.org/abs/2011.01297v1 )

ライセンス: Link先を確認
Paniz Behboudian, Yash Satsangi, Matthew E. Taylor, Anna Harutyunyan, Michael Bowling(参考訳) 強化学習は、エージェントがスパースと遅延報酬信号を最大化するために学習できる強力な学習パラダイムである。 rlは複雑なドメインで多くの素晴らしい成功を収めていますが、学習には数時間、日、さらには何年ものトレーニングデータが必要です。 現代のRL研究の大きな課題は、少ないデータで学習する方法を見つけることである。 以前の研究では、ドメイン情報は報酬を形作るのにうまく使えることを示しており、追加の報酬情報を追加することで、エージェントはより少ないデータで学習することができる。 さらに、潜在的関数から報酬が構成された場合、最適ポリシーは変更されないことが保証される。 このようなポテンシャルに基づく報酬形成(PBRS)は約束を保っているが、十分に定義されたポテンシャル関数の必要性によって制限されている。 理想的には、最適なポリシーに影響を与えることなく、人間や他のエージェントから任意のアドバイスを受け、パフォーマンスを改善したいと思っています。 最近導入されたdynamic potential based advice (dpba)法は、人間や他のエージェントからの任意のアドバイスを認め、最適なポリシーに影響を与えずにパフォーマンスを向上させることで、この課題に対処している。 本論文の主な貢献は,理論上,実証的にdpbaの欠陥を明らかにすることである。 あるいは、理想的な目標を達成するために、政策不変な明示的整形(PIES)と呼ばれる簡単な方法を提案し、理論上、実証的に、PIESがDPBAが失敗した場合に成功することを示す。

Reinforcement learning is a powerful learning paradigm in which agents can learn to maximize sparse and delayed reward signals. Although RL has had many impressive successes in complex domains, learning can take hours, days, or even years of training data. A major challenge of contemporary RL research is to discover how to learn with less data. Previous work has shown that domain information can be successfully used to shape the reward; by adding additional reward information, the agent can learn with much less data. Furthermore, if the reward is constructed from a potential function, the optimal policy is guaranteed to be unaltered. While such potential-based reward shaping (PBRS) holds promise, it is limited by the need for a well-defined potential function. Ideally, we would like to be able to take arbitrary advice from a human or other agent and improve performance without affecting the optimal policy. The recently introduced dynamic potential based advice (DPBA) method tackles this challenge by admitting arbitrary advice from a human or other agent and improves performance without affecting the optimal policy. The main contribution of this paper is to expose, theoretically and empirically, a flaw in DPBA. Alternatively, to achieve the ideal goals, we present a simple method called policy invariant explicit shaping (PIES) and show theoretically and empirically that PIES succeeds where DPBA fails.
翻訳日:2022-09-30 11:02:27 公開日:2020-11-02
# Deep Questions作成のための質問特化リワードの探索

Exploring Question-Specific Rewards for Generating Deep Questions ( http://arxiv.org/abs/2011.01102v1 )

ライセンス: Link先を確認
Yuxi Xie, Liangming Pan, Dongzhe Wang, Min-Yen Kan, Yansong Feng(参考訳) 近年の質問生成 (QG) アプローチでは,教師の強制力を用いて,シーケンス・ツー・シーケンス・フレームワーク (Seq2Seq) を用いて,対数関係の最適化を行っている。 しかし、このトレーニングの目的は実際の質問品質と矛盾しており、質問が文書によって答えられるかどうかのような特定のグローバル特性に反映されることが多い。 質問質を向上させるために強化学習によるqg固有の目標を直接最適化する。 生成した質問の流動性、妥当性、応答性を改善するために、3つの異なる報酬をデザインします。 自動評価と人間評価の両方を行い,各qg特有の報酬の効果について徹底的な分析を行った。 質問固有報酬の最適化は、一般的に自動評価指標の性能向上につながる。 しかし、人間の判断(例えば、関連性)とよく相関する報酬だけは、質問品質の実質的な改善につながる。 他のもの、特に回答性の最適化は、モデルに誤ったバイアスをもたらし、その結果、質問の品質が低下する。 私たちのコードはhttps://github.com/YuxiXie/RL-for-Question-Generation.comで公開されています。

Recent question generation (QG) approaches often utilize the sequence-to-sequence framework (Seq2Seq) to optimize the log-likelihood of ground-truth questions using teacher forcing. However, this training objective is inconsistent with actual question quality, which is often reflected by certain global properties such as whether the question can be answered by the document. As such, we directly optimize for QG-specific objectives via reinforcement learning to improve question quality. We design three different rewards that target to improve the fluency, relevance, and answerability of generated questions. We conduct both automatic and human evaluations in addition to a thorough analysis to explore the effect of each QG-specific reward. We find that optimizing question-specific rewards generally leads to better performance in automatic evaluation metrics. However, only the rewards that correlate well with human judgement (e.g., relevance) lead to real improvement in question quality. Optimizing for the others, especially answerability, introduces incorrect bias to the model, resulting in poor question quality. Our code is publicly available at https://github.com/YuxiXie/RL-for-Question-Generation.
翻訳日:2022-09-30 10:56:10 公開日:2020-11-02
# 機械生成テキストの自動検出:批判的調査

Automatic Detection of Machine Generated Text: A Critical Survey ( http://arxiv.org/abs/2011.01314v1 )

ライセンス: Link先を確認
Ganesh Jawahar, Muhammad Abdul-Mageed, Laks V.S. Lakshmanan(参考訳) テキスト生成モデル(TGM)は、人間の言語スタイルに適したテキストを生成するのに優れている。 例えば、偽のニュースや偽の商品レビューを自動的に生成し、本物で愚かな人間に見えるようにすることで、このようなTGMは敵によって誤用される。 TGMが生成したテキストと人間のテキストとを区別できる検出器は、そのようなTGMの誤用を緩和する上で重要な役割を果たす。 近年,自然言語処理 (NLP) と機械学習 (ML) のコミュニティから,英語の正確な検出を行うための研究が盛んに行われている。 この問題の重要性にもかかわらず、この急速に成長する文献を調査し、重要な研究課題に新参者を紹介している研究は今のところ存在しない。 本研究では,この問題の包括的理解を促進するために,本論文の批判的調査とレビューを行うことにより,この空白を埋める。 我々は最先端検出器の詳細な誤差解析を行い、このエキサイティングな領域における今後の研究を導く研究の方向性について議論する。

Text generative models (TGMs) excel in producing text that matches the style of human language reasonably well. Such TGMs can be misused by adversaries, e.g., by automatically generating fake news and fake product reviews that can look authentic and fool humans. Detectors that can distinguish text generated by TGM from human written text play a vital role in mitigating such misuse of TGMs. Recently, there has been a flurry of works from both natural language processing (NLP) and machine learning (ML) communities to build accurate detectors for English. Despite the importance of this problem, there is currently no work that surveys this fast-growing literature and introduces newcomers to important research challenges. In this work, we fill this void by providing a critical survey and review of this literature to facilitate a comprehensive understanding of this problem. We conduct an in-depth error analysis of the state-of-the-art detector and discuss research directions to guide future work in this exciting area.
翻訳日:2022-09-30 10:55:51 公開日:2020-11-02
# 半教師付き自動符号化計画依存解析

Semi-supervised Autoencoding Projective Dependency Parsing ( http://arxiv.org/abs/2011.00704v1 )

ライセンス: Link先を確認
Xiao Zhang, Dan Goldwasser(参考訳) 半教師付きグラフベース射影依存解析のための2つのエンドツーエンドの自動エンコーディングモデルについて述べる。 第1のモデルは連続潜伏変数を用いて入力を逐次的に符号化する局所自己符号化パーサー(LAP)であり、第2のモデルは依存性ツリーへの入力を潜伏変数として正確に推論するグローバル自動符号化パーサー(GAP)である。 どちらのモデルも、文脈情報を利用して潜伏変数にエンコードできるディープニューラルネットワーク(DNN)によって強化されたエンコーダと、入力を再構築可能な生成モデルであるデコーダの2つの部分で構成されている。 lapとgapのどちらも、共有パラメータを持つラベル付きデータとラベルなしデータの損失関数が異なる統一構造を認めている。 wsj と ud の依存性解析データセットについて実験を行い,ラベルなしのデータを利用してラベル付きデータの量が限られている場合のパフォーマンスを改善し,提案する半教師付きモデルを上回ることを示した。

We describe two end-to-end autoencoding models for semi-supervised graph-based projective dependency parsing. The first model is a Locally Autoencoding Parser (LAP) encoding the input using continuous latent variables in a sequential manner; The second model is a Globally Autoencoding Parser (GAP) encoding the input into dependency trees as latent variables, with exact inference. Both models consist of two parts: an encoder enhanced by deep neural networks (DNN) that can utilize the contextual information to encode the input into latent variables, and a decoder which is a generative model able to reconstruct the input. Both LAP and GAP admit a unified structure with different loss functions for labeled and unlabeled data with shared parameters. We conducted experiments on WSJ and UD dependency parsing data sets, showing that our models can exploit the unlabeled data to improve the performance given a limited amount of labeled data, and outperform a previously proposed semi-supervised model.
翻訳日:2022-09-30 10:55:15 公開日:2020-11-02
# 論文評価推薦のための階層型双方向セルフアテンションネットワーク

Hierarchical Bi-Directional Self-Attention Networks for Paper Review Rating Recommendation ( http://arxiv.org/abs/2011.00802v1 )

ライセンス: Link先を確認
Zhongfen Deng, Hao Peng, Congying Xia, Jianxin Li, Lifang He, Philip S. Yu(参考訳) テキストレビューのレビューレーティング予測は、自然言語処理の幅広い応用で急速に成長している技術である。 しかし、既存のほとんどの手法では、手作りの機能を使ったり、単純なテキストコーパスによる深層学習を使って、データの階層を無視してレビュー評価の予測を行う。 本稿では,論文評定・推薦のための階層型双方向自己意識ネットワークフレームワーク(HabNet)を提案し,学術論文評定プロセスにおける効果的な意思決定ツールとして機能する。 具体的には,テキストエンコーダ(レベル1),リビュー内エンコーダ(レベル2),リビュー間エンコーダ(レベル3)の3段階のエンコーダを用いて,紙レビューの階層構造を活用する。 各エンコーダは,まず各レベルの文脈表現を導出し,さらに高いレベルの表現を生成し,学習過程の後,最終受理決定を行う上で有用な予測器を同定し,数値的なレビュー評価とレビュアーが伝達するテキスト感情との整合性を明らかにする。 さらに,データ不均衡状況におけるモデル評価のための2つの新しい指標を提案する。 公開データセット(PeerRead)と,我々の収集データセット(OpenReview)の大規模な実験により,提案手法が最先端手法よりも優れていることを示す。

Review rating prediction of text reviews is a rapidly growing technology with a wide range of applications in natural language processing. However, most existing methods either use hand-crafted features or learn features using deep learning with simple text corpus as input for review rating prediction, ignoring the hierarchies among data. In this paper, we propose a Hierarchical bi-directional self-attention Network framework (HabNet) for paper review rating prediction and recommendation, which can serve as an effective decision-making tool for the academic paper review process. Specifically, we leverage the hierarchical structure of the paper reviews with three levels of encoders: sentence encoder (level one), intra-review encoder (level two) and inter-review encoder (level three). Each encoder first derives contextual representation of each level, then generates a higher-level representation, and after the learning process, we are able to identify useful predictors to make the final acceptance decision, as well as to help discover the inconsistency between numerical review ratings and text sentiment conveyed by reviewers. Furthermore, we introduce two new metrics to evaluate models in data imbalance situations. Extensive experiments on a publicly available dataset (PeerRead) and our own collected dataset (OpenReview) demonstrate the superiority of the proposed approach compared with state-of-the-art methods.
翻訳日:2022-09-30 10:54:57 公開日:2020-11-02
# テンソル分解による非バイナリ構成木からの学習

Learning from Non-Binary Constituency Trees via Tensor Decomposition ( http://arxiv.org/abs/2011.00860v1 )

ライセンス: Link先を確認
Daniele Castellana, Davide Bacciu(参考訳) 文の構成木を双対形式で処理することは、文学において一般的かつ一般的なアプローチである。 しかし、構成木は自然にバイナリではない。 双対化の手順は構造を深く変化させ、代わりに近接している成分をさらに増やす。 本稿では,テンソルモデルを利用した非バイナリ構成木を扱うための新しい手法を提案する。 特に、標準テンソル分解に基づく強力な合成関数がそのようなリッチな構造をどのように利用するかを示す。 このアプローチの重要なポイントは、モデルパラメータの数を制限することができる因子行列に課される重み共有制約である。 最後に、この合成関数を利用するTree-LSTMモデルを導入し、異なるNLPタスクの性能を実験的に評価する。

Processing sentence constituency trees in binarised form is a common and popular approach in literature. However, constituency trees are non-binary by nature. The binarisation procedure changes deeply the structure, furthering constituents that instead are close. In this work, we introduce a new approach to deal with non-binary constituency trees which leverages tensor-based models. In particular, we show how a powerful composition function based on the canonical tensor decomposition can exploit such a rich structure. A key point of our approach is the weight sharing constraint imposed on the factor matrices, which allows limiting the number of model parameters. Finally, we introduce a Tree-LSTM model which takes advantage of this composition function and we experimentally assess its performance on different NLP tasks.
翻訳日:2022-09-30 10:54:35 公開日:2020-11-02
# exemplar guide アクティブラーニング

Exemplar Guided Active Learning ( http://arxiv.org/abs/2011.01285v1 )

ライセンス: Link先を確認
Jason Hartford, Kevin Leyton-Brown, Hadas Raviv, Dan Padnos, Shahar Lev, Barak Lenz(参考訳) 我々は、限られた予算を用いて、大規模な未ラベルデータセットの小さなサブセットをラベル付けする問題を考える。 我々は,単語感覚の曖昧さというNLP問題に動機付けられている。 どの単語に対しても、我々は知識ベースから候補ラベルのセットを持っているが、ラベルセットは必ずしもデータに何が起こるかを表すものではない: 現代の英語では感覚が稀であるため、コーパス内でほとんど発生しないラベルが存在するかもしれないし、逆に我々の知識ベースには存在しない真のラベルが存在するかもしれない。 本研究の目的は,ラベルなし集合において与えられたしきい値以上の頻度で発生する各「共通クラス」の例に対して可能な限り実行可能な分類器を得ることであり,ラベルがこの周波数未満で発生する「レーアクラス」から可能な限り少数の例をアノテートすることである。 課題は、どのラベルが一般的で、どのラベルが稀であるかが知られておらず、真のラベル分布が極端に歪む可能性があることだ。 1) 現代言語モデルが提供する文脈埋め込み空間を利用して, 希少なクラスを明示的に検索し, (2) 対象の閾値以下で高い確率で発生することを証明すれば, クラスを無視する停止規則を組み込んだアクティブラーニング手法を提案する。 我々は,本アルゴリズムが真のラベル周波数を全て知るという仮説的アプローチ以上のコストしかかからないことを証明し,自動探索を導入することで,目標精度に達するために必要なサンプル数を著しく削減できることを実験的に示す。

We consider the problem of wisely using a limited budget to label a small subset of a large unlabeled dataset. We are motivated by the NLP problem of word sense disambiguation. For any word, we have a set of candidate labels from a knowledge base, but the label set is not necessarily representative of what occurs in the data: there may exist labels in the knowledge base that very rarely occur in the corpus because the sense is rare in modern English; and conversely there may exist true labels that do not exist in our knowledge base. Our aim is to obtain a classifier that performs as well as possible on examples of each "common class" that occurs with frequency above a given threshold in the unlabeled set while annotating as few examples as possible from "rare classes" whose labels occur with less than this frequency. The challenge is that we are not informed which labels are common and which are rare, and the true label distribution may exhibit extreme skew. We describe an active learning approach that (1) explicitly searches for rare classes by leveraging the contextual embedding spaces provided by modern language models, and (2) incorporates a stopping rule that ignores classes once we prove that they occur below our target threshold with high probability. We prove that our algorithm only costs logarithmically more than a hypothetical approach that knows all true label frequencies and show experimentally that incorporating automated search can significantly reduce the number of samples needed to reach target accuracy levels.
翻訳日:2022-09-30 10:53:53 公開日:2020-11-02
# 事前学習言語モデルからの文埋め込みについて

On the Sentence Embeddings from Pre-trained Language Models ( http://arxiv.org/abs/2011.05864v1 )

ライセンス: Link先を確認
Bohan Li and Hao Zhou and Junxian He and Mingxuan Wang and Yiming Yang and Lei Li(参考訳) BERTのような事前訓練された文脈表現は自然言語処理において大きな成功を収めた。 しかし、微調整のない事前学習された言語モデルからの文の埋め込みは、文の意味的な意味をうまく捉えていないことが判明した。 本稿では,BERT埋め込みにおける意味情報が完全に活用されていないことを論じる。 まず,マスク付き言語モデルの事前学習目標と意味的類似性タスクとの理論的関連を理論的に明らかにし,さらにBERT文の埋め込みを経験的に分析する。 BERTは常に文の非滑らかな異方性意味空間を誘導し,その意味的類似性を損なう。 この問題に対処するために,非教師対象で学習した正規化フローにより,異方性文の埋め込み分布を滑らかで等方性ガウス分布に変換することを提案する。 実験の結果, 提案手法は, 様々な意味的テキスト類似性タスクにおいて, 最先端の文埋め込みに比べて有意な性能向上が得られた。 コードはhttps://github.com/bohanli/BERT-flowで入手できる。

Pre-trained contextual representations like BERT have achieved great success in natural language processing. However, the sentence embeddings from the pre-trained language models without fine-tuning have been found to poorly capture semantic meaning of sentences. In this paper, we argue that the semantic information in the BERT embeddings is not fully exploited. We first reveal the theoretical connection between the masked language model pre-training objective and the semantic similarity task theoretically, and then analyze the BERT sentence embeddings empirically. We find that BERT always induces a non-smooth anisotropic semantic space of sentences, which harms its performance of semantic similarity. To address this issue, we propose to transform the anisotropic sentence embedding distribution to a smooth and isotropic Gaussian distribution through normalizing flows that are learned with an unsupervised objective. Experimental results show that our proposed BERT-flow method obtains significant performance gains over the state-of-the-art sentence embeddings on a variety of semantic textual similarity tasks. The code is available at https://github.com/bohanli/BERT-flow.
翻訳日:2022-09-30 10:53:27 公開日:2020-11-02
# インクリメンタルガウス混合モデルを用いた高速強化学習

Fast Reinforcement Learning with Incremental Gaussian Mixture Models ( http://arxiv.org/abs/2011.00702v1 )

ライセンス: Link先を確認
Rafael Pinto(参考訳) 本稿では,連続状態空間における強化学習とデータ効率のよい関数近似器を統合する新しいアルゴリズムを提案する。 Incrmental Gaussian Mixture Network (IGMN)と呼ばれる単一パスから学習可能なオンラインおよびインクリメンタルなアルゴリズムが、結合状態とQ値空間のためのサンプル効率関数近似器として1つのモデルで採用され、その結果、簡潔でデータ効率のよいアルゴリズム、すなわち環境とのほとんど相互作用から学習する強化学習アルゴリズムとなった。 結果から得られたアルゴリズムの特性を解析し,igmn関数近似器を用いることで,従来の勾配降下法で学習されたニューラルネットワークとの関係において強化学習にいくつかの重要な利点が期待できることがわかった。

This work presents a novel algorithm that integrates a data-efficient function approximator with reinforcement learning in continuous state spaces. An online and incremental algorithm capable of learning from a single pass through data, called Incremental Gaussian Mixture Network (IGMN), was employed as a sample-efficient function approximator for the joint state and Q-values space, all in a single model, resulting in a concise and data-efficient algorithm, i.e., a reinforcement learning algorithm that learns from very few interactions with the environment. Results are analyzed to explain the properties of the obtained algorithm, and it is observed that the use of the IGMN function approximator brings some important advantages to reinforcement learning in relation to conventional neural networks trained by gradient descent methods.
翻訳日:2022-09-30 10:47:10 公開日:2020-11-02
# ファウショット機械翻訳のための創発的通信事前学習

Emergent Communication Pretraining for Few-Shot Machine Translation ( http://arxiv.org/abs/2011.00890v1 )

ライセンス: Link先を確認
Yaoyiran Li, Edoardo M. Ponti, Ivan Vuli\'c and Anna Korhonen(参考訳) 非常に多言語で事前訓練されたエンコーダに依存する最先端のモデルでは、下流アプリケーションではサンプル効率が向上するが、まだ大量の未学習テキストが必要である。 しかし、世界のほとんどの言語はそのような資源を欠いている。 そこで本研究では,言語データがない場合の教師なし知識伝達のより急進的な形態について検討する。 特に,レファレンシャルゲームからの創発的コミュニケーションを通じてニューラルネットワークをプレトレーニングするのは初めてです。 私たちの重要な前提は、画像上の接地コミュニケーションは、現実の環境の粗い近似として、自然言語を学ぶためのモデルに誘導的に偏っている、ということです。 一方、これは数ショット設定で機械翻訳にかなり効果があることが示される。 一方,本研究では,創発言語の性質をin vitroで調査するための外部評価プロトコルも提供する。 直感的には、それらが自然言語に近づくほど、それらを事前訓練することによって得られる利益は高くなる。 例えば、本研究では、下流の性能に及ぼす通信成功と最大シーケンス長の影響を計測する。 最後に,微調整中における最大ポスペリリ推論の正規化のためのアダプタ層とアニール方式を導入する。 これらは、知識伝達の促進と破滅的な忘れの防止に不可欠であることが判明した。 再帰的なベースラインと比較すると、この方法では、$9.0\%$$$\sim$ $147.6\%$ in bleuスコアが$500 nmtトレーニングインスタンスで、$5.1\%$$$$\sim$ $196.7\%$で$1,000$ nmtトレーニングインスタンスで4つの言語ペアにまたがる。 これらの概念実証の結果から,自然言語処理タスクと人工言語の外部評価の両方において,創発的コミュニケーション事前学習の可能性が示された。

While state-of-the-art models that rely upon massively multilingual pretrained encoders achieve sample efficiency in downstream applications, they still require abundant amounts of unlabelled text. Nevertheless, most of the world's languages lack such resources. Hence, we investigate a more radical form of unsupervised knowledge transfer in the absence of linguistic data. In particular, for the first time we pretrain neural networks via emergent communication from referential games. Our key assumption is that grounding communication on images---as a crude approximation of real-world environments---inductively biases the model towards learning natural languages. On the one hand, we show that this substantially benefits machine translation in few-shot settings. On the other hand, this also provides an extrinsic evaluation protocol to probe the properties of emergent languages ex vitro. Intuitively, the closer they are to natural languages, the higher the gains from pretraining on them should be. For instance, in this work we measure the influence of communication success and maximum sequence length on downstream performances. Finally, we introduce a customised adapter layer and annealing strategies for the regulariser of maximum-a-posteriori inference during fine-tuning. These turn out to be crucial to facilitate knowledge transfer and prevent catastrophic forgetting. Compared to a recurrent baseline, our method yields gains of $59.0\%$$\sim$$147.6\%$ in BLEU score with only $500$ NMT training instances and $65.1\%$$\sim$$196.7\%$ with $1,000$ NMT training instances across four language pairs. These proof-of-concept results reveal the potential of emergent communication pretraining for both natural language processing tasks in resource-poor settings and extrinsic evaluation of artificial languages.
翻訳日:2022-09-30 10:46:54 公開日:2020-11-02
# リアルタイム災害イベントに対するイベント関連バイアス除去

Event-Related Bias Removal for Real-time Disaster Events ( http://arxiv.org/abs/2011.00681v1 )

ライセンス: Link先を確認
Evangelia Spiliopoulou and Salvador Medina Maza and Eduard Hovy and Alexander Hauptmann(参考訳) ソーシャルメディアは、自然災害や大量攻撃などの危機事象に関する情報を共有する重要なツールとなっている。 有用な情報を含む実行可能なポストの検出には、膨大な量のデータをリアルタイムに分析する必要がある。 これは、動作可能な情報を含まない大量のポストがあるため、複雑な問題を引き起こす。 さらに、リアルタイムシステムにおける情報の分類には、新たな新興危機のデータがないため、ドメイン外のデータのトレーニングが必要である。 事前の作業は、同様のイベントタイプで事前トレーニングされたモデルに焦点を当てている。 しかし、これらのモデルが不要なイベント固有のバイアスを捉えている。例えばイベントの位置は、新興の新イベントからの新たな未知のデータに対する分類器の一般化可能性と性能に影響する。 本研究では,潜在事象固有のバイアスを除去し,ツイート重要度分類の性能を向上させるために,対向神経モデルを訓練する。

Social media has become an important tool to share information about crisis events such as natural disasters and mass attacks. Detecting actionable posts that contain useful information requires rapid analysis of huge volume of data in real-time. This poses a complex problem due to the large amount of posts that do not contain any actionable information. Furthermore, the classification of information in real-time systems requires training on out-of-domain data, as we do not have any data from a new emerging crisis. Prior work focuses on models pre-trained on similar event types. However, those models capture unnecessary event-specific biases, like the location of the event, which affect the generalizability and performance of the classifiers on new unseen data from an emerging new event. In our work, we train an adversarial neural model to remove latent event-specific biases and improve the performance on tweet importance classification.
翻訳日:2022-09-30 10:45:24 公開日:2020-11-02
# 言語理解のための事前学習されたトランスフォーマーの格子への適応

Adapting Pretrained Transformer to Lattices for Spoken Language Understanding ( http://arxiv.org/abs/2011.00780v1 )

ライセンス: Link先を確認
Chao-Wei Huang and Yun-Nung Chen(参考訳) 格子は、音声認識結果や異なる単語セグメンテーションなどの複数の仮説を符号化するコンパクトな表現である。 自動音声認識(ASR)によって生成された1-best結果とは対照的に,格子を符号化することで,音声言語理解(SLU)の性能が向上することを示す。 近年,トランスアーキテクチャを用いた事前学習型言語モデルにより,自然言語理解における最先端の成果が得られたが,格子を符号化する能力は検討されていない。 そこで本稿では,事前学習されたトランスフォーマーを格子入力に適用し,音声言語に特有な理解タスクを行う。 ATISデータセットのベンチマーク実験により,格子入力を持つ微調整済み変圧器の精度は1-bestの結果より向上した。 さらに, 異なる音響条件下での手法の有効性を示す。 私たちのコードはhttps://github.com/MiuLab/Lattice-SLUで公開されています。

Lattices are compact representations that encode multiple hypotheses, such as speech recognition results or different word segmentations. It is shown that encoding lattices as opposed to 1-best results generated by automatic speech recognizer (ASR) boosts the performance of spoken language understanding (SLU). Recently, pretrained language models with the transformer architecture have achieved the state-of-the-art results on natural language understanding, but their ability of encoding lattices has not been explored. Therefore, this paper aims at adapting pretrained transformers to lattice inputs in order to perform understanding tasks specifically for spoken language. Our experiments on the benchmark ATIS dataset show that fine-tuning pretrained transformers with lattice inputs yields clear improvement over fine-tuning with 1-best results. Further evaluation demonstrates the effectiveness of our methods under different acoustic conditions. Our code is available at https://github.com/MiuLab/Lattice-SLU
翻訳日:2022-09-30 10:44:52 公開日:2020-11-02