このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200206となっている論文です。

PDF登録状況(公開日: 20200206)

TitleAuthorsAbstract論文公表日・翻訳日
# 相互非バイアス基底に対するエントロピー不確実性関係の最適上限

Optimal upper bound of entropic uncertainty relation for mutually unbiased bases ( http://arxiv.org/abs/2002.00004v2 )

ライセンス: Link先を確認
Bilal Canturk and Zafer Gedik(参考訳) N$ Mutually Unbiased Bases (MUBs) のエントロピー不確実性関係の最適上限を得た。 我々は、$N$ MUBsで記述できる状態に対して、変分計算の手法を用いてきた。 この結果は、$n$が$d+1$である場合の任意の状態において有効であり、$d$は関連するシステムの次元である。 MUBsの拡張性に関する定量的基準を提供する。 さらに,古典的メモリを条件とした$d+1$オブザーバブルの相互情報にも結果を適用した。

We have obtained the optimal upper bound of entropic uncertainty relation for $N$ Mutually Unbiased Bases (MUBs). We have used the methods of variational calculus for the states that can be written in terms of $N$ MUBs. Our result is valid for any state when $N$ is $d+1$, where $d$ is the dimension of the related system. We provide a quantitative criterion for the extendibilty of MUBs. In addition, we have applied our result to the mutual information of $d+1$ observables conditioned with a classical memory.
翻訳日:2023-06-05 02:28:09 公開日:2020-02-06
# 光学ナノファイバー近傍のrydbergルビジウム原子の自発的放出とエネルギーシフト

Spontaneous emission and energy shifts of a Rydberg rubidium atom close to an optical nanofiber ( http://arxiv.org/abs/2002.01278v2 )

ライセンス: Link先を確認
E. Stourm, M. Lepers, J. Robert, S. Nic Chormaic, K. M{\o}lmer, E. Brion(参考訳) 本稿では,リドバーグ励起状態における^<^{87}\text{rb}$ atomの自発放出速度とラムシフトの数値計算を,シリカ光学ナノファイバー近傍の$\left(n\leq30\right)$を用いて行った。 これらの量がどのようにファイバーの半径、原子とファイバーの距離、原子角運動量分極の方向と異なる原子量子数に依存するかを調べる。 また、高度に分極可能なリドベルク状態に対して重要な四極性遷移の寄与について研究する。 この計算はdyadic green関数法に基づくマクロ量子電磁力学の定式化によって行われる。 これは、リドベルク原子が電磁スペクトルの広い範囲をカバーする多くの異なる遷移に沿って放射するので、シリカの分散特性と吸収特性を考慮に入れることができる。 私たちの研究は、量子光学と量子情報のためのrydberg atom-nanofiberインターフェースを構築するための重要な最初のステップです。

In this paper, we report on numerical calculations of the spontaneous emission rates and Lamb shifts of a $^{87}\text{Rb}$ atom in a Rydberg-excited state $\left(n\leq30\right)$ located close to a silica optical nanofiber. We investigate how these quantities depend on the fiber's radius, the distance of the atom to the fiber, the direction of the atomic angular momentum polarization as well as the different atomic quantum numbers. We also study the contribution of quadrupolar transitions, which may be substantial for highly polarizable Rydberg states. Our calculations are performed in the macroscopic quantum electrodynamics formalism, based on the dyadic Green's function method. This allows us to take dispersive and absorptive characteristics of silica into account; this is of major importance since Rydberg atoms emit along many different transitions whose frequencies cover a wide range of the electromagnetic spectrum. Our work is an important initial step towards building a Rydberg atom-nanofiber interface for quantum optics and quantum information purposes.
翻訳日:2023-06-04 18:44:41 公開日:2020-02-06
# スイッチング効果を持つschr\"odinger演算子

Schr\"odinger operators with a switching effect ( http://arxiv.org/abs/2002.02136v1 )

ライセンス: Link先を確認
Pavel Exner(参考訳) 本稿は,2018年2月にアムリザールで開催された第14回インドSIAM年次会議における本講演の内容について要約する。 ここでは、結合定数の値に依存するschr\"odinger演算子のクラスに対する突然のスペクトル変化の効果について論じる。 このような振る舞いのプロトタイプは、システムが結合する熱浴が有限の自由度を持つ場合でも不可逆的な振る舞いが可能であることを示し、正規ポテンシャルや磁場を持つこのモデルのいくつかの修正を分析し、また、x^py^p$ポテンシャルを負の半径対称項で修正する別のシステムとして考案されたスミランスキー=ソロマイアクモデルに見ることができる。 最後に、そのようなモデルにおける共振効果についても論じる。

This paper summarizes the contents of a plenary talk given at the 14th Biennial Conference of Indian SIAM in Amritsar in February 2018. We discuss here the effect of an abrupt spectral change for some classes of Schr\"odinger operators depending on the value of the coupling constant, from below bounded and partly or fully discrete, to the continuous one covering the whole real axis. A prototype of such a behavior can be found in Smilansky-Solomyak model devised to illustrate that an an irreversible behavior is possible even if the heat bath to which the systems is coupled has a finite number of degrees of freedom and analyze several modifications of this model, with regular potentials or a magnetic field, as well as another system in which $x^py^p$ potential is amended by a negative radially symmetric term. Finally, we also discuss resonance effects in such models.
翻訳日:2023-06-04 14:15:22 公開日:2020-02-06
# ダイヤモンド中の単一窒素空孔中心を有するナノスケール磁気測定用テーブルトップシステムの構築と運転

Construction and operation of a tabletop system for nanoscale magnetometry with single nitrogen-vacancy centers in diamond ( http://arxiv.org/abs/2002.02113v1 )

ライセンス: Link先を確認
Daiki Misonou, Kento Sasaki, Shuntaro Ishizu, Yasuaki Monnai, Kohei M. Itoh, and Eisuke Abe(参考訳) ダイヤモンド中の単一窒素空孔(NV)中心は、ナノスケールでの核磁気共鳴(NMR)に先立って単一の核スピンを検出できる固体量子磁気センサの主要な候補である。 それでも、多くの化学者や生物学者には、NV磁気センサがアクセスできないのは、実験的な設定と運用原理が従来のNMRと大きく異なるためである。 ここでは、主に市販の光学部品と電子部品から構築された単一のNVセンタを用いて、量子センシングのためのコンパクトなテーブルトップサイズのシステムを設計、構築、運用する。 我々は,ダイヤモンド中の1つの$^{13}$C核スピンの検出と相互作用パラメータのキャラクタリゼーション,およびダイヤモンド表面上の小さな陽子核スピンのアンサンブルの検出を可能にする,最先端の量子センシングプロトコルを実装することができることを示した。 本稿では,nvセンターで作業していない人によって再現可能となる,セットアップの詳細と実験手順について詳細な議論を行う。

A single nitrogen-vacancy (NV) center in diamond is a prime candidate for a solid-state quantum magnetometer capable of detecting single nuclear spins with prospective application to nuclear magnetic resonance (NMR) at the nanoscale. Nonetheless, an NV magnetometer is still less accessible to many chemists and biologists, as its experimental setup and operational principle are starkly different from those of conventional NMR. Here, we design, construct, and operate a compact tabletop-sized system for quantum sensing with a single NV center, built primarily from commercially available optical components and electronics. We show that our setup can implement state-of-the-art quantum sensing protocols that enable the detection of single $^{13}$C nuclear spins in diamond and the characterization of their interaction parameters, as well as the detection of a small ensemble of proton nuclear spins on the diamond surface. This article providing extensive discussions on the details of the setup and the experimental procedures, our system will be reproducible by those who have not worked on the NV centers previously.
翻訳日:2023-06-04 14:15:04 公開日:2020-02-06
# シリコンフォトニック回路におけるチップスケールフルストークス分光偏光度計

Chip-scale Full-Stokes Spectropolarimeter in Silicon Photonic Circuits ( http://arxiv.org/abs/2002.02062v1 )

ライセンス: Link先を確認
Zhongjin Lin, Tigran Dadalyan, Simon B\'elanger-de Villers, Tigran Galstian and Wei Shi(参考訳) 光の波長依存偏光状態は、光-物質相互作用に関する重要な情報をもたらす。 しかし、その測定はかさばるエネルギー消費デバイスに限定されており、現代のポータブルアプリケーションの多くを禁止している。 本稿では,CMOS互換シリコンフォトニクス技術を用いて実装したチップスケール分光偏光度計を提案する。 4つの小型バーニアマイクロ共鳴器スペクトロメータは、2dナノフォトニックアンテナとポラリメトリック回路からなる広帯域ポラリメータとモノリシックに統合され、フルストーク分光ポラリメータ分析を行う。 提案装置は1*0.6mm2の小さなフットプリントと360mWの低消費電力の固体分光分極溶液を提供する。 1〜nmの分解能を持つ50nmの広いスペクトル範囲にわたるフルストークススペクトル検出は、構造的キラリティーを有する物質の特徴を示す。 提案装置は、生体診断や化学分析から観測天文学まで幅広い分野における分光分極測定の応用を可能にする。

Wavelength-dependent polarization state of light carries crucial information about light-matter interactions. However, its measurement is limited to bulky, energy-consuming devices, which prohibits many modern, portable applications. Here, we propose and demonstrate a chip-scale spectropolarimeter implemented using a CMOS-compatible silicon photonics technology. Four compact Vernier microresonator spectrometers are monolithically integrated with a broadband polarimeter consisting of a 2D nanophotonic antenna and a polarimetric circuit to achieve full-Stokes spectropolarimetric analysis. The proposed device offers a solid-state spectropolarimetry solution with a small footprint of 1*0.6 mm2 and low power consumption of 360 mW}. Full-Stokes spectral detection across a broad spectral range of 50 nm with a resolution of 1~nm is demonstrated in characterizing a material possessing structural chirality. The proposed device may enable a broader application of spectropolarimetry in the fields ranging from biomedical diagnostics and chemical analysis to observational astronomy.
翻訳日:2023-06-04 14:14:44 公開日:2020-02-06
# クーロン波束散乱効果の測定可能性

Measurability of Coulomb wavepacket scattering effects ( http://arxiv.org/abs/2002.02047v1 )

ライセンス: Link先を確認
Scott E. Hoffmann(参考訳) 以前の論文 (J. Phys. B: At. Mol. Phys. 50, 215302 (2017)] では、波束を用いた場合、偏波解析が非相対論的クーロン散乱に適用可能であることを示した。 散乱幾何は特別なものと考えられており、波束とポテンシャルの中心の間の正面衝突があった。 以上の結果から, この場合, 金の翼からアルファ散乱を記述するために, 前方方向の小さな角度に対して低い確率の影帯が予測された。 本稿では, 平均運動量方向に垂直なウェーブパレット中心の変位である非ゼロ衝突パラメータの場合に対して, 結果を一般化する。 衝突パラメータが大きい事象から前方方向の大きなフラックスを予測する。 その結果,波束の空間幅に比例する衝撃パラメータに対して,偏差領域に散乱する有意な確率が得られた。 衝突パラメータの平均化は、ゼロ衝突パラメータ予測よりも低い角度までラザフォードの公式とよく一致した予測を生成する。 実実験で生じるであろう問題を考察し、ラザフォードの公式から逸脱を測定する可能性について議論する。

A previous paper [J. Phys. B: At. Mol. Opt. Phys. 50, 215302 (2017)] showed that partial wave analysis becomes applicable to nonrelativistic Coulomb scattering if wavepackets are used. The scattering geometry considered was special: that of a head-on collision between the wavepacket and the centre of the potential. Our results predicted, in this case, a shadow zone of low probability for small angles around the forward direction for the description of alpha scattering from a gold foil. In this paper we generalize the results to the case of a nonzero impact parameter, a displacement of the wavepacket centre perpendicular to the average momentum direction. We predict a large flux in the forward direction from events with large impact parameters. We find a significant probability of scattering into the deviation region for impact parameters of order the spatial width of the wavepacket. Averaging over impact parameters produces predictions in excellent agreement with the Rutherford formula down to lower angles than for the zero impact parameter prediction. We consider issues that would arise in a real experiment and discuss the possibility of measuring a deviation from the Rutherford formula.
翻訳日:2023-06-04 14:14:17 公開日:2020-02-06
# BatPay: ERC20トークンの繰り返しマイクロペイメントのためのガス効率の良いプロトコル

BatPay: a gas efficient protocol for the recurrent micropayment of ERC20 tokens ( http://arxiv.org/abs/2002.02316v1 )

ライセンス: Link先を確認
Hartwig Mayer, Ismael Bejarano, Daniel Fernandez, Gustavo Ajzenman, Nicolas Ayala, Nahuel Santoalla, Carlos Sarraute, Ariel Futoransky(参考訳) BatPayは、ERC20トークンの転送のためのプロキシスケーリングソリューションである。 デジタル市場や報酬と配当の分配など、一対多で数対多のシナリオでのマイクロペイメントに適している。 batpayでは、ethereumブロックチェーン上でガス消費を最適化するために、同様の操作を単一のトランザクションにまとめる。 さらに、いくつかのコストのかかる検証はチャレンジゲームに置き換えられ、計算コストの大部分をオフチェーンでプッシュする。 これにより、Ethereumブロックチェーン上で1秒あたり約1700トランザクションを達成し、転送コストを3桁に削減する。 さらに、etherのないエンドユーザー操作のためのメタトランザクションや、デジタル商品の原子交換のためのキーロックされた支払いなど、関連する多くの機能が含まれている。

BatPay is a proxy scaling solution for the transfer of ERC20 tokens. It is suitable for micropayments in one-to-many and few-to-many scenarios, including digital markets and the distribution of rewards and dividends. In BatPay, many similar operations are bundled together into a single transaction in order to optimize gas consumption on the Ethereum blockchain. In addition, some costly verifications are replaced by a challenge game, pushing most of the computing cost off-chain. This results in a gas reduction of the transfer costs of three orders of magnitude, achieving around 1700 transactions per second on the Ethereum blockchain. Furthermore, it includes many relevant features, like meta-transactions for end-user operation without ether, and key-locked payments for atomic exchange of digital goods.
翻訳日:2023-06-04 14:05:31 公開日:2020-02-06
# 駆動型2レベル量子システムにおけるオフ共振効果の情報幾何学的展望

Information Geometric Perspective on Off-Resonance Effects in Driven Two-Level Quantum Systems ( http://arxiv.org/abs/2002.02248v1 )

ライセンス: Link先を確認
Carlo Cafaro, Steven Gassner, Paul M. Alsing(参考訳) 正解可能な一般化半古典ラビ系のクラスに対するオフ共鳴効果に関する情報幾何学的解析を行う。 具体的には、su(2; c)時間依存ハミルトニアンモデルで指定された4つの異なるオフ共振駆動方式による人口移動を考察する。 各スキームについて,対応する遷移確率ベクトル多様体上の測地路と測地速度の両方の観点から,オン共振条件からの離脱の結果について検討する。 特に、オフ共振効果に対する各駆動スキームのロバスト性を分析した。 さらに, 運転計画における速度とロバスト性とのトレードオフの可能性について報告する。 最後に、オン共振器からオフ共振器へ遷移する際の各種駆動方式における性能の異なる相対ランクの出現について論じる。

We present an information geometric analysis of off-resonance effects on classes of exactly solvable generalized semi-classical Rabi systems. Specifically, we consider population transfer performed by four distinct off-resonant driving schemes specified by su(2; C) time-dependent Hamiltonian models. For each scheme, we study the consequences of a departure from the on-resonance condition in terms of both geodesic paths and geodesic speeds on the corresponding manifold of transition probability vectors. In particular, we analyze the robustness of each driving scheme against off-resonance effects. Moreover, we report on a possible tradeoff between speed and robustness in the driving schemes being investigated. Finally, we discuss the emergence of a different relative ranking in terms of performance among the various driving schemes when transitioning from on-resonant to off-resonant scenarios.
翻訳日:2023-06-04 14:04:34 公開日:2020-02-06
# 量子力学進化による最小エントロピー生成経路の情報幾何学的側面

Information Geometry Aspects of Minimum Entropy Production Paths from Quantum Mechanical Evolutions ( http://arxiv.org/abs/2002.02244v1 )

ライセンス: Link先を確認
Carlo Cafaro, Paul M. Alsing(参考訳) パラメトリズド量子状態の多様体上の測地進化におけるエントロピー速度とエントロピー生成速度に関する情報幾何解析について述べる。 これらの純粋な状態は、適切なsu(2; C)時間依存のハミルトン作用素の出力として現れ、異なる種類のアナログ量子探索スキームを記述するのに用いられる。 su(2; c)ハミルトニアンモデルを指定する外部時間依存磁場におけるスピン1/2粒子の時間的量子力学的進化の解析から得られたパラメータ付き二乗確率振幅に沿って評価されたフィッシャー情報によって多様体上のリーマン計量が特定される。 有限時間間隔で、初期状態から多様体上の最終状態へ量子系を転送するために最小の作用法を用いる。 さらに、最適(最適)経路が2つの状態間の最短(測地)経路であることを実証し、特に、転送中に発生する全エントロピー生成を最小化する。 最後に、アナログ量子探索問題に関心のある多くの物理的シナリオにおいて、エントロピー速度と最適な転送経路に沿った全エントロピー生成を評価することにより、高速な転送が必然的に高いエントロピー生成速度に対応することを明確に定量的に示す。 したがって、量子移動過程において、低いエントロピー効率値はより高いエントロピー速度値に付随すると考えられる。

We present an information geometric analysis of entropic speeds and entropy production rates in geodesic evolution on manifolds of parametrized quantum states. These pure states emerge as outputs of suitable su(2; C) time-dependent Hamiltonian operators used to describe distinct types of analog quantum search schemes. The Riemannian metrization on the manifold is specified by the Fisher information evaluated along the parametrized squared probability amplitudes obtained from analysis of the temporal quantum mechanical evolution of a spin-1/2 particle in an external time-dependent magnetic field that specifies the su(2; C) Hamiltonian model. We employ a minimum action method to transfer a quantum system from an initial state to a final state on the manifold in a finite temporal interval. Furthermore, we demonstrate that the minimizing (optimum) path is the shortest (geodesic) path between the two states, and, in particular, minimizes also the total entropy production that occurs during the transfer. Finally, by evaluating the entropic speed and the total entropy production along the optimum transfer paths in a number of physical scenarios of interest in analog quantum search problems, we show in a clear quantitative manner that to a faster transfer there corresponds necessarily a higher entropy production rate. Thus, we conclude that lower entropic efficiency values appear to accompany higher entropic speed values in quantum transfer processes.
翻訳日:2023-06-04 14:04:08 公開日:2020-02-06
# 一般化量子探索ハミルトン進化における遷移確率

Transition Probabilities in Generalized Quantum Search Hamiltonian Evolutions ( http://arxiv.org/abs/2002.02242v1 )

ライセンス: Link先を確認
Steven Gassner, Carlo Cafaro, Salvatore Capozziello(参考訳) 量子コンピューティングにおける関連する問題は、適切な駆動ハミルトニアンによって定義されたシュル・オーディンガーの量子力学的進化に従って、ソース状態がターゲット状態にどれだけ速く駆動できるかである。 本稿では,マルチパラメータ一般化時間非依存ハミルトニアンにより定義される連続時間量子探索問題において,ソース状態からターゲット状態への遷移確率を計算するために必要な計算面を詳細に検討する。 特に、速度(最小探索時間)と忠実度(最大成功確率)の観点から量子探索の性能を定量化することは、一般化されたハミルトン多様体から現れる様々な特殊ケースを考える。 最適な量子探索の文脈では、既知のファリー・ガトマンのアナログ量子探索アルゴリズムである最小探索時間(minimum search time)の観点で、それを上回ることができる。 ほぼ最適の量子探索の文脈では、十分な成功確率を求めるだけで最適な探索アルゴリズムより優れている部分最適探索アルゴリズムを同定できることが示される。 最後に,量子情報処理における理論的および実践的重要性の両面から,速度と忠実性のトレードオフの関連性について論じる。

A relevant problem in quantum computing concerns how fast a source state can be driven into a target state according to Schr\"odinger's quantum mechanical evolution specified by a suitable driving Hamiltonian. In this paper, we study in detail the computational aspects necessary to calculate the transition probability from a source state to a target state in a continuous time quantum search problem defined by a multi-parameter generalized time-independent Hamiltonian. In particular, quantifying the performance of a quantum search in terms of speed (minimum search time) and fidelity (maximum success probability), we consider a variety of special cases that emerge from the generalized Hamiltonian. In the context of optimal quantum search, we find it is possible to outperform, in terms of minimum search time, the well-known Farhi-Gutmann analog quantum search algorithm. In the context of nearly optimal quantum search, instead, we show it is possible to identify sub-optimal search algorithms capable of outperforming optimal search algorithms if only a sufficiently high success probability is sought. Finally, we briefly discuss the relevance of a tradeoff between speed and fidelity with emphasis on issues of both theoretical and practical importance to quantum information processing.
翻訳日:2023-06-04 14:03:46 公開日:2020-02-06
# 高温量子イジングモデルの古典的シミュレーション

Classical Simulation of High Temperature Quantum Ising Models ( http://arxiv.org/abs/2002.02232v1 )

ライセンス: Link先を確認
Elizabeth Crosson, Samuel Slezak(参考訳) 我々は、無秩序物質や量子アニーラモデルを含む一般化量子イジングモデルについて検討し、システムサイズの独立しきい値を超えるすべての温度において、世界線熱バス更新に基づくパス積分モンテカルロ法は、n$ qubit系に対して常に$\mathcal{o}(n \log n)$の定常性に混ざり合うことを証明し、したがって分割関数に対する多項式時間近似スキームを提供する。 この結果は、温度が4以上のときは常に、局所結合強度の単位で測定される全ての量子ビットの最大相互作用度(原子価)の2倍となる。 例えば、フラストレーション量子イジング模型をモデル化した超伝導デバイスの熱状態の古典的なシミュレーションは、最大価が6で1GHzの結合強度が800 mK以上の温度で常に可能であることを示唆している。 量子系は高温であるにもかかわらず、量子-古典写像から生じる古典的なスピン系は強いカップリングを含み、シングルサイトグラウバー力学がゆっくりと混合するので、この結果はワールドライン更新(効率的に実装できるクラスタ更新の一種)の使用に依存する。 この結果は、量子イジングモデルの平衡状態に基づく様々なNISQデバイスを用いたアナログ量子シミュレーションにおいて、量子優位性に必要な温度に明確な制約を課す。

We consider generalized quantum Ising models, including those which could describe disordered materials or quantum annealers, and we prove that for all temperatures above a system-size independent threshold the path integral Monte Carlo method based on worldline heat-bath updates always mixes to stationarity in time $\mathcal{O}(n \log n)$ for an $n$ qubit system, and therefore provides a fully polynomial-time approximation scheme for the partition function. This result holds whenever the temperature is greater than four plus twice the maximum interaction degree (valence) over all qubits, measured in units of the local coupling strength. For example, this implies that the classical simulation of the thermal state of a superconducting device modeling a frustrated quantum Ising model with maximum valence of 6 and coupling strengths of 1 GHz is always possible at temperatures above 800 mK. Despite the quantum system being at high temperature, the classical spin system resulting from the quantum-to-classical mapping contains strong couplings which cause the single-site Glauber dynamics to mix slowly, therefore this result depends on the use of worldline updates (which are a form of cluster updates that can be implemented efficiently). This result places definite constraints on the temperatures required for a quantum advantage in analog quantum simulation with various NISQ devices based on equilibrium states of quantum Ising models.
翻訳日:2023-06-04 14:03:29 公開日:2020-02-06
# adPerf: サードパーティ広告のパフォーマンスを特徴付ける

adPerf: Characterizing the Performance of Third-party Ads ( http://arxiv.org/abs/2002.05666v1 )

ライセンス: Link先を確認
Behnam Pourghassemi, Jordan Bonecutter, Zhou Li, Aparna Chandramowlishwaran(参考訳) オンライン広告によるWebサイトやWebアプリの収益化は、Webエコシステムに広く浸透している。 オンライン広告のエコシステムは、今やパブリッシャーにこれらのサードパーティドメインからの広告を統合するよう強制している。 一方で、これは近年積極的に研究されているプライバシーとセキュリティの懸念を提起している。 一方、今日のブラウザが複雑なアニメーションとjavascriptで動的ウェブページをロードする能力を考えると、オンライン広告も変化し、webページのパフォーマンスに大きな影響を与える可能性がある。 オンライン広告のパフォーマンスコストは、最終的にユーザーの満足度、インターネット料金、デバイスエネルギー消費に影響を与えるため、非常に重要である。 本稿では,Web広告の性能評価を深く,かつ第1級に適用する。 アドブロッカーに主に依存する従来の取り組みとは異なり、Webブラウザのページ読み込みプロセスできめ細かい分析を行い、Web広告のパフォーマンスコストを減らします。 広告のすべてのコンポーネントによってコストを特徴付けることを目指しており、パブリッシャー、広告シンジケート、広告主は詳細なガイダンスで広告のパフォーマンスを向上させることができる。 この目的のために、我々はブラウザアクティビティ(javascriptやレイアウトなど)の粒度で、ページ読み込みワークロードを広告関連およびメインコンテントに分類する、chromeブラウザ用のインフラストラクチャadperfを開発します。 評価の結果,オンライン広告はブラウザページ読み込み作業の15%以上を占め,その約88%がJavaScriptに費やされていることがわかった。 また、Web広告のソースと配信チェーンを追跡し、広告コンテンツの起源を考慮したパフォーマンス分析を行う。 我々は、よく知られたサードパーティー広告ドメインのうち2つが広告パフォーマンスコストの35%に寄与し、驚くべきことに、トップニュースのウェブサイトには、広告パフォーマンスコストの37%以上を占める未知のサードパーティー広告が含まれていることを観察した。

Monetizing websites and web apps through online advertising is widespread in the web ecosystem. The online advertising ecosystem nowadays forces publishers to integrate ads from these third-party domains. On the one hand, this raises several privacy and security concerns that are actively studied in recent years. On the other hand, given the ability of today's browsers to load dynamic web pages with complex animations and Javascript, online advertising has also transformed and can have a significant impact on webpage performance. The performance cost of online ads is critical since it eventually impacts user satisfaction as well as their Internet bill and device energy consumption. In this paper, we apply an in-depth and first-of-a-kind performance evaluation of web ads. Unlike prior efforts that rely primarily on adblockers, we perform a fine-grained analysis on the web browser's page loading process to demystify the performance cost of web ads. We aim to characterize the cost by every component of an ad, so the publisher, ad syndicate, and advertiser can improve the ad's performance with detailed guidance. For this purpose, we develop an infrastructure, adPerf, for the Chrome browser that classifies page loading workloads into ad-related and main-content at the granularity of browser activities (such as Javascript and Layout). Our evaluations show that online advertising entails more than 15% of browser page loading workload and approximately 88% of that is spent on JavaScript. We also track the sources and delivery chain of web ads and analyze performance considering the origin of the ad contents. We observe that 2 of the well-known third-party ad domains contribute to 35% of the ads performance cost and surprisingly, top news websites implicitly include unknown third-party ads which in some cases build up to more than 37% of the ads performance cost.
翻訳日:2023-06-04 13:56:56 公開日:2020-02-06
# プログラム可能なトラップイオン量子コンピュータ上での量子ウォークとディラックセルオートマトン

Quantum walks and Dirac cellular automata on a programmable trapped-ion quantum computer ( http://arxiv.org/abs/2002.02537v1 )

ライセンス: Link先を確認
C. Huerta Alderete, Shivani Singh, Nhung H. Nguyen, Daiwei Zhu, Radhakrishnan Balu, Christopher Monroe, C. M. Chandrashekar, and Norbert M. Linke(参考訳) 量子ウォーク形式論(quantum walk formalism)は、ディラック方程式のシミュレーション、低エネルギーと高エネルギーの双方における異なるダイナミクス、幅広い量子アルゴリズムの開発など、量子システムのモデル化に広く使われ、非常に成功したフレームワークである。 ここでは、5量子ビットトラップイオン量子プロセッサ上の位置空間における離散時間量子ウォークの実装について述べる。 マルチ量子ビット状態におけるウォーカー位置の空間を符号化し、異なる量子ウォークパラメータで動作させるようにプログラムし、可変質量パラメータを持つディラックセルオートマトンを実験的に実現する。 量子ウォーク回路と位置状態マッピングはより大きなモデルや物理システムに好適にスケールし、離散時間量子ウォークアルゴリズムに基づく任意のアルゴリズムの実装とディラック方程式の離散化されたバージョンに関連するダイナミクスを実現する。

The quantum walk formalism is a widely used and highly successful framework for modeling quantum systems, such as simulations of the Dirac equation, different dynamics in both the low and high energy regime, and for developing a wide range of quantum algorithms. Here we present the circuit-based implementation of a discrete-time quantum walk in position space on a five-qubit trapped-ion quantum processor. We encode the space of walker positions in particular multi-qubit states and program the system to operate with different quantum walk parameters, experimentally realizing a Dirac cellular automaton with tunable mass parameter. The quantum walk circuits and position state mapping scale favorably to a larger model and physical systems, allowing the implementation of any algorithm based on discrete-time quantum walks algorithm and the dynamics associated with the discretized version of the Dirac equation.
翻訳日:2023-06-04 13:56:06 公開日:2020-02-06
# 割引性能基準を用いたコヒーレント量子lqg制御合成へのホモトピー的アプローチ

A homotopy approach to coherent quantum LQG control synthesis using discounted performance criteria ( http://arxiv.org/abs/2002.02443v1 )

ライセンス: Link先を確認
Igor G. Vladimirov, Ian R. Petersen(参考訳) 本稿では,プラントとコヒーレント(測定不要)制御器のフィールド経由フィードバック接続に対する線形四重項ガウス制御について述べる。 プラントとコントローラは、線形量子確率微分方程式によって制御される多モード開量子調和振動子である。 制御の目的は、クローズドループシステムを内部的に安定させ、植物変数と量子物理実現可能性(PR)制約による制御出力を含む無限水平二次コストを最小化することである。 このコヒーレント量子LQG (CQLQG) 制御問題は、10年以上研究の関心を集めてきたが、分離原理と古典的なリカティ方程式の形での解は認めていない。 実効時間地平線によりパラメータ化された割引CQLQG制御問題群に変分手法を適用した。 これによりホモトピーアルゴリズムが生まれ、これはPRコントローラで初期化され(必ずしも安定化しない)、その極限における元の問題に対する局所最適安定化コントローラを目指している。

This paper is concerned with linear-quadratic-Gaussian (LQG) control for a field-mediated feedback connection of a plant and a coherent (measurement-free) controller. Both the plant and the controller are multimode open quantum harmonic oscillators governed by linear quantum stochastic differential equations. The control objective is to make the closed-loop system internally stable and to minimize the infinite-horizon quadratic cost involving the plant variables and the controller output subject to quantum physical realizability (PR) constraints. This coherent quantum LQG (CQLQG) control problem, which has been of active research interest for over ten years, does not admit a solution in the form of separation principle and independent Riccati equations known for its classical counterpart. We apply variational techniques to a family of discounted CQLQG control problems parameterized by an effective time horizon. This gives rise to a homotopy algorithm, which is initialized with a PR (but not necessarily stabilizing) controller and aims at a locally optimal stabilizing controller for the original problem in the limit.
翻訳日:2023-06-04 13:54:17 公開日:2020-02-06
# マルチモード量子光学の実現のための一般化アプローチ

Generalized approach for enabling multimode quantum optics ( http://arxiv.org/abs/2002.02407v1 )

ライセンス: Link先を確認
Elie Gouzien (INPHYNI), S\'ebastien Tanzilli (INPHYNI), Virginia d'Auria (INPHYNI), Giuseppe Patera (PhLAM)(参考訳) 二次ハミルトニアンの下で進化する任意の多モード量子光学系の研究を可能にする普遍的なアプローチを開発する。 本手法は,標準的なシンプレクティック解析を一般化し,従来の理論手法が適用できない状況でもマルチモードシステムを扱うことができる。 これにより、光学パラメトリック発振器からシリコンベースのマイクロリング共振器、光機械システムまで、様々な実験用量子光学用キーリソースの記述と調査が可能になる。

We develop a universal approach enabling the study of any multimode quantum optical system evolving under a quadratic Hamiltonian. Our strategy generalizes the standard symplectic analysis and permits the treatment of multimode systems even in situations where traditional theoretical methods cannot be applied. This enables the description and investigation of a broad variety of key-resources for experimental quantum optics, ranging from optical parametric oscillators, to silicon-based micro-ring resonator, as well as opto-mechanical systems.
翻訳日:2023-06-04 13:53:57 公開日:2020-02-06
# 深層学習における重み合いの役割について

On the Role of Weight Sharing During Deep Option Learning ( http://arxiv.org/abs/1912.13408v2 )

ライセンス: Link先を確認
Matthew Riemer, Ignacio Cases, Clemens Rosenbaum, Miao Liu, Gerald Tesauro(参考訳) options frameworkは、強化学習で時間的に拡張されたアクションを構築するための一般的なアプローチである。 特に、option-critic architectureは、時間内に拡張されたアクションをスクラッチから学習するための汎用ポリシー勾配定理を提供する。 しかし、過去の研究は、オプションクリティカルの各コンポーネントが独立したパラメータを持つというキーとなる仮定を下している。 この研究では、表向きの場合において、オプション批判のポリシー勾配定理のこの重要な仮定は、常に深い関数近似の設定において破られることに注意する。 したがって、この仮定を再考し、更新毎にアーキテクチャ全体を最適化するオプション批判および階層的オプション批判トレーニングのより一般的な拡張を検討する。 パラメータ独立を仮定しないことは、オプションよりもポリシーを訓練することは、基本となるオプションのダイナミクスから切り離すことができるという事前の作業に対する信念に挑戦する。 実際、学習は、実際に選択肢が終了しそうな州において、オプションよりもポリシーに集中することで加速することができる。 我々は,Atariゲームの効率的な学習のサンプリングに新たなアルゴリズムを応用し,長い選択肢を学習する際の安定性と収束性を大幅に向上させることを示した。

The options framework is a popular approach for building temporally extended actions in reinforcement learning. In particular, the option-critic architecture provides general purpose policy gradient theorems for learning actions from scratch that are extended in time. However, past work makes the key assumption that each of the components of option-critic has independent parameters. In this work we note that while this key assumption of the policy gradient theorems of option-critic holds in the tabular case, it is always violated in practice for the deep function approximation setting. We thus reconsider this assumption and consider more general extensions of option-critic and hierarchical option-critic training that optimize for the full architecture with each update. It turns out that not assuming parameter independence challenges a belief in prior work that training the policy over options can be disentangled from the dynamics of the underlying options. In fact, learning can be sped up by focusing the policy over options on states where options are actually likely to terminate. We put our new algorithms to the test in application to sample efficient learning of Atari games, and demonstrate significantly improved stability and faster convergence when learning long options.
翻訳日:2023-01-16 20:13:43 公開日:2020-02-06
# RSL-Net:地上のレーダーから撮影した衛星画像

RSL-Net: Localising in Satellite Images From a Radar on the Ground ( http://arxiv.org/abs/2001.03233v2 )

ライセンス: Link先を確認
Tim Y. Tang, Daniele De Martini, Dan Barnes, Paul Newman(参考訳) 本論文は,地上車両に搭載されたFMCWレーダを用いた頭上画像における車両位置決めについて述べる。 FMCWレーダーは、車両のローカライゼーションに異常な約束と有効性を提供する。 全ての天候や照明条件に不注意である。 しかし、ミリメートルのレーダー波と物理的環境の間の相互作用の複雑さは、難しい領域となっている。 インフラストラクチャフリーの大規模なレーダーベースのローカライズが初期段階にある。 典型的には地図が作られ、センサーの性質と互換性のある適切な技術が身につけられる。 この作業では、レーダーベースのマップの必要性を排除しました。 本稿では,信号タイプの複雑さを自然に扱うだけでなく,クロスモーダル処理の文脈でそれを行う手法を提案する。

This paper is about localising a vehicle in an overhead image using FMCW radar mounted on a ground vehicle. FMCW radar offers extraordinary promise and efficacy for vehicle localisation. It is impervious to all weather types and lighting conditions. However the complexity of the interactions between millimetre radar wave and the physical environment makes it a challenging domain. Infrastructure-free large-scale radar-based localisation is in its infancy. Typically here a map is built and suitable techniques, compatible with the nature of sensor, are brought to bear. In this work we eschew the need for a radar-based map; instead we simply use an overhead image -- a resource readily available everywhere. This paper introduces a method that not only naturally deals with the complexity of the signal type but does so in the context of cross modal processing.
翻訳日:2023-01-13 05:31:53 公開日:2020-02-06
# 環境行動における境界のカウンターサンプル学習

Counter-example Guided Learning of Bounds on Environment Behavior ( http://arxiv.org/abs/2001.07233v3 )

ライセンス: Link先を確認
Yuxiao Chen, Sumanth Dathathri, Tung Phan-Minh, and Richard M. Murray(参考訳) 複雑な環境と対話する自律システムの構築に対する関心が高まっている。 このような環境の正確なモデルを得る際の困難さは、システムの性能を評価し保証するタスクに課題をもたらす。 本稿では,環境の正確なモデルを用いずに,仕様適合性を評価可能なデータ駆動型ソリューションを提案する。 提案手法では,システムの所望の動作をデータと仕様を用いて,環境の動作の保守的リアクティブ境界を学習する。 第一に、このアプローチは、環境の動作に保守的な反応境界を学習することから始まり、その可能な振る舞いを高い確率で捉える。 このバウンダリは検証を支援するために使用され、もしこのバウンダリの下で検証が失敗した場合、アルゴリズムは反例を返し、どのように障害が発生したかを示し、バウンダリを洗練するためにこれらを使用する。 2つのケーススタディを通じて,アプローチの適用性を示す。 一 おもちゃのマルチロボットシステムの制御装置の検証及び 二 実世界の人間の運転データに基づき、車線変更操作中の人間とロボットの相互作用の事例を検証すること。

There is a growing interest in building autonomous systems that interact with complex environments. The difficulty associated with obtaining an accurate model for such environments poses a challenge to the task of assessing and guaranteeing the system's performance. We present a data-driven solution that allows for a system to be evaluated for specification conformance without an accurate model of the environment. Our approach involves learning a conservative reactive bound of the environment's behavior using data and specification of the system's desired behavior. First, the approach begins by learning a conservative reactive bound on the environment's actions that captures its possible behaviors with high probability. This bound is then used to assist verification, and if the verification fails under this bound, the algorithm returns counter-examples to show how failure occurs and then uses these to refine the bound. We demonstrate the applicability of the approach through two case-studies: i) verifying controllers for a toy multi-robot system, and ii) verifying an instance of human-robot interaction during a lane-change maneuver given real-world human driving data.
翻訳日:2023-01-08 05:47:58 公開日:2020-02-06
# 医療・医療における人工知能:現状と近未来の応用と倫理的・社会的影響のレビューと分類

Artificial intelligence in medicine and healthcare: a review and classification of current and near-future applications and their ethical and social Impact ( http://arxiv.org/abs/2001.09778v2 )

ライセンス: Link先を確認
Emilio G\'omez-Gonz\'alez, Emilia Gomez, Javier M\'arquez-Rivas, Manuel Guerrero-Claro, Isabel Fern\'andez-Lizaranzu, Mar\'ia Isabel Relimpio-L\'opez, Manuel E. Dorado, Mar\'ia Jos\'e Mayorga-Buiza, Guillermo Izquierdo-Ayuso, Luis Capit\'an-Morales(参考訳) 本稿では、医学および医療における人工知能(ai)の現在および近未来の応用について概観し、その倫理的、社会的な側面、潜在的利益と落とし穴、そして議論の余地があり、文献では深く論じられていない問題を分類する。 この研究は、既存のソフトウェア、個人監視装置、遺伝子検査および編集ツール、パーソナライズされたデジタルモデル、オンラインプラットフォーム、拡張現実デバイス、外科およびコンパニオンロボティクスを含む、研究と技術の最先端の分析に基づいている。 われわれは,「拡張パーソナライズド・メディカル」の概念を提示し,医療と医療におけるAIの既存の応用を概観し,医療AIシステムの一般の認識を探求し,同時に,基本的な医療概念に疑問を呈する特別な機会と欠点を提示する方法について述べる。 これらのトピックの多くは、今後10年間、世界保健機関が定義した緊急優先事項と一致する。 さらに,ユビキタス情報時代における医師や患者の役割の変容について検討し,医療部門を「フェイクベース」,「患者生成」,「科学的に調整」に分割するリスクを特定し,さらに詳細な分析と公開討論を必要とするいくつかの側面に注目した。

This paper provides an overview of the current and near-future applications of Artificial Intelligence (AI) in Medicine and Health Care and presents a classification according to their ethical and societal aspects, potential benefits and pitfalls, and issues that can be considered controversial and are not deeply discussed in the literature. This work is based on an analysis of the state of the art of research and technology, including existing software, personal monitoring devices, genetic tests and editing tools, personalized digital models, online platforms, augmented reality devices, and surgical and companion robotics. Motivated by our review, we present and describe the notion of 'extended personalized medicine', we then review existing applications of AI in medicine and healthcare and explore the public perception of medical AI systems, and how they show, simultaneously, extraordinary opportunities and drawbacks that even question fundamental medical concepts. Many of these topics coincide with urgent priorities recently defined by the World Health Organization for the coming decade. In addition, we study the transformations of the roles of doctors and patients in an age of ubiquitous information, identify the risk of a division of Medicine into 'fake-based', 'patient-generated', and 'scientifically tailored', and draw the attention of some aspects that need further thorough analysis and public debate.
翻訳日:2023-01-07 18:47:35 公開日:2020-02-06
# P$ILCRO: 重要景観を再び平らにする

$\P$ILCRO: Making Importance Landscapes Flat Again ( http://arxiv.org/abs/2001.09696v2 )

ライセンス: Link先を確認
Vincent Moens, Simiao Yu, Gholamreza Salimi-Khorshidi(参考訳) 畳み込みニューラルネットワークは、画像分類、オブジェクト検出、シーケンスモデリングなど、多くのタスクで大きな成功を収めています。 一般に、これらのニューラルネットワークは翻訳不変であり、入力画像内のその位置に依存しない特定の特徴を検出できると仮定される。 これは単純な場合に当てはまるが、ネットワークが制限されたレイヤークラスで構成されており、画像が比較的単純である場合、一般的な最先端ネットワークを持つ複雑な画像は、望まれるほどこの特性を享受しない。 本稿では,既存の畳み込みアーキテクチャの大部分が初期化時に,訓練後,あるいはテスト時にも,画像の異なる場所への出席を条件に,特定の特徴のランドスケープを定義していることを示す。 この現象が特定の条件下でどのように発生し、ある仮定の下でどのように調整できるかを示す。 Pオブジェクト(PILCRO for Pixel-wise Importance Landscape Curvature Regularized Objective)を導出する。これは、スムーズで低曲率なランドスケープを生成するための単純な正規化手法であり、選択したアーキテクチャに依存しない。 広範にわたる実験により,P-regularizedバージョンのコンピュータビジョンネットワークは,よりフラットなランドスケープを持ち,訓練速度が向上し,精度が向上し,また,従来のコンピュータビジョン分類設定と比較すると,テスト時のノイズに対して堅牢であることを示す。

Convolutional neural networks have had a great success in numerous tasks, including image classification, object detection, sequence modelling, and many more. It is generally assumed that such neural networks are translation invariant, meaning that they can detect a given feature independent of its location in the input image. While this is true for simple cases, where networks are composed of a restricted number of layer classes and where images are fairly simple, complex images with common state-of-the-art networks do not usually enjoy this property as one might hope. This paper shows that most of the existing convolutional architectures define, at initialisation, a specific feature importance landscape that conditions their capacity to attend to different locations of the images later during training or even at test time. We demonstrate how this phenomenon occurs under specific conditions and how it can be adjusted under some assumptions. We derive the P-objective, or PILCRO for Pixel-wise Importance Landscape Curvature Regularised Objective, a simple regularisation technique that favours weight configurations that produce smooth, low-curvature importance landscapes that are conditioned on the data and not on the chosen architecture. Through extensive experiments, we further show that P-regularised versions of popular computer vision networks have a flat importance landscape, train faster, result in a better accuracy and are more robust to noise at test time, when compared to their original counterparts in common computer-vision classification settings.
翻訳日:2023-01-06 07:41:14 公開日:2020-02-06
# 真実のカーネル:Diffusion Pattern AloneによるTwitterの噂の正確性決定

A Kernel of Truth: Determining Rumor Veracity on Twitter by Diffusion Pattern Alone ( http://arxiv.org/abs/2002.00850v2 )

ライセンス: Link先を確認
Nir Rosenfeld, Aron Szanto, David C. Parkes(参考訳) 誤情報検出分野における最近の研究は、ソーシャルメディア上のコンテンツに関連するテキストやユーザアイデンティティのリッチな信号を活用している。 しかし、テキストは戦略的に操作され、異なるエイリアスの下でアカウントが再開されるため、これらのアプローチは本質的に脆弱である。 本研究では,情報伝達パターンという,自然に堅牢な代替モダリティについて検討する。 ネット上で広まる不確実な噂の真偽は、ソーシャルネットワークを通じて拡散するパターンに基づいてのみ識別できるのだろうか? グラフカーネルを用いて、Twitterのカスケード構造から複雑なトポロジ情報を抽出し、言語、ユーザアイデンティティ、時間に不自由な正確な予測モデルをトレーニングし、このような「衛生的」拡散パターンが極めて正確であることを初めて示す。 以上の結果から,群集の集合的共有パターンは,伝播の初期段階においても,噂の真偽や虚偽の強力なシグナルを明らかにする可能性が示唆された。

Recent work in the domain of misinformation detection has leveraged rich signals in the text and user identities associated with content on social media. But text can be strategically manipulated and accounts reopened under different aliases, suggesting that these approaches are inherently brittle. In this work, we investigate an alternative modality that is naturally robust: the pattern in which information propagates. Can the veracity of an unverified rumor spreading online be discerned solely on the basis of its pattern of diffusion through the social network? Using graph kernels to extract complex topological information from Twitter cascade structures, we train accurate predictive models that are blind to language, user identities, and time, demonstrating for the first time that such "sanitized" diffusion patterns are highly informative of veracity. Our results indicate that, with proper aggregation, the collective sharing pattern of the crowd may reveal powerful signals of rumor truth or falsehood, even in the early stages of propagation.
翻訳日:2023-01-06 02:32:58 公開日:2020-02-06
# 不確かさ重み付き因果グラフ

Uncertainty Weighted Causal Graphs ( http://arxiv.org/abs/2002.00429v2 )

ライセンス: Link先を確認
Eduardo C. Garrido-Merch\'an, C. Puente, A. Sobrino, J.A. Olivas(参考訳) 因果関係は伝統的に、影響に関係して知識を生み出す科学的方法であった。 想像上の観点では、因果グラフは新しい因果情報を表現し推論するのに役立つツールである。 先行研究では,文書群を分析し,その視覚的に見出された因果情報を抽出・表現することにより,与えられた概念に関連付けられた自動因果グラフを生成する。 検索された情報は、因果関係が正確な特徴ではなく、しばしば不完全であることを示している。 本研究は,提案したグラフにおける不確定性管理の確率論的改善を通じて,グラフの不確実性をさらにモデル化する試みである。

Causality has traditionally been a scientific way to generate knowledge by relating causes to effects. From an imaginery point of view, causal graphs are a helpful tool for representing and infering new causal information. In previous works, we have generated automatically causal graphs associated to a given concept by analyzing sets of documents and extracting and representing the found causal information in that visual way. The retrieved information shows that causality is frequently imperfect rather than exact, feature gathered by the graph. In this work we will attempt to go a step further modelling the uncertainty in the graph through probabilistic improving the management of the imprecision in the quoted graph.
翻訳日:2023-01-04 20:05:38 公開日:2020-02-06
# ニューラルネットワークによるRavenの進歩行列の解法

Solving Raven's Progressive Matrices with Neural Networks ( http://arxiv.org/abs/2002.01646v2 )

ライセンス: Link先を確認
Tao Zhuo and Mohan Kankanhalli(参考訳) Raven's Progressive Matrices (RPM) は、人間のインテリジェンス・クオシエント(IQ)テストに広く用いられている。 本稿では,教師なしと教師なしの両方の方法でニューラルネットワークを用いてRPMを解くことを目的とする。 まず,教師付き学習における過剰フィッティングを減らすための戦略を検討する。 モデル一般化を改善するために,深層ニューラルネットワークの利用と大規模データセットの事前学習を提案する。 RAVENデータセットの実験は、教師付きアプローチの全体的な精度が人間レベルのパフォーマンスを上回ることを示している。 第2に,知的なエージェントは,新しい問題を解決するための新しいスキルを自動学習する必要があるため,rpm問題に対して,最初の教師なし手法である疑似目標付きマルチラベル分類(mcpt)を提案する。 MCPTは擬似ターゲットの設計に基づいて教師なし学習問題を教師なしタスクに変換する。 実験の結果、MCPTは確率推定の精度を28.50%対12.5%と2倍にすることが示された。 最後に,今後RPMを非教師的かつ説明可能な戦略で解決する問題について論じる。

Raven's Progressive Matrices (RPM) have been widely used for Intelligence Quotient (IQ) test of humans. In this paper, we aim to solve RPM with neural networks in both supervised and unsupervised manners. First, we investigate strategies to reduce over-fitting in supervised learning. We suggest the use of a neural network with deep layers and pre-training on large-scale datasets to improve model generalization. Experiments on the RAVEN dataset show that the overall accuracy of our supervised approach surpasses human-level performance. Second, as an intelligent agent requires to automatically learn new skills to solve new problems, we propose the first unsupervised method, Multilabel Classification with Pseudo Target (MCPT), for RPM problems. Based on the design of the pseudo target, MCPT converts the unsupervised learning problem to a supervised task. Experiments show that MCPT doubles the testing accuracy of random guessing e.g. 28.50% vs. 12.5%. Finally, we discuss the problem of solving RPM with unsupervised and explainable strategies in the future.
翻訳日:2023-01-03 21:37:54 公開日:2020-02-06
# センサ故障モデルを用いた車両エゴレーン推定

Vehicle Ego-Lane Estimation with Sensor Failure Modeling ( http://arxiv.org/abs/2002.01913v2 )

ライセンス: Link先を確認
Augusto Luis Ballardini, Daniele Cattaneo, Rub\'en Izquierdo, Ignacio Parra Alonso, Andrea Piazzoni, Miguel \'Angel Sotelo, Domenico Giorgio Sorrenti(参考訳) 本研究では,高規格道路におけるエゴレーン推定の精度向上を目的として,騒音検出とトラッカーのみに依存する確率的エゴレーン推定アルゴリズムを提案する。 この貢献は、過渡的障害モデルを持つ隠れマルコフモデル(HMM)に依存します。 提案アルゴリズムは,OpenStreetMap(あるいは他の地図サービス)ロードプロパティレーン番号を期待されるレーン数として利用し,連続的かつおそらく不完全な観測に活用する。 このアルゴリズムの有効性は、異なるライン検出器を用いることで証明され、イタリアとスペインの両方で記録された100Km以上のハイウェイシナリオで安定かつ信頼性の高いエゴレーン推定を実現できることを示す。 さらに,他の手法と定量的に比較するに適したデータセットが見つからなかったため,データセットを収集し,車両のエゴレーンについて手動で解説した。 このようなデータセットは、科学コミュニティから一般公開されている。

We present a probabilistic ego-lane estimation algorithm for highway-like scenarios that is designed to increase the accuracy of the ego-lane estimate, which can be obtained relying only on a noisy line detector and tracker. The contribution relies on a Hidden Markov Model (HMM) with a transient failure model. The proposed algorithm exploits the OpenStreetMap (or other cartographic services) road property lane number as the expected number of lanes and leverages consecutive, possibly incomplete, observations. The algorithm effectiveness is proven by employing different line detectors and showing we could achieve much more usable, i.e. stable and reliable, ego-lane estimates over more than 100 Km of highway scenarios, recorded both in Italy and Spain. Moreover, as we could not find a suitable dataset for a quantitative comparison with other approaches, we collected datasets and manually annotated the Ground Truth about the vehicle ego-lane. Such datasets are made publicly available for usage from the scientific community.
翻訳日:2023-01-03 21:30:26 公開日:2020-02-06
# 高速画像検索のためのランダムVLADに基づくディープハッシュ

Random VLAD based Deep Hashing for Efficient Image Retrieval ( http://arxiv.org/abs/2002.02333v1 )

ライセンス: Link先を確認
Li Weng, Lingzhi Ye, Jiangmin Tian, Jiuwen Cao, and Jianzhong Wang(参考訳) 画像ハッシュアルゴリズムは、ハミング距離によって素早くマッチングできるコンパクトなバイナリ表現を生成し、大規模な画像検索の効率的なソリューションとなる。 本稿では,従来のvlad(vector of local aggregated descriptor)アーキテクチャをニューラルネットワークに組み込んだ,ディープイメージハッシュアルゴリズムであるrv-ssdhを提案する。 具体的には、ランダムvlad層と潜在ハッシュ層とを変換層を介して結合して新規なニューラルネットワークコンポーネントを形成する。 このコンポーネントは畳み込み層と組み合わせてハッシュアルゴリズムを実現することができる。 我々は,分類誤差と量子化損失を最小化することにより,効率よく学習できるポイントワイズアルゴリズムとしてRV-SSDHを実装した。 総合的な実験により、この新しいアーキテクチャはNetVLADやSSDHといったベースラインを大幅に上回り、最先端技術におけるコスト効率の良いトレードオフを提供する。 さらに,提案したランダムVLAD層は,低複雑性で良好な精度を実現し,NetVLADの代替として有望なポテンシャルを示す。

Image hash algorithms generate compact binary representations that can be quickly matched by Hamming distance, thus become an efficient solution for large-scale image retrieval. This paper proposes RV-SSDH, a deep image hash algorithm that incorporates the classical VLAD (vector of locally aggregated descriptors) architecture into neural networks. Specifically, a novel neural network component is formed by coupling a random VLAD layer with a latent hash layer through a transform layer. This component can be combined with convolutional layers to realize a hash algorithm. We implement RV-SSDH as a point-wise algorithm that can be efficiently trained by minimizing classification error and quantization loss. Comprehensive experiments show this new architecture significantly outperforms baselines such as NetVLAD and SSDH, and offers a cost-effective trade-off in the state-of-the-art. In addition, the proposed random VLAD layer leads to satisfactory accuracy with low complexity, thus shows promising potentials as an alternative to NetVLAD.
翻訳日:2023-01-03 13:24:34 公開日:2020-02-06
# ディープラーニングを用いたMACプロトコル設計最適化

MAC Protocol Design Optimization Using Deep Learning ( http://arxiv.org/abs/2002.02075v1 )

ライセンス: Link先を確認
Hannaneh Barahouei Pasandi, Tamer Nadeem(参考訳) 近年,通信プロトコル設計のためのディープラーニング(DL)ベースのソリューションが開発されている。 このような学習ベースのソリューションは、個々のプロトコルパラメータをチューニングするための手作業を避けることができる。 これらのソリューションは有望に見えるが、ML技術のブラックボックスの性質のため、解釈が難しい。 そこで本研究では,ネットワークプロトコルを体系的に設計し,評価するためのDRLベースの新しいフレームワークを提案する。 他のmlベースの手法は、主に個々のプロトコルパラメータ(例えば競合ウィンドウの調整)のチューニングに重点を置いているが、我々の主な貢献は、プロトコルをパラメトリックモジュールのセットに分離することであり、それぞれが主要なプロトコル機能を表し、生成されたプロトコル設計の最適化と体系的な分析をよりよく理解するためにdrl入力として使用される。 本稿では,一般的な802.11 WLAN(例:802.11a/b/g/n/ac)にまたがるブロックにMACプロトコルを分離するフレームワークであるDeepMACを紹介し,評価する。 私たちは、異なるネットワークシナリオでDeepMACが選択したブロックと、DeepMACがネットワークダイナミクスに適応できるかどうかに興味を持っています。

Deep learning (DL)-based solutions have recently been developed for communication protocol design. Such learning-based solutions can avoid manual efforts to tune individual protocol parameters. While these solutions look promising, they are hard to interpret due to the black-box nature of the ML techniques. To this end, we propose a novel DRL-based framework to systematically design and evaluate networking protocols. While other proposed ML-based methods mainly focus on tuning individual protocol parameters (e.g., adjusting contention window), our main contribution is to decouple a protocol into a set of parametric modules, each representing a main protocol functionality and is used as DRL input to better understand the generated protocols design optimization and analyze them in a systematic fashion. As a case study, we introduce and evaluate DeepMAC a framework in which a MAC protocol is decoupled into a set of blocks across popular flavors of 802.11 WLANs (e.g., 802.11a/b/g/n/ac). We are interested to see what blocks are selected by DeepMAC across different networking scenarios and whether DeepMAC is able to adapt to network dynamics.
翻訳日:2023-01-03 13:23:56 公開日:2020-02-06
# 車両振動型橋梁健康モニタリングのための損傷感応および領域不変特徴抽出

Damage-sensitive and domain-invariant feature extraction for vehicle-vibration-based bridge health monitoring ( http://arxiv.org/abs/2002.02105v1 )

ライセンス: Link先を確認
Jingxiao Liu, Bingqing Chen, Siheng Chen, Mario Berges, Jacobo Bielak, HaeYoung Noh(参考訳) 橋梁を走行する車両の加速度応答データから損傷に敏感でドメイン不変な特徴(DS&DI)を抽出し,橋梁の健全性を評価する物理誘導信号処理手法を提案する。 低コスト・低保守等の間接センシング手法の利点を生かして, 車両振動を用いた橋梁の健康モニタリングを行い, 橋梁の効率的なモニタリングを行った。 しかしこのアプローチを適用するのは困難です。 1)手動で抽出した物理特性は一般に損傷に敏感ではない。 2) 機械学習技術の特徴は、しばしば異なるブリッジに適用できない。 そこで,車橋相互作用系モデルを定式化し,非定常信号を表す同期ウェーブレット変換を固有モード型成分として抽出可能な物理誘導ds & di特徴量を求める。 提案手法の有効性をシミュレーション実験により検証した。 従来の時間領域と周波数領域の機能と比較して,6つの実験のうち5つにおいて,各橋にまたがる損傷の定量化と局所化が最良である。

We introduce a physics-guided signal processing approach to extract a damage-sensitive and domain-invariant (DS & DI) feature from acceleration response data of a vehicle traveling over a bridge to assess bridge health. Motivated by indirect sensing methods' benefits, such as low-cost and low-maintenance, vehicle-vibration-based bridge health monitoring has been studied to efficiently monitor bridges in real-time. Yet applying this approach is challenging because 1) physics-based features extracted manually are generally not damage-sensitive, and 2) features from machine learning techniques are often not applicable to different bridges. Thus, we formulate a vehicle bridge interaction system model and find a physics-guided DS & DI feature, which can be extracted using the synchrosqueezed wavelet transform representing non-stationary signals as intrinsic-mode-type components. We validate the effectiveness of the proposed feature with simulated experiments. Compared to conventional time- and frequency-domain features, our feature provides the best damage quantification and localization results across different bridges in five of six experiments.
翻訳日:2023-01-03 13:23:03 公開日:2020-02-06
# 自律運転モデルにおける敵対的攻撃と防御の分析

An Analysis of Adversarial Attacks and Defenses on Autonomous Driving Models ( http://arxiv.org/abs/2002.02175v1 )

ライセンス: Link先を確認
Yao Deng, Xi Zheng, Tianyi Zhang, Chen Chen, Guannan Lou, Miryung Kim(参考訳) 今日では、自動運転は産業と学術の両方から注目を集めている。 畳み込みニューラルネットワーク(CNN)は、自律運転において重要なコンポーネントであり、スマートフォンやウェアラブルデバイス、IoTネットワークなどの普及型コンピューティングにも採用されている。 以前の研究によると、CNNベースの分類モデルは敵の攻撃に弱い。 しかし, 運転モデルなどの回帰モデルが敵攻撃に対してどの程度脆弱か, 既存の防御技術の有効性, システムおよびミドルウェアビルダーに対する防御的影響は明らかでない。 本稿では,3つの駆動モデルに対する5つの敵攻撃と4つの防御手法の詳細な解析を行う。 実験によると、分類モデルと同様に、これらのモデルは相反する攻撃に対して非常に脆弱である。 これは自動運転にとって大きなセキュリティ上の脅威となり、実際に考慮すべきである。 これらの防御方法は、異なる攻撃に対して効果的に防御できるが、5つの攻撃すべてに対して適切な保護を提供することはできない。 We derive several implications for system and middleware builders: (1) when adding a defense component against adversarial attacks, it is important to deploy multiple defense methods in tandem to achieve a good coverage of various attacks, (2) a blackbox attack is much less effective compared with a white-box attack, implying that it is important to keep model details (e.g., model architecture, hyperparameters) confidential via model obfuscation, and (3) driving models with a complex architecture are preferred if computing resources permit as they are more resilient to adversarial attacks than simple models.

Nowadays, autonomous driving has attracted much attention from both industry and academia. Convolutional neural network (CNN) is a key component in autonomous driving, which is also increasingly adopted in pervasive computing such as smartphones, wearable devices, and IoT networks. Prior work shows CNN-based classification models are vulnerable to adversarial attacks. However, it is uncertain to what extent regression models such as driving models are vulnerable to adversarial attacks, the effectiveness of existing defense techniques, and the defense implications for system and middleware builders. This paper presents an in-depth analysis of five adversarial attacks and four defense methods on three driving models. Experiments show that, similar to classification models, these models are still highly vulnerable to adversarial attacks. This poses a big security threat to autonomous driving and thus should be taken into account in practice. While these defense methods can effectively defend against different attacks, none of them are able to provide adequate protection against all five attacks. We derive several implications for system and middleware builders: (1) when adding a defense component against adversarial attacks, it is important to deploy multiple defense methods in tandem to achieve a good coverage of various attacks, (2) a blackbox attack is much less effective compared with a white-box attack, implying that it is important to keep model details (e.g., model architecture, hyperparameters) confidential via model obfuscation, and (3) driving models with a complex architecture are preferred if computing resources permit as they are more resilient to adversarial attacks than simple models.
翻訳日:2023-01-03 13:22:45 公開日:2020-02-06
# ニューラルネットワークにおけるドロップアウトアルゴリズムのほぼ確実に収束

Almost Sure Convergence of Dropout Algorithms for Neural Networks ( http://arxiv.org/abs/2002.02247v1 )

ライセンス: Link先を確認
Albert Senen-Cerda, Jaron Sanders(参考訳) 我々は,長年にわたってDropout(Hinton et al., 2012)から発生してきたニューラルネットワーク(NN)の確率的トレーニングアルゴリズムの収束と収束率について検討した。 脳内のニューロンが発火しない可能性があることをモデル化し、ドロップアウトアルゴリズムは、フィードフォワード・バックプロパゲーションアルゴリズムの各イテレーションで$\{0,1\}$-valuedエントリで独立に描画されたランダム行列によってNN成分の重み行列を乗算する実践である。 本稿では, NN の重みをコンパクトな集合に投影し, ドロップアウトアルゴリズムを使用すると, NN の重みが正規微分方程式(ODE)の射影系の一意的な定常集合に収束するという, 任意の NN 位相および微分可能な多項式有界活性化関数の確率理論的証明を提案する。 また、任意の深さと線形アクティベーション関数を持つアーボラッセンス(木のクラス)のドロップアウトアルゴリズムの制限ODEに対するグラディエントD(GD)の収束率の上限を確立する。

We investigate the convergence and convergence rate of stochastic training algorithms for Neural Networks (NNs) that, over the years, have spawned from Dropout (Hinton et al., 2012). Modeling that neurons in the brain may not fire, dropout algorithms consist in practice of multiplying the weight matrices of a NN component-wise by independently drawn random matrices with $\{0,1\}$-valued entries during each iteration of the Feedforward-Backpropagation algorithm. This paper presents a probability theoretical proof that for any NN topology and differentiable polynomially bounded activation functions, if we project the NN's weights into a compact set and use a dropout algorithm, then the weights converge to a unique stationary set of a projected system of Ordinary Differential Equations (ODEs). We also establish an upper bound on the rate of convergence of Gradient Descent (GD) on the limiting ODEs of dropout algorithms for arborescences (a class of trees) of arbitrary depth and with linear activation functions.
翻訳日:2023-01-03 13:22:25 公開日:2020-02-06
# PolyScientist: ディープラーニングプリミティブ最適化のためのマイクロカーネルと組み合わせたループ自動変換

PolyScientist: Automatic Loop Transformations Combined with Microkernels for Optimization of Deep Learning Primitives ( http://arxiv.org/abs/2002.02145v1 )

ライセンス: Link先を確認
Sanket Tavarageri, Alexander Heinecke, Sasikanth Avancha, Gagandeep Goyal, Ramakrishna Upadrasta, Bharat Kaul(参考訳) ディープラーニングのトレーニングと推論の中心は、ディープニューラルネットワークの構成要素を形成する畳み込みのような計算集約的なプリミティブである。 ディープラーニングカーネルの高性能実装,すなわち,2つの異なるアプローチが採用されている。 1. Intel MKL-DNNによるCPU用ライブラリ開発 2) TensorFlow XLAコンパイラで表現される自動コンパイル。 カスタムビルドされたライブラリは、非常に優れたパフォーマンスを提供することができるが、ライブラリの開発コストと時間が高い可能性がある。 カーネルの自動コンパイルは魅力的だが、実際には、これまでは、パフォーマンスに熟練したコード化されたカーネルを桁違いの性能で自動生成していた。 本稿では,カーネルの最内側のループに対して,エキスパートコード化されたマイクロカーネルを活用し,高性能の多面体技術を用いて,外部ループを自動チューニングし,その性能向上を実現する,ディープラーニングカーネルの開発のためのハイブリッドソリューションを開発した。 我々は、カーネルの外ループを最適化するために、新しい多面体モデルに基づくデータ再利用アルゴリズムを設計する。 深層学習プリミティブの重要クラスである畳み込みを実験的に評価することにより,手書きの深層学習ライブラリであるIntel MKL-DNNと同じレベルの性能が得られることを示す。

At the heart of deep learning training and inferencing are computationally intensive primitives such as convolutions which form the building blocks of deep neural networks. Researchers have taken two distinct approaches to creating high performance implementations of deep learning kernels, namely, 1) library development exemplified by Intel MKL-DNN for CPUs, 2) automatic compilation represented by the TensorFlow XLA compiler. The two approaches have their drawbacks: even though a custom built library can deliver very good performance, the cost and time of development of the library can be high. Automatic compilation of kernels is attractive but in practice, till date, automatically generated implementations lag expert coded kernels in performance by orders of magnitude. In this paper, we develop a hybrid solution to the development of deep learning kernels that achieves the best of both worlds: the expert coded microkernels are utilized for the innermost loops of kernels and we use the advanced polyhedral technology to automatically tune the outer loops for performance. We design a novel polyhedral model based data reuse algorithm to optimize the outer loops of the kernel. Through experimental evaluation on an important class of deep learning primitives namely convolutions, we demonstrate that the approach we develop attains the same levels of performance as Intel MKL-DNN, a hand coded deep learning library.
翻訳日:2023-01-03 13:14:33 公開日:2020-02-06
# 隠れ層ネットワーク上のフランク・ウルフのグローバル収束

Global Convergence of Frank Wolfe on One Hidden Layer Networks ( http://arxiv.org/abs/2002.02208v1 )

ライセンス: Link先を確認
Alexandre d'Aspremont, Mert Pilanci(参考訳) 隠れ層ニューラルネットワークのトレーニングにおいて,Frank Wolfeアルゴリズムのグローバル収束境界を導出する。 ReLUアクティベーション関数を用い、サンプルデータセット上のトラクタブルプレコンディショニング仮定の下では、解をインクリメンタルに形成する線形最小化オラクルを第2次コーンプログラムとして明示的に解くことができる。 古典的なフランク・ウルフのアルゴリズムは、O(1/T)$で収束し、$T$はニューロンの数とオラクルへの呼び出しの数の両方である。

We derive global convergence bounds for the Frank Wolfe algorithm when training one hidden layer neural networks. When using the ReLU activation function, and under tractable preconditioning assumptions on the sample data set, the linear minimization oracle used to incrementally form the solution can be solved explicitly as a second order cone program. The classical Frank Wolfe algorithm then converges with rate $O(1/T)$ where $T$ is both the number of neurons and the number of calls to the oracle.
翻訳日:2023-01-03 13:14:13 公開日:2020-02-06
# アクティブラーニングにおけるコンテキスト対応画像アノテーション

Context Aware Image Annotation in Active Learning ( http://arxiv.org/abs/2002.02775v1 )

ライセンス: Link先を確認
Yingcheng Sun and Kenneth Loparo(参考訳) アクティブラーニングのための画像アノテーションは労働集約的です。 ラベル付けコストを削減するために,様々な自動および半自動ラベリング手法が提案されているが,学習者にとって最も価値のあるクエリは最も困難あるいは曖昧なケースであり,オラクルが正確なラベル付けを行うのに最もコストがかかるため,ラベル付きインスタンス数の削減はコスト削減を保証していない。 本稿では,画像メタデータを用いて,oracle がアノテーションプロセス中に画像についてもっと手掛かりを提供することによって,この問題を解決しようとしている。 本稿では,画像メタデータを類似度メトリクスとして使用し,画像をグループに分類するcaiaf(context aware image annotation framework)を提案する。 また,アノテーションインタフェース上の各画像のコンテキストとして有用なメタデータ情報を提案する。 実験により,CAIAFのアノテーションコストを従来のフレームワークと比較して低減し,高い分類性能を維持した。

Image annotation for active learning is labor-intensive. Various automatic and semi-automatic labeling methods are proposed to save the labeling cost, but a reduction in the number of labeled instances does not guarantee a reduction in cost because the queries that are most valuable to the learner may be the most difficult or ambiguous cases, and therefore the most expensive for an oracle to label accurately. In this paper, we try to solve this problem by using image metadata to offer the oracle more clues about the image during annotation process. We propose a Context Aware Image Annotation Framework (CAIAF) that uses image metadata as similarity metric to cluster images into groups for annotation. We also present useful metadata information as context for each image on the annotation interface. Experiments show that it reduces that annotation cost with CAIAF compared to the conventional framework, while maintaining a high classification performance.
翻訳日:2023-01-03 13:13:48 公開日:2020-02-06
# ディープラーニングを用いたMACプロトコル設計のアンボックス化

Unboxing MAC Protocol Design Optimization Using Deep Learning ( http://arxiv.org/abs/2002.03795v1 )

ライセンス: Link先を確認
Hannaneh Barahouei Pasandi, Tamer Nadeem(参考訳) 802.11標準の改訂では、アプリケーション要件とネットワークダイナミクスにまたがる通信目標の増加をサポートするために、物理層とmac層制御パラメータの大規模なセットが特徴である。 さまざまなデバイスの普及と普及に伴い、さまざまなドメインやサービスをサポートするアプリケーションの数が大幅に増加し、無線ネットワークに予期せぬ負担を被ることになる。 しかし、各シナリオは異なる無線プロトコル機能とパラメータ設定を必要とし、異なるネットワークシナリオに対応するためにこれらの機能やパラメータを最適に調整する方法を決定する。 パラメータを手動でチューニングする従来の試行錯誤アプローチは、繰り返すのが難しくなっているだけでなく、異なるネットワークシナリオに最適化されている。 本稿では,物理層とmac層の異なるパラメータの関係を学習するために,深層強化学習フレームワークをどのように活用するかを説明し,プロトコル設計最適化タスクに関する洞察を得るために学習ベースのアプローチがいかに役立つかを示す。

Evolving amendments of 802.11 standards feature a large set of physical and MAC layer control parameters to support the increasing communication objectives spanning application requirements and network dynamics. The significant growth and penetration of various devices come along with a tremendous increase in the number of applications supporting various domains and services which will impose a never-before-seen burden on wireless networks. The challenge however, is that each scenario requires a different wireless protocol functionality and parameter setting to optimally determine how to tune these functionalities and parameters to adapt to varying network scenarios. The traditional trial-error approach of manual tuning of parameters is not just becoming difficult to repeat but also sub-optimal for different networking scenarios. In this paper, we describe how we can leverage a deep reinforcement learning framework to be trained to learn the relation between different parameters in the physical and MAC layer and show that how our learning-based approach could help us in getting insights about protocol design optimization task.
翻訳日:2023-01-03 13:13:32 公開日:2020-02-06
# 畳み込みニューラルネットワークの近接最適ハードウェア設計

Near-Optimal Hardware Design for Convolutional Neural Networks ( http://arxiv.org/abs/2002.05526v1 )

ライセンス: Link先を確認
Byungik Ahn(参考訳) 近年,産業アプリケーションのための低消費電力ディープラーニングハードウェアの需要が高まっている。 既存の人工知能(AI)チップの多くは、その汎用性を維持するために、根本的に新しいハードウェアアーキテクチャではなく、新しいチップ技術に依存するように進化してきた。 本研究では,畳み込みニューラルネットワークのための新しい,特殊目的,高効率ハードウェアアーキテクチャを提案する。 提案アーキテクチャは,計算を固定ハードウェアにマッピングするのではなく,モデルの計算フローと同じ構造を持つ計算回路を設計することにより,乗算器の利用を最大化する。 さらに、特別に設計されたフィルタ回路は、各クロックサイクル中に1つのメモリ読み取り操作のみを使用して、受信フィールドの全データを同時に提供する。 提案アーキテクチャに基づく参照システムは,計算期間を通じて計算モデルに必要な実計算においてピーク乗算能力の97%を利用する。 また、非乗数成分を構成するリソースの割合が、計算モデルに欠かせない乗数成分を構成するものよりも小さいように、オーバーヘッド成分を最小化する。 提案したアーキテクチャの効率性は,性能と資源の比でさらに改善できない理想的に効率的なシステムに近づいた。 提案するハードウェアアーキテクチャに基づく実装が,商用AI製品に適用されている。

Recently, the demand of low-power deep-learning hardware for industrial applications has been increasing. Most existing artificial intelligence (AI) chips have evolved to rely on new chip technologies rather than on radically new hardware architectures, to maintain their generality. This study proposes a novel, special-purpose, and high-efficiency hardware architecture for convolutional neural networks. The proposed architecture maximizes the utilization of multipliers by designing the computational circuit with the same structure as that of the computational flow of the model, rather than mapping computations to fixed hardware. In addition, a specially designed filter circuit simultaneously provides all the data of the receptive field, using only one memory read operation during each clock cycle; this allows the computation circuit to operate seamlessly without idle cycles. Our reference system based on the proposed architecture uses 97% of the peak-multiplication capability in actual computations required by the computation model throughout the computation period. In addition, overhead components are minimized so that the proportion of the resources constituting the non-multiplier components is smaller than that constituting the multiplier components, which are indispensable for the computational model. The efficiency of the proposed architecture is close to an ideally efficient system that cannot be improved further in terms of the performance-to-resource ratio. An implementation based on the proposed hardware architecture has been applied in commercial AI products.
翻訳日:2023-01-03 13:13:15 公開日:2020-02-06
# fibar: 動的投影マッピングにおけるアクティブマーカーのための3dプリントオブジェクトへの光ファイバ埋め込み

FibAR: Embedding Optical Fibers in 3D Printed Objects for Active Markers in Dynamic Projection Mapping ( http://arxiv.org/abs/2002.02159v1 )

ライセンス: Link先を確認
Daiki Tone, Daisuke Iwai, Shinsaku Hiura, Kosuke Sato(参考訳) 本稿では,そのidを表す赤外線(ir)光の時間的点滅パターンを放射するダイナミックプロジェクションマッピング(pm)のための新しいアクティブマーカーを提案する。 我々は多材料3次元(3D)プリンタを用いて、オブジェクトの底面に取り付けられたLEDから赤外線光を誘導できる光ファイバーで投影オブジェクトを作製した。 光ファイバの開口は典型的に非常に小さいため、投射中の人間の観察者には目立たないため、投射面の強く湾曲した部分に置かれる。 さらに, 点滅パターンをマーカーから広い距離に配置されたカメラで理論的に認識できるので, 従来のマーカー法よりも作業範囲が大きくなる可能性がある。 本研究では,投影対象の表面に複数のアクティブマーカーを配置する自動マーカー配置アルゴリズムを提案し,任意の方向からの撮像画像を用いてそのポーズをロバストに推定する。 また,光強度の損失を最小限に抑えつつ,光ファイバーの衝突を回避するように,光ファイバーの経路を決定するための最適化フレームワークを提案する。 強曲面を含む3つの加工物を用いて実験を行った結果, 提案手法が極めて広い作業範囲で正確な動的PMを実現できることを確認した。

This paper presents a novel active marker for dynamic projection mapping (PM) that emits a temporal blinking pattern of infrared (IR) light representing its ID. We used a multi-material three dimensional (3D) printer to fabricate a projection object with optical fibers that can guide IR light from LEDs attached on the bottom of the object. The aperture of an optical fiber is typically very small; thus, it is unnoticeable to human observers under projection and can be placed on a strongly curved part of a projection surface. In addition, the working range of our system can be larger than previous marker-based methods as the blinking patterns can theoretically be recognized by a camera placed at a wide range of distances from markers. We propose an automatic marker placement algorithm to spread multiple active markers over the surface of a projection object such that its pose can be robustly estimated using captured images from arbitrary directions. We also propose an optimization framework for determining the routes of the optical fibers in such a way that collisions of the fibers can be avoided while minimizing the loss of light intensity in the fibers. Through experiments conducted using three fabricated objects containing strongly curved surfaces, we confirmed that the proposed method can achieve accurate dynamic PMs in a significantly wide working range.
翻訳日:2023-01-03 13:12:56 公開日:2020-02-06
# 周波数アライメントネットワークを用いたロバストマルチチャネル音声認識

Robust Multi-channel Speech Recognition using Frequency Aligned Network ( http://arxiv.org/abs/2002.02520v1 )

ライセンス: Link先を確認
Taejin Park, Kenichi Kumatani, Minhua Wu, Shiva Sundaram(参考訳) ビームフォーミングのような従来の音声強調技術は、遠距離場音声認識の利点が知られている。 周波数領域のマルチチャネル音響モデリングにおける我々の研究は、音響モデル内で協調的に空間フィルタリング層を訓練することでさらなる改善を示した。 本稿では、このアイデアをさらに発展させ、堅牢なマルチチャネル自動音声認識(ASR)のための周波数整列ネットワークを使用する。 周波数領域のアフィン層とは異なり、提案された周波数アライメント成分は、他の周波数ビンに影響を及ぼす1つの周波数ビンを防止する。 この修正によりモデル内のパラメータ数が減少するだけでなく、asrの性能も大幅に向上することが示された。 非制御音響環境においてユーザがasrシステムと相互作用する実世界遠距離データに対するasr実験による周波数アライメントネットワークの効果について検討する。 その結果,周波数整合ネットワークを用いたマルチチャネル音響モデルでは,単語誤り率を最大18%低減できることがわかった。

Conventional speech enhancement technique such as beamforming has known benefits for far-field speech recognition. Our own work in frequency-domain multi-channel acoustic modeling has shown additional improvements by training a spatial filtering layer jointly within an acoustic model. In this paper, we further develop this idea and use frequency aligned network for robust multi-channel automatic speech recognition (ASR). Unlike an affine layer in the frequency domain, the proposed frequency aligned component prevents one frequency bin influencing other frequency bins. We show that this modification not only reduces the number of parameters in the model but also significantly and improves the ASR performance. We investigate effects of frequency aligned network through ASR experiments on the real-world far-field data where users are interacting with an ASR system in uncontrolled acoustic environments. We show that our multi-channel acoustic model with a frequency aligned network shows up to 18% relative reduction in word error rate.
翻訳日:2023-01-03 13:06:23 公開日:2020-02-06
# 形状画像用残差再帰オートエンコーダ

Residual-Recursion Autoencoder for Shape Illustration Images ( http://arxiv.org/abs/2002.02063v1 )

ライセンス: Link先を確認
Qianwei Zhou, Peng Tao, Xiaoxin Li, Shengyong Chen, Fan Zhang, Haigen Hu(参考訳) 形状図像(siis)は工業製品の断面を記述する上で一般的かつ重要である。 mnistと同じ、手書きの数字画像、siisは灰色または二分体であり、空白の大きな領域に囲まれている形を含んでいる。 本研究では,SIIから低次元特徴を抽出し,再現精度を極力高く保ちながらResidual-Recursion Autoencoder (RRAE) を提案する。 RRAEは、元のイメージを何度か再構築し、次の再構築試行の前にエンコーダの入力の予約チャネルに最新の残像を再帰的に埋め込もうとする。 ある種のニューラルネットワークトレーニングフレームワークとして、RRAEは他のオートエンコーダをラップし、パフォーマンスを向上させることができる。 実験結果から、高分解能SIIを有する畳み込みオートエンコーダの86.47%、変分オートエンコーダの10.77%、MNISTによる条件付き変分オートエンコーダの8.06%の再現損失が減少した。

Shape illustration images (SIIs) are common and important in describing the cross-sections of industrial products. Same as MNIST, the handwritten digit images, SIIs are gray or binary and containing shapes that are surrounded by large areas of blanks. In this work, Residual-Recursion Autoencoder (RRAE) has been proposed to extract low-dimensional features from SIIs while maintaining reconstruction accuracy as high as possible. RRAE will try to reconstruct the original image several times and recursively fill the latest residual image to the reserved channel of the encoder's input before the next trial of reconstruction. As a kind of neural network training framework, RRAE can wrap over other autoencoders and increase their performance. From experiment results, the reconstruction loss is decreased by 86.47% for convolutional autoencoder with high-resolution SIIs, 10.77% for variational autoencoder and 8.06% for conditional variational autoencoder with MNIST.
翻訳日:2023-01-03 13:06:10 公開日:2020-02-06
# 医用画像セグメンテーションのための深い相乗的画像と特徴アライメントによる教師なし双方向クロスモーダル適応

Unsupervised Bidirectional Cross-Modality Adaptation via Deeply Synergistic Image and Feature Alignment for Medical Image Segmentation ( http://arxiv.org/abs/2002.02255v1 )

ライセンス: Link先を確認
Cheng Chen, Qi Dou, Hao Chen, Jing Qin, Pheng Ann Heng(参考訳) 非教師なしのドメイン適応は医用画像コンピューティングにますます関心を寄せ、異質な特徴を持つ未取得のデータにデプロイされたディープニューラルネットワークのパフォーマンス低下に取り組むことを目的としている。 そこで本研究では,Synergistic Image and Feature Alignment (SIFA) と呼ばれる新しい非教師付きドメイン適応フレームワークを提案し,セグメンテーションネットワークを非ラベル対象ドメインに効果的に適応させる。 提案したSIFAは画像と特徴の両方の観点からドメインの相乗的アライメントを行う。 特に,複数の面での敵対的学習と深く監督された機構を活かして,領域間の画像の出現を同時に変換し,抽出した特徴のドメイン非分散性を高める。 機能エンコーダは、双方の適応的な視点で共有され、エンドツーエンドの学習を通じて相互の利点を活用する。 mriとct画像の両方向交叉性適応のための心サブストラクチャセグメンテーションと腹部マルチオルガンセグメンテーションの併用法を広範囲に検討した。 2つの異なるタスクに対する実験結果から, SIFA法は未ラベル対象画像のセグメンテーション性能を向上させるのに有効であり, 最先端領域適応手法よりも高い性能を示した。

Unsupervised domain adaptation has increasingly gained interest in medical image computing, aiming to tackle the performance degradation of deep neural networks when being deployed to unseen data with heterogeneous characteristics. In this work, we present a novel unsupervised domain adaptation framework, named as Synergistic Image and Feature Alignment (SIFA), to effectively adapt a segmentation network to an unlabeled target domain. Our proposed SIFA conducts synergistic alignment of domains from both image and feature perspectives. In particular, we simultaneously transform the appearance of images across domains and enhance domain-invariance of the extracted features by leveraging adversarial learning in multiple aspects and with a deeply supervised mechanism. The feature encoder is shared between both adaptive perspectives to leverage their mutual benefits via end-to-end learning. We have extensively evaluated our method with cardiac substructure segmentation and abdominal multi-organ segmentation for bidirectional cross-modality adaptation between MRI and CT images. Experimental results on two different tasks demonstrate that our SIFA method is effective in improving segmentation performance on unlabeled target images, and outperforms the state-of-the-art domain adaptation approaches by a large margin.
翻訳日:2023-01-03 13:05:52 公開日:2020-02-06
# 学習可能な車両追跡の信頼性検証

Reliability Validation of Learning Enabled Vehicle Tracking ( http://arxiv.org/abs/2002.02424v1 )

ライセンス: Link先を確認
Youcheng Sun, Yifan Zhou, Simon Maskell, James Sharp, Xiaowei Huang(参考訳) 本稿では,高分解能広域動画像入力に基づく動的車両追跡を行う実世界の学習可能なシステムの信頼性について検討する。 このシステムは、画像入力を処理する複数のニューラルネットワークコンポーネントと、車両追跡のために処理された情報を分析する複数のシンボル(カルマンフィルタ)コンポーネントで構成される。 ニューラルネットワークは敵の例に悩まされ、堅牢性が欠如していることが知られている。 しかし、学習コンポーネント上の敵対的な例がシステム全体の信頼性にどのように影響するかは明らかではない。 対象とするニューラルネットワークテストツールであるdeepconcolicを車両追跡システムに統合することにより,(1)他のコンポーネントの存在により,システム全体が敵対的な例に対してレジリエントになりうること,(2)ディープラーニングコンポーネントのみを分析して判断できない余分なレベルの不確実性を示すこと,の2つを見いだした。 本研究は,学習可能なシステムのための新しい検証手法と検証手法の必要性を示唆する。

This paper studies the reliability of a real-world learning-enabled system, which conducts dynamic vehicle tracking based on a high-resolution wide-area motion imagery input. The system consists of multiple neural network components -- to process the imagery inputs -- and multiple symbolic (Kalman filter) components -- to analyse the processed information for vehicle tracking. It is known that neural networks suffer from adversarial examples, which make them lack robustness. However, it is unclear if and how the adversarial examples over learning components can affect the overall system-level reliability. By integrating a coverage-guided neural network testing tool, DeepConcolic, with the vehicle tracking system, we found that (1) the overall system can be resilient to some adversarial examples thanks to the existence of other components, and (2) the overall system presents an extra level of uncertainty which cannot be determined by analysing the deep learning components only. This research suggests the need for novel verification and validation methods for learning-enabled systems.
翻訳日:2023-01-03 13:05:29 公開日:2020-02-06
# 3次元形状学習のための連続測地的畳み込み

Continuous Geodesic Convolutions for Learning on 3D Shapes ( http://arxiv.org/abs/2002.02506v1 )

ライセンス: Link先を確認
Zhangsihao Yang, Or Litany, Tolga Birdal, Srinath Sridhar, Leonidas Guibas(参考訳) 非剛体形状の幾何学的処理のための記述子に基づく手法の大半は手作りの記述子に依存している。 近年、学習に基づく手法が有効であることが示され、様々なタスクで最先端の成果が得られている。 しかし、これらのメソッドは原則として生のデータを直接処理できるが、ほとんどのメソッドは入力層の手書き記述子に依存している。 本稿では、このプラクティスに挑戦し、ニューラルネットワークを使用して、生のメッシュから直接ディスクリプタを学習したいと考えています。 この目的のために、私たちは神経アーキテクチャに2つのモジュールを導入します。 1つ目は局所参照フレーム(LRF)で、特徴を剛性変換に明示的に不変にするために使われる。 2つ目は、サンプリングにロバスト性を提供する連続畳み込みカーネルである。 本稿では,形状マッチングと人体部分分割という2つの基本課題を用いて,生メッシュ学習におけるネットワークの有効性を示す。 その結果,手作りディスクリプタを用いたベースラインメソッドよりも優れた結果が得られた。

The majority of descriptor-based methods for geometric processing of non-rigid shape rely on hand-crafted descriptors. Recently, learning-based techniques have been shown effective, achieving state-of-the-art results in a variety of tasks. Yet, even though these methods can in principle work directly on raw data, most methods still rely on hand-crafted descriptors at the input layer. In this work, we wish to challenge this practice and use a neural network to learn descriptors directly from the raw mesh. To this end, we introduce two modules into our neural architecture. The first is a local reference frame (LRF) used to explicitly make the features invariant to rigid transformations. The second is continuous convolution kernels that provide robustness to sampling. We show the efficacy of our proposed network in learning on raw meshes using two cornerstone tasks: shape matching, and human body parts segmentation. Our results show superior results over baseline methods that use hand-crafted descriptors.
翻訳日:2023-01-03 13:05:11 公開日:2020-02-06
# animepose: 多人数3dポーズ推定とアニメーション

AnimePose: Multi-person 3D pose estimation and animation ( http://arxiv.org/abs/2002.02792v1 )

ライセンス: Link先を確認
Laxman Kumarapu and Prerana Mukherjee(参考訳) 動作中の人間の3Dアニメーションは、人体全体に複数のモーショントラッカーを配置して、すべての手足の動きを追跡するという、非常に難しい作業です。 これは時間がかかり、運動センサー付きエキソスケルトンボディスーツの着用が不快になる可能性がある。 本研究では,深層学習を用いた2次元映像から複数の人物の3dアニメーションを生成するための自明で効果的な解を提案する。 近年3次元ポーズ推定において顕著な改善が達成されているが、従来の作業のほとんどは、一人のポーズ推定や複数人のポーズ推定が依然として困難な問題である場合にうまく機能する。 本稿ではまず,与えられたRGBビデオシーケンスに対して,教師付きマルチパーソン3Dポーズ推定とアニメーションフレームワークAnimePoseを提案する。 提案するシステムのパイプラインは様々なモジュールで構成されている。 一 人物の検出及び区分 二 深さマップの推定 三 人的位置決めのための2Dから3D情報を取得すること。 四 人的軌道予測及び人的ポーズ追跡 提案システムは,公開データセットである MuCo-3DHP と MuPoTS-3D データセットに対して,従来の最先端の 3D ポーズ推定手法に比較して比較結果を生成するとともに,Posetrack 2018 データセットにおける MOTA スコアに対する 11.7% のパフォーマンス向上率で,従来の最先端の人間のポーズ追跡手法よりも優れていた。

3D animation of humans in action is quite challenging as it involves using a huge setup with several motion trackers all over the person's body to track the movements of every limb. This is time-consuming and may cause the person discomfort in wearing exoskeleton body suits with motion sensors. In this work, we present a trivial yet effective solution to generate 3D animation of multiple persons from a 2D video using deep learning. Although significant improvement has been achieved recently in 3D human pose estimation, most of the prior works work well in case of single person pose estimation and multi-person pose estimation is still a challenging problem. In this work, we firstly propose a supervised multi-person 3D pose estimation and animation framework namely AnimePose for a given input RGB video sequence. The pipeline of the proposed system consists of various modules: i) Person detection and segmentation, ii) Depth Map estimation, iii) Lifting 2D to 3D information for person localization iv) Person trajectory prediction and human pose tracking. Our proposed system produces comparable results on previous state-of-the-art 3D multi-person pose estimation methods on publicly available datasets MuCo-3DHP and MuPoTS-3D datasets and it also outperforms previous state-of-the-art human pose tracking methods by a significant margin of 11.7% performance gain on MOTA score on Posetrack 2018 dataset.
翻訳日:2023-01-03 13:04:58 公開日:2020-02-06
# 説明可能なクラスタ記述子を生成するための効率的なアルゴリズム

Efficient Algorithms for Generating Provably Near-Optimal Cluster Descriptors for Explainability ( http://arxiv.org/abs/2002.02487v1 )

ライセンス: Link先を確認
Prathyush Sambaturu, Aparna Gupta, Ian Davidson, S. S. Ravi, Anil Vullikanti, Andrew Warren(参考訳) 機械学習手法による結果の説明可能性の向上は重要な研究目標となっている。 本稿では,クラスタの簡潔な表現を構築するための[Davidson et al., NeurIPS 2018]の最近のアプローチを拡張して,クラスタをより解釈しやすいものにする問題について検討する。 オブジェクトのセット$s$、パーティション$\pi$ of $s$(クラスタ内)、および、$s$の各要素がタグのサブセットに関連付けられるようなタグのユニバース$t$が与えられたとき、これらのセットがペアワイズに分離され、すべての代表者の合計サイズが最小になるように、各クラスタの代表的なタグセットを見つけることが目標である。 この問題は一般にnpハードであるため,問題に対する性能保証が可能な近似アルゴリズムを開発した。 また、異なる脅威レベルを表すゲノム配列のクラスタを含むデータセットからのクラスタを説明するアプリケーションを示す。

Improving the explainability of the results from machine learning methods has become an important research goal. Here, we study the problem of making clusters more interpretable by extending a recent approach of [Davidson et al., NeurIPS 2018] for constructing succinct representations for clusters. Given a set of objects $S$, a partition $\pi$ of $S$ (into clusters), and a universe $T$ of tags such that each element in $S$ is associated with a subset of tags, the goal is to find a representative set of tags for each cluster such that those sets are pairwise-disjoint and the total size of all the representatives is minimized. Since this problem is NP-hard in general, we develop approximation algorithms with provable performance guarantees for the problem. We also show applications to explain clusters from datasets, including clusters of genomic sequences that represent different threat levels.
翻訳日:2023-01-03 13:04:30 公開日:2020-02-06
# 衛星画像からの線境界形状抽出

Lane Boundary Geometry Extraction from Satellite Imagery ( http://arxiv.org/abs/2002.02362v1 )

ライセンス: Link先を確認
Andi Zang, Runsheng Xu, Zichen Li, David Doria(参考訳) 自動運転車は、重要なコンポーネントとして、ハイデフィニション(HD)マップは、市場と産業の両方でその価値を示している。 LiDARやステレオ・パースペクティブ画像から生成されたHDマップは驚くべき成功を収めたが、その固有の欠陥は無視できない。 本稿では,lidar point cloud と perspective view による現在の hd マップモデリングアプローチよりも安価で高速で,衛星画像の画素分割と定式化された仮説リンクを用いた高速道路hd マップモデリング手法を提案する。 また、当社の方法論をトレーニング、テスト、評価するために、bing tile image serverと連携した、ground truthとしてhd roadモデルデータセットを手作業でコーディング/ラベル付けしました。 このデータセットは同時に公開され、空中画像からのHDマップモデリングの研究に貢献する。

Autonomous driving car is becoming more of a reality, as a key component,high-definition(HD) maps shows its value in both market place and industry. Even though HD maps generation from LiDAR or stereo/perspective imagery has achieved impressive success, its inherent defects cannot be ignored. In this paper, we proposal a novel method for Highway HD maps modeling using pixel-wise segmentation on satellite imagery and formalized hypotheses linking, which is cheaper and faster than current HD maps modeling approaches from LiDAR point cloud and perspective view imagery, and let it becomes an ideal complementary of state of the art. We also manual code/label an HD road model dataset as ground truth, aligned with Bing tile image server, to train, test and evaluate our methodology. This dataset will be publish at same time to contribute research in HD maps modeling from aerial imagery.
翻訳日:2023-01-03 12:56:48 公開日:2020-02-06
# imagenetモデル選択がドメイン適応に及ぼす影響

Impact of ImageNet Model Selection on Domain Adaptation ( http://arxiv.org/abs/2002.02559v1 )

ライセンス: Link先を確認
Youshan Zhang and Brian D. Davison(参考訳) ディープニューラルネットワークは画像分類問題に広く利用されている。 しかし、異なるディープニューラルネットワークの機能がどのようにドメイン適応問題に影響を及ぼすかは、ほとんど問題になっていない。 既存の方法は、他のニューラルネットワークを探索することなく、あるイメージネットモデルから深い特徴を抽出することが多い。 本稿では,異なる画像ネットモデルがドメイン適応問題に対する転送精度に与える影響について検討する。 本研究では,プリトレーニングされた16種類のimagenetモデルから特徴を抽出し,その特徴を用いた12種類のベンチマーク手法の性能について検討する。 大規模な実験の結果、画像ネットモデルの方が精度が高く、ドメイン適応問題(相関係数0.95)の精度が高いことが示されている。 また,各ニューラルネットワークのアーキテクチャを調べ,特徴抽出のための最善のレイヤを見つける。 共に、我々の機能によるパフォーマンスは、3つのベンチマークデータセットで最先端のパフォーマンスを上回っています。

Deep neural networks are widely used in image classification problems. However, little work addresses how features from different deep neural networks affect the domain adaptation problem. Existing methods often extract deep features from one ImageNet model, without exploring other neural networks. In this paper, we investigate how different ImageNet models affect transfer accuracy on domain adaptation problems. We extract features from sixteen distinct pre-trained ImageNet models and examine the performance of twelve benchmarking methods when using the features. Extensive experimental results show that a higher accuracy ImageNet model produces better features, and leads to higher accuracy on domain adaptation problems (with a correlation coefficient of up to 0.95). We also examine the architecture of each neural network to find the best layer for feature extraction. Together, performance from our features exceeds that of the state-of-the-art in three benchmark datasets.
翻訳日:2023-01-03 12:56:12 公開日:2020-02-06
# カースピークを理解する - 人間をディーラーに置き換える

Understanding Car-Speak: Replacing Humans in Dealerships ( http://arxiv.org/abs/2002.02070v1 )

ライセンス: Link先を確認
Habeeb Hooshmand, James Caverlee(参考訳) アメリカでの自動車購入体験の大部分は、自動車ディーラーとの交流に関するものである。 ディーラーでは、自動車販売業者が販売担当者にニーズを伝えます。 しかし、ほとんどの自動車購入者は必要な車両の抽象的な記述しか持っていない。 そのため、彼らは理想の車を「カースピーカー」でしか表現できない。 カースピーカー(car-speak)は、自動車の物理的属性に関する抽象言語である。 本稿では,カースピーカーを定義する。 また、車載言語の合理的なデータセットのキュレートも目指しています。 最後に,カースピーカーを分類するために,いくつかの分類器を訓練する。

A large portion of the car-buying experience in the United States involves interactions at a car dealership. At the dealership, the car-buyer relays their needs to a sales representative. However, most car-buyers are only have an abstract description of the vehicle they need. Therefore, they are only able to describe their ideal car in "car-speak". Car-speak is abstract language that pertains to a car's physical attributes. In this paper, we define car-speak. We also aim to curate a reasonable data set of car-speak language. Finally, we train several classifiers in order to classify car-speak.
翻訳日:2023-01-03 12:55:59 公開日:2020-02-06
# 言葉の埋め込みは人間の心の概念的組織を根本から再現する

Word Embeddings Inherently Recover the Conceptual Organization of the Human Mind ( http://arxiv.org/abs/2002.10284v1 )

ライセンス: Link先を確認
Victor Swift(参考訳) 機械学習は、豊富なデータソースから深いパターンを明らかにする手段である。 ここでは、数百万人の自然言語利用に適用することで、機械学習が人間の心の概念的な組織を回復できることを見出します。 数十億のwebページからのテキストを利用して,大規模単語連想ネットワークに代表されるように,英語,オランダ語,日本語に含まれる概念のほとんどを復元する。 本研究は, 自己報告と観察的手法を用いて, 人間の心を深く, スケール的に探究する手段として, 機械学習を正当化する。 直接的な心理学的応用を超えて、我々の手法はあらゆる科学分野の概念を定義し、評価し、関連づけ、発見するプロジェクトに役立つかもしれない。

Machine learning is a means to uncover deep patterns from rich sources of data. Here, we find that machine learning can recover the conceptual organization of the human mind when applied to the natural language use of millions of people. Utilizing text from billions of webpages, we recover most of the concepts contained in English, Dutch, and Japanese, as represented in large scale Word Association networks. Our results justify machine learning as a means to probe the human mind, at a depth and scale that has been unattainable using self-report and observational methods. Beyond direct psychological applications, our methods may prove useful for projects concerned with defining, assessing, relating, or uncovering concepts in any scientific field.
翻訳日:2023-01-03 12:55:38 公開日:2020-02-06
# ソフトな後見体験リプレイ

Soft Hindsight Experience Replay ( http://arxiv.org/abs/2002.02089v1 )

ライセンス: Link先を確認
Qiwei He, Liansheng Zhuang, Houqiang Li(参考訳) 低報酬環境における効率的な学習は、深層強化学習(DRL)において最も重要な課題の1つである。 ロボットアーム制御などの連続DRL環境では、HER(Hindsight Experience Replay)が有効なソリューションであることが示されている。 しかし、決定論的手法の脆さのため、HERとその変種は通常、安定性と収束性に対する大きな課題に悩まされ、最終的な性能に大きな影響を及ぼす。 この課題は、そのような手法を複雑な実世界ドメインに適用する可能性を大幅に制限する。 この課題に取り組むため,本論文では,経験の再利用と最大エントロピー確率モデルを組み合わせた新しいアプローチであるsoft hindsight experience replay (sher)を提案する。 オープンAIロボット操作タスクにおけるSHERの評価を行った。 実験結果から,本提案手法は,特にハンドマニピュレーションの難しい課題において,その性能が向上することが示された。 さらに、SHER法はより安定しており、異なるランダムシード間で非常によく似た性能が得られる。

Efficient learning in the environment with sparse rewards is one of the most important challenges in Deep Reinforcement Learning (DRL). In continuous DRL environments such as robotic arms control, Hindsight Experience Replay (HER) has been shown an effective solution. However, due to the brittleness of deterministic methods, HER and its variants typically suffer from a major challenge for stability and convergence, which significantly affects the final performance. This challenge severely limits the applicability of such methods to complex real-world domains. To tackle this challenge, in this paper, we propose Soft Hindsight Experience Replay (SHER), a novel approach based on HER and Maximum Entropy Reinforcement Learning (MERL), combining the failed experiences reuse and maximum entropy probabilistic inference model. We evaluate SHER on Open AI Robotic manipulation tasks with sparse rewards. Experimental results show that, in contrast to HER and its variants, our proposed SHER achieves state-of-the-art performance, especially in the difficult HandManipulation tasks. Furthermore, our SHER method is more stable, achieving very similar performance across different random seeds.
翻訳日:2023-01-03 12:55:25 公開日:2020-02-06
# 独立成分分析とトポロジーのマルチクリトリア決定問題における従属基準への適用

Application of independent component analysis and TOPSIS to deal with dependent criteria in multicriteria decision problems ( http://arxiv.org/abs/2002.02257v1 )

ライセンス: Link先を確認
Guilherme Dean Pelegrina, Leonardo Tomazeli Duarte, Jo\~ao Marcos Travassos Romano(参考訳) マルチクリテリア方式で評価された選択肢の集合をランク付けする問題に対処するために,多数のマルチクリテリア意思決定手法が開発されている。 これらの手法は、基準間の評価が統計的に独立であると仮定することが多い。 しかし、実際の問題では、観測されたデータは依存する基準で構成されており、他の問題と同様に、偏りのあるランキングをもたらす可能性がある。 この問題に対処するために, 観測データから, 決定行列の代替表現と見なすことのできる, 独立した潜在基準の組を推定することを目的とした新しい手法を提案する。 提案手法の中心的な要素は、決定問題をブラインドソース分離問題として定式化し、独立成分分析技術を適用して潜在基準を推定することである。 さらに,TOPSISに基づく代替品のランク付け手法を,潜在基準から検討する。 合成データと実データの両方の結果は、提案手法の妥当性を検証する。

A vast number of multicriteria decision making methods have been developed to deal with the problem of ranking a set of alternatives evaluated in a multicriteria fashion. Very often, these methods assume that the evaluation among criteria is statistically independent. However, in actual problems, the observed data may comprise dependent criteria, which, among other problems, may result in biased rankings. In order to deal with this issue, we propose a novel approach whose aim is to estimate, from the observed data, a set of independent latent criteria, which can be seen as an alternative representation of the original decision matrix. A central element of our approach is to formulate the decision problem as a blind source separation problem, which allows us to apply independent component analysis techniques to estimate the latent criteria. Moreover, we consider TOPSIS-based approaches to obtain the ranking of alternatives from the latent criteria. Results in both synthetic and actual data attest the relevance of the proposed approach.
翻訳日:2023-01-03 12:55:06 公開日:2020-02-06
# ロボット空間押出しのスケーラブルかつ確率的完全計画

Scalable and Probabilistically Complete Planning for Robotic Spatial Extrusion ( http://arxiv.org/abs/2002.02360v1 )

ライセンス: Link先を確認
Caelan Reed Garrett, Yijiang Huang, Tom\'as Lozano-P\'erez, and Caitlin Tobin Mueller(参考訳) 3D構造を構築できる自動化システムへの需要が高まっている。 ロボット空間の押出は、大きな方向依存構造を印刷するマニピュレータの柔軟性のために、従来の3Dプリントに代わる魅力的なものとなっている。 しかし、既存の押出計画アルゴリズムは、かなりの量の人間の入力を必要とし、大規模なインスタンスにスケールせず、理論的保証を欠いている。 本稿では,ロボット空間押出し計画の厳密な形式化と,効率良く,確率的に完全な計画アルゴリズムを提案する。 重要な計画課題は、印刷プロセスを通して、構造体の変形を制限する剛性制約と、ロボットが構造体と衝突しないことを保証する幾何学的制約の両方を満たすことである。 これらの制約は相反することが多いが、強固さを認識できるヒューリスティックによって導かれる欲深い後方状態空間探索は、両方の制約をうまくバランスさせることができる。 提案手法を40以上の押出問題のベンチマークで実証的に比較した。 最後に,実世界の3つの押出問題に適用する。

There is increasing demand for automated systems that can fabricate 3D structures. Robotic spatial extrusion has become an attractive alternative to traditional layer-based 3D printing due to a manipulator's flexibility to print large, directionally-dependent structures. However, existing extrusion planning algorithms require a substantial amount of human input, do not scale to large instances, and lack theoretical guarantees. In this work, we present a rigorous formalization of robotic spatial extrusion planning and provide several efficient and probabilistically complete planning algorithms. The key planning challenge is, throughout the printing process, satisfying both stiffness constraints that limit the deformation of the structure and geometric constraints that ensure the robot does not collide with the structure. We show that, although these constraints often conflict with each other, a greedy backward state-space search guided by a stiffness-aware heuristic is able to successfully balance both constraints. We empirically compare our methods on a benchmark of over 40 simulated extrusion problems. Finally, we apply our approach to 3 real-world extrusion problems.
翻訳日:2023-01-03 12:54:38 公開日:2020-02-06
# 構文解析からの語彙除去による合成ニューラルマシン翻訳

Compositional Neural Machine Translation by Removing the Lexicon from Syntax ( http://arxiv.org/abs/2002.08899v1 )

ライセンス: Link先を確認
Tristan Thrush(参考訳) 自然言語の発話の意味は、その構文と単語から大きく決定される。 さらに、人間が語彙に関する知識と構文の知識を分離して発話を行うという証拠もある。 意味論と神経科学の理論は、完全な単語の意味は構文の表現ではエンコードされないと主張している。 本稿では、LSTMエンコーダとデコーダにこの制約を強制できるニューラルネットワークを提案する。 本モデルは,意味解析,構文解析,英語から中国語への翻訳など,さまざまな分野における競争性能を実証する。 これらの場合、我々のモデルは、標準のLSTMエンコーダおよびデコーダアーキテクチャを多くのまたはすべてのメトリクスで上回る。 我々のモデルが語彙と構文の望ましい分離を達成することを実証するために、重みを解析し、異なる神経モジュールが損傷した場合の挙動を探索する。 損傷すると、モデルが失語症が持つと証明される知識の歪みを表示することが分かる。

The meaning of a natural language utterance is largely determined from its syntax and words. Additionally, there is evidence that humans process an utterance by separating knowledge about the lexicon from syntax knowledge. Theories from semantics and neuroscience claim that complete word meanings are not encoded in the representation of syntax. In this paper, we propose neural units that can enforce this constraint over an LSTM encoder and decoder. We demonstrate that our model achieves competitive performance across a variety of domains including semantic parsing, syntactic parsing, and English to Mandarin Chinese translation. In these cases, our model outperforms the standard LSTM encoder and decoder architecture on many or all of our metrics. To demonstrate that our model achieves the desired separation between the lexicon and syntax, we analyze its weights and explore its behavior when different neural modules are damaged. When damaged, we find that the model displays the knowledge distortions that aphasics are evidenced to have.
翻訳日:2023-01-03 12:49:26 公開日:2020-02-06
# 時間適応型階層型強化学習

Temporal-adaptive Hierarchical Reinforcement Learning ( http://arxiv.org/abs/2002.02080v1 )

ライセンス: Link先を確認
Wen-Ji Zhou, Yang Yu(参考訳) 階層的強化学習(HRL)は、強化学習における大規模かつスパースな報酬問題に対処するのに役立つ。 HRLでは、ポリシーモデルはレベルによって構成された内部表現を持つ。 この構造により、強化学習タスクはサブタスクで対応するレベルに分解されることが期待でき、学習をより効率的にすることができる。 HRLでは、高レベルポリシーがマクロ決定を低周波数で行う必要があるのは直感的であるが、正確な周波数は簡単に決定するのは難しい。 従来のHRLアプローチでは、コンテキストを考慮せずに、固定時間スキップ戦略や端末条件を学習することが多かったが、手動で調整するだけでなく、決定の粒度を犠牲にしている。 本稿では,時相ゲートを用いて高レベル政策決定頻度を適応的に制御するemph{temporal-adaptive Hierarchical Policy Learning} (TEMPLE) 構造を提案する。 TEMPLEの構造をPPOでトレーニングし、2次元の部屋、Mujocoタスク、Atariゲームを含む様々な環境で性能をテストする。 その結果,TEMPLE構造は,逐次適応型高レベル制御により,これらの環境の性能向上につながることが示された。

Hierarchical reinforcement learning (HRL) helps address large-scale and sparse reward issues in reinforcement learning. In HRL, the policy model has an inner representation structured in levels. With this structure, the reinforcement learning task is expected to be decomposed into corresponding levels with sub-tasks, and thus the learning can be more efficient. In HRL, although it is intuitive that a high-level policy only needs to make macro decisions in a low frequency, the exact frequency is hard to be simply determined. Previous HRL approaches often employed a fixed-time skip strategy or learn a terminal condition without taking account of the context, which, however, not only requires manual adjustments but also sacrifices some decision granularity. In this paper, we propose the \emph{temporal-adaptive hierarchical policy learning} (TEMPLE) structure, which uses a temporal gate to adaptively control the high-level policy decision frequency. We train the TEMPLE structure with PPO and test its performance in a range of environments including 2-D rooms, Mujoco tasks, and Atari games. The results show that the TEMPLE structure can lead to improved performance in these environments with a sequential adaptive high-level control.
翻訳日:2023-01-03 12:49:11 公開日:2020-02-06
# 機械学習を用いた鑑識スキャナー識別

Forensic Scanner Identification Using Machine Learning ( http://arxiv.org/abs/2002.02079v1 )

ライセンス: Link先を確認
Ruiting Shao and Edward J. Delp(参考訳) 画像編集ツールの可用性と機能の向上により,デジタル画像認証やソース識別,タンパ検出といった多くの法医学的手法が,画像解析において重要である。 本稿では,スキャナ装置の法医学的解析を行うための機械学習システムについて述べる。 提案システムはディープラーニングを用いて,様々なスキャン画像から固有の特徴を自動的に学習する。 実験結果から,ソーススキャナの同定に高い精度が期待できることがわかった。 提案システムは,スキャンした画像内の操作領域を示す信頼性マップも生成できる。

Due to the increasing availability and functionality of image editing tools, many forensic techniques such as digital image authentication, source identification and tamper detection are important for forensic image analysis. In this paper, we describe a machine learning based system to address the forensic analysis of scanner devices. The proposed system uses deep-learning to automatically learn the intrinsic features from various scanned images. Our experimental results show that high accuracy can be achieved for source scanner identification. The proposed system can also generate a reliability map that indicates the manipulated regions in an scanned image.
翻訳日:2023-01-03 12:48:04 公開日:2020-02-06
# 歯科用コーンビームCT画像からのPose-Aware Instance Segmentation Framework

Pose-Aware Instance Segmentation Framework from Cone Beam CT Images for Tooth Segmentation ( http://arxiv.org/abs/2002.02143v1 )

ライセンス: Link先を確認
Minyoung Chung, Minkyung Lee, Jioh Hong, Sanguk Park, Jusang Lee, Jingyu Lee, Jeongjin Lee, Yeong-Gil Shin(参考訳) コーンビームct (cbct) 画像からの個々の歯の分割は, 歯の改質計画やインプラントガイドシミュレーションなど, 矯正構造の解剖学的理解に欠かせない前提条件である。 しかし,CBCT画像に重金属片が存在することは,個々の歯の正確なセグメンテーションを妨げる。 本研究では,金属アーチファクトに対して頑健なインスタンスセグメンテーションフレームワークを利用するために,画素単位のラベリングのためのニューラルネットワークを提案する。 本手法は3段階からなる。 1)ポーズ回帰による画像の切り抜き・再表示 2)金属ローバスト個別歯検出,および 3)セグメンテーション。 まず、回帰ニューラルネットワークを用いて患者のアライメント情報を抽出し、興味領域(VOI)に到達し、入力画像を認識することにより、歯のバウンディングボックス間の重なり合う領域を減らす。 そして、畳み込み検出器を用いてVOI再構成画像内に個々の歯領域を局在させる。 地域提案ネットワークにおいて,非最大抑圧と多クラス分類指標を用いて,検出器の精度を向上させる。 最後に, 距離回帰タスクに画素ワイドラベルタスクを変換することにより, 個々の歯のセグメンテーションを行うために畳み込みニューラルネットワーク(CNN)を適用した。 金属集約的な画像増強は、金属人工物の堅牢なセグメンテーションにも用いられる。 以上の結果から,本手法は他の最先端法,特に金属造形歯に勝ることがわかった。 提案手法の主な意義は次の2つである。 1) 姿勢認識型VOIリアライメントの導入と頑健な歯の発見 2) 歯の精密分割のための金属ロバストcnnフレームワーク

Individual tooth segmentation from cone beam computed tomography (CBCT) images is an essential prerequisite for an anatomical understanding of orthodontic structures in several applications, such as tooth reformation planning and implant guide simulations. However, the presence of severe metal artifacts in CBCT images hinders the accurate segmentation of each individual tooth. In this study, we propose a neural network for pixel-wise labeling to exploit an instance segmentation framework that is robust to metal artifacts. Our method comprises of three steps: 1) image cropping and realignment by pose regressions, 2) metal-robust individual tooth detection, and 3) segmentation. We first extract the alignment information of the patient by pose regression neural networks to attain a volume-of-interest (VOI) region and realign the input image, which reduces the inter-overlapping area between tooth bounding boxes. Then, individual tooth regions are localized within a VOI realigned image using a convolutional detector. We improved the accuracy of the detector by employing non-maximum suppression and multiclass classification metrics in the region proposal network. Finally, we apply a convolutional neural network (CNN) to perform individual tooth segmentation by converting the pixel-wise labeling task to a distance regression task. Metal-intensive image augmentation is also employed for a robust segmentation of metal artifacts. The result shows that our proposed method outperforms other state-of-the-art methods, especially for teeth with metal artifacts. The primary significance of the proposed method is two-fold: 1) an introduction of pose-aware VOI realignment followed by a robust tooth detection and 2) a metal-robust CNN framework for accurate tooth segmentation.
翻訳日:2023-01-03 12:47:56 公開日:2020-02-06
# 顔表情合成と認識の融合深層学習

Joint Deep Learning of Facial Expression Synthesis and Recognition ( http://arxiv.org/abs/2002.02194v1 )

ライセンス: Link先を確認
Yan Yan, Ying Huang, Si Chen, Chunhua Shen, Hanzi Wang(参考訳) 近年,deep learning based facial expression recognition (fer) 法が注目されている。 それでも、一般に公開されている表情データベースは、通常は少量のラベル付きデータを含んでいる。 本稿では,この課題を克服するために,表情合成の新たな深層学習と効果的なferのための認識法を提案する。 より具体的には、提案手法は2段階学習手順を含む。 まず、表情合成生成対向ネットワーク(FESGAN)を事前訓練し、表情の異なる顔画像を生成する。 トレーニング画像の多様性を高めるため、FESGANは以前の分布から新しいアイデンティティを持つ画像を生成するために精巧に設計されている。 次に、表現認識ネットワークと事前学習されたfesganとを統一した枠組みで学習する。 特に、認識ネットワークから計算された分類損失を使用して、認識ネットワークとFESGANの生成器の両方の性能を同時に最適化する。 さらに、実画像と合成画像間のデータバイアスの問題を軽減するため、新しい実データ誘導バックプロパゲーション(RDBP)アルゴリズムを用いて、同クラスからの画像のクラス内変動を低減し、最終的な性能を大幅に向上させることができるクラス内損失を提案する。 公開表情データベースにおける広範囲な実験結果から,提案手法がいくつかの最先端fer法と比較して優れていることが示された。

Recently, deep learning based facial expression recognition (FER) methods have attracted considerable attention and they usually require large-scale labelled training data. Nonetheless, the publicly available facial expression databases typically contain a small amount of labelled data. In this paper, to overcome the above issue, we propose a novel joint deep learning of facial expression synthesis and recognition method for effective FER. More specifically, the proposed method involves a two-stage learning procedure. Firstly, a facial expression synthesis generative adversarial network (FESGAN) is pre-trained to generate facial images with different facial expressions. To increase the diversity of the training images, FESGAN is elaborately designed to generate images with new identities from a prior distribution. Secondly, an expression recognition network is jointly learned with the pre-trained FESGAN in a unified framework. In particular, the classification loss computed from the recognition network is used to simultaneously optimize the performance of both the recognition network and the generator of FESGAN. Moreover, in order to alleviate the problem of data bias between the real images and the synthetic images, we propose an intra-class loss with a novel real data-guided back-propagation (RDBP) algorithm to reduce the intra-class variations of images from the same class, which can significantly improve the final performance. Extensive experimental results on public facial expression databases demonstrate the superiority of the proposed method compared with several state-of-the-art FER methods.
翻訳日:2023-01-03 12:47:27 公開日:2020-02-06
# 自己監督深度事前学習を用いたRGBに基づくセマンティックセマンティックセグメンテーション

RGB-based Semantic Segmentation Using Self-Supervised Depth Pre-Training ( http://arxiv.org/abs/2002.02200v1 )

ライセンス: Link先を確認
Jean Lahoud, Bernard Ghanem(参考訳) ImageNetのような有名な大規模データセットは、画像理解を前進させているが、これらのデータセットのほとんどは広範な手動アノテーションを必要とするため、スケーラビリティが低い。 これは画像理解技術の進歩を制限している。 これらの大規模データセットの影響は、初期化のための事前トレーニングという形で、ほぼすべてのビジョンタスクとテクニックで見ることができる。 本研究では,任意の意味的RGBセグメンテーション手法の事前学習に使用できる,スケーラブルで自己管理的な手法を提案する。 特に、我々の事前学習アプローチでは、深度センサーを用いて得られるラベルを自動生成する。 これらのラベルはHNラベルで表され、高さと正規のパッチを表しており、意味的RGBセグメンテーションのタスクで有用な局所意味情報のマイニングを可能にする。 提案したHNラベルによる自己教師付き事前トレーニングは,手動によるラベル付けを必要とせず,25倍少ない画像を使用することなく,ImageNetの事前トレーニングを置き換えることができることを示す。 我々はHNラベルでセマンティックセグメンテーションネットワークを事前トレーニングする。これは、ImageNetによる分類のような、あまり関係のないタスクで事前トレーニングするよりも、最終タスクに似ています。 我々は,2つのデータセット (NYUv2 と CamVid) を評価し,タスク間の類似性が,事前学習プロセスの高速化だけでなく,ImageNet の事前学習よりも最終的なセマンティックセマンティックセマンティクスの精度向上に有効であることを示す。

Although well-known large-scale datasets, such as ImageNet, have driven image understanding forward, most of these datasets require extensive manual annotation and are thus not easily scalable. This limits the advancement of image understanding techniques. The impact of these large-scale datasets can be observed in almost every vision task and technique in the form of pre-training for initialization. In this work, we propose an easily scalable and self-supervised technique that can be used to pre-train any semantic RGB segmentation method. In particular, our pre-training approach makes use of automatically generated labels that can be obtained using depth sensors. These labels, denoted by HN-labels, represent different height and normal patches, which allow mining of local semantic information that is useful in the task of semantic RGB segmentation. We show how our proposed self-supervised pre-training with HN-labels can be used to replace ImageNet pre-training, while using 25x less images and without requiring any manual labeling. We pre-train a semantic segmentation network with our HN-labels, which resembles our final task more than pre-training on a less related task, e.g. classification with ImageNet. We evaluate on two datasets (NYUv2 and CamVid), and we show how the similarity in tasks is advantageous not only in speeding up the pre-training process, but also in achieving better final semantic segmentation accuracy than ImageNet pre-training
翻訳日:2023-01-03 12:47:06 公開日:2020-02-06
# グローバルとローカルの注意を向けた異種カメラネットワークにおける車両のリid

Looking GLAMORous: Vehicle Re-Id in Heterogeneous Cameras Networks with Global and Local Attention ( http://arxiv.org/abs/2002.02256v1 )

ライセンス: Link先を確認
Abhijit Suprem, Calton Pu(参考訳) 車両再識別(re-id)は、現代の監視カメラネットワークにおける根本的な問題である。 既存の車両のre-idアプローチでは、グローバル機能とローカル機能を利用し、複数のサブネットワークと損失を組み合わせる。 本稿では, GLAMOR(Global and Local Attention Modules for Re-id)を提案する。 GLAMORは、様々な逆境条件とデータセット(それぞれVeRi-776、VRIC、VeRi-WildのmAP 80.34、76.48、77.15)で車両の最先端性能を達成するために、統一されたモデルでグローバルおよびローカルの特徴抽出を同時に行う。 最近のアプローチよりも優れたバックボーン構築方法、re-idの競合する損失目標に対処するためのグループとレイヤの正規化、グローバルな特徴抽出のための新しいグローバルアテンションモジュール、監視を必要としない自己誘導部分ベースの局所的特徴抽出のための新しいローカルアテンションモジュール。 さらに、GLAMORはコンパクトで高速なモデルであり、性能は25%向上している。

Vehicle re-identification (re-id) is a fundamental problem for modern surveillance camera networks. Existing approaches for vehicle re-id utilize global features and local features for re-id by combining multiple subnetworks and losses. In this paper, we propose GLAMOR, or Global and Local Attention MOdules for Re-id. GLAMOR performs global and local feature extraction simultaneously in a unified model to achieve state-of-the-art performance in vehicle re-id across a variety of adversarial conditions and datasets (mAPs 80.34, 76.48, 77.15 on VeRi-776, VRIC, and VeRi-Wild, respectively). GLAMOR introduces several contributions: a better backbone construction method that outperforms recent approaches, group and layer normalization to address conflicting loss targets for re-id, a novel global attention module for global feature extraction, and a novel local attention module for self-guided part-based local feature extraction that does not require supervision. Additionally, GLAMOR is a compact and fast model that is 10x smaller while delivering 25% better performance.
翻訳日:2023-01-03 12:46:41 公開日:2020-02-06
# 適度な着替えによる輪郭スケッチによる人物識別

Person Re-identification by Contour Sketch under Moderate Clothing Change ( http://arxiv.org/abs/2002.02295v1 )

ライセンス: Link先を確認
Qize Yang, Ancong Wu, Wei-Shi Zheng(参考訳) 異なるカメラビューにまたがる歩行者画像のマッチングプロセスである人物再識別(re-id)は、視覚的監視において重要な課題である。 re-idの実質的な開発は近年観察されており、既存のモデルの大部分は色調に依存しており、歩行者はカメラの視点で服を変えないと仮定している。 しかし、この制限は、ある人物(例えば、犯罪容疑者)が服を変えて、その人物が色見に強く依存しているため、他の人物と類似した服を着ている人物にマッチする傾向にあるため、その人物(例えば、犯罪容疑者)が服を着替える場合、異なる場所や異なるタイミングで、その人物を追跡する際に、再証する問題となる。 この作業では、衣服の下でのリメイドを「クロスドレスのリメイド」と呼ぶ。 特に、可視光画像に基づいてこの問題を解決する最初の試みとして、衣服が適度に変化しただけの場合を考える。つまり、同じ厚さの衣服を身に着けていると仮定し、短時間で天候が実質的に変化しない場合、その人の形状はそれほど大きく変化しない。 被写体画像の輪郭図に基づいてクロスクロス・クロスクロス・パーソン・リidを行い、適度な服装変化にロバストな特徴を抽出するために、色情報の代わりに人体の形状を利用する。 クロス・クローズ・パーソナリティのための大規模なデータセットが欠如しているため、221のアイデンティティから33698の画像からなる新しいデータセットをコントリビュートする。 提案手法の有効性を実証し, クロス・クローズド・パーソナリティの課題について検討した。

Person re-identification (re-id), the process of matching pedestrian images across different camera views, is an important task in visual surveillance. Substantial development of re-id has recently been observed, and the majority of existing models are largely dependent on color appearance and assume that pedestrians do not change their clothes across camera views. This limitation, however, can be an issue for re-id when tracking a person at different places and at different time if that person (e.g., a criminal suspect) changes his/her clothes, causing most existing methods to fail, since they are heavily relying on color appearance and thus they are inclined to match a person to another person wearing similar clothes. In this work, we call the person re-id under clothing change the "cross-clothes person re-id". In particular, we consider the case when a person only changes his clothes moderately as a first attempt at solving this problem based on visible light images; that is we assume that a person wears clothes of a similar thickness, and thus the shape of a person would not change significantly when the weather does not change substantially within a short period of time. We perform cross-clothes person re-id based on a contour sketch of person image to take advantage of the shape of the human body instead of color information for extracting features that are robust to moderate clothing change. Due to the lack of a large-scale dataset for cross-clothes person re-id, we contribute a new dataset that consists of 33698 images from 221 identities. Our experiments illustrate the challenges of cross-clothes person re-id and demonstrate the effectiveness of our proposed method.
翻訳日:2023-01-03 12:46:16 公開日:2020-02-06
# JPLink:職種を職業的興味タイプにリンク

JPLink: On Linking Jobs to Vocational Interest Types ( http://arxiv.org/abs/2002.02557v1 )

ライセンス: Link先を確認
Amila Silva and Pei-Chi Lo and Ee-Peng Lim(参考訳) 求職者と関連する仕事のリンクには、スキルだけでなくパーソナリティタイプに基づくマッチングが必要である。 RIASECとしても知られるホランド法典は、6つの異なる職業のカテゴリに適合して人々をグループ化するために頻繁に使用されているが、RIASECの個々の仕事のカテゴリーラベルは求職者には見つからないことが多い。 これはRIASECラベルにジョブポストを割り当てるのに必要な重要な手作業によるものである。 RIASECラベルに大量のジョブを割り当てることに対処するため,ジョブタイトルやジョブ記述のテキストコンテンツを用いた機械学習手法であるJPLinkを提案する。 jplinkはo*netとして知られる職業固有の知識ベースで利用可能なドメイン知識を利用して、ジョブポストの特徴表現を改善している。 各ジョブのRIASECラベルの相対的なランキングを組み込むため、JPLinkはランク付け学習にインスパイアされたリストワイズ損失関数を提案する。 定量的および質的評価から、jplinkは従来のベースラインよりも優れています。 我々はJPLinkの予測の誤り解析を行い、既存の求人情報にラベルの誤りを発見できることを示す。

Linking job seekers with relevant jobs requires matching based on not only skills, but also personality types. Although the Holland Code also known as RIASEC has frequently been used to group people by their suitability for six different categories of occupations, the RIASEC category labels of individual jobs are often not found in job posts. This is attributed to significant manual efforts required for assigning job posts with RIASEC labels. To cope with assigning massive number of jobs with RIASEC labels, we propose JPLink, a machine learning approach using the text content in job titles and job descriptions. JPLink exploits domain knowledge available in an occupation-specific knowledge base known as O*NET to improve feature representation of job posts. To incorporate relative ranking of RIASEC labels of each job, JPLink proposes a listwise loss function inspired by learning to rank. Both our quantitative and qualitative evaluations show that JPLink outperforms conventional baselines. We conduct an error analysis on JPLink's predictions to show that it can uncover label errors in existing job posts.
翻訳日:2023-01-03 12:39:52 公開日:2020-02-06
# 解釈可能な音声合成のための完全階層的微細韻律モデリング

Fully-hierarchical fine-grained prosody modeling for interpretable speech synthesis ( http://arxiv.org/abs/2002.03785v1 )

ライセンス: Link先を確認
Guangzhi Sun, Yu Zhang, Ron J. Weiss, Yuan Cao, Heiga Zen, Yonghui Wu(参考訳) 本稿では,Tacotron 2テキスト音声モデルに基づく韻律の階層的,きめ細かな,解釈可能な潜在変数モデルを提案する。 より粗いレベルの表現を条件付けすることで、韻律のマルチレゾリューションモデリングを実現する。 さらに、条件付き変分自動エンコーダ(VAE)と自己回帰構造を用いて、すべての潜在次元に階層的条件を課す。 復元性能の評価は、新しい構造がモデルを劣化させることなく、より優れた解釈性を実現していることを示している。 韻律属性の解釈は、単語レベルと音声レベルの韻律表現の比較と合わせて提供される。 さらに, 定性的および定量的な評価は, 潜伏次元の歪みの改善を示すために用いられる。

This paper proposes a hierarchical, fine-grained and interpretable latent variable model for prosody based on the Tacotron 2 text-to-speech model. It achieves multi-resolution modeling of prosody by conditioning finer level representations on coarser level ones. Additionally, it imposes hierarchical conditioning across all latent dimensions using a conditional variational auto-encoder (VAE) with an auto-regressive structure. Evaluation of reconstruction performance illustrates that the new structure does not degrade the model while allowing better interpretability. Interpretations of prosody attributes are provided together with the comparison between word-level and phone-level prosody representations. Moreover, both qualitative and quantitative evaluations are used to demonstrate the improvement in the disentanglement of the latent dimensions.
翻訳日:2023-01-03 12:39:18 公開日:2020-02-06
# 量子化された微細なVAEと自己回帰韻律を用いた多種・自然テキスト音声サンプルの生成

Generating diverse and natural text-to-speech samples using a quantized fine-grained VAE and auto-regressive prosody prior ( http://arxiv.org/abs/2002.03788v1 )

ライセンス: Link先を確認
Guangzhi Sun, Yu Zhang, Ron J. Weiss, Yuan Cao, Heiga Zen, Andrew Rosenberg, Bhuvana Ramabhadran, Yonghui Wu(参考訳) 最近のニューラルテキスト音声合成(TTS)モデルは,音声合成の韻律を正確に制御することができる。 このようなモデルは典型的には細粒度の変分オートエンコーダ(VAE)構造を取り入れ、各入力トークン(例えば音素)の潜在特徴を抽出する。 しかし、標準のVAEでサンプルを生成すると、しばしば不自然で不連続な発話が起こり、トークン間の劇的な韻律的変化が生じる。 本稿では,より自然な音響サンプルを生成できる離散潜在空間における逐次前処理を提案する。 これは、ベクトル量子化(VQ)を用いて潜在特徴を離散化し、結果に対して自己回帰(AR)事前モデルを個別に訓練することで達成される。 本手法は,リスニングテスト,自動音声認識(asr)性能の客観的指標,韻律属性の測定を用いて評価する。 実験の結果,提案モデルはランダムサンプル生成の自然性を大幅に向上させることがわかった。 さらに,asr性能向上のためのデータ拡張として,提案モデルからランダムにサンプリングできることを示す実験を行った。

Recent neural text-to-speech (TTS) models with fine-grained latent features enable precise control of the prosody of synthesized speech. Such models typically incorporate a fine-grained variational autoencoder (VAE) structure, extracting latent features at each input token (e.g., phonemes). However, generating samples with the standard VAE prior often results in unnatural and discontinuous speech, with dramatic prosodic variation between tokens. This paper proposes a sequential prior in a discrete latent space which can generate more naturally sounding samples. This is accomplished by discretizing the latent features using vector quantization (VQ), and separately training an autoregressive (AR) prior model over the result. We evaluate the approach using listening tests, objective metrics of automatic speech recognition (ASR) performance, and measurements of prosody attributes. Experimental results show that the proposed model significantly improves the naturalness in random sample generation. Furthermore, initial experiments demonstrate that randomly sampling from the proposed model can be used as data augmentation to improve the ASR performance.
翻訳日:2023-01-03 12:39:07 公開日:2020-02-06
# ブラウザの並列パフォーマンス・エネルギ予測モデリング:servoのケーススタディ

Parallel Performance-Energy Predictive Modeling of Browsers: Case Study of Servo ( http://arxiv.org/abs/2002.03850v1 )

ライセンス: Link先を確認
Rohit Zambre, Lars Bergstrom, Laleh Aghababaie Beni, Aparna Chandramowliswharan(参考訳) Mozilla Researchは、Webレンダリングパイプラインにおける並列性と並列性の利点を活用するために、並列WebブラウザエンジンのServoを開発している。 並列化によってPinterest.comのパフォーマンスは向上するが、google.comでは改善されない。 これは、ブラウザのワークロードがレンダリングしているWebページに依存しているためです。 多くの場合、並列処理の生成、削除、調整のオーバーヘッドは、そのメリットよりも優れています。 本稿では,教師あり学習を用いたWebページプリミティブとWebブラウザの並列性能の関係をモデル化する。 我々は、webページで利用可能な並列性を表す特徴空間を発見し、7つの主要な特徴を用いて特徴付けする。 さらに, 自動ラベリングアルゴリズムを用いて, 異なるレベルの性能改善のためのエネルギー使用トレードオフを検討する。 このようなモデルにより、Webページで利用可能な並列性の程度を予測し、Webページを並列にレンダリングするかどうかを決定することができる。 このモデリングは、ブラウザのパフォーマンスを改善し、そのエネルギー使用量を最小限にするために重要である。 本稿では,Servoのレイアウトステージをケーススタディとして評価する。 クアッドコアのIntel Ivy Bridge (i7-3615QM)ラップトップの実験では、この研究で検討された535ページにおいて、パフォーマンスとエネルギー使用率を最大94.52%と46.32%向上させることができる。 今後、このモデルをブラウザアーキテクチャの他のステージや、他のパフォーマンスおよびエネルギークリティカルなデバイスに適用する機会を特定します。

Mozilla Research is developing Servo, a parallel web browser engine, to exploit the benefits of parallelism and concurrency in the web rendering pipeline. Parallelization results in improved performance for pinterest.com but not for google.com. This is because the workload of a browser is dependent on the web page it is rendering. In many cases, the overhead of creating, deleting, and coordinating parallel work outweighs any of its benefits. In this paper, we model the relationship between web page primitives and a web browser's parallel performance using supervised learning. We discover a feature space that is representative of the parallelism available in a web page and characterize it using seven key features. Additionally, we consider energy usage trade-offs for different levels of performance improvements using automated labeling algorithms. Such a model allows us to predict the degree of parallelism available in a web page and decide whether or not to render a web page in parallel. This modeling is critical for improving the browser's performance and minimizing its energy usage. We evaluate our model by using Servo's layout stage as a case study. Experiments on a quad-core Intel Ivy Bridge (i7-3615QM) laptop show that we can improve performance and energy usage by up to 94.52% and 46.32% respectively on the 535 web pages considered in this study. Looking forward, we identify opportunities to apply this model to other stages of a browser's architecture as well as other performance- and energy-critical devices.
翻訳日:2023-01-03 12:38:29 公開日:2020-02-06
# 音楽生成のための注意ネットワーク

Attentional networks for music generation ( http://arxiv.org/abs/2002.03854v1 )

ライセンス: Link先を確認
Gullapalli Keerti, A N Vaishnavi, Prerana Mukherjee, A Sree Vidya, Gattineni Sai Sreenithya, Deeksha Nayab(参考訳) リアル音楽生成は構造や合理性に欠ける可能性があるため、常に困難な問題として残されてきた。 本研究では,双方向のlong short term memory(bi-lstm)ニューラルネットワークを用いて,メロディ構造を再現した古風音楽,特にジャズを創り出すための深層学習に基づく音楽生成手法を提案する。 時系列データにおける長期的依存関係のモデル化の成功とビデオの場合の成功により、注目されるBi-LSTMは、音楽生成における自然な選択と早期利用の役割を果たす。 実験では,注目されたBi-LSTMが演奏された音楽の豊かさと技術的ニュアンスを維持することができることを確認した。

Realistic music generation has always remained as a challenging problem as it may lack structure or rationality. In this work, we propose a deep learning based music generation method in order to produce old style music particularly JAZZ with rehashed melodic structures utilizing a Bi-directional Long Short Term Memory (Bi-LSTM) Neural Network with Attention. Owing to the success in modelling long-term temporal dependencies in sequential data and its success in case of videos, Bi-LSTMs with attention serve as the natural choice and early utilization in music generation. We validate in our experiments that Bi-LSTMs with attention are able to preserve the richness and technical nuances of the music performed.
翻訳日:2023-01-03 12:37:58 公開日:2020-02-06
# 食品廃棄物の分類のための深層学習

Deep Learning for Classifying Food Waste ( http://arxiv.org/abs/2002.03786v1 )

ライセンス: Link先を確認
Amin Mazloumian (1), Matthias Rosenthal (1), Hans Gelke (1) ((1) Institute of Embedded Systems, Zurich University of Applied Sciences)(参考訳) 世界で生産される食品の3分の1(約13億トン)は毎年失われ、あるいは廃棄されている。 個人消費者の食品廃棄物を分類し、対策の意識を高めることにより、回避可能な食品廃棄物を著しく削減することができる。 本研究では, 深層学習を用いて, 食品ごみ箱の上に設置したカメラで捉えた50万枚の画像に食品廃棄物を分類する。 具体的には,食品廃棄物がごみ箱に投げ込まれるたびに,食品廃棄物を分類するディープニューラルネットワークを設計した。 本手法は,学習データから学習する深層学習ネットワークを最適に調整する方法を示す。

One third of food produced in the world for human consumption -- approximately 1.3 billion tons -- is lost or wasted every year. By classifying food waste of individual consumers and raising awareness of the measures, avoidable food waste can be significantly reduced. In this research, we use deep learning to classify food waste in half a million images captured by cameras installed on top of food waste bins. We specifically designed a deep neural network that classifies food waste for every time food waste is thrown in the waste bins. Our method presents how deep learning networks can be tailored to best learn from available training data.
翻訳日:2023-01-03 12:37:48 公開日:2020-02-06
# Intelligent Arxiv: ユーザのトピックの好みを学習する日刊紙

Intelligent Arxiv: Sort daily papers by learning users topics preference ( http://arxiv.org/abs/2002.02460v1 )

ライセンス: Link先を確認
Ezequiel Alvarez (ICAS), Federico Lamagna (CAB), Cesar Miquel (Easytech) and Manuel Szewc (ICAS)(参考訳) 現在の日刊紙のリリースはますます大きくなり、研究領域は多様化している。 これにより、科学者は現在の芸術の状態を把握し、関心事の範囲内で関連する仕事を特定することが難しくなる。 本稿の目的は、機械学習技術を用いてこの問題に取り組むことである。 我々は、さまざまなトピックから異なる科学的知識を新しい問題に組み合わせて構築する科学論文をモデル化する。 そこで本研究では,ある分野における論文のコーパス上で,潜在ディリクレ割当(lda)の教師なし機械学習手法を実装した。 一 コーパスの下位事項を定義して抽出すること。 二 コーパスの各紙について、話題の重みベクトルを取得し、 iii)新しい論文の重み付けベクターを取得する。 ユーザが好む文書を登録することにより,選択した論文のベクトル情報を用いて重みのユーザベクトルを構築する。 したがって、毎日のarxivリリースでユーザベクトルと各紙の間に内積を行うことで、基礎となるトピックのユーザ嗜好に応じて論文を分類することができる。 我々はIArxiv.orgというウェブサイトを作成し、ユーザーが毎日Arxivリリース(など)をソートし、アルゴリズムは各ユーザの好みを学習し、より正確なソートを行う。 現在のIArxiv.orgバージョンはArxivカテゴリのastro-ph, gr-qc, hep-ph, hep-thで動作します。 本稿では,LDA以外の機械学習技術に加えて,新たなツールの精度向上を図るために,新たに開発する有用な実装をいくつか提案する。

Current daily paper releases are becoming increasingly large and areas of research are growing in diversity. This makes it harder for scientists to keep up to date with current state of the art and identify relevant work within their lines of interest. The goal of this article is to address this problem using Machine Learning techniques. We model a scientific paper to be built as a combination of different scientific knowledge from diverse topics into a new problem. In light of this, we implement the unsupervised Machine Learning technique of Latent Dirichlet Allocation (LDA) on the corpus of papers in a given field to: i) define and extract underlying topics in the corpus; ii) get the topics weight vector for each paper in the corpus; and iii) get the topics weight vector for new papers. By registering papers preferred by a user, we build a user vector of weights using the information of the vectors of the selected papers. Hence, by performing an inner product between the user vector and each paper in the daily Arxiv release, we can sort the papers according to the user preference on the underlying topics. We have created the website IArxiv.org where users can read sorted daily Arxiv releases (and more) while the algorithm learns each users preference, yielding a more accurate sorting every day. Current IArxiv.org version runs on Arxiv categories astro-ph, gr-qc, hep-ph and hep-th and we plan to extend to others. We propose several new useful and relevant implementations to be additionally developed as well as new Machine Learning techniques beyond LDA to further improve the accuracy of this new tool.
翻訳日:2023-01-03 12:37:09 公開日:2020-02-06
# 関連タスクは共有できる! Affective Languageのためのマルチタスクフレームワーク

Related Tasks can Share! A Multi-task Framework for Affective language ( http://arxiv.org/abs/2002.02154v1 )

ライセンス: Link先を確認
Kumar Shikhar Deep, Md Shad Akhtar, Asif Ekbal, and Pushpak Bhattacharyya(参考訳) 感情の極性を表す「ポジティブ」と「ネガティブ」は通常、極性の強度/度に比べて範囲が限られている。 これら2つのタスク(感情分類と感情強度予測)は密接に関連しており、学習プロセス中に互いに助け合うことができる。 本稿では,マルチタスク学習フレームワークにおける複数のタスクの関連性を活用することを提案する。 マルチタスクモデルはconvolutional-gated recurrent unit(gru)フレームワークをベースとしています。 評価と分析は、マルチタスクフレームワークにおける関連するタスクの合同学習が、シングルタスクフレームワークの個々のタスクを上回ることができることを示唆している。

Expressing the polarity of sentiment as 'positive' and 'negative' usually have limited scope compared with the intensity/degree of polarity. These two tasks (i.e. sentiment classification and sentiment intensity prediction) are closely related and may offer assistance to each other during the learning process. In this paper, we propose to leverage the relatedness of multiple tasks in a multi-task learning framework. Our multi-task model is based on convolutional-Gated Recurrent Unit (GRU) framework, which is further assisted by a diverse hand-crafted feature set. Evaluation and analysis suggest that joint-learning of the related tasks in a multi-task framework can outperform each of the individual tasks in the single-task frameworks.
翻訳日:2023-01-03 12:36:42 公開日:2020-02-06
# チェコapex裁判所の引用データ

Citation Data of Czech Apex Courts ( http://arxiv.org/abs/2002.02224v1 )

ライセンス: Link先を確認
Jakub Hara\v{s}ta, Tereza Novotn\'a, Jarom\'ir \v{S}avelka(参考訳) 本稿では,チェコの頂点裁判所(最高裁判所,最高行政裁判所,憲法裁判所)の引用データを紹介する。 このデータセットはチェコの裁判所決定のテキストコーパスから自動的に抽出された。 裁判所決定識別子を抽出するための自然言語処理パイプラインを構築し,引用データを得た。 パイプラインには (i)文書分割モデルとその方法 (ii)参照認識モデル。 さらにデータセットを手作業で処理し, 質的, 定量的解析のベースとして高品質な引用データを得ることができた。 データセットは一般向けに公開される予定だ。

In this paper, we introduce the citation data of the Czech apex courts (Supreme Court, Supreme Administrative Court and Constitutional Court). This dataset was automatically extracted from the corpus of texts of Czech court decisions - CzCDC 1.0. We obtained the citation data by building the natural language processing pipeline for extraction of the court decision identifiers. The pipeline included the (i) document segmentation model and the (ii) reference recognition model. Furthermore, the dataset was manually processed to achieve high-quality citation data as a base for subsequent qualitative and quantitative analyses. The dataset will be made available to the general public.
翻訳日:2023-01-03 12:36:30 公開日:2020-02-06
# オンライン討論における会話構造認識と文脈感性トピックモデル

Conversational Structure Aware and Context Sensitive Topic Model for Online Discussions ( http://arxiv.org/abs/2002.02353v1 )

ライセンス: Link先を確認
Yingcheng Sun and Kenneth Loparo and Richard Kolacinski(参考訳) 何百万ものオンラインディスカッションがソーシャルメディアプラットフォーム上で毎日発生している。 トピックモデリングは大規模なテキストデータセットをより理解するための効率的な方法である。 従来のトピックモデルは,オンライン議論において限られた成功を収めており,それらの制限を克服するために,議論スレッド木構造を用いて,コメントに対する応答数を定量化し,単語発生頻度を拡大する指標と,ネストした議論スレッド内のノード間のトピック依存性を特徴付ける「推移性」概念を提案する。 我々は,人気度と推移度に基づく会話構造意識トピックモデル(CSATM)を構築し,トピックとコメントへの課題を推測する。 実フォーラムデータセットにおける実験は、6つの異なるコヒーレンスの測定とトピック割り当ての印象的な精度でトピック抽出のパフォーマンス向上を示すために使用される。

Millions of online discussions are generated everyday on social media platforms. Topic modelling is an efficient way of better understanding large text datasets at scale. Conventional topic models have had limited success in online discussions, and to overcome their limitations, we use the discussion thread tree structure and propose a "popularity" metric to quantify the number of replies to a comment to extend the frequency of word occurrences, and the "transitivity" concept to characterize topic dependency among nodes in a nested discussion thread. We build a Conversational Structure Aware Topic Model (CSATM) based on popularity and transitivity to infer topics and their assignments to comments. Experiments on real forum datasets are used to demonstrate improved performance for topic extraction with six different measurements of coherence and impressive accuracy for topic assignments.
翻訳日:2023-01-03 12:36:22 公開日:2020-02-06
# CNNにおけるチェッカーボードアーティファクト回避のためのスムーズな畳み込み層

Fixed smooth convolutional layer for avoiding checkerboard artifacts in CNNs ( http://arxiv.org/abs/2002.02117v1 )

ライセンス: Link先を確認
Yuma Kinoshita and Hitoshi Kiya(参考訳) 本稿では,畳み込みニューラルネットワーク(cnns)におけるチェッカーボードアーティファクトを回避するだけでなく,そのフィルタカーネルの滑らかさをパラメータで制御可能なcnnの性能を向上させるために,滑らかさ順の固定畳み込み層を提案する。 多くのcnnが2つのプロセスの両方でチェッカーボードアーティファクトを生成することはよく知られている。 提案する層は,強化畳み込み層や転置畳み込み層を含むアップサンプリング層によって引き起こされるチェッカーボードアーチファクトを完全に防止することができる。 単純なCNN、VGG8、ResNet-18、ResNet-101の4つのCNNによる画像分類実験では、これらのCNNに固定層を適用することにより、すべてのCNNの分類性能が改善されている。 さらに、固定層を生成敵ネットワーク(GAN)に初めて適用する。 画像生成結果から,ganで生成した画像の品質を向上させるために,より滑らかな固定畳み込み層が示される。

In this paper, we propose a fixed convolutional layer with an order of smoothness not only for avoiding checkerboard artifacts in convolutional neural networks (CNNs) but also for enhancing the performance of CNNs, where the smoothness of its filter kernel can be controlled by a parameter. It is well-known that a number of CNNs generate checkerboard artifacts in both of two process: forward-propagation of upsampling layers and backward-propagation of strided convolutional layers. The proposed layer can perfectly prevent checkerboard artifacts caused by strided convolutional layers or upsampling layers including transposed convolutional layers. In an image-classification experiment with four CNNs: a simple CNN, VGG8, ResNet-18, and ResNet-101, applying the fixed layers to these CNNs is shown to improve the classification performance of all CNNs. In addition, the fixed layer are applied to generative adversarial networks (GANs), for the first time. From image-generation results, a smoother fixed convolutional layer is demonstrated to enable us to improve the quality of images generated with GANs.
翻訳日:2023-01-03 10:12:43 公開日:2020-02-06
# 生成的敵ネットワークを用いた人工財務データセットの合成

Using generative adversarial networks to synthesize artificial financial datasets ( http://arxiv.org/abs/2002.02271v1 )

ライセンス: Link先を確認
Dmitry Efimov, Di Xu, Luyang Kong, Alexey Nefedov and Archana Anandakrishnan(参考訳) GAN(Generative Adversarial Networks)は、現実的な画像の生成に非常に人気を博した。 本稿では,GANを用いて,研究とベンチマークのために人工財務データを合成することを提案する。 このアプローチを3つのAmerican Expressデータセット上でテストし、適切にトレーニングされたGANがこれらのデータセットを高い忠実度で複製可能であることを示す。 実験では,新しい種類のGANを定義し,GANの優れたトレーニングおよびテスト性能を実現するためのデータ前処理手法を提案する。 また, 生成データの品質評価手法と, 元の実データとの比較について検討した。

Generative Adversarial Networks (GANs) became very popular for generation of realistically looking images. In this paper, we propose to use GANs to synthesize artificial financial data for research and benchmarking purposes. We test this approach on three American Express datasets, and show that properly trained GANs can replicate these datasets with high fidelity. For our experiments, we define a novel type of GAN, and suggest methods for data preprocessing that allow good training and testing performance of GANs. We also discuss methods for evaluating the quality of generated data, and their comparison with the original real data.
翻訳日:2023-01-03 10:11:52 公開日:2020-02-06
# 機械学習による衝撃捕捉手法の強化

Enhancement of shock-capturing methods via machine learning ( http://arxiv.org/abs/2002.02521v1 )

ライセンス: Link先を確認
Ben Stevens, Tim Colonius(参考訳) 近年、機械学習は、アルゴリズムソリューションが難解な問題に対するデータ駆動ソリューションの作成や、既存のアルゴリズムの微調整に使われてきた。 本研究では,不連続解を用いてPDEをシミュレーションする改良有限体積法の開発に機械学習を適用した。 衝撃捕捉法は、最適であると保証されていない非線形スイッチング機能を利用する。 データは非線形関係の学習に利用できるため、5階WENO法の結果を改善するためにニューラルネットワークを訓練する。 ニューラルネットワークの出力を後処理して、そのメソッドが一貫したことを保証します。 トレーニングデータはセル平均値と補間値の正確なマッピングで構成されており、PDEをシミュレートしながら見るであろう波形を表す積分可能な関数のセットである。 本手法は,不連続関数の線形アドベクション,インビシッド・バーガーズ方程式,および1次元オイラー方程式の方法を示す。 後者については,乱流-衝撃波相互作用のシュ・オッシャーモデル問題について検討する。 数値粘性により数値解が過度に拡散するシミュレーションにおいて,本手法はWENOよりも優れていることがわかった。

In recent years, machine learning has been used to create data-driven solutions to problems for which an algorithmic solution is intractable, as well as fine-tuning existing algorithms. This research applies machine learning to the development of an improved finite-volume method for simulating PDEs with discontinuous solutions. Shock capturing methods make use of nonlinear switching functions that are not guaranteed to be optimal. Because data can be used to learn nonlinear relationships, we train a neural network to improve the results of a fifth-order WENO method. We post-process the outputs of the neural network to guarantee that the method is consistent. The training data consists of the exact mapping between cell averages and interpolated values for a set of integrable functions that represent waveforms we would expect to see while simulating a PDE. We demonstrate our method on linear advection of a discontinuous function, the inviscid Burgers' equation, and the 1-D Euler equations. For the latter, we examine the Shu-Osher model problem for turbulence-shockwave interactions. We find that our method outperforms WENO in simulations where the numerical solution becomes overly diffused due to numerical viscosity.
翻訳日:2023-01-03 10:01:56 公開日:2020-02-06
# 新しいフェデレーションモーメントアルゴリズムを用いたデバイス上の高速トレーニング

Faster On-Device Training Using New Federated Momentum Algorithm ( http://arxiv.org/abs/2002.02090v1 )

ライセンス: Link先を確認
Zhouyuan Huo, Qian Yang, Bin Gu, Lawrence Carin. Heng Huang(参考訳) 近年,モバイルクラウドセンシングが注目され,モノのインターネット(Internet of Things)アプリケーションにとって重要なパラダイムとなっている。 センシングデバイスは大量のデータを継続的に生成し、革新的なインテリジェントなアプリケーションを開発する絶好の機会を与えます。 ユーザのプライバシを損なうことなく、これらのデータを機械学習モデルのトレーニングに活用することは、有望なソリューションとなっている。 しかし、連合学習アルゴリズムが収束することが保証されているかどうかについてはほとんど理解されていない。 偏りのある勾配法として,フェデレート学習における平均化モデルを再考し,定式化する。 この新しい視点は収束速度の分析を支援し、さらなる加速のための新しい方向を提供する。 我々は,フェデレーション平均化アルゴリズムが,新たな仮定を課すことなく,非凸問題に収束することを初めて証明した。 さらに,新しい高速化フェデレーション学習アルゴリズムを提案し,収束保証を提供する。 ベンチマークデータセット上での深層ニューラルネットワークの学習をシミュレーションした学習実験を行い,提案手法が従来の手法よりも高速に収束することを示す。

Mobile crowdsensing has gained significant attention in recent years and has become a critical paradigm for emerging Internet of Things applications. The sensing devices continuously generate a significant quantity of data, which provide tremendous opportunities to develop innovative intelligent applications. To utilize these data to train machine learning models while not compromising user privacy, federated learning has become a promising solution. However, there is little understanding of whether federated learning algorithms are guaranteed to converge. We reconsider model averaging in federated learning and formulate it as a gradient-based method with biased gradients. This novel perspective assists analysis of its convergence rate and provides a new direction for more acceleration. We prove for the first time that the federated averaging algorithm is guaranteed to converge for non-convex problems, without imposing additional assumptions. We further propose a novel accelerated federated learning algorithm and provide a convergence guarantee. Simulated federated learning experiments are conducted to train deep neural networks on benchmark datasets, and experimental results show that our proposed method converges faster than previous approaches.
翻訳日:2023-01-03 10:00:44 公開日:2020-02-06
# ローカル設定におけるプライバシー保護強化

Privacy-Preserving Boosting in the Local Setting ( http://arxiv.org/abs/2002.02096v1 )

ライセンス: Link先を確認
Sen Wang, J.Morris Chang(参考訳) 機械学習において、boostingは、複数のベース学習者と優れた学習者を組み合わせた最も人気のある方法の1つである。 有名なBoosted Decision Tree分類器は、多くの地域で広く採用されている。 ビッグデータ時代において、個人や団体によって保持されるデータ(個人画像、閲覧履歴、国勢調査情報など)は、機密情報を含む可能性が高い。 このようなデータが所有者の手を離れ、さらなる調査や採掘が行われると、プライバシーの懸念が高まる。 このようなプライバシー問題は、機械学習アルゴリズムがプライバシーを意識する必要がある。 近年、ローカル微分プライバシー(Local Differential Privacy)は、データ所有者に強力な保証を提供する効果的なプライバシ保護アプローチとして提案されている。 したがって、プライベートデータインスタンスを持つ機械学習アルゴリズムは非常に価値と重要性がある。 本稿では,各データサンプルの正確な値を知らずに,データユーザが分類器を構築できるプライバシ保存型ブースティングアルゴリズムの開発に注目する。 本実験は,提案するブースティングアルゴリズムの有効性と,学習した分類器の高有用性を示す。

In machine learning, boosting is one of the most popular methods that designed to combine multiple base learners to a superior one. The well-known Boosted Decision Tree classifier, has been widely adopted in many areas. In the big data era, the data held by individual and entities, like personal images, browsing history and census information, are more likely to contain sensitive information. The privacy concern raises when such data leaves the hand of the owners and be further explored or mined. Such privacy issue demands that the machine learning algorithm should be privacy aware. Recently, Local Differential Privacy is proposed as an effective privacy protection approach, which offers a strong guarantee to the data owners, as the data is perturbed before any further usage, and the true values never leave the hands of the owners. Thus the machine learning algorithm with the private data instances is of great value and importance. In this paper, we are interested in developing the privacy-preserving boosting algorithm that a data user is allowed to build a classifier without knowing or deriving the exact value of each data samples. Our experiments demonstrate the effectiveness of the proposed boosting algorithm and the high utility of the learned classifiers.
翻訳日:2023-01-03 10:00:30 公開日:2020-02-06
# 動的後悔と適応的後悔を同時に最小化する

Minimizing Dynamic Regret and Adaptive Regret Simultaneously ( http://arxiv.org/abs/2002.02085v1 )

ライセンス: Link先を確認
Lijun Zhang, Shiyin Lu, Tianbao Yang(参考訳) 後悔の最小化は、オンライン学習の伝統的な研究において黄金律として扱われる。 しかし、後悔する最小化アルゴリズムは静的最適に収束する傾向にあり、環境の変化に最適ではない。 この制限に対処するため、オンラインアルゴリズムの設計を導くために、動的後悔や適応的後悔を含む新しいパフォーマンス対策が提案されている。 前者は、変化しているコンパレータの列に対する世界的後悔を最小化し、後者は固定されたコンパレータに関するすべてのローカルな後悔を最小化しようとする。 動的後悔と適応的後悔のための既存のアルゴリズムは独立に開発され、1つのパフォーマンス指標のみを対象としている。 本稿では,動的後悔と適応的後悔を同時に最小化できる新しいオンラインアルゴリズムを提案することによって,このギャップを埋める。 実際、我々の理論的な保証は、1つのアルゴリズムが任意の間隔で動的後悔を最小化できるという意味でさらに強力である。

Regret minimization is treated as the golden rule in the traditional study of online learning. However, regret minimization algorithms tend to converge to the static optimum, thus being suboptimal for changing environments. To address this limitation, new performance measures, including dynamic regret and adaptive regret have been proposed to guide the design of online algorithms. The former one aims to minimize the global regret with respect to a sequence of changing comparators, and the latter one attempts to minimize every local regret with respect to a fixed comparator. Existing algorithms for dynamic regret and adaptive regret are developed independently, and only target one performance measure. In this paper, we bridge this gap by proposing novel online algorithms that are able to minimize the dynamic regret and adaptive regret simultaneously. In fact, our theoretical guarantee is even stronger in the sense that one algorithm is able to minimize the dynamic regret over any interval.
翻訳日:2023-01-03 09:53:52 公開日:2020-02-06
# 物理正規化ガウス過程を用いたマクロトラフィックフローモデリング:機械学習アプリケーションへの新たな洞察

Macroscopic Traffic Flow Modeling with Physics Regularized Gaussian Process: A New Insight into Machine Learning Applications ( http://arxiv.org/abs/2002.02374v1 )

ライセンス: Link先を確認
Yun Yuan, Xianfeng Terry Yang, Zhao Zhang, Shandian Zhe(参考訳) 最近、トラフィックフローモデリングに機械学習(ML)技術が広く実装されているにもかかわらず、これらのデータ駆動アプローチは、小さなデータセットやノイズの多いデータセットの場合、正確さに欠けることが多い。 そこで本研究では,従来の交通流モデル(物理モデルとして参照)をMLアーキテクチャにエンコードし,MLトレーニングプロセスの正規化を行うための,物理正規化機械学習(PRML)という新しいモデリングフレームワークを提案する。 より具体的には、確率物理学正規化ガウス過程(prgp)モデルを開発し、prgpの平均と核を推定するためにベイズ推論アルゴリズムを使用する。 シャドウGPによる推定を増大させるために, マクロトラフィックフローモデルに基づく物理正則化器も開発され, 物理知識を確率過程にエンコードするために, 拡張潜在力モデルを用いている。 また, 後続正則化推論の枠組みに基づいて, 確率的最適化アルゴリズムを開発し, システムの可能性の低いエビデンスを最大化する。 提案モデルの有効性を証明するため,ユタ州i-15高速道路から収集した実世界のデータセットについて実証実験を行った。 その結果、新しいprgpモデルは、推定精度と入力ロバスト性において、従来の互換性のある純粋物理モデルや純粋機械学習手法よりも優れることが示された。

Despite the wide implementation of machine learning (ML) techniques in traffic flow modeling recently, those data-driven approaches often fall short of accuracy in the cases with a small or noisy dataset. To address this issue, this study presents a new modeling framework, named physics regularized machine learning (PRML), to encode classical traffic flow models (referred as physical models) into the ML architecture and to regularize the ML training process. More specifically, a stochastic physics regularized Gaussian process (PRGP) model is developed and a Bayesian inference algorithm is used to estimate the mean and kernel of the PRGP. A physical regularizer based on macroscopic traffic flow models is also developed to augment the estimation via a shadow GP and an enhanced latent force model is used to encode physical knowledge into stochastic processes. Based on the posterior regularization inference framework, an efficient stochastic optimization algorithm is also developed to maximize the evidence lowerbound of the system likelihood. To prove the effectiveness of the proposed model, this paper conducts empirical studies on a real-world dataset which is collected from a stretch of I-15 freeway, Utah. Results show the new PRGP model can outperform the previous compatible methods, such as calibrated pure physical models and pure machine learning methods, in estimation precision and input robustness.
翻訳日:2023-01-03 09:52:44 公開日:2020-02-06
# 製品カネルバマシン: ベイズ記憶の因子化

Product Kanerva Machines: Factorized Bayesian Memory ( http://arxiv.org/abs/2002.02385v1 )

ライセンス: Link先を確認
Adam Marblestone, Yan Wu, Greg Wayne(参考訳) 理想的な認知的インスパイアされたメモリシステムは、入ってくるアイテムを圧縮し整理する。 Kanerva Machine (Wu et al, 2018)は、オンラインメモリ圧縮を自然に実装したベイジアンモデルである。 しかし、カネルバマシンの組織は、単一のガウス確率行列を記憶に用いて制限されている。 ここでは、多数の小さなKanervaマシンを動的に組み合わせたProduct Kanerva Machineを紹介する。 その階層構造は不変な機能を抽象化する原則的な方法を提供し、単一のkanervaマシンよりもスケーリングとキャパシティのアドバンテージを提供します。 本研究では, 教師なしクラスタリング, スパースおよび組合せアロケーションパターンの発見, オブジェクトごとの簡単な画像を大まかに分解する空間的チューニングの発見について述べる。

An ideal cognitively-inspired memory system would compress and organize incoming items. The Kanerva Machine (Wu et al, 2018) is a Bayesian model that naturally implements online memory compression. However, the organization of the Kanerva Machine is limited by its use of a single Gaussian random matrix for storage. Here we introduce the Product Kanerva Machine, which dynamically combines many smaller Kanerva Machines. Its hierarchical structure provides a principled way to abstract invariant features and gives scaling and capacity advantages over single Kanerva Machines. We show that it can exhibit unsupervised clustering, find sparse and combinatorial allocation patterns, and discover spatial tunings that approximately factorize simple images by object.
翻訳日:2023-01-03 09:52:19 公開日:2020-02-06
# unbalanced gans:変分オートエンコーダを用いた生成逆ネットワーク生成の事前学習

Unbalanced GANs: Pre-training the Generator of Generative Adversarial Network using Variational Autoencoder ( http://arxiv.org/abs/2002.02112v1 )

ライセンス: Link先を確認
Hyungrok Ham, Tae Joon Jun, Daeyoung Kim(参考訳) 本研究では, 可変オートエンコーダ(VAE)を用いたGAN(Generative Adversarial Network)の生成を事前学習するUn Balanced GANを提案する。 我々は,早期の判別器の収束を防止し,発電機の安定な訓練を保証する。 さらに, 早期に発生器と識別器のバランスを保ち, GANの安定訓練を継続する。 我々は、アンバランスなGANをよく知られた公開データセットに適用し、アンバランスなGANがモード崩壊を減らすことを発見した。 また,非バランスなGANは,学習の安定化,収束の高速化,画像品質の向上などにより,通常のGANよりも優れていた。

We propose Unbalanced GANs, which pre-trains the generator of the generative adversarial network (GAN) using variational autoencoder (VAE). We guarantee the stable training of the generator by preventing the faster convergence of the discriminator at early epochs. Furthermore, we balance between the generator and the discriminator at early epochs and thus maintain the stabilized training of GANs. We apply Unbalanced GANs to well known public datasets and find that Unbalanced GANs reduce mode collapses. We also show that Unbalanced GANs outperform ordinary GANs in terms of stabilized learning, faster convergence and better image quality at early epochs.
翻訳日:2023-01-03 09:44:40 公開日:2020-02-06
# セマンティック注入に基づくカテゴリーデータのセマンティックノイズ浄化に向けて

Towards Semantic Noise Cleansing of Categorical Data based on Semantic Infusion ( http://arxiv.org/abs/2002.02238v1 )

ライセンス: Link先を確認
Rishabh Gupta and Rajesh N Rao(参考訳) セマンティックノイズはドメイン固有の産業のテキスト分析活動に大きな影響を及ぼす。 批判的な意思決定タスクにおいて重要な意味を持つテキスト理解を妨げる。 本研究では,テキストの物語に寄与しない単語の列として意味的ノイズを定式化する。 我々は,標準統計に基づく停止語の概念を超越し,意味的ノイズを排除した用語の意味論を考察する。 本稿では,メタデータとカテゴリコーパステキストを関連付ける新しい意味的インフュージョン手法を提案する。 本手法に基づき,用語の文脈を用いて意味雑音をフィルタリングする教師なしテキスト前処理フレームワークを提案する。 その後,自動車ドメインのwebフォーラムデータセットを用いて,提案フレームワークの評価結果を示す。

Semantic Noise affects text analytics activities for the domain-specific industries significantly. It impedes the text understanding which holds prime importance in the critical decision making tasks. In this work, we formalize semantic noise as a sequence of terms that do not contribute to the narrative of the text. We look beyond the notion of standard statistically-based stop words and consider the semantics of terms to exclude the semantic noise. We present a novel Semantic Infusion technique to associate meta-data with the categorical corpus text and demonstrate its near-lossless nature. Based on this technique, we propose an unsupervised text-preprocessing framework to filter the semantic noise using the context of the terms. Later we present the evaluation results of the proposed framework using a web forum dataset from the automobile-domain.
翻訳日:2023-01-03 09:44:08 公開日:2020-02-06
# 多言語文脈における皮肉検出

Irony Detection in a Multilingual Context ( http://arxiv.org/abs/2002.02427v1 )

ライセンス: Link先を確認
Bilal Ghanem, Jihen Karoui, Farah Benamara, Paolo Rosso, V\'eronique Moriceau(参考訳) 本稿では,最初の多言語(フランス語,英語,アラビア語)と多文化(インド・ヨーロッパ語対文化に近い言語)の皮肉検出システムを提案する。 単言語単語表現を用いた特徴ベースモデルとニューラルアーキテクチャの両方を用いる。 我々は,これらのシステムの性能を最先端システムと比較し,その性能を同定する。 これらのモノリンガルモデルは、多言語語表現やテキストベースの特徴を用いて異なる言語で個別に訓練され、皮肉なデータがない言語では皮肉検出の扉を開くことができることを示す。

This paper proposes the first multilingual (French, English and Arabic) and multicultural (Indo-European languages vs. less culturally close languages) irony detection system. We employ both feature-based models and neural architectures using monolingual word representation. We compare the performance of these systems with state-of-the-art systems to identify their capabilities. We show that these monolingual models trained separately on different languages using multilingual word representation or text-based features can open the door to irony detection in languages that lack of annotated data for irony.
翻訳日:2023-01-03 09:43:56 公開日:2020-02-06
# 魅力的か忠実か? インスパイアされた見出し生成のための人気強化学習

Attractive or Faithful? Popularity-Reinforced Learning for Inspired Headline Generation ( http://arxiv.org/abs/2002.02095v1 )

ライセンス: Link先を確認
Yun-Zhu Song (1), Hong-Han Shuai (1), Sung-Lin Yeh (2), Yi-Lun Wu (1), Lun-Wei Ku (3), Wen-Chih Peng (1) ((1) National Chiao Tung University, Taiwan, (2) National Tsing Hua University, Taiwan, (3) Academia Sinica, Taiwan)(参考訳) オンラインメディアソースの急速な拡大とニュースの公開により、読者をニュース記事に惹きつけるために見出しの重要性が高まっている。 本稿では、ニュース記事の性質を保存し、同時に読者の目をつかむインスパイアされた見出しを生成する。 インスピレーションを受けた見出し生成のタスクは、与えられたニュース記事から魅力的な見出しを作成することを重視した、特定の形式の見出し生成(HG)タスクと見なすことができる。 インスパイアされた見出しを生成するために,見出し生成(PORL-HG)のためのPopularity-Reinforced Learningと呼ばれる新しいフレームワークを提案する。 PORL-HGは抽出-吸収型アーキテクチャを利用する 1)抽出者に対して記事から魅力的な文を選択するよう指示する人気の話題注意(PTA) 2) 魅力的な文を書き直すための要約者を指導する人気予測装置。 また、抽出器の文選択は区別できないため、増補学習(rl)の技術を利用して、人気スコア予測器から得られる報酬とギャップを橋渡しする。 定量的および定性的な実験により,提案したPORL-HGは,ヒト (71.03%) と予測因子 (少なくとも27.60%) の両方で評価された,最先端のヘッドライン生成モデルよりも優れており,PORL-HGの忠実度も最先端生成モデルに匹敵することを示した。

With the rapid proliferation of online media sources and published news, headlines have become increasingly important for attracting readers to news articles, since users may be overwhelmed with the massive information. In this paper, we generate inspired headlines that preserve the nature of news articles and catch the eye of the reader simultaneously. The task of inspired headline generation can be viewed as a specific form of Headline Generation (HG) task, with the emphasis on creating an attractive headline from a given news article. To generate inspired headlines, we propose a novel framework called POpularity-Reinforced Learning for inspired Headline Generation (PORL-HG). PORL-HG exploits the extractive-abstractive architecture with 1) Popular Topic Attention (PTA) for guiding the extractor to select the attractive sentence from the article and 2) a popularity predictor for guiding the abstractor to rewrite the attractive sentence. Moreover, since the sentence selection of the extractor is not differentiable, techniques of reinforcement learning (RL) are utilized to bridge the gap with rewards obtained from a popularity score predictor. Through quantitative and qualitative experiments, we show that the proposed PORL-HG significantly outperforms the state-of-the-art headline generation models in terms of attractiveness evaluated by both human (71.03%) and the predictor (at least 27.60%), while the faithfulness of PORL-HG is also comparable to the state-of-the-art generation model.
翻訳日:2023-01-03 09:43:49 公開日:2020-02-06
# 人体移動軌道から空間階層を用いた微粒な埋め込みの学習

Learning Fine Grained Place Embeddings with Spatial Hierarchy from Human Mobility Trajectories ( http://arxiv.org/abs/2002.02058v1 )

ライセンス: Link先を確認
Toru Shimizu, Takahiro Yabe, Kota Tsubouchi(参考訳) 人間の移動軌道から発生する場所埋め込みは、場所の機能を理解するための一般的な方法となっている。 空間分解能の高い配置埋め込みは、多くの用途において望ましいが、空間分解能の低下は、特に人口密度の低い地域では、データの分散による埋め込みの質を低下させる。 この問題を解決するために,観測データ点の局所密度に応じて空間階層情報を活用する,きめ細かい位置埋め込みを生成する手法を提案する。 提案手法の有効性を,日本の3都市における実世界軌跡データを用いて,次の場所予測タスクによるベースライン手法と比較した。 さらに,土地利用分類アプリケーションにおける細粒度埋設の意義を実証する。 空間階層情報を組み込む手法は, 様々な場所埋め込み生成手法を補完し, 補強できると考えている。

Place embeddings generated from human mobility trajectories have become a popular method to understand the functionality of places. Place embeddings with high spatial resolution are desirable for many applications, however, downscaling the spatial resolution deteriorates the quality of embeddings due to data sparsity, especially in less populated areas. We address this issue by proposing a method that generates fine grained place embeddings, which leverages spatial hierarchical information according to the local density of observed data points. The effectiveness of our fine grained place embeddings are compared to baseline methods via next place prediction tasks using real world trajectory data from 3 cities in Japan. In addition, we demonstrate the value of our fine grained place embeddings for land use classification applications. We believe that our technique of incorporating spatial hierarchical information can complement and reinforce various place embedding generating methods.
翻訳日:2023-01-03 09:43:21 公開日:2020-02-06
# 関係性ニューラルマシン

Relational Neural Machines ( http://arxiv.org/abs/2002.02193v1 )

ライセンス: Link先を確認
Giuseppe Marra, Michelangelo Diligenti, Francesco Giannini, Marco Gori and Marco Maggini(参考訳) ディープラーニングは、大量のトレーニングデータが利用できるいくつかのタスクで印象的な結果をもたらすことが示されている。 しかし、ディープラーニングは予測の正確性だけに焦点を当てており、意思決定につながる推論プロセスを無視している。 確率論的論理推論は、統計正則性と特定のドメインの専門知識の両方を利用して不確実性の下で推論を行うことができるが、そのスケーラビリティと不安定な統合は、知覚データを処理する層に大きく制限されている。 これらの理由から、深層アーキテクチャと確率論理推論の組み合わせは、複雑な環境で動作するインテリジェントエージェントの開発に向けた基本的な目標である。 本稿では,学習者のパラメータと一階述語論理に基づく推論を協調的に学習できる新しいフレームワークであるRelational Neural Machinesを提案する。 リレーショナルニューラルネットワークは、純粋な準記号学習の場合の教師付きデータから古典的な学習と、純粋記号推論の場合のマルコフ論理ネットワークの両方を復元すると同時に、ハイブリッド学習タスクにおいて共同トレーニングと推論を可能にする。 適切なアルゴリズム解は、大規模問題において学習と推論を扱いやすくするために考案された。 実験では、異なるリレーショナルタスクで有望な結果を示す。

Deep learning has been shown to achieve impressive results in several tasks where a large amount of training data is available. However, deep learning solely focuses on the accuracy of the predictions, neglecting the reasoning process leading to a decision, which is a major issue in life-critical applications. Probabilistic logic reasoning allows to exploit both statistical regularities and specific domain expertise to perform reasoning under uncertainty, but its scalability and brittle integration with the layers processing the sensory data have greatly limited its applications. For these reasons, combining deep architectures and probabilistic logic reasoning is a fundamental goal towards the development of intelligent agents operating in complex environments. This paper presents Relational Neural Machines, a novel framework allowing to jointly train the parameters of the learners and of a First--Order Logic based reasoner. A Relational Neural Machine is able to recover both classical learning from supervised data in case of pure sub-symbolic learning, and Markov Logic Networks in case of pure symbolic reasoning, while allowing to jointly train and perform inference in hybrid learning tasks. Proper algorithmic solutions are devised to make learning and inference tractable in large-scale problems. The experiments show promising results in different relational tasks.
翻訳日:2023-01-03 09:43:09 公開日:2020-02-06
# ピアツーピアのチームメイト間の異質な知識の伝達--モデル蒸留アプローチ

Transfer Heterogeneous Knowledge Among Peer-to-Peer Teammates: A Model Distillation Approach ( http://arxiv.org/abs/2002.02202v1 )

ライセンス: Link先を確認
Zeyue Xue, Shuang Luo, Chao Wu, Pan Zhou, Kaigui Bian and Wei Du(参考訳) 分散環境におけるpeer-to-peer知識の伝達は、学習を加速し、深層強化学習の教師に頼らずにチーム全体のパフォーマンスを向上させることができるため、有望な方法として浮上している。 しかし,行動アドバイスなどの従来のピアツーピア手法では,知識やアドバイスを効率的に表現する方法が困難であった。 その結果, モデル蒸留により, 複数の学生間で経験と伝達値関数を再利用する新たな手法を提案する。 しかし、不安定で有界でないため、Q-函数を直接転送することは依然として困難である。 この課題に対処するため、私たちはCategorical Deep Q-Networkを採用しています。 また,分散エージェント間の異種知識を利用する効率的な通信プロトコルの設計方法について述べる。 提案するフレームワークであるLTCR(Learning and Teaching Categorical Reinforcement)は,4つの典型的な実験環境において,チーム全体の報酬を改善することで,学習進捗の安定化と促進に有望なパフォーマンスを示す。

Peer-to-peer knowledge transfer in distributed environments has emerged as a promising method since it could accelerate learning and improve team-wide performance without relying on pre-trained teachers in deep reinforcement learning. However, for traditional peer-to-peer methods such as action advising, they have encountered difficulties in how to efficiently expressed knowledge and advice. As a result, we propose a brand new solution to reuse experiences and transfer value functions among multiple students via model distillation. But it is still challenging to transfer Q-function directly since it is unstable and not bounded. To address this issue confronted with existing works, we adopt Categorical Deep Q-Network. We also describe how to design an efficient communication protocol to exploit heterogeneous knowledge among multiple distributed agents. Our proposed framework, namely Learning and Teaching Categorical Reinforcement (LTCR), shows promising performance on stabilizing and accelerating learning progress with improved team-wide reward in four typical experimental environments.
翻訳日:2023-01-03 09:42:47 公開日:2020-02-06
# 遅延フィードバックによる逆変換率予測におけるフィードバックシフト補正

A Feedback Shift Correction in Predicting Conversion Rates under Delayed Feedback ( http://arxiv.org/abs/2002.02068v1 )

ライセンス: Link先を確認
Shota Yasui, Gota Morishita, Komei Fujita, Masashi Shibata(参考訳) 表示広告では、変換率、すなわち、ユーザーが商品を購入するなど、広告主のウェブサイトで予め定義されたアクションをとる確率を予測することが、広告を表示する価値を推定する上で基本となる。 しかし、クリックと結果変換の間には、比較的長い時間遅延がある。 遅延フィードバックのため、トレーニングデータの収集時にはまだ変換が行われていないため、トレーニング期間中のポジティブなインスタンスには負のラベルが付けられている。 その結果、条件付きラベル分布は、トレーニングデータと生産環境とで異なる。 この状況はフィードバックシフトと呼ばれる。 この問題を,共変量シフト補正によく用いられる重み付け手法を用いて解決する。 フィードバックシフトに対する一貫性を証明します。 オフラインおよびオンライン実験の結果,提案手法が既存の手法よりも優れていることがわかった。

In display advertising, predicting the conversion rate, that is, the probability that a user takes a predefined action on an advertiser's website, such as purchasing goods is fundamental in estimating the value of displaying the advertisement. However, there is a relatively long time delay between a click and its resultant conversion. Because of the delayed feedback, some positive instances at the training period are labeled as negative because some conversions have not yet occurred when training data are gathered. As a result, the conditional label distributions differ between the training data and the production environment. This situation is referred to as a feedback shift. We address this problem by using an importance weight approach typically used for covariate shift correction. We prove its consistency for the feedback shift. Results in both offline and online experiments show that our proposed method outperforms the existing method.
翻訳日:2023-01-03 09:42:07 公開日:2020-02-06
# 非構造化ペルソナ指向対話生成のためのニューラルトピック拡張フレームワーク

A Neural Topical Expansion Framework for Unstructured Persona-oriented Dialogue Generation ( http://arxiv.org/abs/2002.02153v1 )

ライセンス: Link先を確認
Minghong Xu, Piji Li, Haoran Yang, Pengjie Ren, Zhaochun Ren, Zhumin Chen, Jun Ma(参考訳) 非構造化ペルソナ指向対話システム(UPDS)は、予め定義された自然言語ユーザペルソナ記述("I am a vegan")を利用してペルソナ一貫した応答を生成するのに有効である。 しかし、事前に定義されたユーザペルソナ記述は通常短く、一部の記述語に限られているため、対話との相関が難しい。 その結果、既存のメソッドはペルソナ記述を使用しないか、ペルソナに一貫した応答を生成する際に不適切に使用するかのどちらかになる。 そこで本研究では,事前に定義したユーザペルソナ記述を意味的に関連付けたコンテンツに拡張し,対話応答を生成するニューラルネットワークであるペルソナ探索・エクスプロイジョン(pee)を提案する。 PEEは2つの主要なモジュールで構成されている。 前者は、可変オートエンコーダ(VAE)ベースのトピックモデルを用いて、既存の対話コーパスをマイニングし、関連づけることで、予め定義されたユーザペルソナ記述を拡張することを学ぶ。 後者は、予め定義された拡張されたユーザペルソナ記述を利用して、ペルソナ一貫した応答を生成する。 また、ペルソナ指向マッチング(p-match)損失とペルソナ指向のbag-of-words(p-bows)損失という2つのパーソナ指向損失関数を導入し、それぞれエンコーダとデコーダにおけるペルソナ選択を監督する。 実験の結果,本手法は自動評価と人間評価の両方において最先端のベースラインよりも優れていることがわかった。

Unstructured Persona-oriented Dialogue Systems (UPDS) has been demonstrated effective in generating persona consistent responses by utilizing predefined natural language user persona descriptions (e.g., "I am a vegan"). However, the predefined user persona descriptions are usually short and limited to only a few descriptive words, which makes it hard to correlate them with the dialogues. As a result, existing methods either fail to use the persona description or use them improperly when generating persona consistent responses. To address this, we propose a neural topical expansion framework, namely Persona Exploration and Exploitation (PEE), which is able to extend the predefined user persona description with semantically correlated content before utilizing them to generate dialogue responses. PEE consists of two main modules: persona exploration and persona exploitation. The former learns to extend the predefined user persona description by mining and correlating with existing dialogue corpus using a variational auto-encoder (VAE) based topic model. The latter learns to generate persona consistent responses by utilizing the predefined and extended user persona description. In order to make persona exploitation learn to utilize user persona description more properly, we also introduce two persona-oriented loss functions: Persona-oriented Matching (P-Match) loss and Persona-oriented Bag-of-Words (P-BoWs) loss which respectively supervise persona selection in encoder and decoder. Experimental results show that our approach outperforms state-of-the-art baselines, in terms of both automatic and human evaluations.
翻訳日:2023-01-03 09:35:04 公開日:2020-02-06
# 自動詩生成における創造性の導入

Introducing Aspects of Creativity in Automatic Poetry Generation ( http://arxiv.org/abs/2002.02511v1 )

ライセンス: Link先を確認
Brendan Bena and Jugal Kalita(参考訳) 詩生成とは、詩作品に似たテキストを自動的に生成する教育システムである。 深層学習システムは、詩のコーパスを訓練し、特定の言語スタイルをモデル化することで、独自の詩を生成することができる。 本稿では,事前学習型言語モデルであるGPT-2を下流の詩生成タスクに適用するアプローチを提案する。 我々は,創造的要素の導入により,詩生成に関する先行研究を拡大する。 具体的には、感情を表現し、読者に同じ感情を表わす詩や、夢の言葉を使う詩、いわゆる夢の詩を生成する。 私たちは、悲しみの感情を正しく引き出す詩を、それぞれ87.5と85%の時間で作り出すことができます。 夢を描写するテキストのコーパスを訓練することで、夢のような詩を作る。 このモデルによる詩は、ファサートスケールで3.2以上のスコアで、夢の詩の要素を捉えている。 すべての詩をクラウドソースで評価する。 また、Coh-Metrixツールを使用して、生成したテキストの品質を測定するために使用するメトリクスを概説しています。

Poetry Generation involves teaching systems to automatically generate text that resembles poetic work. A deep learning system can learn to generate poetry on its own by training on a corpus of poems and modeling the particular style of language. In this paper, we propose taking an approach that fine-tunes GPT-2, a pre-trained language model, to our downstream task of poetry generation. We extend prior work on poetry generation by introducing creative elements. Specifically, we generate poems that express emotion and elicit the same in readers, and poems that use the language of dreams---called dream poetry. We are able to produce poems that correctly elicit the emotions of sadness and joy 87.5 and 85 percent, respectively, of the time. We produce dreamlike poetry by training on a corpus of texts that describe dreams. Poems from this model are shown to capture elements of dream poetry with scores of no less than 3.2 on the Likert scale. We perform crowdsourced human-evaluation for all our poems. We also make use of the Coh-Metrix tool, outlining metrics we use to gauge the quality of text generated.
翻訳日:2023-01-03 09:34:18 公開日:2020-02-06
# グラフニューラルネットワークを用いた関係データベースの教師付き学習

Supervised Learning on Relational Databases with Graph Neural Networks ( http://arxiv.org/abs/2002.02046v1 )

ライセンス: Link先を確認
Milan Cvitkovic(参考訳) データサイエンティストや機械学習実践者の大多数は、リレーショナルデータ(State of ML and Data Science 2017, Kaggle, Inc.)を使っています。 しかし、リレーショナルデータベースに格納されたデータで機械学習モデルをトレーニングするには、重要なデータ抽出と機能エンジニアリングが必要となる。 これらの取り組みは費用がかかるだけでなく、データ内の潜在的に重要なリレーショナル構造も破壊する。 グラフニューラルネットワークを用いてこれらの課題を克服する手法を提案する。 提案手法は,3つのデータセットのうち2つに対して最先端の自動特徴設計手法を上回っている。

The majority of data scientists and machine learning practitioners use relational data in their work [State of ML and Data Science 2017, Kaggle, Inc.]. But training machine learning models on data stored in relational databases requires significant data extraction and feature engineering efforts. These efforts are not only costly, but they also destroy potentially important relational structure in the data. We introduce a method that uses Graph Neural Networks to overcome these challenges. Our proposed method outperforms state-of-the-art automatic feature engineering methods on two out of three datasets.
翻訳日:2023-01-03 09:33:43 公開日:2020-02-06
# LUNAR: ドリフトデータストリームのためのセルオートマタ

LUNAR: Cellular Automata for Drifting Data Streams ( http://arxiv.org/abs/2002.02164v1 )

ライセンス: Link先を確認
Jesus L. Lobo, Javier Del Ser, Francisco Herrera(参考訳) 高速ストリームという形で大量のデータが生成されるようになり、リアルタイム機械学習は、多くの現実世界のアプリケーションで出現する関連性の課題となっている。 このような高速ストリームの処理は、しばしば高いメモリと処理リソースを必要とする。 さらに、学習手法がストリーミングデータの分布の変化を検知し、これらの進化する条件に適応しなければならない、非定常現象(概念ドリフト)の影響を受けることができる。 効率的でスケーラブルなソリューションの欠如は、小規模で多数の相互接続された処理ユニット(いわゆるスマートダスト、ユーティリティフォグ、swarmロボティクスパラダイムなど)のネットワークで発生するため、コンピューティングリソースが厳しい制約を受けるリアルタイムシナリオにおいて特に注目される。 本研究では,上記の要件を満たすために考案されたセルオートマトンであるLUNARを提案する。 ドリフト条件に適応しながら、本当のインクリメンタル学習者として振る舞うことができる。 合成データと実データを用いた広範なシミュレーションは、長く確立され成功したオンライン学習方法と比較して、その分類性能の面での競合行動の証拠を提供するだろう。

With the advent of huges volumes of data produced in the form of fast streams, real-time machine learning has become a challenge of relevance emerging in a plethora of real-world applications. Processing such fast streams often demands high memory and processing resources. In addition, they can be affected by non-stationary phenomena (concept drift), by which learning methods have to detect changes in the distribution of streaming data, and adapt to these evolving conditions. A lack of efficient and scalable solutions is particularly noted in real-time scenarios where computing resources are severely constrained, as it occurs in networks of small, numerous, interconnected processing units (such as the so-called Smart Dust, Utility Fog, or Swarm Robotics paradigms). In this work we propose LUNAR, a streamified version of cellular automata devised to successfully meet the aforementioned requirements. It is able to act as a real incremental learner while adapting to drifting conditions. Extensive simulations with synthetic and real data will provide evidence of its competitive behavior in terms of classification performance when compared to long-established and successful online learning methods.
翻訳日:2023-01-03 09:33:35 公開日:2020-02-06