このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200327となっている論文です。

PDF登録状況(公開日: 20200327)

TitleAuthorsAbstract論文公表日・翻訳日
# 時間的注意に基づく不正取引検出フレームワーク

A Time Attention based Fraud Transaction Detection Framework ( http://arxiv.org/abs/1912.11760v2 )

ライセンス: Link先を確認
Longfei Li, Ziqi Liu, Chaochao Chen, Ya-Lin Zhang, Jun Zhou, Xiaolong Li(参考訳) オンライン決済プラットフォームは、ユビキタスで重要であり、ユーザーアカウントの安全性とプラットフォームのセキュリティを確保するために、不正取引の検出がこれらのプラットフォームの鍵となっている。 本稿では,ユーザの静的プロファイルとユーザの動的行動の両方のパターンを統一フレームワークで活用し,不正取引を検出する新しい手法を提案する。 連続時間空間におけるユーザの行動に関する情報に対処し,探索するために,特定の行動の継続時間,異なる行動の時間差,連続的な行動パターンなど,時間間隔の詳細な情報を組み込むために 'emph{time attention based recurrent layer} を提案する。 同じ潜在空間で。 さらに,学習した組込みとユーザの静的プロファイルを統一したフレームワークで統合する。 特に,サービス経験と潜在的な損失のリスクのバランスを測定する上で重要な指標である \emph{recall at top percent} において,提案手法の有効性を検証する実験を行った。

With online payment platforms being ubiquitous and important, fraud transaction detection has become the key for such platforms, to ensure user account safety and platform security. In this work, we present a novel method for detecting fraud transactions by leveraging patterns from both users' static profiles and users' dynamic behaviors in a unified framework. To address and explore the information of users' behaviors in continuous time spaces, we propose to use \emph{time attention based recurrent layers} to embed the detailed information of the time interval, such as the durations of specific actions, time differences between different actions and sequential behavior patterns,etc., in the same latent space. We further combine the learned embeddings and users' static profiles altogether in a unified framework. Extensive experiments validate the effectiveness of our proposed methods over state-of-the-art methods on various evaluation metrics, especially on \emph{recall at top percent} which is an important metric for measuring the balance between service experiences and risk of potential losses.
翻訳日:2023-06-10 08:29:33 公開日:2020-03-27
# 分子フォトセルにおける環境支援と環境効率の最大電力化

Environment assisted and environment hampered efficiency at maximum power in a molecular photo cell ( http://arxiv.org/abs/2003.11564v2 )

ライセンス: Link先を確認
Subhajit Sarkar and Yonatan Dubi(参考訳) 分子フォトセル、すなわち単一の分子ドナー受容体複合体は技術的に重要であるが、強力な非平衡状態で動作する多体系のパラダイム的な例である。 2つの外部リードに結合した光セルの量子輸送と光エネルギー変換効率は、リンドブラッドマスター方程式を解き、オープン量子システムアプローチで検討される。 電子-フォノン相互作用による)分子と(強調による)環境に対応する振動の自由度との相互作用は、最大出力での効率においてその特徴を示している。 電子-フォノン結合系中における振動支援電子輸送は, 電子-フォノン結合系が劣化しない場合に起こる。 減弱ハッパーへの曝露は、特定の減弱速度の範囲で電子輸送を振動支援する。

The molecular photo cell, i.e., a single molecule donor-acceptor complex, beside being technologically important, is a paradigmatic example of a many-body system operating in strong non-equilibrium. The quantum transport and the photo-voltaic energy conversion efficiency of the photocell, attached to two external leads, are investigated within the open quantum system approach by solving the Lindblad master equation. The interplay of the vibrational degrees of freedom corresponding to the molecules (via the electron-phonon interaction) and the environment (via dephasing) shows its signature in the efficiency at maximum power. We find vibration assisted electron transport in the medium to strong electron-phonon coupling regime when the system does not suffer dephasing. Exposure to dephasing hampers such a vibration assisted electron transport in a specific range of dephasing rate.
翻訳日:2023-05-27 22:36:31 公開日:2020-03-27
# 携帯電話のデータとcovid-19:機会が足りない?

Mobile phone data and COVID-19: Missing an opportunity? ( http://arxiv.org/abs/2003.12347v1 )

ライセンス: Link先を確認
Nuria Oliver, Emmanuel Letouz\'e, Harald Sterly, S\'ebastien Delataille, Marco De Nadai, Bruno Lepri, Renaud Lambiotte, Richard Benjamins, Ciro Cattuto, Vittoria Colizza, Nicolas de Cordes, Samuel P. Fraiberger, Till Koebe, Sune Lehmann, Juan Murillo, Alex Pentland, Phuong N Pham, Fr\'ed\'eric Pivetta, Albert Ali Salah, Jari Saram\"aki, Samuel V. Scarpino, Michele Tizzoni, Stefaan Verhulst, Patrick Vinck(参考訳) 本稿は、新型コロナウイルスのパンデミックをコントロールし、身体的距離などのコントロール対策の有効性を評価する上で、携帯電話データがどのように政府や公衆衛生当局を導くかを説明する。 この種のデータがほとんど使われていない理由と重要なギャップを識別するが、同様の流行における価値は多くのユースケースで証明されている。 これは、これらのギャップを克服する方法と緊急行動のための重要な推奨、特に国家と地域レベルでの混合専門家集団の設立と、政府と公共当局の早期の包括と支援を示す。 これは、経験豊富なデータサイエンティスト、疫学者、デモグラフィー、モバイルネットワークオペレーターの代表らによって執筆され、新型コロナウイルス(COVID-19)のパンデミックと戦うために、共同で仕事をした。

This paper describes how mobile phone data can guide government and public health authorities in determining the best course of action to control the COVID-19 pandemic and in assessing the effectiveness of control measures such as physical distancing. It identifies key gaps and reasons why this kind of data is only scarcely used, although their value in similar epidemics has proven in a number of use cases. It presents ways to overcome these gaps and key recommendations for urgent action, most notably the establishment of mixed expert groups on national and regional level, and the inclusion and support of governments and public authorities early on. It is authored by a group of experienced data scientists, epidemiologists, demographers and representatives of mobile network operators who jointly put their work at the service of the global effort to combat the COVID-19 pandemic.
翻訳日:2023-05-27 18:33:37 公開日:2020-03-27
# 4次項ポテンシャルを有するアンハーモニック発振器の時間依存性伝搬器

Time dependent propagator for an-harmonic oscillator with quartic term in potential ( http://arxiv.org/abs/2003.12323v1 )

ライセンス: Link先を確認
J. Boh\'a\v{c}ik, P. Pre\v{s}najder and P. August\'in(参考訳) 本研究では,条件付き測度Wienerパス積分の評価に対する解析的アプローチを提案する。 時間依存モデルパラメータについて考察する。 我々は変数の微分方程式を見つけ、振動子の非調和部分と同様に調和の挙動を決定する。 結果のan-ハーモニックな部分を演算子関数の形に示す。

In this work, we present the analytical approach to the evaluation of the conditional measure Wiener path integral. We consider the time-dependent model parameters. We find the differential equation for the variable, determining the behavior of the harmonic as well the an-harmonic parts of the oscillator. We present the an-harmonic part of the result in the form of the operator function.
翻訳日:2023-05-27 18:32:50 公開日:2020-03-27
# alpha$-satellite:covid-19対策のための階層的コミュニティレベルのリスクアセスメントのためのai駆動システムとベンチマークデータセット

$\alpha$-Satellite: An AI-driven System and Benchmark Datasets for Hierarchical Community-level Risk Assessment to Help Combat COVID-19 ( http://arxiv.org/abs/2003.12232v1 )

ライセンス: Link先を確認
Yanfang Ye, Shifu Hou, Yujie Fan, Yiyue Qian, Yiming Zhang, Shiyu Sun, Qian Peng, Kenneth Laparo(参考訳) 2020年3月26日時点で、米国では85,377人の感染者と1,293人の死者が確認されており、世界保健機関(WHO)は新型コロナウイルス感染症(COVID-19)を指定しており、少なくとも171カ国で24,000人以上が死亡している531,000人以上が感染している。 新型コロナウイルスの感染拡大を受け、地域社会の感染拡大が懸念される地域が増えていることから、市町村の感染拡大を把握し、地域社会の緩和に向けた行動的な戦略にもっと対応できるよう、緊急の監視の必要性が指摘されている。 By advancing capabilities of artificial intelligence (AI) and leveraging the large-scale and real-time data generated from heterogeneous sources (e.g., disease related data from official public health organizations, demographic data, mobility data, and user geneated data from social media), in this work, we propose and develop an AI-driven system (named $\alpha$-Satellite}, as an initial offering, to provide hierarchical community-level risk assessment to assist with the development of strategies for combating the fast evolving COVID-19 pandemic. より具体的には、特定の場所(ユーザ入力や自動位置決め)が与えられた場合、開発システムは、階層的な方法でリスクインデックス(例えば、州、郡、市、特定の場所)を自動的に提供し、個人が保護のための適切なアクションを選択しながら、可能な限り日常生活の混乱を最小限に抑えるようにします。 開発したシステムと生成されたベンチマークデータセットは,当社のwebサイトを通じて公開されている。 システム記述と破棄は、当社のwebサイトでも利用できます。

The novel coronavirus and its deadly outbreak have posed grand challenges to human society: as of March 26, 2020, there have been 85,377 confirmed cases and 1,293 reported deaths in the United States; and the World Health Organization (WHO) characterized coronavirus disease (COVID-19) - which has infected more than 531,000 people with more than 24,000 deaths in at least 171 countries - a global pandemic. A growing number of areas reporting local sub-national community transmission would represent a significant turn for the worse in the battle against the novel coronavirus, which points to an urgent need for expanded surveillance so we can better understand the spread of COVID-19 and thus better respond with actionable strategies for community mitigation. By advancing capabilities of artificial intelligence (AI) and leveraging the large-scale and real-time data generated from heterogeneous sources (e.g., disease related data from official public health organizations, demographic data, mobility data, and user geneated data from social media), in this work, we propose and develop an AI-driven system (named $\alpha$-Satellite}, as an initial offering, to provide hierarchical community-level risk assessment to assist with the development of strategies for combating the fast evolving COVID-19 pandemic. More specifically, given a specific location (either user input or automatic positioning), the developed system will automatically provide risk indexes associated with it in a hierarchical manner (e.g., state, county, city, specific location) to enable individuals to select appropriate actions for protection while minimizing disruptions to daily life to the extent possible. The developed system and the generated benchmark datasets have been made publicly accessible through our website. The system description and disclaimer are also available in our website.
翻訳日:2023-05-27 18:32:29 公開日:2020-03-27
# d$-次元ヒルベルト空間上の作用素の相互に偏りのないユニタリ基底

Mutually Unbiased Unitary Bases of Operators on $d$-dimensional Hilbert Space ( http://arxiv.org/abs/2003.12201v1 )

ライセンス: Link先を確認
Rinie N. M. Nasir, Jesni Shamsul Shaari, and Stefano Mancini(参考訳) ヒルベルト空間の相互に偏りのない基底の概念と同様に、そのようなヒルベルト空間上で作用する作用素空間 $m(d, \mathbb{c})$ に対して相互に偏りのないユニタリ基底 (muub) を考える。 MUUBの概念は、あるユニタリ作用素を別の基底で見積もるときに、$M(d, \mathbb{C})$の1つの基底におけるユニタリの等確率予想を反映している。 素次元$d$の場合、MUUBsの最大数は$d^{2}-1$であることが知られているが、それらを構築するための既知のレシピは存在しない。 しかし、常に最小の3つのミューブを構成でき、最大値は非常に大きな値である$d$に対して接近する。 MUUBsは、最大値が$d$である$M(d, \mathbb{C})$のある$d$次元部分空間にも存在することができる。

Analogous to the notion of mutually unbiased bases for Hilbert spaces, we consider mutually unbiased unitary bases (MUUB) for the space of operators, $M(d, \mathbb{C})$, acting on such Hilbert spaces. The notion of MUUB reflects the equiprobable guesses of unitary in one bases of $M(d, \mathbb{C})$ when estimating a unitary operator in another. Though, for prime dimension $d$, the maximal number of MUUBs is known to be $d^{2}-1$, there is no known recipe for constructing them, assuming they exist. However, one can always construct a minimum of three MUUBs, and the maximal number is approached for very large values of $d$. MUUBs can also exists for some $d$-dimensional subspace of $M(d, \mathbb{C})$ with the maximal number being $d$.
翻訳日:2023-05-27 18:32:02 公開日:2020-03-27
# 二次スクイージングと連続可変エンタングルメントを用いた量子エンハンス光ファイバジャイロ

Quantum-Enhanced Fiber-Optic Gyroscopes Using Quadrature Squeezing and Continuous Variable Entanglement ( http://arxiv.org/abs/2003.12545v1 )

ライセンス: Link先を確認
Michael R Grace, Christos N. Gagatsos, Quntao Zhuang, Saikat Guha(参考訳) 量子吸引真空をファイバベースのサーニャック干渉計に注入することにより,光ファイバージャイロの設計が向上した。 繊維損失の存在下では,ホモダイン測定による角速度推定のばらつきの観点から,レーザー駆動型光ファイバジャイロスコープの最大到達率を算出した。 システムに導入されるスクイージングの程度に依存するが、スキュージングの10ドル--15ドルdBを超えるリターンは減少している。 固定された総繊維長の現実的な制約の下では、利用可能な繊維を複数のサニャック干渉計に分割し、マルチモード絡み込み真空を供給し、個々の干渉計に量子絡み合いを確立し、回転推定のばらつきを約2.718$の係数で改善することを示す。

We analyze a fiber-optic gyroscope design enhanced by the injection of quantum-optical squeezed vacuum into a fiber-based Sagnac interferometer. In the presence of fiber loss, we compute the maximum attainable enhancement over a classical, laser-driven fiber-optic gyroscope in terms of the angular velocity estimate variance from a homodyne measurement. We find a constant enhancement factor that depends on the degree of squeezing introduced into the system but has diminishing returns beyond $10$--$15$ dB of squeezing. Under a realistic constraint of fixed total fiber length, we show that segmenting the available fiber into multiple Sagnac interferometers fed with a multi-mode-entangled squeezed vacuum, thereby establishing quantum entanglement across the individual interferometers, improves the rotation estimation variance by a factor of $e\approx2.718$.
翻訳日:2023-05-27 18:24:31 公開日:2020-03-27
# 寒冷原子センサを用いた高精度慣性測定

High-accuracy inertial measurements with cold-atom sensors ( http://arxiv.org/abs/2003.12516v1 )

ライセンス: Link先を確認
Remi Geiger, Arnaud Landragin, S\'ebastien Merlet, Franck Pereira Dos Santos(参考訳) コールド原子干渉計の研究は、学術部門と現在の産業部門の両方で、世界中で約50のグループの大規模なコミュニティを集めている。 量子センシングとメトロロジーのこのサブフィールドへの関心は、高い安定性と精度で慣性および重力信号を測定するためのコールドアトムセンサーの応用可能性の大きなパネルにある。 本稿では,過去30年間のフィールドの進化を概説し,過去10年間の研究活動の加速に焦点を当てる。 本論では, コールド原子重力慣性センサの物理原理とハードウェアの主要部分, センサの設計を始めるために必要な専門知識について述べる。 その後、重力と慣性信号を測定する装置の開発の進捗をレビューし、センサーの性能の限界、それらの応用、研究の最新の方向について強調した。

The research on cold-atom interferometers gathers a large community of about 50 groups worldwide both in the academic and now in the industrial sectors. The interest in this sub-field of quantum sensing and metrology lies in the large panel of possible applications of cold-atom sensors for measuring inertial and gravitational signals with a high level of stability and accuracy. This review presents the evolution of the field over the last 30 years and focuses on the acceleration of the research effort in the last 10 years. The article describes the physics principle of cold-atom gravito-inertial sensors as well as the main parts of hardware and the expertise required when starting the design of such sensors. It then reviews the progress in the development of instruments measuring gravitational and inertial signals, with a highlight on the limitations to the performances of the sensors, on their applications, and on the latest directions of research.
翻訳日:2023-05-27 18:23:56 公開日:2020-03-27
# 行列積密度演算子を用いた多体系の効率的な記述

Efficient description of many-body systems with Matrix Product Density Operators ( http://arxiv.org/abs/2003.12418v1 )

ライセンス: Link先を確認
Jiri Guth Jarkovsky, Andras Molnar, Norbert Schuch, J. Ignacio Cirac(参考訳) 行列積状態は1次元の基底状態問題に対する強力なシミュレーション手法の基礎を形成する。 その力は、低い絡み合いの州、すなわち「地域法」を忠実に近似しているという事実に起因している。 本研究は, この結果の混合状態類似性を確立し, 精製の絡み合いによって定量化される1次元混合状態が, マトリックス生成物密度演算子(MPDO)により効率的に近似可能であることを示す。 熱状態に関する領域法が確立された結果と組み合わせることで、mpdosを公式な基盤上での熱状態のシミュレーションに利用するのに役立つ。

Matrix Product States form the basis of powerful simulation methods for ground state problems in one dimension. Their power stems from the fact that they faithfully approximate states with a low amount of entanglement, the "area law". In this work, we establish the mixed state analogue of this result: We show that one-dimensional mixed states with a low amount of entanglement, quantified by the entanglement of purification, can be efficiently approximated by Matrix Product Density Operators (MPDOs). In combination with results establishing area laws for thermal states, this helps to put the use of MPDOs in the simulation of thermal states on a formal footing.
翻訳日:2023-05-27 18:22:07 公開日:2020-03-27
# 振動構造計算のためのハードウェア効率のよい量子アルゴリズム

Hardware Efficient Quantum Algorithms for Vibrational Structure Calculations ( http://arxiv.org/abs/2003.12578v1 )

ライセンス: Link先を確認
Pauline J. Ollitrault, Alberto Baiardi, Markus Reiher, Ivano Tavernelli(参考訳) 近距離量子デバイスに適したボソニック系の基底および励起状態エネルギーの計算のための枠組みを導入し、分子振動非調和ハミルトニアンに適用する。 本手法は,古典的振動構造計算において日常的に使用されるものを含む,一般参照様相基底とハミルトニアン表現をサポートする。 量子ハードウェアで符号化可能な振動波動関数の異なるパラメータ化を、ヒューリスティック回路またはボソニックユニタリ結合クラスター ansatz に基づいてテストする。 特に,新しいコンパクトヒューリスティック回路を定義し,回路の深さ,最適化コスト,精度の点で最善の妥協となることを示す。 量子ハードウェア上での振動エネルギー計算の要求値,量子ビット数,回路深さを評価し,最大7個の原子を持つ分子に対する最先端の古典的振動構造アルゴリズムと比較した。

We introduce a framework for the calculation of ground and excited state energies of bosonic systems suitable for near-term quantum devices and apply it to molecular vibrational anharmonic Hamiltonians. Our method supports generic reference modal bases and Hamiltonian representations, including the ones that are routinely used in classical vibrational structure calculations. We test different parametrizations of the vibrational wave function, which can be encoded in quantum hardware, based either on heuristic circuits or on the bosonic Unitary Coupled Cluster Ansatz. In particular, we define a novel compact heuristic circuit and demonstrate that it provides the best compromise in terms of circuit depth, optimization costs, and accuracy. We evaluate the requirements, number of qubits and circuit depth, for the calculation of vibrational energies on quantum hardware and compare them with state-of-the-art classical vibrational structure algorithms for molecules with up to seven atoms.
翻訳日:2023-05-27 18:14:15 公開日:2020-03-27
# 量子力学における測定間の対称性

Symmetries between measurements in quantum mechanics ( http://arxiv.org/abs/2003.12553v1 )

ライセンス: Link先を確認
H. Chau Nguyen, S\'ebastien Designolle, Mohamed Barakat, Otfried G\"uhne(参考訳) 対称性は数学的エレガンスと物理的洞察をつなぐ重要な概念である。 量子力学における測定アセンブリを考察し、それらの対称性がいわゆる離散バンドルによってどのように記述できるかを示す。 量子情報理論や量子力学の基礎の研究に使用される多くの測定アセンブリは、対称性によって完全に決定されていることが判明し、さらに、ある対称性群から始めて、新しいタイプの測定セットを構築することができる。 対称性から得られる洞察は、集合の測度がノイズ条件下で不整合であるかどうか、すなわち真に異なるものとみなすことができるかどうかを簡単に決定することができる。 さらに、対称性により、分散量子状態の量子性を明らかにするための高感度の測定値の有限集合を特定できる。

Symmetries are a key concept to connect mathematical elegance with physical insight. We consider measurement assemblages in quantum mechanics and show how their symmetry can be described by means of the so-called discrete bundles. It turns out that many measurement assemblages used in quantum information theory as well as for studying the foundations of quantum mechanics are entirely determined by symmetry; moreover, starting from a certain symmetry group, novel types of measurement sets can be constructed. The insight gained from symmetry allows us to easily determine whether the measurements in the set are incompatible under noisy conditions, i.e., whether they can be regarded as genuinely distinct ones. In addition, symmetry enables us to identify finite sets of measurements having a high sensitivity to reveal the quantumness of distributed quantum states.
翻訳日:2023-05-27 18:13:39 公開日:2020-03-27
# マルチモード分散量子メートル法におけるハイゼンベルクスケーリング精度

Heisenberg scaling precision in multi-mode distributed quantum metrology ( http://arxiv.org/abs/2003.12550v1 )

ライセンス: Link先を確認
Giovanni Gramegna, Danilo Triggiani, Paolo Facchi, Frank A. Narducci, Vincenzo Tamma(参考訳) ハイゼンベルクスケーリング精度(すなわち1/N$)を持つマルチポート干渉計に符号化されたパラメータ$\varphi$を推定できるN$フォトトンガウス測度スキームを提案する。 このプロトコルでは、干渉計の構造に線形性と通過性以外の制限は課されず、パラメータ $\varphi$ を複数のコンポーネントに分散させることができる。 これまでのすべての提案では、入力状態と出力の測定の両方が未知のパラメータ $\varphi$ に適合するようにハイゼンベルクスケーリングが得られた。 これは深刻な欠点であり、実際、追加のリソースを定量化していない使用を含む一連の試行的な入力状態と測定値で反復的な手順を使用する必要がある。 驚くべきことに、1つのステージのみを適応する必要があるため、他のステージの選択は完全に任意に残されている。 また,本手法は最適化段階における不完全性に対して堅牢であることを示す。 さらに、適応的な手順は、パラメータに関する予備的な古典的知識(例えば、精度1/\sqrt{N}$)しか必要とせず、追加のリソースは必要ないことを示す。 結果として、1/\sqrt{n}$という順序のパラメータの変動を、これ以上の適応なしにハイゼンベルク制限精度で監視するために同じ適応段階を用いることができる。

We propose an $N$-photon Gaussian measurement scheme which allows the estimation of a parameter $\varphi$ encoded into a multi-port interferometer with a Heisenberg scaling precision (i.e. of order $1/N$). In this protocol, no restrictions on the structure of the interferometer are imposed other than linearity and passivity, allowing the parameter $\varphi$ to be distributed over several components. In all previous proposals Heisenberg scaling has been obtained provided that both the input state and the measurement at the output are suitably adapted to the unknown parameter $\varphi$. This is a serious drawback which would require in practice the use of iterative procedures with a sequence of trial input states and measurements, which involve an unquantified use of additional resources. Remarkably, we find that only one stage has to be adapted, which leaves the choice of the other stage completely arbitrary. We also show that our scheme is robust against imperfections in the optimized stage. Moreover, we show that the adaptive procedure only requires a preliminary classical knowledge (i.e to a precision $1/\sqrt{N}$) on the parameter, and no further additional resources. As a consequence, the same adapted stage can be employed to monitor with Heisenberg-limited precision any variation of the parameter of the order of $1/\sqrt{N}$ without any further adaptation.
翻訳日:2023-05-27 18:13:08 公開日:2020-03-27
# EGO-TOPO:エゴセントリックビデオによる環境習慣

EGO-TOPO: Environment Affordances from Egocentric Video ( http://arxiv.org/abs/2001.04583v2 )

ライセンス: Link先を確認
Tushar Nagarajan, Yanghao Li, Christoph Feichtenhofer, Kristen Grauman(参考訳) ファースト・パーソン・ビデオは、カメラの装着者が自分の意図に基づいて空間内で流動的に相互作用する様子を映し出すため、自然に物理環境を前面にもたらす。 しかし、現在の手法は観測された動作を永続空間そのものから大きく分離している。 我々は,エゴセントリックビデオから直接学習する環境余裕のモデルを紹介する。 主なアイデアは、(1)相互作用の主要な空間的領域、(2)彼らが支援するであろう活動を取り込む、物理的空間(キッチンなど)の人間中心のモデルを得ることである。 このアプローチでは,空間をファーストパーソン活動から派生したトポロジカルマップに分解し,エゴビデオから様々なゾーンへの一連の訪問を整理する。 さらに,複数の関連環境(例えば,複数のキッチンのビデオから)にまたがるゾーンをリンクして,環境機能の統合表現を得る方法を示す。 EPIC-Kitchens と EGTEA+ では,シーン・アベイランスの学習と,ロングフォームビデオにおける今後の行動を予測するためのアプローチを実証する。

First-person video naturally brings the use of a physical environment to the forefront, since it shows the camera wearer interacting fluidly in a space based on his intentions. However, current methods largely separate the observed actions from the persistent space itself. We introduce a model for environment affordances that is learned directly from egocentric video. The main idea is to gain a human-centric model of a physical space (such as a kitchen) that captures (1) the primary spatial zones of interaction and (2) the likely activities they support. Our approach decomposes a space into a topological map derived from first-person activity, organizing an ego-video into a series of visits to the different zones. Further, we show how to link zones across multiple related environments (e.g., from videos of multiple kitchens) to obtain a consolidated representation of environment functionality. On EPIC-Kitchens and EGTEA+, we demonstrate our approach for learning scene affordances and anticipating future actions in long-form video.
翻訳日:2023-01-11 12:44:16 公開日:2020-03-27
# データ同化、機械学習、期待最大化によるカオス力学のベイズ推論

Bayesian inference of chaotic dynamics by merging data assimilation, machine learning and expectation-maximization ( http://arxiv.org/abs/2001.06270v2 )

ライセンス: Link先を確認
Marc Bocquet, Julien Brajard, Alberto Carrassi, Laurent Bertino(参考訳) 物理流体のような高次元カオス力学の観測による再構成は妨げられる (i)現実的に得られる部分的かつ騒がしい観察 (ii)時系列データから学ぶ必要があること、 (iii)動力学の不安定な性質。 長期にわたる観測からこのような推論を実現するため,データ同化と機械学習を様々な方法で組み合わせることが提案されている。 期待最大化と座標降下を用いたベイズ的視点からこれらのアプローチを統一する方法を示す。 これにより、モデル、状態軌道およびモデル誤差統計が全て一緒に見積もられる。 これらの手法の実装と近似について論じる。 最後に,異なる識別性を持つ2つの関連低次カオスモデルに対するアプローチを数値的かつうまくテストした。

The reconstruction from observations of high-dimensional chaotic dynamics such as geophysical flows is hampered by (i) the partial and noisy observations that can realistically be obtained, (ii) the need to learn from long time series of data, and (iii) the unstable nature of the dynamics. To achieve such inference from the observations over long time series, it has been suggested to combine data assimilation and machine learning in several ways. We show how to unify these approaches from a Bayesian perspective using expectation-maximization and coordinate descents. In doing so, the model, the state trajectory and model error statistics are estimated all together. Implementations and approximations of these methods are discussed. Finally, we numerically and successfully test the approach on two relevant low-order chaotic models with distinct identifiability.
翻訳日:2023-01-10 10:08:43 公開日:2020-03-27
# ビジュアル質問応答アーキテクチャのためのコンポーネント分析

Component Analysis for Visual Question Answering Architectures ( http://arxiv.org/abs/2002.05104v2 )

ライセンス: Link先を確認
Camila Kolling, J\^onatas Wehrmann, and Rodrigo C. Barros(参考訳) 近年のコンピュータビジョンと自然言語処理の研究は、AI完全問題を解決するための新しいタスクを導入している。 これらのタスクのひとつにVisual Question Answering(VQA)がある。 VQAシステムは、画像と、その画像に関する自由でオープンな自然言語の質問を取り、出力として自然言語の回答を生成する必要がある。 このような課題は、VQA予測精度を改善するための多くのアプローチを生み出した科学コミュニティから大きな注目を集めている。 ほとんどが3つの主要な構成要素で構成されています (i)画像及び質問の独立した表現学習 (二)特徴融合により、両情報源の情報を用いて視覚的疑問に答えることができる。 (iii)自然言語における正答の生成。 最近導入された多くのアプローチによって、モデルの究極のパフォーマンスに対する各コンポーネントの本当の貢献が明確になった。 本稿では,VQAモデルにおける各コンポーネントの影響を包括的に分析することを目的とする。 我々の広範な実験は、視覚的要素とテキスト的要素の両方をカバーし、融合と注意機構の形でこれらの表現を組み合わせる。 我々の主な貢献は、VQAモデルをトレーニングするためのコアコンポーネントを特定し、予測性能を最大化することです。

Recent research advances in Computer Vision and Natural Language Processing have introduced novel tasks that are paving the way for solving AI-complete problems. One of those tasks is called Visual Question Answering (VQA). A VQA system must take an image and a free-form, open-ended natural language question about the image, and produce a natural language answer as the output. Such a task has drawn great attention from the scientific community, which generated a plethora of approaches that aim to improve the VQA predictive accuracy. Most of them comprise three major components: (i) independent representation learning of images and questions; (ii) feature fusion so the model can use information from both sources to answer visual questions; and (iii) the generation of the correct answer in natural language. With so many approaches being recently introduced, it became unclear the real contribution of each component for the ultimate performance of the model. The main goal of this paper is to provide a comprehensive analysis regarding the impact of each component in VQA models. Our extensive set of experiments cover both visual and textual elements, as well as the combination of these representations in form of fusion and attention mechanisms. Our major contribution is to identify core components for training VQA models so as to maximize their predictive performance.
翻訳日:2023-01-01 18:53:47 公開日:2020-03-27
# 自然言語理解タスクにおける変圧器モデルによるストレステスト評価

Stress Test Evaluation of Transformer-based Models in Natural Language Understanding Tasks ( http://arxiv.org/abs/2002.06261v2 )

ライセンス: Link先を確認
Carlos Aspillaga, Andr\'es Carvallo, Vladimir Araujo(参考訳) トランスフォーマーアーキテクチャの導入により,近年,自然言語処理分野において大きな進歩を遂げている。 現在の最先端モデルでは、多数のパラメータと大量のテキストコーパスでの事前学習を通じて、下流タスクで印象的な結果を示している。 多くの研究者は、さまざまなシナリオで実際の振る舞いを理解するために、以前の(非変換型)モデルを研究しており、これらのモデルがデータセットの手がかりや失敗を利用しており、入力データに対するわずかな摂動によってパフォーマンスが著しく低下することを示している。 対照的に、最近のモデルは厳しいストレス条件下での強靭性を示すために、逆例を用いて体系的に試験されていない。 そのため、自然言語推論(NLI)および質問回答(QA)タスクにおける3つのトランスフォーマーベースモデル(RoBERTa、XLNet、BERT)を評価し、それらがより堅牢か、前者と同じ欠陥があるかを知る。 その結果,RoBERTa,XLNet,BERTはニューラルネットモデルよりも頑健であり,NLIタスクとQAタスクの両方の負荷テストが可能であることがわかった。 それでも、それらはまだ非常に脆弱であり、様々な予期せぬ振る舞いを示しており、この分野に将来的な改善の余地があることを示している。

There has been significant progress in recent years in the field of Natural Language Processing thanks to the introduction of the Transformer architecture. Current state-of-the-art models, via a large number of parameters and pre-training on massive text corpus, have shown impressive results on several downstream tasks. Many researchers have studied previous (non-Transformer) models to understand their actual behavior under different scenarios, showing that these models are taking advantage of clues or failures of datasets and that slight perturbations on the input data can severely reduce their performance. In contrast, recent models have not been systematically tested with adversarial-examples in order to show their robustness under severe stress conditions. For that reason, this work evaluates three Transformer-based models (RoBERTa, XLNet, and BERT) in Natural Language Inference (NLI) and Question Answering (QA) tasks to know if they are more robust or if they have the same flaws as their predecessors. As a result, our experiments reveal that RoBERTa, XLNet and BERT are more robust than recurrent neural network models to stress tests for both NLI and QA tasks. Nevertheless, they are still very fragile and demonstrate various unexpected behaviors, thus revealing that there is still room for future improvement in this field.
翻訳日:2023-01-01 04:49:01 公開日:2020-03-27
# セットスーパービジョンアクションセグメンテーションのためのセットコントラクトビタビ

Set-Constrained Viterbi for Set-Supervised Action Segmentation ( http://arxiv.org/abs/2002.11925v2 )

ライセンス: Link先を確認
Jun Li, Sinisa Todorovic(参考訳) 本論文は,訓練ビデオに現れる行動のセットのみを具現化するが,実際の時間的順序付けは行わない,弱教師付きアクションセグメンテーションについて述べる。 先行研究は通常、疑似基底真理を生成するためにビデオフレームを独立にラベル付けする分類器と、分類器のトレーニングのために複数のインスタンス学習を使用する。 我々は,行動クラスとその時間長の共起を考慮に入れたHMMを指定し,ビタビに基づく損失に基づいてHMMを明示的に訓練することによって,この枠組みを拡張した。 我々の最初の貢献は、新しいセット制約付きビタビアルゴリズム(SCV)の定式化である。 ビデオが与えられたら、SCVは、地上の真実を満たすMAPアクションセグメンテーションを生成する。 この予測は、hmmトレーニングにおいてフレームワイズ疑似基底真理として使用される。 トレーニングにおける第2の貢献は、同じアクションクラスを共有するトレーニングビデオ間の機能親和性の新しい正規化です。 Breakfast, MPII Cooking2, Hollywood Extended データセットでのアクションセグメンテーションとアライメントの評価は、以前の作業よりも2つのタスクの大幅なパフォーマンス向上を示している。

This paper is about weakly supervised action segmentation, where the ground truth specifies only a set of actions present in a training video, but not their true temporal ordering. Prior work typically uses a classifier that independently labels video frames for generating the pseudo ground truth, and multiple instance learning for training the classifier. We extend this framework by specifying an HMM, which accounts for co-occurrences of action classes and their temporal lengths, and by explicitly training the HMM on a Viterbi-based loss. Our first contribution is the formulation of a new set-constrained Viterbi algorithm (SCV). Given a video, the SCV generates the MAP action segmentation that satisfies the ground truth. This prediction is used as a framewise pseudo ground truth in our HMM training. Our second contribution in training is a new regularization of feature affinities between training videos that share the same action classes. Evaluation on action segmentation and alignment on the Breakfast, MPII Cooking2, Hollywood Extended datasets demonstrates our significant performance improvement for the two tasks over prior work.
翻訳日:2022-12-28 08:50:04 公開日:2020-03-27
# 学習特徴記述子を用いた極密点対応

Extremely Dense Point Correspondences using a Learned Feature Descriptor ( http://arxiv.org/abs/2003.00619v2 )

ライセンス: Link先を確認
Xingtong Liu, Yiping Zheng, Benjamin Killeen, Masaru Ishii, Gregory D. Hager, Russell H. Taylor, Mathias Unberath(参考訳) 内視鏡画像からの高品質な3D再構成は、手術ナビゲーションを含む多くの臨床応用において重要な役割を担っている。 一般的なマルチビュー3D再構成には多くの方法が存在するが、これらの手法は内視鏡的映像に満足な性能を発揮できないことが多い。 理由の1つは、解剖学のテクスチャ・スカース面に直面するとき、ペアワイズポイント対応を確立し、したがって再構築を促進する局所記述子である。 学習ベースの高密度ディスクリプタは、大域的な情報の符号化を可能にする、より大きな受容領域を持つ。 本研究では,高次記述型学習のための効果的な自己教師付き学習方式と新しい損失設計を提案する。 内腔内視鏡検査データを用いた最近の局所的・密集的記述装置との比較により,提案する密集ディスクリプタが患者とスコープを認識不能に一般化し,モデル密度と完全性の観点から,構造からの構造(sfm)の性能が大幅に向上することを示す。 また,本手法の有効性と汎用性を示すために,一般の高密度光フローデータセットと小型SfM公開データセットについて評価を行った。 ソースコードはhttps://github.com/lpplpl920/densedescriptorlearning-pytorchで入手できる。

High-quality 3D reconstructions from endoscopy video play an important role in many clinical applications, including surgical navigation where they enable direct video-CT registration. While many methods exist for general multi-view 3D reconstruction, these methods often fail to deliver satisfactory performance on endoscopic video. Part of the reason is that local descriptors that establish pair-wise point correspondences, and thus drive reconstruction, struggle when confronted with the texture-scarce surface of anatomy. Learning-based dense descriptors usually have larger receptive fields enabling the encoding of global information, which can be used to disambiguate matches. In this work, we present an effective self-supervised training scheme and novel loss design for dense descriptor learning. In direct comparison to recent local and dense descriptors on an in-house sinus endoscopy dataset, we demonstrate that our proposed dense descriptor can generalize to unseen patients and scopes, thereby largely improving the performance of Structure from Motion (SfM) in terms of model density and completeness. We also evaluate our method on a public dense optical flow dataset and a small-scale SfM public dataset to further demonstrate the effectiveness and generality of our method. The source code is available at https://github.com/lppllppl920/DenseDescriptorLearning-Pytorch.
翻訳日:2022-12-27 05:15:26 公開日:2020-03-27
# コミットするボットの検出と特徴付け

Detecting and Characterizing Bots that Commit Code ( http://arxiv.org/abs/2003.03172v3 )

ライセンス: Link先を確認
Tapajit Dey, Sara Mousavi, Eduardo Ponce, Tanner Fry, Bogdan Vasilescu, Anna Filippova, Audris Mockus(参考訳) 背景: コードコミット、オープニング、管理、クローズといった、従来から手動で実施されていた開発者のアクティビティの多くは、OSSプロジェクトの自動化の対象となっている。 特に、このようなアクティビティは、イベントに反応したり、特定の時間に実行されるツールによって実行されることが多い。 このような自動化ツールをボットと呼び、開発者の生産性やコード品質に関連する多くのソフトウェアマイニングシナリオでは、個々のアクションとアクションを分離するためにボットを特定することが望ましい。 Aim: これらのボットがコミットしたボットとコードを自動で識別し、アクティビティパターンに基づいてボットのタイプを特徴付ける方法を見つけます。 方法と結果: BIMANは、著者名、コミットメッセージ、コミットによって修正されたファイル、およびコミットに関連するプロジェクトを用いてボットを検出する体系的なアプローチである。 実験データでは,auc-rocの値は0.9。 また、これらのボットはコードコミットの時間パターンと修正されたファイルの種類に基づいて特徴付けし、それらは主にドキュメントファイルとwebページで動作し、これらのファイルはhtmlとjavascriptのエコシステムでもっとも広く使われていることを突き止めました。 私たちは、見つけた461のボット(すべて1000以上のコミットがある)と13,762,430のコミットに関する詳細な情報を含む共有可能なデータセットをコンパイルしました。

Background: Some developer activity traditionally performed manually, such as making code commits, opening, managing, or closing issues is increasingly subject to automation in many OSS projects. Specifically, such activity is often performed by tools that react to events or run at specific times. We refer to such automation tools as bots and, in many software mining scenarios related to developer productivity or code quality it is desirable to identify bots in order to separate their actions from actions of individuals. Aim: Find an automated way of identifying bots and code committed by these bots, and to characterize the types of bots based on their activity patterns. Method and Result: We propose BIMAN, a systematic approach to detect bots using author names, commit messages, files modified by the commit, and projects associated with the ommits. For our test data, the value for AUC-ROC was 0.9. We also characterized these bots based on the time patterns of their code commits and the types of files modified, and found that they primarily work with documentation files and web pages, and these files are most prevalent in HTML and JavaScript ecosystems. We have compiled a shareable dataset containing detailed information about 461 bots we found (all of whom have more than 1000 commits) and 13,762,430 commits they created.
翻訳日:2022-12-27 05:07:03 公開日:2020-03-27
# CNNに基づく写真美学不均衡分類のための反復的自己修正学習

CNN-based Repetitive self-revised learning for photos' aesthetics imbalanced classification ( http://arxiv.org/abs/2003.03081v4 )

ライセンス: Link先を確認
Ying Dai(参考訳) 審美評価は主観的であり、審美レベルの分布は不均衡である。 写真美学の自動評価を実現するために, 繰り返し自己修正学習(RSRL)を用いて, 不均衡データセットを用いてCNNに基づく美学分類ネットワークを訓練する。 RSRLとして、ネットワークは、以前トレーニングされたネットワークに基づいたトレーニングデータセットから、審美の中間レベルにある低い可能性の写真サンプルを降ろすことで、繰り返し訓練される。 さらに、保持された2つのネットワークを用いて、美的評価に関連する写真のハイライト領域を抽出する。 実験結果から, CNNに基づく反復的自己修正学習は, 不均衡分類の性能向上に有効であることが示唆された。

Aesthetic assessment is subjective, and the distribution of the aesthetic levels is imbalanced. In order to realize the auto-assessment of photo aesthetics, we focus on using repetitive self-revised learning (RSRL) to train the CNN-based aesthetics classification network by imbalanced data set. As RSRL, the network is trained repetitively by dropping out the low likelihood photo samples at the middle levels of aesthetics from the training data set based on the previously trained network. Further, the retained two networks are used in extracting highlight regions of the photos related with the aesthetic assessment. Experimental results show that the CNN-based repetitive self-revised learning is effective for improving the performances of the imbalanced classification.
翻訳日:2022-12-26 01:30:06 公開日:2020-03-27
# 深いトランスフォーマーモデルを用いたフィンランド語モデル

Finnish Language Modeling with Deep Transformer Models ( http://arxiv.org/abs/2003.11562v2 )

ライセンス: Link先を確認
Abhilash Jain, Aku Ruohe, Stig-Arne Gr\"onroos, Mikko Kurimo(参考訳) LSTMが長い間支配的なモデルアーキテクチャとみなされてきた後、トランスフォーマーは言語モデリングの中心的な段階に入った。 本稿では,言語モデリングタスクにおける Transformer Architectures-BERT と Transformer-XL の性能について検討する。 我々は、フィンランド語とサブワードモデルを用いて、以前の最先端技術(SOTA)LSTMモデルと比較する。 bert は 14.5 の疑似パープレキシティスコアを達成しており、これは我々が知る限りで最初に達成した尺度である。 Transformer-XLはパープレキシティスコアを73.58に改善し、LSTMモデルよりも27.5%向上した。

Transformers have recently taken the center stage in language modeling after LSTM's were considered the dominant model architecture for a long time. In this project, we investigate the performance of the Transformer architectures-BERT and Transformer-XL for the language modeling task. We use a sub-word model setting with the Finnish language and compare it to the previous State of the art (SOTA) LSTM model. BERT achieves a pseudo-perplexity score of 14.5, which is the first such measure achieved as far as we know. Transformer-XL improves upon the perplexity score to 73.58 which is 27\% better than the LSTM model.
翻訳日:2022-12-23 19:52:58 公開日:2020-03-27
# 形状マッチングと複数ワープによる高精度でリアルな仮想試行に向けて

Toward Accurate and Realistic Virtual Try-on Through Shape Matching and Multiple Warps ( http://arxiv.org/abs/2003.10817v2 )

ライセンス: Link先を確認
Kedan Li, Min Jin Chong, Jingen Liu, David Forsyth(参考訳) 仮想試行法は、製品画像とモデルの画像とを取り、製品を身に着けているモデルの画像を生成する。 ほとんどの手法は基本的に製品画像からモデル画像へのワープを計算し、画像生成法を用いて組み合わせる。 しかし, 現実的な画像の取得は, 衣服のキネマティクスが複雑であり, 画像のアウトライン, テクスチャ, シェーディングの手がかりが人間の視聴者の誤りを露呈するため, 困難である。 服は適度な垂れ下がれでなければならないし、食感はドレープされた服の形と一致させるために反り、小細部(ボタン、首輪、ラペル、ポケットなど)を服に適当に置く必要がある。 評価は特に難しく、通常は質的である。 本稿では、挑戦的で斬新なデータセットの定量的評価を用いてそれを実証する。 (a)どのウォーピング法でも、結果を改善するために自動的にターゲットモデルを選択でき、 (b)複数の調整された特殊兵器の学習は結果をさらに改善する。 ターゲットモデルは、モデルが着ている製品の表現を予測する学習された埋め込み手順によって選択されます。 この予測は製品とモデルとの一致に使用される。 スペシャライズド・ウォーパーは、第2のワーパーが第1のワーパーがうまく機能しない場所でうまく機能するように促す方法によって訓練される。 ワープはU-Netで結合される。 質的評価は、これらの改善がアウトライン、テクスチャシェーディング、衣料品の細部に対するホールセールであることを確認する。

A virtual try-on method takes a product image and an image of a model and produces an image of the model wearing the product. Most methods essentially compute warps from the product image to the model image and combine using image generation methods. However, obtaining a realistic image is challenging because the kinematics of garments is complex and because outline, texture, and shading cues in the image reveal errors to human viewers. The garment must have appropriate drapes; texture must be warped to be consistent with the shape of a draped garment; small details (buttons, collars, lapels, pockets, etc.) must be placed appropriately on the garment, and so on. Evaluation is particularly difficult and is usually qualitative. This paper uses quantitative evaluation on a challenging, novel dataset to demonstrate that (a) for any warping method, one can choose target models automatically to improve results, and (b) learning multiple coordinated specialized warpers offers further improvements on results. Target models are chosen by a learned embedding procedure that predicts a representation of the products the model is wearing. This prediction is used to match products to models. Specialized warpers are trained by a method that encourages a second warper to perform well in locations where the first works poorly. The warps are then combined using a U-Net. Qualitative evaluation confirms that these improvements are wholesale over outline, texture shading, and garment details.
翻訳日:2022-12-21 05:41:26 公開日:2020-03-27
# コロナウイルスの深層学習における不確実性と解釈可能性の推定

Estimating Uncertainty and Interpretability in Deep Learning for Coronavirus (COVID-19) Detection ( http://arxiv.org/abs/2003.10769v2 )

ライセンス: Link先を確認
Biraja Ghoshal, Allan Tucker(参考訳) 深層学習は医用画像における芸術的パフォーマンスの状態を達成している。 しかし、これらの疾患検出方法は、決定の不確実性を定量化することなく、分類や予測の精度の向上にのみ焦点をあてている。 コンピュータベースの診断にどの程度の信頼性があるかを知ることは、臨床医がこの技術を信頼し、治療を改善するために不可欠である。 現在、2019年のコロナウイルス(SARS-CoV-2)感染は世界中で大きな医療課題となっている。 x線画像中の新型コロナウイルスの検出は診断、診断、治療に不可欠である。 しかし、この報告における診断の不確実性は、放射線医にとって困難でありながら必然的な課題である。 本稿では,bcnn (drop-weights based bayesian convolutional neural networks) が深層学習ソリューションにおける不確かさを推定し,一般公開されたcovid-19胸部x線データセットを用いて,人間-マシンチームの診断性能を向上させる方法について検討し,予測の不確実性が予測精度と高い相関性を示す。 不確実性を認識したディープラーニングソリューションが利用できることで、臨床環境でのAI(Artificial Intelligence)の広範な採用が可能になると考えています。

Deep Learning has achieved state of the art performance in medical imaging. However, these methods for disease detection focus exclusively on improving the accuracy of classification or predictions without quantifying uncertainty in a decision. Knowing how much confidence there is in a computer-based medical diagnosis is essential for gaining clinicians trust in the technology and therefore improve treatment. Today, the 2019 Coronavirus (SARS-CoV-2) infections are a major healthcare challenge around the world. Detecting COVID-19 in X-ray images is crucial for diagnosis, assessment and treatment. However, diagnostic uncertainty in the report is a challenging and yet inevitable task for radiologist. In this paper, we investigate how drop-weights based Bayesian Convolutional Neural Networks (BCNN) can estimate uncertainty in Deep Learning solution to improve the diagnostic performance of the human-machine team using publicly available COVID-19 chest X-ray dataset and show that the uncertainty in prediction is highly correlates with accuracy of prediction. We believe that the availability of uncertainty-aware deep learning solution will enable a wider adoption of Artificial Intelligence (AI) in a clinical setting.
翻訳日:2022-12-21 05:06:08 公開日:2020-03-27
# Adiabatic Quantum Computer を用いた逆アニーリングによる量子セマンティック学習

Quantum Semantic Learning by Reverse Annealing an Adiabatic Quantum Computer ( http://arxiv.org/abs/2003.11945v2 )

ライセンス: Link先を確認
Lorenzo Rocutto, Claudio Destri, Enrico Prati(参考訳) ボルツマンマシンは、画像再構成、パターン分類、教師なし学習全般への応用を含むニューラルネットワークのクラスを構成する。 Restricted Boltzmann Machines (RBMs) と呼ばれるそれらの最も一般的な変種は、既存のシリコンベースのハードウェアにおける計算可能性とアプリケーションの一般化との間に良いトレードオフを示す。 しかし、RBMの拡散は、その訓練過程が困難であることが証明されているため、非常に制限されている。 商用のAQC(Adiabatic Quantum Computers)の出現は、そのような量子デバイス上でのRBMの実装が、従来のハードウェアに対するトレーニング速度を向上すると予想された。 しかし、これまで、AQCs上のRBMネットワークの実装は、各キュービットがニューラルネットワークのノードとして機能するときに、低量子接続によって制限されてきた。 ここでは,ノードを仮想量子ビットに関連付ける埋め込みにより,AQC上での完全なRBMの実現可能性を示す。 さらに、学習を加速するために、従来の提案とは対照的に、入力データを初期境界条件として取り込んで、逆アニーリングスケジュールによりRBMの各学習ステップを開始するセマンティック量子探索を実装した。 このようなアプローチは、従来のフォワードアニーリングスケジュールとは異なり、古典的なギブスサンプリングアルゴリズムの振る舞いを模倣して、トレーニングデータの有意義な近傍で構成をサンプリングすることができる。 逆アニーリングに基づく学習は,構成の集合の有意義な部分集合のサンプリング確率を急速に高めることを示す。 アニーリングスケジュールの適切な最適化がなくても、リバースアニーリングによって意味的に訓練されたrbmは、リコンストラクションタスクにおいてより良いスコアが得られる。

Boltzmann Machines constitute a class of neural networks with applications to image reconstruction, pattern classification and unsupervised learning in general. Their most common variants, called Restricted Boltzmann Machines (RBMs) exhibit a good trade-off between computability on existing silicon-based hardware and generality of possible applications. Still, the diffusion of RBMs is quite limited, since their training process proves to be hard. The advent of commercial Adiabatic Quantum Computers (AQCs) raised the expectation that the implementations of RBMs on such quantum devices could increase the training speed with respect to conventional hardware. To date, however, the implementation of RBM networks on AQCs has been limited by the low qubit connectivity when each qubit acts as a node of the neural network. Here we demonstrate the feasibility of a complete RBM on AQCs, thanks to an embedding that associates its nodes to virtual qubits, thus outperforming previous implementations based on incomplete graphs. Moreover, to accelerate the learning, we implement a semantic quantum search which, contrary to previous proposals, takes the input data as initial boundary conditions to start each learning step of the RBM, thanks to a reverse annealing schedule. Such an approach, unlike the more conventional forward annealing schedule, allows sampling configurations in a meaningful neighborhood of the training data, mimicking the behavior of the classical Gibbs sampling algorithm. We show that the learning based on reverse annealing quickly raises the sampling probability of a meaningful subset of the set of the configurations. Even without a proper optimization of the annealing schedule, the RBM semantically trained by reverse annealing achieves better scores on reconstruction tasks.
翻訳日:2022-12-20 03:15:54 公開日:2020-03-27
# アクティブラーニングによる実験制御の最適化

Active Learning Approach to Optimization of Experimental Control ( http://arxiv.org/abs/2003.11804v2 )

ライセンス: Link先を確認
Yadong Wu, Zengming Meng, Kai Wen, Chengdong Mi, Jing Zhang and Hui Zhai(参考訳) 本研究では,実験制御を最適化する汎用機械学習方式を提案する。 ニューラルネットワークを用いて制御パラメータと制御目標の関係を学習し、最適制御パラメータを得ることができる。 このアプローチの主な課題は、実験から得られたラベル付きデータが豊富でないことである。 私たちの計画の中心的な考え方は、この困難を克服するためにアクティブな学習を使用することです。 実例として,寒冷原子の蒸発冷却実験の制御に本手法を適用した。 まずシミュレーションデータを用いて本手法をテストし,本手法を実実験に適用した。 本手法は,数百の実験実行で最高の性能に到達できることを実証する。 本手法は,実験システムの知識を事前に必要とせず,異なるシステムにおける実験制御に普遍的である。

In this work we present a general machine learning based scheme to optimize experimental control. The method utilizes the neural network to learn the relation between the control parameters and the control goal, with which the optimal control parameters can be obtained. The main challenge of this approach is that the labeled data obtained from experiments are not abundant. The central idea of our scheme is to use the active learning to overcome this difficulty. As a demonstration example, we apply our method to control evaporative cooling experiments in cold atoms. We have first tested our method with simulated data and then applied our method to real experiments. We demonstrate that our method can successfully reach the best performance within hundreds of experimental runs. Our method does not require knowledge of the experimental system as a prior and is universal for experimental control in different systems.
翻訳日:2022-12-19 22:15:49 公開日:2020-03-27
# BachGAN: 健全な物体レイアウトから高分解能画像合成

BachGAN: High-Resolution Image Synthesis from Salient Object Layout ( http://arxiv.org/abs/2003.11690v2 )

ライセンス: Link先を確認
Yandong Li, Yu Cheng, Zhe Gan, Licheng Yu, Liqiang Wang, and Jingjing Liu(参考訳) 本稿では、より実用的な画像生成のための新しい課題である、有能なオブジェクトレイアウトからの高品質な画像合成を提案する。 この新しい設定により、ユーザーはサルエントオブジェクトのレイアウト(例えば、前景のバウンディングボックスとカテゴリ)のみを提供でき、モデルが発明された背景と一致する前景で描画を完了することができる。 新しいタスクから2つの大きな課題が生まれます。 (i)セグメンテーションマップを入力せずに細かい細部や現実的なテクスチャを生成する方法 (ii)背景を作成し、それを独立したオブジェクトにシームレスに織り込む方法。 そこで我々は,まず背景検索モジュールを介して大きな候補プールからセグメンテーションマップのセットを選択し,次にこれらの候補レイアウトを背景融合モジュールを介してエンコードし,与えられたオブジェクトの適切な背景を暗示する背景幻覚生成逆ネットワーク(bachgan)を提案する。 幻影背景表現を動的に生成することにより,高解像度画像をフォトリアリスティック・フォアグラウンドと積分背景の両方で合成することができる。 CityscapesとADE20Kデータセットの実験は、生成された画像の視覚的忠実度と出力画像と入力レイアウト間の視覚的アライメントの両方に基づいて測定された、既存の手法よりもBachGANの利点を実証している。

We propose a new task towards more practical application for image generation - high-quality image synthesis from salient object layout. This new setting allows users to provide the layout of salient objects only (i.e., foreground bounding boxes and categories), and lets the model complete the drawing with an invented background and a matching foreground. Two main challenges spring from this new task: (i) how to generate fine-grained details and realistic textures without segmentation map input; and (ii) how to create a background and weave it seamlessly into standalone objects. To tackle this, we propose Background Hallucination Generative Adversarial Network (BachGAN), which first selects a set of segmentation maps from a large candidate pool via a background retrieval module, then encodes these candidate layouts via a background fusion module to hallucinate a suitable background for the given objects. By generating the hallucinated background representation dynamically, our model can synthesize high-resolution images with both photo-realistic foreground and integral background. Experiments on Cityscapes and ADE20K datasets demonstrate the advantage of BachGAN over existing methods, measured on both visual fidelity of generated images and visual alignment between output images and input layouts.
翻訳日:2022-12-19 21:51:43 公開日:2020-03-27
# P $\approx$ NP, 少なくともVisual Question Answeringでは

P $\approx$ NP, at least in Visual Question Answering ( http://arxiv.org/abs/2003.11844v2 )

ライセンス: Link先を確認
Shailza Jolly, Sebastian Palacio, Joachim Folz, Federico Raue, Joern Hees, Andreas Dengel(参考訳) 近年、VQA(Visual Question Answering)分野の進歩は、公開課題と大規模なデータセットによって大きく推進されている。 最も広く使われているのがVQA 2.0データセットで、極性(yes/no)と非極性質問からなる。 すべての回答に対する質問の分布を見てみると、回答の「イエス」と「ノー」は質問の38パーセントを占め、残りの62%は残りの3000以上の回答に分散していることがわかった。 この分野ではすでにいくつかのバイアス源が研究されているが、極性対非極性質問の過剰表現の効果は未だ不明である。 本稿では,ベースラインvqa分類器を訓練するために,非極性試料と極性試料が併用された場合の潜在的な共起要因を測定し,極性質問の過剰表現をトレーニングから除外した上界と比較する。 さらに,機能空間の適合度を分析するために,クロスオーバー実験を行った。 期待に反して,不均衡授業の合同研修において,非生産的効果の証拠は見いだされなかった。 実際、ビジュアルテキスト埋め込みの中間的特徴空間を探索することによって、極性問題の特徴空間が既に多くの非極性問題に答えるのに十分な構造を符号化していることが分かる。 我々の結果は、極性(P)および非極性(NP)特徴空間が強く整列していることを示し、従ってP$\approx$ NP という式が成立する。

In recent years, progress in the Visual Question Answering (VQA) field has largely been driven by public challenges and large datasets. One of the most widely-used of these is the VQA 2.0 dataset, consisting of polar ("yes/no") and non-polar questions. Looking at the question distribution over all answers, we find that the answers "yes" and "no" account for 38 % of the questions, while the remaining 62% are spread over the more than 3000 remaining answers. While several sources of biases have already been investigated in the field, the effects of such an over-representation of polar vs. non-polar questions remain unclear. In this paper, we measure the potential confounding factors when polar and non-polar samples are used jointly to train a baseline VQA classifier, and compare it to an upper bound where the over-representation of polar questions is excluded from the training. Further, we perform cross-over experiments to analyze how well the feature spaces align. Contrary to expectations, we find no evidence of counterproductive effects in the joint training of unbalanced classes. In fact, by exploring the intermediate feature space of visual-text embeddings, we find that the feature space of polar questions already encodes sufficient structure to answer many non-polar questions. Our results indicate that the polar (P) and the non-polar (NP) feature spaces are strongly aligned, hence the expression P $\approx$ NP
翻訳日:2022-12-19 21:49:21 公開日:2020-03-27
# Egoshots - 画像キャプションモデルの多様性を評価するエゴビジョン・ライフログデータセットとセマンティック・フィデリティ・メトリック

Egoshots, an ego-vision life-logging dataset and semantic fidelity metric to evaluate diversity in image captioning models ( http://arxiv.org/abs/2003.11743v2 )

ライセンス: Link先を確認
Pranav Agarwal, Alejandro Betancourt, Vana Panagiotou and Natalia D\'iaz-Rodr\'iguez(参考訳) 画像キャプションモデルは文法的に正しい人間の理解可能な文を生成することができる。 しかし、ほとんどのキャプションは、日常に存在するすべての可能なオブジェクトをキャプションしないデータセットでトレーニングされているため、限られた情報を伝える。 このような事前情報がないため、ほとんどのキャプションはシーンに存在する少数のオブジェクトに偏っているため、日常生活での使用は制限される。 本稿では,現在存在する画像キャプションモデルのバイアス特性を示すとともに,キャプションのない実生活画像978枚からなる新しい画像キャプションデータセットであるEgoshotsを提案する。 さらに,事前学習された画像キャプションと物体認識ネットワークを活用し,画像に注釈を付け,既存の作品の限界を示す。 さらに, 生成キャプションの品質を評価するために, 新たなキャプション指標, object based semantic fidelity (sf) を提案する。 既存の画像キャプションメトリクスは、対応するアノテーションの存在下でのみキャプションを評価することができるが、SFはアノテーションなしで画像に生成されたキャプションを評価できるため、実生活で生成されたキャプションにとって非常に有用である。

Image captioning models have been able to generate grammatically correct and human understandable sentences. However most of the captions convey limited information as the model used is trained on datasets that do not caption all possible objects existing in everyday life. Due to this lack of prior information most of the captions are biased to only a few objects present in the scene, hence limiting their usage in daily life. In this paper, we attempt to show the biased nature of the currently existing image captioning models and present a new image captioning dataset, Egoshots, consisting of 978 real life images with no captions. We further exploit the state of the art pre-trained image captioning and object recognition networks to annotate our images and show the limitations of existing works. Furthermore, in order to evaluate the quality of the generated captions, we propose a new image captioning metric, object based Semantic Fidelity (SF). Existing image captioning metrics can evaluate a caption only in the presence of their corresponding annotations; however, SF allows evaluating captions generated for images without annotations, making it highly useful for real life generated captions.
翻訳日:2022-12-19 21:13:33 公開日:2020-03-27
# コンフォート・アズ・ア・サービス:オフィスビルのユーザ指向熱コンフォートアーチファクトの設計

Comfort-as-a-Service: Designing a User-Oriented Thermal Comfort Artifact for Office Buildings ( http://arxiv.org/abs/2004.03323v1 )

ライセンス: Link先を確認
Svenja Laing, Niklas K\"uhl(参考訳) ほとんどの人は最大90%の時間を屋内で過ごす。 しかし、施設管理や関連分野の文献は、主に建物のエネルギーとコスト削減の側面に焦点を当てている。 特に商業ビルのエリアでは、ユーザ中心の視点を持つ記事は少なく、熱的快適さの主観性も考慮されていない。 本研究は, オープンオフィス環境における個々人の快適さを最適化し, 現代のオフィスインフラの変化を生かし, 既存システムに干渉することなく実際のユーザフィードバックを検討することを目的としている。 デザイン科学研究のアプローチに基づき、まず、模範的な企業オフィスビルでユーザエクスペリエンステストを実施します。 さらに,環境の快適性に関するユーザのフィードバックを収集するメカニズムを構築する。 これに基づいて、平均決定係数41.5%の異なるIoTデータソース(例えば、構築データと天気データ)を含む機械学習モデルを構築します。 これらの洞察を用いて、私たちは建物内の現在の個々の快適ゾーンを提案し、従業員がどこに座るか、何を着るか、快適で生産的な働き方について、より詳しい決定を下すのを助けることができます。 そこで我々は,分析過程に基づいて,分野横断的文脈におけるユーザ中心設計を提案することにより,知識体系に寄与する。

Most people spend up to 90 % of their time indoors. However, literature in the field of facility management and related disciplines mostly focus on energy and cost saving aspects of buildings. Especially in the area of commercial buildings, only few articles take a user-centric perspective and none of them considers the subjectivity of thermal comfort. This work addresses this research gap and aims to optimize individual environmental comfort in open office environments, taking advantage of changes in modern office infrastructure and considering actual user feedback without interfering with existing systems. Based on a Design Science Research approach, we first perform a user experience testing in an exemplary corporate office building. Furthermore, we build a mechanism to gather user feedback on environmental comfort. Based on this, we build a machine learning model including different IoT data sources (e.g. building data and weather data) with an average coefficient of determination of 41.5%. Using these insights, we are able to suggest current individual comfort zones within the building and help employees to make better informed decisions on where to sit or what to wear, to feel comfortable and work productively. Therefore, we contribute to the body of knowledge by proposing a user-centric design within a cross-disciplinary context on the basis of analytical processes.
翻訳日:2022-12-19 05:39:55 公開日:2020-03-27
# 非構造化多言語テキストからの教師なしクロスモーダル音声表現学習

Unsupervised Cross-Modal Audio Representation Learning from Unstructured Multilingual Text ( http://arxiv.org/abs/2003.12265v1 )

ライセンス: Link先を確認
Alexander Schindler, Sergiu Gordea, Peter Knees(参考訳) 教師なし音声表現学習へのアプローチを提案する。 三重項ニューラルネットワークアーキテクチャに基づき、意味的関連のあるクロスモーダル情報を用いて、音声トラック関連度を推定する。 ラテントセマンティックインデックス(LSI)を適用することで、対応するテキスト情報を潜在ベクトル空間に埋め込んで、オンライン三重項選択のためのトラック関連性を導出する。 このLSIトピックモデリングは、畳み込みリカレントニューラルネットワーク(CRNN)を用いて、類似および異種オーディオトラックペアのきめ細かい選択を容易に学習する。 これにより、構造化された接地真実アノテーションを導出することなく、非構造化テキストモダリティの意味的文脈を学習されたオーディオモダリティの表現空間に直接投影する。 また,ヨーロッパ各国のデジタル図書館から提供された多言語メタデータを用いて,デジタル音声ライブラリの検索精度を向上させる手法について検討した。 我々のアプローチは、様々なアノテーションスタイルと、このコレクションの異なる言語に不変であることを示す。 学習された表現は手作り特徴のベースラインに匹敵し、ベースラインの特徴ベクトル長の15\%で高いカットオフでの類似性検索精度で、それぞれこのベースラインを上回った。

We present an approach to unsupervised audio representation learning. Based on a triplet neural network architecture, we harnesses semantically related cross-modal information to estimate audio track-relatedness. By applying Latent Semantic Indexing (LSI) we embed corresponding textual information into a latent vector space from which we derive track relatedness for online triplet selection. This LSI topic modelling facilitates fine-grained selection of similar and dissimilar audio-track pairs to learn the audio representation using a Convolution Recurrent Neural Network (CRNN). By this we directly project the semantic context of the unstructured text modality onto the learned representation space of the audio modality without deriving structured ground-truth annotations from it. We evaluate our approach on the Europeana Sounds collection and show how to improve search in digital audio libraries by harnessing the multilingual meta-data provided by numerous European digital libraries. We show that our approach is invariant to the variety of annotation styles as well as to the different languages of this collection. The learned representations perform comparable to the baseline of handcrafted features, respectively exceeding this baseline in similarity retrieval precision at higher cut-offs with only 15\% of the baseline's feature vector length.
翻訳日:2022-12-19 05:39:28 公開日:2020-03-27
# 機械学習を使ってカロリメータR&Dの高速化と改善

Using Machine Learning to Speed Up and Improve Calorimeter R&D ( http://arxiv.org/abs/2003.12440v1 )

ライセンス: Link先を確認
Fedor Ratnikov(参考訳) 新しい実験の設計と進行中の実験のアップグレードは、実験高エネルギー物理学における連続的なプロセスである。 最適解は、異なる種類の制限の間のトレードオフであるため、異なる構成の異なる技法の物理性能を評価するには、迅速なターンオーバーが必要である。 物理性能の評価を遅くする2つの典型的な問題は、例えば、信号処理チェーンと共に生の検出器応答を含む特定の検出器特性をエミュレートし、異なる信号や背景条件に対するカロリメータ応答を適切にシミュレートすることである。 これには、一般地質シミュレーションから得られた検出器特性と、様々な種類のベンチおよび検出器およびエレクトロニクスプロトタイプのビーム試験から得られた特性を組み合わせることが含まれる。 -所定の検出器構成で得られる性能のほとんどを抽出するように適度に調整された検出器応答の物理再構成のための適切な再構成アルゴリズムを構築する。 最初の原則からアプローチされるため、どちらの問題も大きな開発努力を必要とする。 幸いなことに、両方の問題は現代の機械学習アプローチによって解決される可能性があり、これにより検出器技術の詳細とそれに対応する高レベルの物理性能を半自動で組み合わせることができる。 本稿では,LHCにおけるLHCb検出器のアップグレードプロジェクトの一環として,電磁量計設計のエピトマイズにこの手法を適用した経験と実践的結果を中心に,検出器開発と最適化サイクルの高速化と向上を目的とした高度な機械学習技術の利用について議論する。

Design of new experiments, as well as upgrade of ongoing ones, is a continuous process in the experimental high energy physics. Since the best solution is a trade-off between different kinds of limitations, a quick turn over is necessary to evaluate physics performance for different techniques in different configurations. Two typical problems which slow down evaluation of physics performance for particular approaches to calorimeter detector technologies and configurations are: - Emulating particular detector properties including raw detector response together with a signal processing chain to adequately simulate a calorimeter response for different signal and background conditions. This includes combining detector properties obtained from the general Geant simulation with properties obtained from different kinds of bench and beam tests of detector and electronics prototypes. - Building an adequate reconstruction algorithm for physics reconstruction of the detector response which is reasonably tuned to extract the most of the performance provided by the given detector configuration. Being approached from the first principles, both problems require significant development efforts. Fortunately, both problems may be addressed by using modern machine learning approaches, that allow a combination of available details of the detector techniques into corresponding higher level physics performance in a semi-automated way. In this paper, we discuss the use of advanced machine learning techniques to speed up and improve the precision of the detector development and optimisation cycle, with an emphasis on the experience and practical results obtained by applying this approach to epitomising the electromagnetic calorimeter design as a part of the upgrade project for the LHCb detector at LHC.
翻訳日:2022-12-19 05:38:43 公開日:2020-03-27
# 線形部分空間の集合の最小囲い球について

On a minimum enclosing ball of a collection of linear subspaces ( http://arxiv.org/abs/2003.12455v1 )

ライセンス: Link先を確認
Timothy Marrinan, P.-A. Absil, Nicolas Gillis(参考訳) 本稿では、線型部分空間の集合のミニマックス中心について述べる。 部分空間が$k$ 次元の $\mathbb{R}^n$ の部分空間であるとき、これはグラスマン多様体上の最小閉球の中心である Gr$(k,n)$ を見つけるものとしてキャストできる。 異なる次元の部分空間に対して、設定は単一の多様体ではなくグラスマン多様体の非連結和となり、問題はもはや十分に定義されていない。 しかし、これらの多様体の間には、写像の下の部分空間の像に対する距離の明確な概念を持つ自然な幾何学的写像が存在する。 この文脈で最初の問題を解決すると、各構成多様体上の候補ミニマックス中心となるが、本質的にどの候補がデータの最良の表現であるかの直観は提供されない。 さらに、異なる階数の解は一般にネストされないので、デフレショナルアプローチは十分ではなく、各多様体で独立に解かなければならない。 ミニマックスセンターのランクによってパラメータ化される最適化問題を提案・解決する。 この解は双対上の準次アルゴリズムを用いて計算される。 目的を拡大し、ランク=k$ミニマックス中心が失った情報をペナライズすることにより、最適な次元である$k^*$と中心部分空間である$U^* \in$Gr$(k^*,n)$を最小囲み球の中心で共に回収し、そのデータを表現する。

This paper concerns the minimax center of a collection of linear subspaces. When the subspaces are $k$-dimensional subspaces of $\mathbb{R}^n$, this can be cast as finding the center of a minimum enclosing ball on a Grassmann manifold, Gr$(k,n)$. For subspaces of different dimension, the setting becomes a disjoint union of Grassmannians rather than a single manifold, and the problem is no longer well-defined. However, natural geometric maps exist between these manifolds with a well-defined notion of distance for the images of the subspaces under the mappings. Solving the initial problem in this context leads to a candidate minimax center on each of the constituent manifolds, but does not inherently provide intuition about which candidate is the best representation of the data. Additionally, the solutions of different rank are generally not nested so a deflationary approach will not suffice, and the problem must be solved independently on each manifold. We propose and solve an optimization problem parametrized by the rank of the minimax center. The solution is computed using a subgradient algorithm on the dual. By scaling the objective and penalizing the information lost by the rank-$k$ minimax center, we jointly recover an optimal dimension, $k^*$, and a central subspace, $U^* \in$ Gr$(k^*,n)$ at the center of the minimum enclosing ball, that best represents the data.
翻訳日:2022-12-19 05:38:18 公開日:2020-03-27
# フィードバックチャネル符号化理論のレンズによる線形力学系の閉ループパラメータ同定

Closed-loop Parameter Identification of Linear Dynamical Systems through the Lens of Feedback Channel Coding Theory ( http://arxiv.org/abs/2003.12548v1 )

ライセンス: Link先を確認
Ali Reza Pedram and Takashi Tanaka(参考訳) 本稿では,システム入力が決定論的状態フィードバックポリシによって決定されるガウス過程雑音を伴う線形スカラーシステムの閉ループ同定の問題について考察する。 正規化最小二乗推定(LSE)アルゴリズムが採用され、状態のノイズレス測定に基づいて未知のモデルパラメータの最適推定を求める。 我々は、D-最適スカラー化基準を2次制御コストの条件として、未知のパラメータが学習できる速度の基本的な制限に興味を持っている。 まず、興味のある閉ループ識別問題と、フィードバックを伴う付加的な白色ガウス雑音(AWGN)チャネルを含むチャネル符号化問題との新たな接続を確立する。 この関係に基づき、学習速度は、対応するAWGNチャネルの容量によって基本的に上限値であることを示す。 フィードバックポリシーの最適設計は依然として困難であるが、上限が達成される条件を導出する。 最後に、得られた上限は、超線型収束がポリシーの選択に対して到達できないことを意味することを示す。

This paper considers the problem of closed-loop identification of linear scalar systems with Gaussian process noise, where the system input is determined by a deterministic state feedback policy. The regularized least-square estimate (LSE) algorithm is adopted, seeking to find the best estimate of unknown model parameters based on noiseless measurements of the state. We are interested in the fundamental limitation of the rate at which unknown parameters can be learned, in the sense of the D-optimality scalarization criterion subject to a quadratic control cost. We first establish a novel connection between a closed-loop identification problem of interest and a channel coding problem involving an additive white Gaussian noise (AWGN) channel with feedback and a certain structural constraint. Based on this connection, we show that the learning rate is fundamentally upper bounded by the capacity of the corresponding AWGN channel. Although the optimal design of the feedback policy remains challenging, we derive conditions under which the upper bound is achieved. Finally, we show that the obtained upper bound implies that super-linear convergence is unattainable for any choice of the policy.
翻訳日:2022-12-19 05:37:51 公開日:2020-03-27
# IMAC:6T SRAMアレイにおけるインメモリマルチビット乗算と蓄積

IMAC: In-memory multi-bit Multiplication andACcumulation in 6T SRAM Array ( http://arxiv.org/abs/2003.12558v1 )

ライセンス: Link先を確認
Mustafa Ali, Akhilesh Jaiswal, Sangamesh Kodge, Amogh Agrawal, Indranil Chakraborty, and Kaushik Roy(参考訳) インメモリコンピューティング」は、よく知られたメモリボトルネックを軽減する新しいコンピューティングパラダイムとして広く研究されている。 この新たなパラダイムは、メモリアレイに計算のいくつかの側面を埋め込むことを目標とし、コンピュータユニットとストレージメモリの間の頻繁で高価なデータの移動を避ける。 シリコンメモリに関するインメモリコンピューティングは、様々なメモリビットセルで広く研究されている。 6トランジスタ (6T) のSRAMアレイ内への埋め込み計算は、最も広く使われているオンチップメモリであるため、特に興味深い。 本稿では,6T SRAM内での並列ドット生成を,標準ビットセルの変更を伴わずに行うことができる新しいインメモリ乗算法を提案する。 さらに、MNISTとCIFAR-10データセットに対するLeNet-5とVGGニューラルネットワークアーキテクチャの精度に対する回路非理想性とプロセス変動の影響について検討した。 提案されたインメモリドット生成機構は、それぞれCIFAR-10とMNISTの88.8%と99%の精度を達成する。 標準のフォン・ノイマンシステムと比較すると、提案システムはエネルギー消費の6.24倍、遅延の9.42倍である。

`In-memory computing' is being widely explored as a novel computing paradigm to mitigate the well known memory bottleneck. This emerging paradigm aims at embedding some aspects of computations inside the memory array, thereby avoiding frequent and expensive movement of data between the compute unit and the storage memory. In-memory computing with respect to Silicon memories has been widely explored on various memory bit-cells. Embedding computation inside the 6 transistor (6T) SRAM array is of special interest since it is the most widely used on-chip memory. In this paper, we present a novel in-memory multiplication followed by accumulation operation capable of performing parallel dot products within 6T SRAM without any changes to the standard bitcell. We, further, study the effect of circuit non-idealities and process variations on the accuracy of the LeNet-5 and VGG neural network architectures against the MNIST and CIFAR-10 datasets, respectively. The proposed in-memory dot-product mechanism achieves 88.8% and 99% accuracy for the CIFAR-10 and MNIST, respectively. Compared to the standard von Neumann system, the proposed system is 6.24x better in energy consumption and 9.42x better in delay.
翻訳日:2022-12-19 05:37:24 公開日:2020-03-27
# ライフタイム分布の逆応力試験

Adversarial Stress Testing of Lifetime Distributions ( http://arxiv.org/abs/2003.12587v1 )

ライセンス: Link先を確認
Nozer Singpurwalla(参考訳) 本稿では,金融機関のストレステストとシステム構築の考え方を,確率分布における個人の信念の強さをテストするストレステストを現実的に行うことができるという視点を提唱する。 違いは解釈と視点である。 そこで本研究では,2人のプレイヤー,対逆C,および可算Mを対象とするゲーム理論の設定について考察する。その基盤となる指標は,非対称なペイオフを持つデ・フィネッティスタイルのベットを,生涯分布,対向的ストレステスト関数,およびKellback Liebler判別によるベットスコアの最大化である。

In this paper we put forward the viewpoint that the notion of stress testing financial institutions and engineered systems can also be made viable appropos the stress testing an individual's strength of conviction in a probability distribution. The difference is interpretation and perspective. To make our case we consider a game theoretic setup entailing two players, an adversarial C, and an amicable M.The underlying metrics entail a de Finetti style 2 sided bet with asymmetric payoffs as a way to give meaning to lifetime distributions, an adversarial stress testing function, and a maximization of the expected utility of betting scores via the Kullback Liebler discrimination.
翻訳日:2022-12-19 05:32:14 公開日:2020-03-27
# ロバストなq-learning

Robust Q-learning ( http://arxiv.org/abs/2003.12427v1 )

ライセンス: Link先を確認
Ashkan Ertefaie, James R. McKay, David Oslin and Robert L. Strawderman(参考訳) Q-learningは回帰に基づくアプローチであり、最適な動的治療戦略の開発を形式化するために広く使われている。 有限次元の作業モデルは、通常特定のニュアンスパラメータを推定するために使用され、これらの作業モデルの誤特定は、残差や効率損失をもたらす。 本稿では,このような迷惑パラメータをデータ適応手法を用いて推定できるロバストなq-learning手法を提案する。 本研究は,提案手法の必要性と有用性を明らかにするためのシミュレーション研究である。 提案手法を説明するために,Naltrexoneの長期治療効果に関する多段階ランダム化試験のデータを用いた。

Q-learning is a regression-based approach that is widely used to formalize the development of an optimal dynamic treatment strategy. Finite dimensional working models are typically used to estimate certain nuisance parameters, and misspecification of these working models can result in residual confounding and/or efficiency loss. We propose a robust Q-learning approach which allows estimating such nuisance parameters using data-adaptive techniques. We study the asymptotic behavior of our estimators and provide simulation studies that highlight the need for and usefulness of the proposed method in practice. We use the data from the "Extending Treatment Effectiveness of Naltrexone" multi-stage randomized trial to illustrate our proposed methods.
翻訳日:2022-12-19 05:32:00 公開日:2020-03-27
# スマートフォンを用いた文書画像からのソースプリンタ識別

Source Printer Identification from Document Images Acquired using Smartphone ( http://arxiv.org/abs/2003.12602v1 )

ライセンス: Link先を確認
Sharad Joshi, Suraj Saxena, Nitin Khanna(参考訳) 膨大な量の印刷文書が、様々な重要な用途や自明な用途に使われ続けている。 このようなアプリケーションは、時間的制約とリソース不足のために整合性検証が課題となる印刷テキストの形式で提供される情報に依存していることが多い。 ソースプリンタ識別は、印刷文書の起源と整合性について、迅速かつ低コストで重要な情報を提供する。 不正な文書が特定されたとしても、その起源に関する情報は将来の詐欺を防ぐのに役立つ。 スマートフォンのカメラが文書取得プロセスのためにスキャナーを置き換えると、文書検索はより経済的でユーザーフレンドリーで、リモート分析や分散分析が有益である多くのアプリケーションでさらに高速になる。 既存の手法に基づいて,文字画像とプリンタ固有のノイズ残差の融合から,単一のCNNモデルを学習することを提案する。 公開データセットがないうちに,18台のプリンタが印刷したテキスト文書の2250枚の文書画像からなり,スマートフォンカメラが5つの買収設定で取得したデータセットを作成しました。 提案手法は,5x2クロスバリデーション手法を用いて,文字「e」の画像を用いた98.42%の文書分類精度を実現する。 さらに、あらゆる種類の約50万文字を用いてテストすると、それぞれ90.33%、98.01%の文書分類精度が達成され、単一の文字タイプに依存しない識別モデルを学ぶ能力が強調される。 また、分類は、低照度や文書とカメラプレーン間の角度の変化など、様々な取得設定の下で推奨されている。

Vast volumes of printed documents continue to be used for various important as well as trivial applications. Such applications often rely on the information provided in the form of printed text documents whose integrity verification poses a challenge due to time constraints and lack of resources. Source printer identification provides essential information about the origin and integrity of a printed document in a fast and cost-effective manner. Even when fraudulent documents are identified, information about their origin can help stop future frauds. If a smartphone camera replaces scanner for the document acquisition process, document forensics would be more economical, user-friendly, and even faster in many applications where remote and distributed analysis is beneficial. Building on existing methods, we propose to learn a single CNN model from the fusion of letter images and their printer-specific noise residuals. In the absence of any publicly available dataset, we created a new dataset consisting of 2250 document images of text documents printed by eighteen printers and acquired by a smartphone camera at five acquisition settings. The proposed method achieves 98.42% document classification accuracy using images of letter 'e' under a 5x2 cross-validation approach. Further, when tested using about half a million letters of all types, it achieves 90.33% and 98.01% letter and document classification accuracies, respectively, thus highlighting the ability to learn a discriminative model without dependence on a single letter type. Also, classification accuracies are encouraging under various acquisition settings, including low illumination and change in angle between the document and camera planes.
翻訳日:2022-12-19 05:30:28 公開日:2020-03-27
# ストリーミングネットワークの応用

Applications of the Streaming Networks ( http://arxiv.org/abs/2004.11805v1 )

ライセンス: Link先を確認
Sergey Tarasenko and Fumihiko Takahashi(参考訳) 最近のストリームネットワーク (STnets) は、頑健なノイズ破壊画像分類のメカニズムとして導入されている。 STnetsは畳み込みニューラルネットワークのファミリーであり、複数のニューラルネットワーク(ストリーム)で構成され、異なる入力を持ち、その出力は結合され単一の関節分類器に供給される。 元の論文では、STnetがCifar10、EuroSat、UCmercedのデータセットから画像を分類することに成功した。 本稿では, ガウスノイズ, 霧, 雪などによる劣化画像(Cifar10劣化データセット)と低光画像(Carvanaデータセットのサブセット)の高精度な分類が可能であることを実証する。 また、Hybrid STnetと呼ばれる新しいタイプのSTnetも導入する。 そこで本研究では,stnetsが画像分類の普遍的なツールであることを示す。

Most recently Streaming Networks (STnets) have been introduced as a mechanism of robust noise-corrupted images classification. STnets is a family of convolutional neural networks, which consists of multiple neural networks (streams), which have different inputs and their outputs are concatenated and fed into a single joint classifier. The original paper has illustrated how STnets can successfully classify images from Cifar10, EuroSat and UCmerced datasets, when images were corrupted with various levels of random zero noise. In this paper, we demonstrate that STnets are capable of high accuracy classification of images corrupted with Gaussian noise, fog, snow, etc. (Cifar10 corrupted dataset) and low light images (subset of Carvana dataset). We also introduce a new type of STnets called Hybrid STnets. Thus, we illustrate that STnets is a universal tool of image classification when original training dataset is corrupted with noise or other transformations, which lead to information loss from original images.
翻訳日:2022-12-19 05:29:41 公開日:2020-03-27
# DA-NAS: 効率的なニューラルネットワーク探索のためのデータ適応型プルーニング

DA-NAS: Data Adapted Pruning for Efficient Neural Architecture Search ( http://arxiv.org/abs/2003.12563v1 )

ライセンス: Link先を確認
Xiyang Dai and Dongdong Chen and Mengchen Liu and Yinpeng Chen and Lu Yuan(参考訳) 効率的な検索は、ニューラルネットワーク検索(nas)の核となる問題である。 従来のNASアルゴリズムでは、ImageNetのような大規模タスクでアーキテクチャを直接検索することは困難である。 一般的に、NASのGPU時間のコストは、トレーニングデータセットのサイズと候補セットサイズに関して増大する。 一般的な方法は、より小さなプロキシデータセット(例:CIFAR-10)を検索し、ターゲットタスク(例:ImageNet)に転送することです。 プロキシデータに最適化されたこれらのアーキテクチャは、ターゲットタスクで最適であることを保証するものではない。 もう一つの一般的な方法は、専門家の知識を必要とし、NASの本質を裏切る、より小さな候補セットで学ぶことである。 本稿では,大規模対象タスクを直接検索し,大規模候補を効率的に設定できるda-naを提案する。 本手法は,ディープニューラルネットワークにおけるブロックの学習速度が,異なるカテゴリの認識が困難であることを示す興味深い観察に基づく。 効率的なアーキテクチャ探索のためのプログレッシブデータ適応型プルーニング戦略を慎重に設計する。 ターゲットデータセットのサブセット(例えば、イージークラス)の低パフォーマンスなブロックを迅速にトリミングし、ターゲットデータセット全体の最適なブロックを徐々に見つける。 このとき、元の候補セットは可能な限りコンパクトになり、ターゲットタスクのより高速な検索を提供する。 ImageNetの実験は、我々のアプローチの有効性を検証する。 従来の手法より2倍速く、精度は現在最先端であり、小さなFLOP制約下で76.2%である。 最適なアーキテクチャを効率的に探索するための引数探索空間(すなわち、より多くの候補ブロック)をサポートする。

Efficient search is a core issue in Neural Architecture Search (NAS). It is difficult for conventional NAS algorithms to directly search the architectures on large-scale tasks like ImageNet. In general, the cost of GPU hours for NAS grows with regard to training dataset size and candidate set size. One common way is searching on a smaller proxy dataset (e.g., CIFAR-10) and then transferring to the target task (e.g., ImageNet). These architectures optimized on proxy data are not guaranteed to be optimal on the target task. Another common way is learning with a smaller candidate set, which may require expert knowledge and indeed betrays the essence of NAS. In this paper, we present DA-NAS that can directly search the architecture for large-scale target tasks while allowing a large candidate set in a more efficient manner. Our method is based on an interesting observation that the learning speed for blocks in deep neural networks is related to the difficulty of recognizing distinct categories. We carefully design a progressive data adapted pruning strategy for efficient architecture search. It will quickly trim low performed blocks on a subset of target dataset (e.g., easy classes), and then gradually find the best blocks on the whole target dataset. At this time, the original candidate set becomes as compact as possible, providing a faster search in the target task. Experiments on ImageNet verify the effectiveness of our approach. It is 2x faster than previous methods while the accuracy is currently state-of-the-art, at 76.2% under small FLOPs constraint. It supports an argument search space (i.e., more candidate blocks) to efficiently search the best-performing architecture.
翻訳日:2022-12-19 05:21:52 公開日:2020-03-27
# SceneCAD:RGB-Dスキャンにおけるオブジェクトアライメントとレイアウトの予測

SceneCAD: Predicting Object Alignments and Layouts in RGB-D Scans ( http://arxiv.org/abs/2003.12622v1 )

ライセンス: Link先を確認
Armen Avetisyan, Tatiana Khanova, Christopher Choy, Denver Dash, Angela Dai, Matthias Nie{\ss}ner(参考訳) 本稿では,コモディティRGB-Dセンサからスキャンした3D環境の軽量CADによる表現を再構築する手法を提案する。 私たちの重要なアイデアは、cadモデルアライメントとスキャンされたシーンのレイアウト推定の両方を共同で最適化し、オブジェクトとオブジェクト間の関係を明示的にモデル化することです。 オブジェクトアレンジメントとシーンレイアウトは本質的に結合しているため、問題を共同で扱うことは、シーンのグローバルに一貫性のある表現を生み出すのに大いに役立ちます。 オブジェクトCADモデルは,幾何間の密接な対応を確立し,シーンの角と端からレイアウト平面を推定するための階層的レイアウト予測手法を導入し,その目的を達成するために,オブジェクトとレイアウト間の関係をモデル化し,シーン内のグローバルなオブジェクトアライメントの発生を誘導するメッセージパスグラフニューラルネットワークを提案する。 グローバルシーンレイアウトを考慮し,cadアライメントを最先端手法と比較して有意に改善し,suncgでは41.83%から58.41%に,scannetでは50.05%から61.24%に改善した。 その結果,CADによる表現は,拡張現実や仮想現実などのコンテンツ制作に適していることがわかった。

We present a novel approach to reconstructing lightweight, CAD-based representations of scanned 3D environments from commodity RGB-D sensors. Our key idea is to jointly optimize for both CAD model alignments as well as layout estimations of the scanned scene, explicitly modeling inter-relationships between objects-to-objects and objects-to-layout. Since object arrangement and scene layout are intrinsically coupled, we show that treating the problem jointly significantly helps to produce globally-consistent representations of a scene. Object CAD models are aligned to the scene by establishing dense correspondences between geometry, and we introduce a hierarchical layout prediction approach to estimate layout planes from corners and edges of the scene.To this end, we propose a message-passing graph neural network to model the inter-relationships between objects and layout, guiding generation of a globally object alignment in a scene. By considering the global scene layout, we achieve significantly improved CAD alignments compared to state-of-the-art methods, improving from 41.83% to 58.41% alignment accuracy on SUNCG and from 50.05% to 61.24% on ScanNet, respectively. The resulting CAD-based representations makes our method well-suited for applications in content creation such as augmented- or virtual reality.
翻訳日:2022-12-19 05:21:28 公開日:2020-03-27
# カメラの色合いを高めるカラーフィルタの設計

Designing Color Filters that Make Cameras MoreColorimetric ( http://arxiv.org/abs/2003.12645v1 )

ライセンス: Link先を確認
Graham D. Finlayson and Yuteng Zhu(参考訳) カラーフィルタをカメラの前に設置すると、有効なカメラ応答関数は、フィルタスペクトル透過率に乗じた所定のカメラスペクトル感度に等しい。 本稿では,人間の視覚系の色マッチング機能から線形変換に近づいた変化した感性を返すフィルタの解法について述べる。 この線形性条件(ルーサー条件と呼ばれることもある)がほぼ一致する場合、正確な色測定に 'camera+filter' システムを用いることができる。 そして,実測表面および照度スペクトルデータから,センサ応答を可能な限りCIEXYZ三刺激値に近いものにするためのフィルタ設計の最適化を行った。 このデータ駆動方式はフィルタ(スムースネスと有界伝送)に制約を組み込むように拡張される。 また、最適化のイニシャライズ方法が解決されたフィルタの性能に影響を与えることが示され、マルチイニシャライズ最適化が開発される。 実験では、最適化されたカラーフィルターを通して写真を撮ることで、カメラをはるかに彩色できることを示した。

When we place a colored filter in front of a camera the effective camera response functions are equal to the given camera spectral sensitivities multiplied by the filter spectral transmittance. In this paper, we solve for the filter which returns the modified sensitivities as close to being a linear transformation from the color matching functions of human visual system as possible. When this linearity condition - sometimes called the Luther condition - is approximately met, the `camera+filter' system can be used for accurate color measurement. Then, we reformulate our filter design optimisation for making the sensor responses as close to the CIEXYZ tristimulus values as possible given the knowledge of real measured surfaces and illuminants spectra data. This data-driven method in turn is extended to incorporate constraints on the filter (smoothness and bounded transmission). Also, because how the optimisation is initialised is shown to impact on the performance of the solved-for filters, a multi-initialisation optimisation is developed. Experiments demonstrate that, by taking pictures through our optimised color filters we can make cameras significantly more colorimetric.
翻訳日:2022-12-19 05:20:53 公開日:2020-03-27
# Deep CG2Real: Image Disentanglementによる合成・翻訳

Deep CG2Real: Synthetic-to-Real Translation via Image Disentanglement ( http://arxiv.org/abs/2003.12649v1 )

ライセンス: Link先を確認
Sai Bi, Kalyan Sunkavalli, Federico Perazzi, Eli Shechtman, Vladimir Kim, Ravi Ramamoorthi(参考訳) 本稿では,低品質な合成画像,例えばOpenGLレンダリングの視覚的リアリズムを改善する方法を提案する。 画像空間における不対向合成翻訳ネットワークの訓練は、過度に制約され、目に見える人工物を生成する。 代わりに、画像の異方性シェーディング層とアルベド層に作用する半教師ありアプローチを提案する。 2段階のパイプラインは,まず,物理的レンダリングを目標として教師あり方式で正確なシェーディングを予測し,さらにサイクガンネットワークの改善によりテクスチャやシェーディングの現実性を高める。 suncg屋内シーンデータセットの広範な評価は、我々のアプローチが、他の最先端のアプローチと比較してよりリアルなイメージをもたらすことを示している。 さらに,生成された「現実」画像上で訓練されたネットワークは,ドメイン適応アプローチよりも精度の高い奥行きと正規値を予測し,タスク固有の損失よりも画像の視覚的リアリズムを改善する方が効果的であることが示唆された。

We present a method to improve the visual realism of low-quality, synthetic images, e.g. OpenGL renderings. Training an unpaired synthetic-to-real translation network in image space is severely under-constrained and produces visible artifacts. Instead, we propose a semi-supervised approach that operates on the disentangled shading and albedo layers of the image. Our two-stage pipeline first learns to predict accurate shading in a supervised fashion using physically-based renderings as targets, and further increases the realism of the textures and shading with an improved CycleGAN network. Extensive evaluations on the SUNCG indoor scene dataset demonstrate that our approach yields more realistic images compared to other state-of-the-art approaches. Furthermore, networks trained on our generated "real" images predict more accurate depth and normals than domain adaptation approaches, suggesting that improving the visual realism of the images can be more effective than imposing task-specific losses.
翻訳日:2022-12-19 05:20:35 公開日:2020-03-27
# 確率的逆解析による多基準ソート問題におけるチョケット容量の同定

Identification of Choquet capacity in multicriteria sorting problems through stochastic inverse analysis ( http://arxiv.org/abs/2003.12530v1 )

ライセンス: Link先を確認
Renata Pelissari and Leonardo Tomazeli Duarte(参考訳) マルチ基準決定支援(MCDA)では、相互作用する決定基準を扱うための集約演算子としてチョケ積分が使用されている。 ランキング問題に対するChoquet積分の適用は注目されているが、本論文はむしろマルチ基準ソート問題(MCSP)に焦点を当てている。 チョーク積分の文脈において、実際に発生する問題は、チョーク容量として知られるパラメータの解明に関連している。 本稿では,SMAA-S-Choquet法を提案するStochastic Acceptability Multicriteri Analysis (SMAA)を適用し,MCSPにおけるChoquetキャパシティ同定の問題に対処する。 提案手法はまた,決定行列と制限プロファイルの両方に存在する可能性のある不確実なデータをモデル化し,後者はソート問題に関連するパラメータである。 また,キャパシティに関する逆解析を行うために,シナリオアクセシビリティ指標とシナリオ中央キャパシティベクトルという2つの新しい記述手法を導入する。

In multicriteria decision aiding (MCDA), the Choquet integral has been used as an aggregation operator to deal with the case of interacting decision criteria. While the application of the Choquet integral for ranking problems have been receiving most of the attention, this paper rather focuses on multicriteria sorting problems (MCSP). In the Choquet integral context, a practical problem that arises is related to the elicitation of parameters known as the Choquet capacities. We address the problem of Choquet capacity identification for MCSP by applying the Stochastic Acceptability Multicriteri Analysis (SMAA), proposing the SMAA-S-Choquet method. The proposed method is also able to model uncertain data that may be present in both decision matrix and limiting profiles, the latter a parameter associated with the sorting problematic. We also introduce two new descriptive measures in order to conduct reverse analysis regarding the capacities: the Scenario Acceptability Index and the Scenario Central Capacity vector.
翻訳日:2022-12-19 05:19:42 公開日:2020-03-27
# セマンティック推論ネットワークを用いた正確なシーンテキスト認識に向けて

Towards Accurate Scene Text Recognition with Semantic Reasoning Networks ( http://arxiv.org/abs/2003.12294v1 )

ライセンス: Link先を確認
Deli Yu, Xuan Li, Chengquan Zhang, Junyu Han, Jingtuo Liu, Errui Ding(参考訳) シーンテキスト画像は、視覚的テクスチャとセマンティック情報という2つのレベルのコンテンツを含んでいる。 過去のシーンテキスト認識手法はここ数年で大きな進歩を遂げてきたが、テキスト認識を支援するためのマイニングセマンティック情報の研究は注目度が低く、RNNのような構造のみが意味情報を暗黙的にモデル化するために研究されている。 しかし,rnnに基づく手法には,意味的文脈の時間依存復号法や一方向の逐次伝達法といった明らかな欠点があり,意味的情報と計算効率を大幅に制限している。 これらの制約を緩和するため,srn(semantic reasoning network)という新しいエンドツーエンド学習フレームワークを提案し,マルチウェイ並列伝送によるグローバルな意味的文脈をキャプチャするためにgsrm(global semantic reasoning module)を導入した。 提案手法の有効性とロバスト性を検証するため,正規テキスト,不規則テキスト,非ラチン長文を含む7つの公開ベンチマークを行った。 さらに、SRNの速度は、RNNベースの手法よりも大きな利点があり、実用上の価値を示している。

Scene text image contains two levels of contents: visual texture and semantic information. Although the previous scene text recognition methods have made great progress over the past few years, the research on mining semantic information to assist text recognition attracts less attention, only RNN-like structures are explored to implicitly model semantic information. However, we observe that RNN based methods have some obvious shortcomings, such as time-dependent decoding manner and one-way serial transmission of semantic context, which greatly limit the help of semantic information and the computation efficiency. To mitigate these limitations, we propose a novel end-to-end trainable framework named semantic reasoning network (SRN) for accurate scene text recognition, where a global semantic reasoning module (GSRM) is introduced to capture global semantic context through multi-way parallel transmission. The state-of-the-art results on 7 public benchmarks, including regular text, irregular text and non-Latin long text, verify the effectiveness and robustness of the proposed method. In addition, the speed of SRN has significant advantages over the RNN based methods, demonstrating its value in practical use.
翻訳日:2022-12-19 05:13:59 公開日:2020-03-27
# 顔明細回復のための軽量測光ステレオ

Lightweight Photometric Stereo for Facial Details Recovery ( http://arxiv.org/abs/2003.12307v1 )

ライセンス: Link先を確認
Xueying Wang, Yudong Guo, Bailin Deng, Juyong Zhang(参考訳) 近年,1枚の画像からの3次元顔再構成は,ディープラーニングと事前知識の獲得によって大きな成功を収めているが,正確な幾何学的詳細は得られていないことが多い。 一方、測光ステレオ法は信頼性の高い幾何学的詳細を復元できるが、密度の高い入力が必要であり、複雑な最適化問題を解く必要がある。 本稿では, 近接場光下での撮像で高忠実度顔形状を復元するために, スパース入力や単一画像のみを必要とする軽量な戦略を提案する。 この目的のために、3つの異なる光の下で29の式を持つ84の異なる被写体を含むデータセットを構築する。 データ拡張は、アイデンティティ、照明、表現などの多様性の観点からデータを強化するために適用される。 この構築したデータセットを用いて,光度ステレオによる3次元顔再構成のためのニューラルネットワークを提案する。 広汎な実験と比較により, 近接場光下での顔画像の撮影により, 高品質な再構成結果が得られることが示された。 私たちのフレームワークはhttps://github.com/juyong/facepsnetで利用可能です。

Recently, 3D face reconstruction from a single image has achieved great success with the help of deep learning and shape prior knowledge, but they often fail to produce accurate geometry details. On the other hand, photometric stereo methods can recover reliable geometry details, but require dense inputs and need to solve a complex optimization problem. In this paper, we present a lightweight strategy that only requires sparse inputs or even a single image to recover high-fidelity face shapes with images captured under near-field lights. To this end, we construct a dataset containing 84 different subjects with 29 expressions under 3 different lights. Data augmentation is applied to enrich the data in terms of diversity in identity, lighting, expression, etc. With this constructed dataset, we propose a novel neural network specially designed for photometric stereo based 3D face reconstruction. Extensive experiments and comparisons demonstrate that our method can generate high-quality reconstruction results with one to three facial images captured under near-field lights. Our full framework is available at https://github.com/Juyong/FacePSNet.
翻訳日:2022-12-19 05:12:39 公開日:2020-03-27
# 複合現実感における自己知覚の促進:自動ラベリングによる自我中心型アームセグメンテーションとデータベース

Enhanced Self-Perception in Mixed Reality: Egocentric Arm Segmentation and Database with Automatic Labelling ( http://arxiv.org/abs/2003.12352v1 )

ライセンス: Link先を確認
Ester Gonzalez-Sosa, Pablo Perez, Ruben Tolosana, Redouane Kachach, Alvaro Villegas(参考訳) 本研究では,Augmented Virtuality(AV)における自己認識を改善するために,自我中心の腕分割に着目した。 この作品の主な貢献は次のとおりである。 一 AVのセグメンテーションアルゴリズムの総合的な調査 二 皮膚の色及び性別のバリエーションを含む十万以上の画像からなる自我中心の腕分割データセット。 地上画像及び半合成画像の自動生成に必要な全ての詳細を提供する。 三 深層学習を初めてAVの武器の分断に利用すること。 iv)本データベースの有用性を示すために,gtea gaze+, edsh, egohands, ego youtube hand, thu-read, tego, fpab, ego gestureなど,既存の色や奥行きを利用したアプローチと直接比較可能な,さまざまなエゴセントリックハンドデータセットについて報告する。 結果は、egoarmデータセットのこのタスクへの適合性を確認し、特定のデータセットに応じて、元のネットワークに対して最大40%の改善を達成する。 また、色や深さに基づくアプローチは、制御された状況(閉塞性、均一な照明、近距離の関心対象のみ、背景制御など)で機能するが、ディープラーニングに基づくエゴセントリックセグメンテーションは、実際のavアプリケーションではより堅牢であることを示唆している。

In this study, we focus on the egocentric segmentation of arms to improve self-perception in Augmented Virtuality (AV). The main contributions of this work are: i) a comprehensive survey of segmentation algorithms for AV; ii) an Egocentric Arm Segmentation Dataset, composed of more than 10, 000 images, comprising variations of skin color, and gender, among others. We provide all details required for the automated generation of groundtruth and semi-synthetic images; iii) the use of deep learning for the first time for segmenting arms in AV; iv) to showcase the usefulness of this database, we report results on different real egocentric hand datasets, including GTEA Gaze+, EDSH, EgoHands, Ego Youtube Hands, THU-Read, TEgO, FPAB, and Ego Gesture, which allow for direct comparisons with existing approaches utilizing color or depth. Results confirm the suitability of the EgoArm dataset for this task, achieving improvement up to 40% with respect to the original network, depending on the particular dataset. Results also suggest that, while approaches based on color or depth can work in controlled conditions (lack of occlusion, uniform lighting, only objects of interest in the near range, controlled background, etc.), egocentric segmentation based on deep learning is more robust in real AV applications.
翻訳日:2022-12-19 05:11:59 公開日:2020-03-27
# 表面光場を学習する

Learning Implicit Surface Light Fields ( http://arxiv.org/abs/2003.12406v1 )

ライセンス: Link先を確認
Michael Oechsle, Michael Niemeyer, Lars Mescheder, Thilo Strauss, Andreas Geiger(参考訳) 近年,3次元オブジェクトの暗示表現は,学習に基づく3次元再構成作業において顕著な成果を上げている。 既存の研究では、単純なテクスチャモデルを用いてオブジェクトの外観を表現しているが、フォトリアリスティックな画像合成には光の複雑な相互作用、幾何学、表面特性の推論が必要である。 本研究では,物体表面の光界から物体の視覚的な外観を捉えるための新しい暗黙表現を提案する。 既存の表現とは対照的に、我々の暗黙のモデルは連続的な方法で表面光場を表し、幾何学とは独立である。 また、小さな光源の位置と色に関して、表面光場を条件付けする。 従来の表面光場モデルと比較して、光源を操作し、環境マップを用いて物体をリライトすることができる。 さらに,1つの実RGB画像とそれに対応する3次元形状情報から,見えない物体の視覚的外観を予測するモデルの有効性を示す。 我々の実験で証明されたように、我々のモデルは影や反射を含む豊かな視覚的外観を推測することができる。 最後に,提案した表現を可変オートエンコーダに埋め込むことで,特定の照明条件に適合する新しい外観を生成できることを示す。

Implicit representations of 3D objects have recently achieved impressive results on learning-based 3D reconstruction tasks. While existing works use simple texture models to represent object appearance, photo-realistic image synthesis requires reasoning about the complex interplay of light, geometry and surface properties. In this work, we propose a novel implicit representation for capturing the visual appearance of an object in terms of its surface light field. In contrast to existing representations, our implicit model represents surface light fields in a continuous fashion and independent of the geometry. Moreover, we condition the surface light field with respect to the location and color of a small light source. Compared to traditional surface light field models, this allows us to manipulate the light source and relight the object using environment maps. We further demonstrate the capabilities of our model to predict the visual appearance of an unseen object from a single real RGB image and corresponding 3D shape information. As evidenced by our experiments, our model is able to infer rich visual appearance including shadows and specular reflections. Finally, we show that the proposed representation can be embedded into a variational auto-encoder for generating novel appearances that conform to the specified illumination conditions.
翻訳日:2022-12-19 05:11:15 公開日:2020-03-27
# 通信オーバーヘッド、計算複雑性、収束率のバランスをとる非凸最適化のためのハイブリッド次分散sgd法

A Hybrid-Order Distributed SGD Method for Non-Convex Optimization to Balance Communication Overhead, Computational Complexity, and Convergence Rate ( http://arxiv.org/abs/2003.12423v1 )

ライセンス: Link先を確認
Naeimeh Omidvar, Mohammad Ali Maddah-Ali, Hamed Mahdavi(参考訳) 本稿では,分散確率勾配勾配降下法(distributed stochastic gradient descent,sgd)を提案する。 通信負荷を低減するため、アルゴリズムの各イテレーションにおいて、ワーカーノードはサンプル関数の方向微分であるスケーラを計算し、通信する。 しかし、精度を維持するために、特定の反復数ごとに、確率勾配のベクトルを伝達する。 各イテレーションの計算複雑性を低減するため、ワーカーノードは1次勾配ベクトルを計算するのではなく、2つの関数評価を行うことで、ゼロ次確率勾配推定による方向微分を近似する。 提案手法は,ゼロ次法の収束率を高度に改善し,次々に高速な収束を実現する。 さらに, 局所モデル更新と局所モデル同期のための周期的通信を行う通信効率の高い手法と比較して, 非凸確率問題の一般的なクラスとパラメータの合理的な選択に対して, 提案手法は, 順序的に計算複雑性を小さくしつつ, 通信負荷と収束率の同じ順序を保証していることを示す。 ニューラルネットワーク応用における様々な学習問題に関する実験結果から,提案手法の有効性を,分散sgd法と比較した。

In this paper, we propose a method of distributed stochastic gradient descent (SGD), with low communication load and computational complexity, and still fast convergence. To reduce the communication load, at each iteration of the algorithm, the worker nodes calculate and communicate some scalers, that are the directional derivatives of the sample functions in some \emph{pre-shared directions}. However, to maintain accuracy, after every specific number of iterations, they communicate the vectors of stochastic gradients. To reduce the computational complexity in each iteration, the worker nodes approximate the directional derivatives with zeroth-order stochastic gradient estimation, by performing just two function evaluations rather than computing a first-order gradient vector. The proposed method highly improves the convergence rate of the zeroth-order methods, guaranteeing order-wise faster convergence. Moreover, compared to the famous communication-efficient methods of model averaging (that perform local model updates and periodic communication of the gradients to synchronize the local models), we prove that for the general class of non-convex stochastic problems and with reasonable choice of parameters, the proposed method guarantees the same orders of communication load and convergence rate, while having order-wise less computational complexity. Experimental results on various learning problems in neural networks applications demonstrate the effectiveness of the proposed approach compared to various state-of-the-art distributed SGD methods.
翻訳日:2022-12-19 05:05:07 公開日:2020-03-27
# 最小記述長を用いた情報理論探索

Information-Theoretic Probing with Minimum Description Length ( http://arxiv.org/abs/2003.12298v1 )

ライセンス: Link先を確認
Elena Voita, Ivan Titov(参考訳) 事前訓練された表現が言語特性をコード化しているかを測定するために、プローブの精度、すなわち表現からその特性を予測するために訓練された分類器を使うのが一般的である。 プローブが広く採用されているにもかかわらず、その精度の差は表現の相違を適切に反映することができない。 例えば、ランダムに初期化された表現よりも事前訓練された表現をかなり好まない。 対照的に、それらの精度は、真の言語ラベルの探索とランダムな合成タスクの探索と類似している。 これらのランダムなベースラインに対する精度の合理的な違いを見極めるために、以前の研究はプローブトレーニングデータの量またはモデルサイズを制限しなければならなかった。 代わりに、最小記述長(mdl)を持つ情報理論的プローブの代替案を提案する。 mdl probingでは、ラベルを予測するためのプローブのトレーニングを、効果的にデータを送信するように教えるために再キャストする。 したがって、興味の尺度はプローブの精度から与えられた表現のラベルの記述長へと変化する。 プローブの品質に加えて、記述長は品質を達成するのに必要な「努力の量」を評価する。 この努力の量には特徴がある。 (i)探究モデルのサイズ、又は (ii)高品質を達成するのに必要なデータ量。 標準探索パイプライン上で容易に実装可能なmdl推定手法として,変分符号化とオンラインコーディングの2つを検討した。 これらの手法は結果に一致し、標準プローブよりも情報的かつ安定であることを示す。

To measure how well pretrained representations encode some linguistic property, it is common to use accuracy of a probe, i.e. a classifier trained to predict the property from the representations. Despite widespread adoption of probes, differences in their accuracy fail to adequately reflect differences in representations. For example, they do not substantially favour pretrained representations over randomly initialized ones. Analogously, their accuracy can be similar when probing for genuine linguistic labels and probing for random synthetic tasks. To see reasonable differences in accuracy with respect to these random baselines, previous work had to constrain either the amount of probe training data or its model size. Instead, we propose an alternative to the standard probes, information-theoretic probing with minimum description length (MDL). With MDL probing, training a probe to predict labels is recast as teaching it to effectively transmit the data. Therefore, the measure of interest changes from probe accuracy to the description length of labels given representations. In addition to probe quality, the description length evaluates "the amount of effort" needed to achieve the quality. This amount of effort characterizes either (i) size of a probing model, or (ii) the amount of data needed to achieve the high quality. We consider two methods for estimating MDL which can be easily implemented on top of the standard probing pipelines: variational coding and online coding. We show that these methods agree in results and are more informative and stable than the standard probes.
翻訳日:2022-12-19 05:04:42 公開日:2020-03-27
# ナイジェリア・ピジン英語の文脈知覚分類のためのセマンティックエンリッチメント

Semantic Enrichment of Nigerian Pidgin English for Contextual Sentiment Classification ( http://arxiv.org/abs/2003.12450v1 )

ライセンス: Link先を確認
Wuraola Fisayo Oyewusi, Olubayo Adekanmbi and Olalekan Akinsande(参考訳) ナイジェリアの英語適応であるpidginは、多言語コード切り換え、コード混合、言語適応を通じて長年にわたって進化してきた。 ピジンはスペルと発音の両方において、通常の英語コーパスの単語の多くを保存しているが、これらの単語の基本的意味は大きく変化している。 例えば「ジンジャー」は植物ではなく動機の表現であり、「タンク」は容器ではなく感謝の表現である。 ナイジェリアのソーシャルメディアテキストの英語直接感情分析の現在のアプローチは、これらの単語の現代的意味における意味的変化と文脈的進化を捉えることができないため、準最適である。 実際には、ナイジェリアのピジン適応における多くの単語は標準英語と同じであるが、完全な英語ベースの感情分析モデルは、単独またはコードミキシングされた場合にナイジェリアのピジンの完全な意図を捉えるように設計されていない。 人間のラベル付きコード変更テキストに大量の合成コード書式テキストと意味を付加することにより,感情スコアリングの大幅な改善を実現する。 この研究は、ナイジェリアのピジンの感情トークンとスコアに適合する300のVADERレキシコンと、14,000の標準のナイジェリアのピジンのツイートとその感情ラベルを提示する。

Nigerian English adaptation, Pidgin, has evolved over the years through multi-language code switching, code mixing and linguistic adaptation. While Pidgin preserves many of the words in the normal English language corpus, both in spelling and pronunciation, the fundamental meaning of these words have changed significantly. For example,'ginger' is not a plant but an expression of motivation and 'tank' is not a container but an expression of gratitude. The implication is that the current approach of using direct English sentiment analysis of social media text from Nigeria is sub-optimal, as it will not be able to capture the semantic variation and contextual evolution in the contemporary meaning of these words. In practice, while many words in Nigerian Pidgin adaptation are the same as the standard English, the full English language based sentiment analysis models are not designed to capture the full intent of the Nigerian pidgin when used alone or code-mixed. By augmenting scarce human labelled code-changed text with ample synthetic code-reformatted text and meaning, we achieve significant improvements in sentiment scoring. Our research explores how to understand sentiment in an intrasentential code mixing and switching context where there has been significant word localization.This work presents a 300 VADER lexicon compatible Nigerian Pidgin sentiment tokens and their scores and a 14,000 gold standard Nigerian Pidgin tweets and their sentiments labels.
翻訳日:2022-12-19 05:04:22 公開日:2020-03-27
# SISOファジィシステムにおける拡張距離測定に基づく新しいファジィ近似推論法

A Novel Fuzzy Approximate Reasoning Method Based on Extended Distance Measure in SISO Fuzzy System ( http://arxiv.org/abs/2003.13450v1 )

ライセンス: Link先を確認
I.M. Son, S.I. Kwak, U.J. Han, J.H. Pak, M. Han, J.R. Pyon, U.S. Ryu(参考訳) 本稿では,人工知能(AI)とコンピュータ・インテリジェンス(CI)の不確実性推論において,新たな研究方向を開くファジィ近似推論法を提案する。 Fuzzy modus ponens (FMP) と Fuzzy modus tollens (FMT) は、ファジィ系における一般ファジィ近似推論の基本モデルと基礎モデルである。 そして、帰納的性質は近似推論理論における本質的かつ重要な性質の1つであり、多くの応用がある。 本稿では,単入力単一出力(siso)ファジィシステムにおいて,次元の異なる離散ファジィ集合ベクトルを用いた拡張距離測度(edm)を用いた近似推論法を提案する。 EDMに基づくファジィ近似推論法はFMP-EDMとFMT-EDMの2つの部分からなる。 距離測度に基づくファジィ推論法では、先行した離散ファジィ集合の次元が、それに伴う離散ファジィ集合の1つに等しいことが他の論文で既に解決されている。 本稿では、次元の異なる離散ファジィ集合ベクトルは、先行する離散ファジィ集合の次元が、sisoファジィ系における対応する離散ファジィ集合の次元と異なることを意味する。 つまり、この論文はEDMに基づいている。 実験の結果,提案手法は,既存のファジィ推論法に比べて,帰納的性質に関して比較的明確かつ効果的であることがわかった。

This paper presents an original method of fuzzy approximate reasoning that can open a new direction of research in the uncertainty inference of Artificial Intelligence(AI) and Computational Intelligence(CI). Fuzzy modus ponens (FMP) and fuzzy modus tollens(FMT) are two fundamental and basic models of general fuzzy approximate reasoning in various fuzzy systems. And the reductive property is one of the essential and important properties in the approximate reasoning theory and it is a lot of applications. This paper suggests a kind of extended distance measure (EDM) based approximate reasoning method in the single input single output(SISO) fuzzy system with discrete fuzzy set vectors of different dimensions. The EDM based fuzzy approximate reasoning method is consists of two part, i.e., FMP-EDM and FMT-EDM. The distance measure based fuzzy reasoning method that the dimension of the antecedent discrete fuzzy set is equal to one of the consequent discrete fuzzy set has already solved in other paper. In this paper discrete fuzzy set vectors of different dimensions mean that the dimension of the antecedent discrete fuzzy set differs from one of the consequent discrete fuzzy set in the SISO fuzzy system. That is, this paper is based on EDM. The experimental results highlight that the proposed approximate reasoning method is comparatively clear and effective with respect to the reductive property, and in accordance with human thinking than existing fuzzy reasoning methods.
翻訳日:2022-12-19 05:03:56 公開日:2020-03-27
# マルチグラニュラリティ参照支援型注意的特徴集約による人物再同定

Multi-Granularity Reference-Aided Attentive Feature Aggregation for Video-based Person Re-identification ( http://arxiv.org/abs/2003.12224v1 )

ライセンス: Link先を確認
Zhizheng Zhang, Cuiling Lan, Wenjun Zeng, Zhibo Chen(参考訳) ビデオベースの人物再識別(reID)は、同じ人物をビデオクリップ間でマッチングすることを目的としている。 フレーム間の冗長性、新たに明らかになった外観、咬合、動きのぼやけなどにより困難な課題である。 本稿では,時空間的特徴を識別的ビデオレベルの特徴表現に微妙に集約する,マルチグラニュラリティ参照支援注意特徴集合(MG-RAFA)を提案する。 空間的-時間的特徴ノードの寄与/適合性を決定するために,畳み込み操作を伴うグローバルビューから注意を引くことを提案する。 具体的には、グローバルなビデオ情報を表す参照特徴ノード(S-RFN)の代表的な集合に対して、その関係、すなわちペアの相関関係を積み重ね、その特徴自体に注意を喚起する。 さらに,異なるレベルのセマンティクスを活用すべく,異なる粒度で捉えた関係に基づいて多粒度注意を学ぶことを提案する。 広範囲にわたるアブレーション研究は,我々の注意的特徴集約モジュールMG-RAFAの有効性を示した。 本フレームワークは,3つのベンチマークデータセットの最先端性能を実現する。

Video-based person re-identification (reID) aims at matching the same person across video clips. It is a challenging task due to the existence of redundancy among frames, newly revealed appearance, occlusion, and motion blurs. In this paper, we propose an attentive feature aggregation module, namely Multi-Granularity Reference-aided Attentive Feature Aggregation (MG-RAFA), to delicately aggregate spatio-temporal features into a discriminative video-level feature representation. In order to determine the contribution/importance of a spatial-temporal feature node, we propose to learn the attention from a global view with convolutional operations. Specifically, we stack its relations, i.e., pairwise correlations with respect to a representative set of reference feature nodes (S-RFNs) that represents global video information, together with the feature itself to infer the attention. Moreover, to exploit the semantics of different levels, we propose to learn multi-granularity attentions based on the relations captured at different granularities. Extensive ablation studies demonstrate the effectiveness of our attentive feature aggregation module MG-RAFA. Our framework achieves the state-of-the-art performance on three benchmark datasets.
翻訳日:2022-12-19 05:03:14 公開日:2020-03-27
# 非剛性トラッキングを最適化する学習

Learning to Optimize Non-Rigid Tracking ( http://arxiv.org/abs/2003.12230v1 )

ライセンス: Link先を確認
Yang Li, Alja\v{z} Bo\v{z}i\v{c}, Tianwei Zhang, Yanli Ji, Tatsuya Harada, Matthias Nie{\ss}ner(参考訳) 非剛性追跡の一般的な解の1つはネストループ構造を持ち、ガウスニュートンは外側ループの追跡目標を最小限に抑え、プレコンディション付き共役勾配(PCG)は内側ループのスパース線形系を解く。 本稿では,学習可能な最適化を用いてロバスト性を改善し,解法収束を高速化する。 まず、cnnを通じてエンドツーエンドで学習される深い機能にアライメントデータ用語を統合することで、トラッキング目標をアップグレードする。 新しい追跡対象はグローバルな変形を捉え、ガウス・ニュートンは局所的な最小値を飛び越え、大きな非剛体運動のロバストな追跡につながる。 第2に,pcgが少数のステップで収束できるようにプリコンディショナーを生成するように訓練された条件ネットを導入することで,プリコンディショニング手法と学習方法のギャップを埋める。 実験の結果,提案手法は,従来のpcgよりも大きなマージンで高速に収束することがわかった。

One of the widespread solutions for non-rigid tracking has a nested-loop structure: with Gauss-Newton to minimize a tracking objective in the outer loop, and Preconditioned Conjugate Gradient (PCG) to solve a sparse linear system in the inner loop. In this paper, we employ learnable optimizations to improve tracking robustness and speed up solver convergence. First, we upgrade the tracking objective by integrating an alignment data term on deep features which are learned end-to-end through CNN. The new tracking objective can capture the global deformation which helps Gauss-Newton to jump over local minimum, leading to robust tracking on large non-rigid motions. Second, we bridge the gap between the preconditioning technique and learning method by introducing a ConditionNet which is trained to generate a preconditioner such that PCG can converge within a small number of steps. Experimental results indicate that the proposed learning method converges faster than the original PCG by a large margin.
翻訳日:2022-12-19 05:02:54 公開日:2020-03-27
# 識別性と多様性に向けて--ラベル不足下におけるバッチ核ノルム最大化

Towards Discriminability and Diversity: Batch Nuclear-norm Maximization under Label Insufficient Situations ( http://arxiv.org/abs/2003.12237v1 )

ライセンス: Link先を確認
Shuhao Cui, Shuhui Wang, Junbao Zhuo, Liang Li, Qingming Huang, Qi Tian(参考訳) ディープネットワークの学習は主に、人間の注釈付きラベルのデータに依存している。 ラベルが不十分な状況では、データ密度の高い決定境界でパフォーマンスが低下する。 一般的な解法はシャノンエントロピーを直接最小化することであるが、エントロピー最小化(すなわち予測の多様性の減少)による副作用はほとんど無視される。 この問題に対処するために,ランダムに選択されたデータバッチの分類出力行列の構造を再検討する。 理論解析により, 予測判別性と多様性は, バッチ出力行列のフロベニウスノルムとランクによって別々に測定できることがわかった。 さらに、核ノルムはフロベニウスノルムの上界であり、行列ランクの凸近似である。 そこで我々は,識別性と多様性を両立させるため,出力行列上でのBatch Nuclear-norm Maximization (BNM)を提案する。 BNMは、半教師付き学習、ドメイン適応、オープンドメイン認識などの学習シナリオが不十分なラベルで学習を促進する可能性がある。 これらの課題において、BNMは競合より優れ、既存のよく知られた手法でうまく機能することを示す。 コードはhttps://github.com/cuishuhao/bnmで入手できる。

The learning of the deep networks largely relies on the data with human-annotated labels. In some label insufficient situations, the performance degrades on the decision boundary with high data density. A common solution is to directly minimize the Shannon Entropy, but the side effect caused by entropy minimization, i.e., reduction of the prediction diversity, is mostly ignored. To address this issue, we reinvestigate the structure of classification output matrix of a randomly selected data batch. We find by theoretical analysis that the prediction discriminability and diversity could be separately measured by the Frobenius-norm and rank of the batch output matrix. Besides, the nuclear-norm is an upperbound of the Frobenius-norm, and a convex approximation of the matrix rank. Accordingly, to improve both discriminability and diversity, we propose Batch Nuclear-norm Maximization (BNM) on the output matrix. BNM could boost the learning under typical label insufficient learning scenarios, such as semi-supervised learning, domain adaptation and open domain recognition. On these tasks, extensive experimental results show that BNM outperforms competitors and works well with existing well-known methods. The code is available at https://github.com/cuishuhao/BNM.
翻訳日:2022-12-19 05:02:33 公開日:2020-03-27
# 限られた結果データを用いた治療効果の効率的な評価におけるサロゲートの役割について

On the role of surrogates in the efficient estimation of treatment effects with limited outcome data ( http://arxiv.org/abs/2003.12408v1 )

ライセンス: Link先を確認
Nathan Kallus, Xiaojie Mao(参考訳) 一次関心の成果(長期健康状態など)がほとんど観察されないが、豊富な代理観察(短期健康状態など)がある場合、治療効果を推定する問題について検討する。 この設定におけるサーロゲートの役割を調べるために、サーロゲートの有無といくつかの中間設定の両方において、平均治療効果(ate)の半パラメトリック効率下限を導出する。 これらの境界は、各ケースにおけるate推定の至適精度を特徴とし、それらの差は、限られた結果データしか利用できない場合に、重要な問題特性の観点から、サロゲートを最適に活用することによる効率向上を定量化する。 これらの結果は2つの重要な領域に当てはまる: サロゲート観測の数が一次所得観測に匹敵する場合と、前者が後者を支配する場合である。 重要なことは,従来の文献でよく想定される強い代理条件を回避できるようなデータ不足のアプローチを,ほぼ常に実践に失敗することです。 代理観測の効率向上をいかに活用するかを示すために,フレキシブルな機械学習手法に基づくATE推定器と推論手法を提案し,影響関数に現れるニュアンスパラメータを推定する。 弱条件下での効率性と堅牢性の保証を享受できることを示す。

We study the problem of estimating treatment effects when the outcome of primary interest (e.g., long-term health status) is only seldom observed but abundant surrogate observations (e.g., short-term health outcomes) are available. To investigate the role of surrogates in this setting, we derive the semiparametric efficiency lower bounds of average treatment effect (ATE) both with and without presence of surrogates, as well as several intermediary settings. These bounds characterize the best-possible precision of ATE estimation in each case, and their difference quantifies the efficiency gains from optimally leveraging the surrogates in terms of key problem characteristics when only limited outcome data are available. We show these results apply in two important regimes: when the number of surrogate observations is comparable to primary-outcome observations and when the former dominates the latter. Importantly, we take a missing-data approach that circumvents strong surrogate conditions which are commonly assumed in previous literature but almost always fail in practice. To show how to leverage the efficiency gains of surrogate observations, we propose ATE estimators and inferential methods based on flexible machine learning methods to estimate nuisance parameters that appear in the influence functions. We show our estimators enjoy efficiency and robustness guarantees under weak conditions.
翻訳日:2022-12-19 04:56:03 公開日:2020-03-27
# Mic2Mic:Cycle-Consistent Generative Adversarial Networks を用いて音声システムにおけるマイクロホンの変動を克服する

Mic2Mic: Using Cycle-Consistent Generative Adversarial Networks to Overcome Microphone Variability in Speech Systems ( http://arxiv.org/abs/2003.12425v1 )

ライセンス: Link先を確認
Akhil Mathur, Anton Isopoussu, Fahim Kawsar, Nadia Berthouze, Nicholas D. Lane(参考訳) モバイルと組み込みデバイスは、ユーザーのコンテキストを推測するためにマイクロホンとオーディオベースの計算モデルを使っている。 オーディオモデルとコモディティマイクを組み合わせたシステムを構築する上での大きな課題は、実世界の正確性と堅牢性を保証することである。 多くの環境力学に加えて、音響モデルの堅牢性に影響を与える主な要因はマイクロフォンの変動である。 本研究では,機械学習システムコンポーネントであるMic2Micを提案する。これは音声モデルの推論パイプラインに留まり,マイクロホン固有の要因による音声データの変動をリアルタイムで低減する。 Mic2Micの設計には2つの重要な考慮事項がある。 a) マイクロホンの可変性の問題を音声タスクから切り離し、 b) エンドユーザにトレーニングデータを提供するための最小限の負担を課す。 これらのことを念頭に置いて,Mic2Micを異なるマイクロホンから収集した未ラベル・未ペアデータを用いて学習するために,サイクル一貫性のある生成逆数ネットワーク(CycleGAN)の原理を適用した。 実験の結果,マイクロホンの変動性により失われる精度の66%から89%をマイクロホンが回復できることがわかった。

Mobile and embedded devices are increasingly using microphones and audio-based computational models to infer user context. A major challenge in building systems that combine audio models with commodity microphones is to guarantee their accuracy and robustness in the real-world. Besides many environmental dynamics, a primary factor that impacts the robustness of audio models is microphone variability. In this work, we propose Mic2Mic -- a machine-learned system component -- which resides in the inference pipeline of audio models and at real-time reduces the variability in audio data caused by microphone-specific factors. Two key considerations for the design of Mic2Mic were: a) to decouple the problem of microphone variability from the audio task, and b) put a minimal burden on end-users to provide training data. With these in mind, we apply the principles of cycle-consistent generative adversarial networks (CycleGANs) to learn Mic2Mic using unlabeled and unpaired data collected from different microphones. Our experiments show that Mic2Mic can recover between 66% to 89% of the accuracy lost due to microphone variability for two common audio tasks.
翻訳日:2022-12-19 04:55:39 公開日:2020-03-27
# word2vec, node2vec, graph2vec, x2vec: 構造化データのベクトル埋め込みの理論に向けて

word2vec, node2vec, graph2vec, X2vec: Towards a Theory of Vector Embeddings of Structured Data ( http://arxiv.org/abs/2003.12590v1 )

ライセンス: Link先を確認
Martin Grohe(参考訳) グラフと関係構造のベクトル表現(手作り特徴ベクトルか学習表現か)は、標準的なデータ解析と機械学習技術を構造に適用することができる。 このような埋め込みを生成するための幅広い手法が機械学習や知識表現文学において研究されている。 しかし、ベクトル埋め込みは理論的な観点からはほとんど注目されていない。 本稿では,ベクトル埋め込みの基礎を理解する上で中心となる2つの理論的アプローチを提案する。 我々は,様々なアプローチのつながりを描き,今後の研究の方向性を提案する。

Vector representations of graphs and relational structures, whether hand-crafted feature vectors or learned representations, enable us to apply standard data analysis and machine learning techniques to the structures. A wide range of methods for generating such embeddings have been studied in the machine learning and knowledge representation literature. However, vector embeddings have received relatively little attention from a theoretical point of view. Starting with a survey of embedding techniques that have been used in practice, in this paper we propose two theoretical approaches that we see as central for understanding the foundations of vector embeddings. We draw connections between the various approaches and suggest directions for future research.
翻訳日:2022-12-19 04:55:19 公開日:2020-03-27
# 三角形リッチ複素ネットワークに対する低階表現の不可能性

The impossibility of low rank representations for triangle-rich complex networks ( http://arxiv.org/abs/2003.12635v1 )

ライセンス: Link先を確認
C. Seshadhri and Aneesh Sharma and Andrew Stolman and Ashish Goel(参考訳) 複雑なネットワークの研究は現代科学において重要な発展であり、社会科学、生物学、物理学、計算機科学を豊かにしてきた。 このようなネットワークのモデルとアルゴリズムは私たちの社会に広く浸透しており、ソーシャルネットワーク、検索エンジン、レコメンデーターシステムを通じて人間の行動に影響を与える。 このような複雑なネットワークをモデル化するためのアルゴリズム的手法は、ネットワークの頂点の低次元ユークリッド埋め込みを構築することである。 一般的な見解とは対照的に、そのようなグラフ埋め込みは複素ネットワークの健全な性質を捉えない。 私たちが注目する2つの特性は、低次と大きなクラスタリング係数であり、実世界のネットワークに実証的に当てはまるように広く確立されています。 我々は、これらの2つの性質をうまく作成できる埋め込み(ドット積を用いて類似度を測定する)が頂点数でほぼ線形であることを数学的に証明する。 このことは、Singular Value Decompositionやnode2vecのような一般的な埋め込み技術が現実世界の複雑なネットワークの構造的側面を捉えていないことを証明している。 さらに,ドット生成物に基づく様々な埋め込み手法を実証的に研究し,それらすべてが三角形の構造を捉えていないことを示す。

The study of complex networks is a significant development in modern science, and has enriched the social sciences, biology, physics, and computer science. Models and algorithms for such networks are pervasive in our society, and impact human behavior via social networks, search engines, and recommender systems to name a few. A widely used algorithmic technique for modeling such complex networks is to construct a low-dimensional Euclidean embedding of the vertices of the network, where proximity of vertices is interpreted as the likelihood of an edge. Contrary to the common view, we argue that such graph embeddings do not}capture salient properties of complex networks. The two properties we focus on are low degree and large clustering coefficients, which have been widely established to be empirically true for real-world networks. We mathematically prove that any embedding (that uses dot products to measure similarity) that can successfully create these two properties must have rank nearly linear in the number of vertices. Among other implications, this establishes that popular embedding techniques such as Singular Value Decomposition and node2vec fail to capture significant structural aspects of real-world complex networks. Furthermore, we empirically study a number of different embedding techniques based on dot product, and show that they all fail to capture the triangle structure.
翻訳日:2022-12-19 04:55:10 公開日:2020-03-27
# Random Machines Regression Approach:フリーカーネル選択によるアンサンブル支援ベクトル回帰モデル

Random Machines Regression Approach: an ensemble support vector regression model with free kernel choice ( http://arxiv.org/abs/2003.12643v1 )

ライセンス: Link先を確認
Anderson Ara, Mateus Maia, Samuel Mac\^edo and Francisco Louzada(参考訳) 機械学習技術は常に、一般化された予測誤差を減らすことを目的としている。 これを減らすために、アンサンブル法は、予測能力を高めるために複数のモデルを組み合わせて良いアプローチを示す。 ランダムマシンは既に強力な手法として実証されており、高い予測力、高い分類能力、本論文では、重み付けされたサポートベクターモデルを回帰問題に利用する手順を提案する。 シミュレーション研究は、人工データセットや実際のデータベンチマークで実現された。 その結果、チューニングプロセス中に最適なカーネル関数を選択することなく、より低い一般化誤差により回帰ランダムマシンの性能が向上した。

Machine learning techniques always aim to reduce the generalized prediction error. In order to reduce it, ensemble methods present a good approach combining several models that results in a greater forecasting capacity. The Random Machines already have been demonstrated as strong technique, i.e: high predictive power, to classification tasks, in this article we propose an procedure to use the bagged-weighted support vector model to regression problems. Simulation studies were realized over artificial datasets, and over real data benchmarks. The results exhibited a good performance of Regression Random Machines through lower generalization error without needing to choose the best kernel function during tuning process.
翻訳日:2022-12-19 04:54:48 公開日:2020-03-27
# 交通データによる混雑レベル予測におけるオンライン学習の利用に関する新しい展望

New Perspectives on the Use of Online Learning for Congestion Level Prediction over Traffic Data ( http://arxiv.org/abs/2003.14304v1 )

ライセンス: Link先を確認
Eric L. Manibardo, Ibai La\~na, Jesus L. Lobo and Javier Del Ser(参考訳) 本研究は時系列データの分類に焦点をあてる。 非定常現象によって時系列が生成されると、予測されるクラスと系列に関連するパターンは時間とともに進化する(概念ドリフト)。 結果として、このパターンを学習することを目的とした予測モデルは、最終的には時代遅れになり、実用的な使用性能を維持することができない。 このモデルの劣化を克服するために、オンライン学習手法は、時間とともに到着する新しいデータサンプルから段階的に学習し、概念ドリフト戦略を実装してデータストリームに沿って最終的な変化に対応する。 本稿では,交通速度時系列データに基づく道路混雑度予測のためのオンライン学習手法の適合性について詳述する。 予測地平線の増加に伴う性能劣化について興味深い知見を得る。 多くの文献で行われていることとは対照的に、学習モデルを設計・調整する前に時間とともに授業の分布を評価することが重要であることを示す。 この前の演習は、ターゲットの異なる混雑レベルが予測可能であることを示唆するかもしれない。 シアトル (usa) に配備されたインダクティブループによる実トラフィック速度データを用いて実験結果について検討した。 従来のインクリメンタル学習アルゴリズムから、より精巧なディープラーニングモデルまで、いくつかのオンライン学習方法を分析します。 報告した結果から,予測の地平線を増加させると,クラスが時間とともに分布するため,すべてのモデルの性能が著しく低下し,モデルの設計に先立ってこの分布を解析することが重要であるという主張が支持される。

This work focuses on classification over time series data. When a time series is generated by non-stationary phenomena, the pattern relating the series with the class to be predicted may evolve over time (concept drift). Consequently, predictive models aimed to learn this pattern may become eventually obsolete, hence failing to sustain performance levels of practical use. To overcome this model degradation, online learning methods incrementally learn from new data samples arriving over time, and accommodate eventual changes along the data stream by implementing assorted concept drift strategies. In this manuscript we elaborate on the suitability of online learning methods to predict the road congestion level based on traffic speed time series data. We draw interesting insights on the performance degradation when the forecasting horizon is increased. As opposed to what is done in most literature, we provide evidence of the importance of assessing the distribution of classes over time before designing and tuning the learning model. This previous exercise may give a hint of the predictability of the different congestion levels under target. Experimental results are discussed over real traffic speed data captured by inductive loops deployed over Seattle (USA). Several online learning methods are analyzed, from traditional incremental learning algorithms to more elaborated deep learning models. As shown by the reported results, when increasing the prediction horizon, the performance of all models degrade severely due to the distribution of classes along time, which supports our claim about the importance of analyzing this distribution prior to the design of the model.
翻訳日:2022-12-19 04:54:39 公開日:2020-03-27
# ワンショットgan生成偽顔検出

One-Shot GAN Generated Fake Face Detection ( http://arxiv.org/abs/2003.12244v1 )

ライセンス: Link先を確認
Hadi Mansourifar, Weidong Shi(参考訳) フェイク顔検出は、生成モデルが毎日より強力になるにつれて、インテリジェントなシステムにとって重要な課題である。 偽の顔の品質が高まるにつれて、訓練されたモデルは、新たな偽顔を検出するためにますます非効率になり、対応するトレーニングデータが時代遅れとみなされる。 この場合、堅牢なワンショット学習手法は、変更可能なトレーニングデータの要求とより互換性がある。 そこで,本稿では,異常検出のかなり異なる領域で使用できる汎用ワンショットガン生成偽顔検出手法を提案する。 提案手法は,シーン理解モデルを用いて顔から文脈外オブジェクトを抽出する。 そこで我々は,顔中の奇妙な物体を検出するための前処理ツールとして,アートシーン理解とオブジェクト検出手法の現状を利用する。 次に、すべてのトレーニングデータで検出されたコンテキスト外オブジェクトに対して、単語の袋を作成します。 このようにして、各画像はスパースベクトルに変換され、各特徴は画像内の各検出対象に関する信頼度を表す。 実験の結果,文脈外の特徴から,偽の顔と現実の顔とを識別できることがわかった。 つまり、シーン理解やオブジェクト検出モデルを用いて、実際のものと比較すると、異なるオブジェクトセットが偽の顔で検出されるということです。 提案手法は,スタイルGAN生成した偽顔に対する実験により,従来の手法よりも優れていることを示す。

Fake face detection is a significant challenge for intelligent systems as generative models become more powerful every single day. As the quality of fake faces increases, the trained models become more and more inefficient to detect the novel fake faces, since the corresponding training data is considered outdated. In this case, robust One-Shot learning methods is more compatible with the requirements of changeable training data. In this paper, we propose a universal One-Shot GAN generated fake face detection method which can be used in significantly different areas of anomaly detection. The proposed method is based on extracting out-of-context objects from faces via scene understanding models. To do so, we use state of the art scene understanding and object detection methods as a pre-processing tool to detect the weird objects in the face. Second, we create a bag of words given all the detected out-of-context objects per all training data. This way, we transform each image into a sparse vector where each feature represents the confidence score related to each detected object in the image. Our experiments show that, we can discriminate fake faces from real ones in terms of out-of-context features. It means that, different sets of objects are detected in fake faces comparing to real ones when we analyze them with scene understanding and object detection models. We prove that, the proposed method can outperform previous methods based on our experiments on Style-GAN generated fake faces.
翻訳日:2022-12-19 04:53:54 公開日:2020-03-27
# バッチ・ホワイトニングの確率性に関する研究

An Investigation into the Stochasticity of Batch Whitening ( http://arxiv.org/abs/2003.12327v1 )

ライセンス: Link先を確認
Lei Huang, Lei Zhao, Yi Zhou, Fan Zhu, Li Liu, Ling Shao(参考訳) バッチ正規化(bn)は、ミニバッチ内で標準化を行うことで、様々なネットワークアーキテクチャで広く採用されている。 プロセスの完全な理解は、ディープラーニングコミュニティの中心的なターゲットとなっている。 標準化作業のみを分析する既存の作業とは異なり,より一般的なバッチ・ホワイトニング(BW)について検討する。 我々の研究は、様々なホワイトニング変換が条件付けを同等に改善する一方で、識別シナリオやGAN(Generative Adversarial Networks)のトレーニングにおいて、かなり異なる振る舞いを示すことに起因している。 この現象はBWが導入する確率性に起因する。 異なるホワイトニング変換の確率性を定量的に検討し,トレーニング中の最適化行動とよく相関することを示す。 また,確率性が推定時の人口統計に与える影響についても検討した。 分析に基づいて,BWアルゴリズムを異なるシナリオで設計・比較するためのフレームワークを提供する。 提案したBWアルゴリズムは、ImageNet分類において、残余ネットワークを著しく改善する。 さらに,BWの確率性は,トレーニング安定性を犠牲にして,GANの性能を向上させることができることを示す。

Batch Normalization (BN) is extensively employed in various network architectures by performing standardization within mini-batches. A full understanding of the process has been a central target in the deep learning communities. Unlike existing works, which usually only analyze the standardization operation, this paper investigates the more general Batch Whitening (BW). Our work originates from the observation that while various whitening transformations equivalently improve the conditioning, they show significantly different behaviors in discriminative scenarios and training Generative Adversarial Networks (GANs). We attribute this phenomenon to the stochasticity that BW introduces. We quantitatively investigate the stochasticity of different whitening transformations and show that it correlates well with the optimization behaviors during training. We also investigate how stochasticity relates to the estimation of population statistics during inference. Based on our analysis, we provide a framework for designing and comparing BW algorithms in different scenarios. Our proposed BW algorithm improves the residual networks by a significant margin on ImageNet classification. Besides, we show that the stochasticity of BW can improve the GAN's performance with, however, the sacrifice of the training stability.
翻訳日:2022-12-19 04:46:41 公開日:2020-03-27
# 視覚追跡のための確率的回帰

Probabilistic Regression for Visual Tracking ( http://arxiv.org/abs/2003.12565v1 )

ライセンス: Link先を確認
Martin Danelljan, Luc Van Gool, Radu Timofte(参考訳) 視覚追跡は、基本的に各ビデオフレームのターゲットの状態の後退の問題である。 著しい進歩は達成されているものの、トラッカーは失敗や不正確さに陥りがちである。 したがって、目標推定における不確実性を表現することが重要である。 現在の顕著なパラダイムは、状態依存の信頼度を推定することに依存しているが、この値は、その使用を複雑にする明確な確率論的解釈を欠いている。 そこで本研究では,確率的回帰定式化を提案し,追跡に適用する。 入力画像が与えられたターゲット状態の条件付き確率密度を予測する。 重要となるのは,不正確なアノテーションやあいまいさから生じるラベルノイズをモデル化できることである。 回帰ネットワークは、Kullback-Leiblerの発散を最小限にすることで訓練される。 追跡に適用すると,出力の確率的表現が可能となるだけでなく,性能が大幅に向上する。 トラッカーは6つのデータセットに新しい最先端のデータをセットし、LaSOTでは59.8%、TrackingNetでは75.8%のAUCを達成した。 コードとモデルはhttps://github.com/visionml/pytrackingで入手できる。

Visual tracking is fundamentally the problem of regressing the state of the target in each video frame. While significant progress has been achieved, trackers are still prone to failures and inaccuracies. It is therefore crucial to represent the uncertainty in the target estimation. Although current prominent paradigms rely on estimating a state-dependent confidence score, this value lacks a clear probabilistic interpretation, complicating its use. In this work, we therefore propose a probabilistic regression formulation and apply it to tracking. Our network predicts the conditional probability density of the target state given an input image. Crucially, our formulation is capable of modeling label noise stemming from inaccurate annotations and ambiguities in the task. The regression network is trained by minimizing the Kullback-Leibler divergence. When applied for tracking, our formulation not only allows a probabilistic representation of the output, but also substantially improves the performance. Our tracker sets a new state-of-the-art on six datasets, achieving 59.8% AUC on LaSOT and 75.8% Success on TrackingNet. The code and models are available at https://github.com/visionml/pytracking.
翻訳日:2022-12-19 04:45:58 公開日:2020-03-27
# 容積3次元ct手荷物検診画像における禁止項目の分類と検出について

On the Evaluation of Prohibited Item Classification and Detection in Volumetric 3D Computed Tomography Baggage Security Screening Imagery ( http://arxiv.org/abs/2003.12625v1 )

ライセンス: Link先を確認
Qian Wang, Neelanjan Bhowmik, Toby P. Breckon(参考訳) x線ct(x-ray ct)ベースの3dイメージングは空港の航空防犯スクリーニングに広く使われているが、禁止項目検出の先行研究は主に2dx線画像に焦点をあてている。 本稿では,2次元x線画像から3次元ct手荷物検診画像への自動禁止項目検出の可能性を評価することを目的とする。 これらの目的のために、3D Convolutional Neural Neworks(CNN)と、RetinaNetやFaster R-CNNといった一般的なオブジェクト検出フレームワークを活用しています。 3次元CTバッグセキュリティスクリーニングに3D CNNを用いた最初の試みとして,分離禁止アイテムボリュームの分類に関する異なるCNNアーキテクチャを評価し,手作り特徴を用いた従来の手法と比較した。 その後,3次元ct手荷物画像上で異なるアーキテクチャの物体検出性能を評価する。 Bottle と Handgun のデータセットを用いた実験の結果,従来の手法と比較して3次元 CNN モデルでは同等の性能 (98% の正率, 1.5% の偽陽性率) が得られるが,推定に要する時間 (0.014秒/ボリューム) は極めて少ないことがわかった。 さらに, 拡張された3Dオブジェクト検出モデルにより, 3次元CT荷物画像内の禁止アイテムを, 76% mAP のボトルと88% mAP の拳銃で検出し, 3次元CT X線セキュリティ画像におけるこのような脅威検出の課題と可能性の両方を提示した。

X-ray Computed Tomography (CT) based 3D imaging is widely used in airports for aviation security screening whilst prior work on prohibited item detection focuses primarily on 2D X-ray imagery. In this paper, we aim to evaluate the possibility of extending the automatic prohibited item detection from 2D X-ray imagery to volumetric 3D CT baggage security screening imagery. To these ends, we take advantage of 3D Convolutional Neural Neworks (CNN) and popular object detection frameworks such as RetinaNet and Faster R-CNN in our work. As the first attempt to use 3D CNN for volumetric 3D CT baggage security screening, we first evaluate different CNN architectures on the classification of isolated prohibited item volumes and compare against traditional methods which use hand-crafted features. Subsequently, we evaluate object detection performance of different architectures on volumetric 3D CT baggage images. The results of our experiments on Bottle and Handgun datasets demonstrate that 3D CNN models can achieve comparable performance (98% true positive rate and 1.5% false positive rate) to traditional methods but require significantly less time for inference (0.014s per volume). Furthermore, the extended 3D object detection models achieve promising performance in detecting prohibited items within volumetric 3D CT baggage imagery with 76% mAP for bottles and 88% mAP for handguns, which shows both the challenge and promise of such threat detection within 3D CT X-ray security imagery.
翻訳日:2022-12-19 04:45:26 公開日:2020-03-27
# 明らかにされた選好によるビッグデータのソートと大学ランキングへの応用

Sorting Big Data by Revealed Preference with Application to College Ranking ( http://arxiv.org/abs/2003.12198v1 )

ライセンス: Link先を確認
Xingwei Hu(参考訳) アメリカ合衆国の大学のようなビッグデータ観測のランキングでは、多様な消費者が異質な好みを示す。 本研究の目的は,これらの観測の線形順序を整理し,それらの相対的位置を改善するための戦略を推奨することである。 適切にソートされたソリューションは、消費者が正しい選択をするのに役立ち、政府は賢明な政策決定を行う。 これまでの研究者は、ビッグデータオブジェクトのソートに外因的重み付けや多変量回帰アプローチを適用してきた。 観察者および消費者の多様性と不均一性を認識させることにより,これらの矛盾した嗜好に内因性重み付けを適用する。 結果は、これらの矛盾の中での対均衡平衡に対する一貫した定常解である。 この解は、観測間の多段階相互作用の流出効果を考慮に入れている。 選好においてデータからの情報を効率的に露呈すると、その選好によって選別処理に必要なデータの量が大幅に減少する。 この手法はスポーツチームランキング、学術誌ランキング、投票、実効性のある為替レートなど、他の多くの分野にも適用できる。

When ranking big data observations such as colleges in the United States, diverse consumers reveal heterogeneous preferences. The objective of this paper is to sort out a linear ordering for these observations and to recommend strategies to improve their relative positions in the ranking. A properly sorted solution could help consumers make the right choices, and governments make wise policy decisions. Previous researchers have applied exogenous weighting or multivariate regression approaches to sort big data objects, ignoring their variety and variability. By recognizing the diversity and heterogeneity among both the observations and the consumers, we instead apply endogenous weighting to these contradictory revealed preferences. The outcome is a consistent steady-state solution to the counterbalance equilibrium within these contradictions. The solution takes into consideration the spillover effects of multiple-step interactions among the observations. When information from data is efficiently revealed in preferences, the revealed preferences greatly reduce the volume of the required data in the sorting process. The employed approach can be applied in many other areas, such as sports team ranking, academic journal ranking, voting, and real effective exchange rates.
翻訳日:2022-12-19 04:44:37 公開日:2020-03-27
# 通信を用いた分散カーネルリッジ回帰

Distributed Kernel Ridge Regression with Communications ( http://arxiv.org/abs/2003.12210v1 )

ライセンス: Link先を確認
Shao-Bo Lin, Di Wang, Ding-Xuan Zhou(参考訳) 本稿では,学習理論の枠組みにおける分散アルゴリズムの一般化性能解析に着目する。 例えば、分散カーネルリッジ回帰(DKRR)を用いて、予測における最適学習率の導出に成功し、ローカルプロセッサ数の理論的に最適範囲を提供する。 また、理論と実験のギャップにより、DKRRの一般化性能と限界を本質的に反映する確率で、DKRRの最適学習率を推定する。 さらに、DKRRの学習性能を向上させるための通信戦略を提案し、理論的評価と数値実験の両方を通してDKRRにおける通信能力を示す。

This paper focuses on generalization performance analysis for distributed algorithms in the framework of learning theory. Taking distributed kernel ridge regression (DKRR) for example, we succeed in deriving its optimal learning rates in expectation and providing theoretically optimal ranges of the number of local processors. Due to the gap between theory and experiments, we also deduce optimal learning rates for DKRR in probability to essentially reflect the generalization performance and limitations of DKRR. Furthermore, we propose a communication strategy to improve the learning performance of DKRR and demonstrate the power of communications in DKRR via both theoretical assessments and numerical experiments.
翻訳日:2022-12-19 04:36:44 公開日:2020-03-27
# ニューラルネットワークの損失面を実質的に形作る線形活性化

Piecewise linear activations substantially shape the loss surfaces of neural networks ( http://arxiv.org/abs/2003.12236v1 )

ライセンス: Link先を確認
Fengxiang He, Bohan Wang, Dacheng Tao(参考訳) ニューラルネットワークの損失面を理解することは、ディープラーニングを理解する上で根本的に重要である。 本稿では,ニューラルネットワークの損失面を著しく形成する線形活性化関数について述べる。 まず、多くのニューラルネットワークの損失面が無限に緩やかな局所ミニマを持つことを証明し、これは大域的ミニマよりも経験的リスクの高い局所ミニマとして定義される。 その結果,線形活性化を区分的に有するネットワークは,よく研究された線形ニューラルネットワークと大きく異なることがわかった。 この結果は、任意の深さと任意の線形活性化関数(線形関数を除く)を持つ任意のニューラルネットワークを、実際にほとんどの損失関数の下で保持する。 基本的に、基礎となる前提は、どの隠れた層よりも出力層が狭い、最も実用的な状況と一致する。 さらに、分割線形活性化を有するニューラルネットワークの損失面を、微分不能な境界によって複数の滑らかで多線形な細胞に分割する。 構築されたスプリアス局所的ミニマは、谷として一つのセルに集中しており、それらは、経験的リスクが不変である連続した経路によって相互に接続されている。 さらに, 単層ネットワークでは, セル内のすべての局所ミニマが等価クラスであり, 谷に集中しており, セル内のすべてのグローバルミニマであることを示す。

Understanding the loss surface of a neural network is fundamentally important to the understanding of deep learning. This paper presents how piecewise linear activation functions substantially shape the loss surfaces of neural networks. We first prove that {\it the loss surfaces of many neural networks have infinite spurious local minima} which are defined as the local minima with higher empirical risks than the global minima. Our result demonstrates that the networks with piecewise linear activations possess substantial differences to the well-studied linear neural networks. This result holds for any neural network with arbitrary depth and arbitrary piecewise linear activation functions (excluding linear functions) under most loss functions in practice. Essentially, the underlying assumptions are consistent with most practical circumstances where the output layer is narrower than any hidden layer. In addition, the loss surface of a neural network with piecewise linear activations is partitioned into multiple smooth and multilinear cells by nondifferentiable boundaries. The constructed spurious local minima are concentrated in one cell as a valley: they are connected with each other by a continuous path, on which empirical risk is invariant. Further for one-hidden-layer networks, we prove that all local minima in a cell constitute an equivalence class; they are concentrated in a valley; and they are all global minima in the cell.
翻訳日:2022-12-19 04:36:33 公開日:2020-03-27
# 宇宙ウォーピングによるベイズ最適化におけるエキスパート・プリエントの導入

Incorporating Expert Prior in Bayesian Optimisation via Space Warping ( http://arxiv.org/abs/2003.12250v1 )

ライセンス: Link先を確認
Anil Ramachandran, Sunil Gupta, Santu Rana, Cheng Li, Svetha Venkatesh(参考訳) ベイズ最適化は高価なブラックボックス関数を最適化するためのよく知られたサンプル効率の手法である。 しかし、大きな探索空間を扱う場合、アルゴリズムは関数の最適値に達する前にいくつかの低関数値領域を通過する。 機能評価は金銭的にも時間的にも高価であるため、この問題を緩和することが望ましい。 このコールドスタートフェーズの1つのアプローチは、最適化を加速できる事前知識を使用することである。 その標準形式において、ベイズ最適化は最適である探索空間の任意の点の確率が等しいと仮定する。 したがって、関数の最適性に関する情報を提供する事前知識は、最適化性能を高める。 本稿では,関数の事前分布を通じて,関数の最適性に関する事前知識を示す。 事前分布は、探索空間を最適関数の高確率領域を中心に展開し、最適の低確率領域を縮小するように整えるために用いられる。 これを直接関数モデル(ガウシアン過程)に組み込んでカーネル行列を再定義し、この手法が任意の獲得関数、すなわち獲得非依存アプローチで動作するようにする。 本手法は,いくつかのベンチマーク関数の最適化と2つのアルゴリズムのハイパーパラメータチューニングにより,標準ベイズ最適化法よりも優れていることを示す。

Bayesian optimisation is a well-known sample-efficient method for the optimisation of expensive black-box functions. However when dealing with big search spaces the algorithm goes through several low function value regions before reaching the optimum of the function. Since the function evaluations are expensive in terms of both money and time, it may be desirable to alleviate this problem. One approach to subside this cold start phase is to use prior knowledge that can accelerate the optimisation. In its standard form, Bayesian optimisation assumes the likelihood of any point in the search space being the optimum is equal. Therefore any prior knowledge that can provide information about the optimum of the function would elevate the optimisation performance. In this paper, we represent the prior knowledge about the function optimum through a prior distribution. The prior distribution is then used to warp the search space in such a way that space gets expanded around the high probability region of function optimum and shrinks around low probability region of optimum. We incorporate this prior directly in function model (Gaussian process), by redefining the kernel matrix, which allows this method to work with any acquisition function, i.e. acquisition agnostic approach. We show the superiority of our method over standard Bayesian optimisation method through optimisation of several benchmark functions and hyperparameter tuning of two algorithms: Support Vector Machine (SVM) and Random forest.
翻訳日:2022-12-19 04:36:12 公開日:2020-03-27
# copulaに基づくニューラルネットワークの可視化手法

A copula-based visualization technique for a neural network ( http://arxiv.org/abs/2003.12317v1 )

ライセンス: Link先を確認
Yusuke Kubo, Yuto Komori, Toyonobu Okuyama, Hiroshi Tokieda(参考訳) 機械学習の解釈可能性は、人間が意思決定の理由を理解できる範囲として定義される。 しかし,意思決定過程の曖昧さから,ニューラルネットワークは解釈できないと考えられる。 そこで本研究では,訓練されたニューラルネットワークが重要と考える特徴量と,意思決定の過程で主に追跡される経路を明らかにする新しいアルゴリズムを提案する。 提案アルゴリズムでは、ペアコプラの概念を適用して計算可能なニューラルネットワーク層間の相関係数によって推定されるスコアを定義した。 実験では,推定スコアと高度に解釈可能なアルゴリズムとみなされるランダムフォレストの特徴的重要度を比較し,結果が一致していることを確認した。 このアルゴリズムは、分類や予測結果に寄与する経路を特定するため、ニューラルネットワークとそのパラメータチューニングを圧縮するアプローチを提案する。

Interpretability of machine learning is defined as the extent to which humans can comprehend the reason of a decision. However, a neural network is not considered interpretable due to the ambiguity in its decision-making process. Therefore, in this study, we propose a new algorithm that reveals which feature values the trained neural network considers important and which paths are mainly traced in the process of decision-making. In the proposed algorithm, the score estimated by the correlation coefficients between the neural network layers that can be calculated by applying the concept of a pair copula was defined. We compared the estimated score with the feature importance values of Random Forest, which is sometimes regarded as a highly interpretable algorithm, in the experiment and confirmed that the results were consistent with each other. This algorithm suggests an approach for compressing a neural network and its parameter tuning because the algorithm identifies the paths that contribute to the classification or prediction results.
翻訳日:2022-12-19 04:35:37 公開日:2020-03-27
# ABBA: 適応ブラウン橋に基づく時系列の記号集合

ABBA: Adaptive Brownian bridge-based symbolic aggregation of time series ( http://arxiv.org/abs/2003.12469v1 )

ライセンス: Link先を確認
Steven Elsworth and Stefan G\"uttel(参考訳) ABBAと呼ばれる新しい時系列の記号表現が導入された。 これは、時系列をタプルの列に適応的な多角形連鎖近似に基づいており、続いて平均に基づくクラスタリングにより記号表現を得る。 この表現の再構成誤差は、いわゆるブラウン橋である開始点と終点をピン止めしたランダムウォークとしてモデル化できることを示す。 この洞察は、選択しなければならない近似耐性を除いて、ABBAを本質的にパラメータフリーにすることを可能にする。 SAXと1d-SAXとの大規模な比較はパフォーマンスプロファイルの形式に含まれており、ABBAは他の手法と比較して時系列の基本形状情報をよりよく保存できることを示している。 abbaの利点と応用については、組み込みの差分特性や異常検出の使用、pythonの実装など、議論されている。

A new symbolic representation of time series, called ABBA, is introduced. It is based on an adaptive polygonal chain approximation of the time series into a sequence of tuples, followed by a mean-based clustering to obtain the symbolic representation. We show that the reconstruction error of this representation can be modelled as a random walk with pinned start and end points, a so-called Brownian bridge. This insight allows us to make ABBA essentially parameter-free, except for the approximation tolerance which must be chosen. Extensive comparisons with the SAX and 1d-SAX representations are included in the form of performance profiles, showing that ABBA is able to better preserve the essential shape information of time series compared to other approaches. Advantages and applications of ABBA are discussed, including its in-built differencing property and use for anomaly detection, and Python implementations provided.
翻訳日:2022-12-19 04:35:24 公開日:2020-03-27
# フォントスタイル表現学習による中国語手書きの自動生成

Automatic Generation of Chinese Handwriting via Fonts Style Representation Learning ( http://arxiv.org/abs/2004.03339v1 )

ライセンス: Link先を確認
Fenxi Xiao, Bo Huang, Xia Wu(参考訳) 本稿では,中国語の深層フォント生成システムを提案する。 このシステムは、異なるスタイル間のスムーズな遷移を実現する潜在スタイル関連埋め込み変数を補間することにより、新しいスタイルフォントを生成することができる。 提案手法は他の手法よりもシンプルで効果的であり,フォント設計効率の向上に寄与する。

In this paper, we propose and end-to-end deep Chinese font generation system. This system can generate new style fonts by interpolation of latent style-related embeding variables that could achieve smooth transition between different style. Our method is simpler and more effective than other methods, which will help to improve the font design efficiency
翻訳日:2022-12-19 04:27:35 公開日:2020-03-27
# 駐車経路発見のためのベイズ階層型多目的最適化

Bayesian Hierarchical Multi-Objective Optimization for Vehicle Parking Route Discovery ( http://arxiv.org/abs/2003.12508v1 )

ライセンス: Link先を確認
Romit S Beed, Sunita Sarkar and Arindam Roy(参考訳) 最も実現可能な駐車場への最適なルートを見つけることは、一日のピーク時と混雑した場所でさらに悪化し、かなりの時間と燃料の浪費につながるドライバーにとって関心事であった。 本稿では,駐車場への最も最適な経路を得るためのベイズ階層手法を提案する。 経路選択は矛盾する目的に基づいており、そのため問題は多目的最適化の領域に属する。 確率的データ駆動法は,人気のある重み付き和法における重み付け選択の固有の問題を克服するために用いられてきた。 これらの対立する目的の重みは、Multinomial と Dirichlet に基づくベイズ階層モデルを用いて洗練されている。 遺伝的アルゴリズムは最適な解を得るために使われてきた。 実生活状況と密接に一致した経路を得るために,シミュレーションデータを用いた。

Discovering an optimal route to the most feasible parking lot has been a matter of concern for any driver which aggravates further during peak hours of the day and at congested places leading to considerable wastage of time and fuel. This paper proposes a Bayesian hierarchical technique for obtaining the most optimal route to a parking lot. The route selection is based on conflicting objectives and hence the problem belongs to the domain of multi-objective optimization. A probabilistic data driven method has been used to overcome the inherent problem of weight selection in the popular weighted sum technique. The weights of these conflicting objectives have been refined using a Bayesian hierarchical model based on Multinomial and Dirichlet prior. Genetic algorithm has been used to obtain optimal solutions. Simulated data has been used to obtain routes which are in close agreement with real life situations.
翻訳日:2022-12-19 04:27:15 公開日:2020-03-27
# ナイジェリアピジンの教師付き・教師なしニューラルマシン翻訳ベースラインに向けて

Towards Supervised and Unsupervised Neural Machine Translation Baselines for Nigerian Pidgin ( http://arxiv.org/abs/2003.12660v1 )

ライセンス: Link先を確認
Orevaoghene Ahia and Kelechi Ogueji(参考訳) ナイジェリア語はおそらくナイジェリアで最も広く話されている言語である。 この言語は西アフリカや中央アフリカでも話されており、非常に重要な言語である。 この研究は、英語とナイジェリアのピジン間の教師なしニューラルネットワーク翻訳(NMT)ベースラインを確立することを目的としている。 我々はNMTモデルと異なるトークン化手法を実装・比較し、将来の研究のための確かな基盤を作る。

Nigerian Pidgin is arguably the most widely spoken language in Nigeria. Variants of this language are also spoken across West and Central Africa, making it a very important language. This work aims to establish supervised and unsupervised neural machine translation (NMT) baselines between English and Nigerian Pidgin. We implement and compare NMT models with different tokenization methods, creating a solid foundation for future works.
翻訳日:2022-12-19 04:26:47 公開日:2020-03-27
# 多目的進化アルゴリズムを用いた複数ラベル分類規則の一貫性集合の生成

Generation of Consistent Sets of Multi-Label Classification Rules with a Multi-Objective Evolutionary Algorithm ( http://arxiv.org/abs/2003.12526v1 )

ライセンス: Link先を確認
Thiago Zafalon Miranda, Diorge Brognara Sardinha, M\'arcio Porto Basgalupp, Yaochu Jin, Ricardo Cerri(参考訳) マルチラベル分類は、インスタンスを2つ以上のクラスに同時に分類する。 生物学、画像、ビデオ、オーディオ、テキストの分類など、現実世界の多くのアプリケーションに存在している非常に困難なタスクである。 近年,一般データ保護規則などの規制の結果,解釈可能な分類モデルへの関心が高まっている。 そこで本研究では,複数の規則に基づくマルチラベル分類モデルを生成する多目的進化アルゴリズムを提案する。 この研究の重要な貢献は、ルールのリスト(順序付けされたコレクション)に基づいてモデルを生成するほとんどのアルゴリズムとは異なり、アルゴリズムはルールの集合(順序付けされていないコレクション)に基づいてモデルを生成し、解釈可能性を高めることである。 また、ルール作成中にコンフリクト回避アルゴリズムを用いることで、与えられたモデル内のすべてのルールは、同じモデル内の他のすべてのルールと整合することが保証される。 したがって、コンフリクト解決戦略は必要とせず、より単純なモデルを進化させる。 我々は合成データと実世界のデータセットについて実験を行い、予測性能(f-score)と解釈性(モデルサイズ)の観点から最先端のアルゴリズムと比較し、最良のモデルが同等のf-scoreとより小さいモデルサイズを持つことを示した。

Multi-label classification consists in classifying an instance into two or more classes simultaneously. It is a very challenging task present in many real-world applications, such as classification of biology, image, video, audio, and text. Recently, the interest in interpretable classification models has grown, partially as a consequence of regulations such as the General Data Protection Regulation. In this context, we propose a multi-objective evolutionary algorithm that generates multiple rule-based multi-label classification models, allowing users to choose among models that offer different compromises between predictive power and interpretability. An important contribution of this work is that different from most algorithms, which usually generate models based on lists (ordered collections) of rules, our algorithm generates models based on sets (unordered collections) of rules, increasing interpretability. Also, by employing a conflict avoidance algorithm during the rule-creation, every rule within a given model is guaranteed to be consistent with every other rule in the same model. Thus, no conflict resolution strategy is required, evolving simpler models. We conducted experiments on synthetic and real-world datasets and compared our results with state-of-the-art algorithms in terms of predictive performance (F-Score) and interpretability (model size), and demonstrate that our best models had comparable F-Score and smaller model sizes.
翻訳日:2022-12-19 04:26:18 公開日:2020-03-27
# 人工知能における機械学習: 共通理解に向けて

Machine Learning in Artificial Intelligence: Towards a Common Understanding ( http://arxiv.org/abs/2004.04686v1 )

ライセンス: Link先を確認
Niklas K\"uhl, Marc Goutier, Robin Hirt, Gerhard Satzger(参考訳) 機械学習」と「芸術知能」の応用は、この10年で普及している。 どちらの用語もしばしば科学やメディアで使われ、時には異なる意味を持つ。 本研究では,これらの用語との関係を明らかにすること,特に人工知能への機械学習の貢献を明らかにすることを目的とする。 本稿では,関連文献をレビューし,機械学習が知的エージェントの構築に果たす役割を明らかにする概念的枠組みを提案する。 したがって、より専門用語の明確化と(学際的な)議論と今後の研究の出発点を目指しています。

The application of "machine learning" and "artificial intelligence" has become popular within the last decade. Both terms are frequently used in science and media, sometimes interchangeably, sometimes with different meanings. In this work, we aim to clarify the relationship between these terms and, in particular, to specify the contribution of machine learning to artificial intelligence. We review relevant literature and present a conceptual framework which clarifies the role of machine learning to build (artificial) intelligent agents. Hence, we seek to provide more terminological clarity and a starting point for (interdisciplinary) discussions and future research.
翻訳日:2022-12-19 04:25:56 公開日:2020-03-27
# ベイズ信頼度伝播ニューラルネットワークにおける学習表現

Learning representations in Bayesian Confidence Propagation neural networks ( http://arxiv.org/abs/2003.12415v1 )

ライセンス: Link先を確認
Naresh Balaji Ravichandran, Anders Lansner, Pawel Herman(参考訳) 階層表現の教師なし学習は、近年のディープラーニングにおける最も活発な研究方向の1つである。 本研究では,局所的なヘビアン学習に基づくニューラルネットワークの非教師なし戦略を生物学的に研究する。 本稿では,bcpnn(bayesian confidence propagating neural network)アーキテクチャを拡張するための新たなメカニズムを提案し,mnistデータセット上でテストした場合に有意な隠れ表現を教師なし学習する能力を示す。

Unsupervised learning of hierarchical representations has been one of the most vibrant research directions in deep learning during recent years. In this work we study biologically inspired unsupervised strategies in neural networks based on local Hebbian learning. We propose new mechanisms to extend the Bayesian Confidence Propagating Neural Network (BCPNN) architecture, and demonstrate their capability for unsupervised learning of salient hidden representations when tested on the MNIST dataset.
翻訳日:2022-12-19 04:18:56 公開日:2020-03-27
# LSTMを用いてフランス語をセネガル語に翻訳:Wolofを事例として

Using LSTM to Translate French to Senegalese Local Languages: Wolof as a Case Study ( http://arxiv.org/abs/2004.13840v1 )

ライセンス: Link先を確認
Lo Alla and Dione Cheikh Bamba and Nguer Elhadji Mamadou and Ba Sileye O. Ba and Lo Moussa(参考訳) 本稿では,ローリソースのniger-congo言語であるwolofのニューラルマシン翻訳システムを提案する。 最初は、70000行のフランス語-Wolof文の並列コーパスを集めました。 そこで,我々はLSTMをベースラインとしたエンコーダデコーダアーキテクチャを開発し,アテンション機構を備えた双方向LSTMにさらに拡張した。 我々のモデルは、約35,000のパラレル文からなる、限られた量のフランス語-Wolofデータに基づいて訓練されている。 french-wolof翻訳タスクの実験結果から,本手法は極めて低資源条件下で有望な翻訳を生成することが示された。 最良のモデルは47%のbleuスコアの良好なパフォーマンスを達成できた。

In this paper, we propose a neural machine translation system for Wolof, a low-resource Niger-Congo language. First we gathered a parallel corpus of 70000 aligned French-Wolof sentences. Then we developped a baseline LSTM based encoder-decoder architecture which was further extended to bidirectional LSTMs with attention mechanisms. Our models are trained on a limited amount of parallel French-Wolof data of approximately 35000 parallel sentences. Experimental results on French-Wolof translation tasks show that our approach produces promising translations in extremely low-resource conditions. The best model was able to achieve a good performance of 47% BLEU score.
翻訳日:2022-12-19 04:18:31 公開日:2020-03-27
# AirRL:都市大気質推論のための強化学習アプローチ

AirRL: A Reinforcement Learning Approach to Urban Air Quality Inference ( http://arxiv.org/abs/2003.12205v1 )

ライセンス: Link先を確認
Huiqiang Zhong and Cunxiang Yin and Xiaohui Wu and Jinchang Luo and JiaWei He(参考訳) 都市大気汚染は公衆衛生を脅かす主要な環境問題となっている。 既存のモニタリングステーションに基づいて細粒度都市空気質を推定することがますます重要になっている。 課題の1つは、空気質推定のための関連ステーションを効果的に選択する方法である。 本稿では,都市空気質推定のための強化学習に基づく新しいモデルを提案する。 このモデルはステーションセレクタと空気質レグレッサーという2つのモジュールで構成されている。 ステーションセレクタは、空気質を推定する際に最も関連性の高い監視局を動的に選択する。 空気質回帰器は、選択した局を取り込み、深層ニューラルネットワークによる空気質推定を行う。 提案手法は,実世界の空気質データセット上で実験を行い,いくつかの一般的なソリューションと比較して高い性能を達成し,提案モデルが空気品質推定の課題に取り組む際に有効であることを示した。

Urban air pollution has become a major environmental problem that threatens public health. It has become increasingly important to infer fine-grained urban air quality based on existing monitoring stations. One of the challenges is how to effectively select some relevant stations for air quality inference. In this paper, we propose a novel model based on reinforcement learning for urban air quality inference. The model consists of two modules: a station selector and an air quality regressor. The station selector dynamically selects the most relevant monitoring stations when inferring air quality. The air quality regressor takes in the selected stations and makes air quality inference with deep neural network. We conduct experiments on a real-world air quality dataset and our approach achieves the highest performance compared with several popular solutions, and the experiments show significant effectiveness of proposed model in tackling problems of air quality inference.
翻訳日:2022-12-19 04:18:21 公開日:2020-03-27
# サンプリングに基づく強化学習アルゴリズムの分布解析

A Distributional Analysis of Sampling-Based Reinforcement Learning Algorithms ( http://arxiv.org/abs/2003.12239v1 )

ライセンス: Link先を確認
Philip Amortila, Doina Precup, Prakash Panangaden, Marc G. Bellemare(参考訳) 定常ステップサイズに対する強化学習アルゴリズムの理論解析に対する分布的アプローチを提案する。 様々な一般的な手法に対して,収束の単純かつ統一的な証明を提示することにより,その効果を実証する。 td($\lambda$) や $q$-learning のような値ベースの手法は、関数の分布の空間において契約的な更新規則を持つため、指数関数的に高速に定常分布に収束する。 ベルマン更新が期待されるアルゴリズムによって得られた定常分布は、真の値関数と等しい平均を持つことを示す。 さらに, ステップサイズが縮小するにつれて, 分布が平均値を中心に集中することを示す。 さらに,制約特性が保持されない楽観的なポリシー反復アルゴリズムを解析し,アルゴリズムの収束を伴う確率的ポリシー改善特性を定式化する。

We present a distributional approach to theoretical analyses of reinforcement learning algorithms for constant step-sizes. We demonstrate its effectiveness by presenting simple and unified proofs of convergence for a variety of commonly-used methods. We show that value-based methods such as TD($\lambda$) and $Q$-Learning have update rules which are contractive in the space of distributions of functions, thus establishing their exponentially fast convergence to a stationary distribution. We demonstrate that the stationary distribution obtained by any algorithm whose target is an expected Bellman update has a mean which is equal to the true value function. Furthermore, we establish that the distributions concentrate around their mean as the step-size shrinks. We further analyse the optimistic policy iteration algorithm, for which the contraction property does not hold, and formulate a probabilistic policy improvement property which entails the convergence of the algorithm.
翻訳日:2022-12-19 04:18:10 公開日:2020-03-27
# MiLeNAS: 混合レベル再構成による効率的なニューラルネットワーク探索

MiLeNAS: Efficient Neural Architecture Search via Mixed-Level Reformulation ( http://arxiv.org/abs/2003.12238v1 )

ライセンス: Link先を確認
Chaoyang He, Haishan Ye, Li Shen, Tong Zhang(参考訳) 最近提案されたニューラル・アーキテクチャ・サーチ(NAS)の多くの手法は、双レベル最適化として定式化できる。 効率的な実装には、2次法の近似が必要となる。 本稿では、最適化手順が(局所的に)最適解に収束しないという意味で、そのような近似による勾配誤差が亜最適性をもたらすことを示す。 そこで本稿では,NASを効率よくかつ確実に最適化できる混合レベル再構成法である‘mldas’を提案する。 混合レベルの定式化において単純な一階法を用いても,NAS問題に対する低い検証誤差を達成できることが示されている。 そこで,本手法により得られたアーキテクチャは,二段階最適化によるアーキテクチャよりも高い精度を実現している。 さらに \mldas\ は DARTS 以外のフレームワークも提案している。 モデルサイズベースの検索と早期停止戦略を通じてアップグレードされ、約5時間で検索プロセスが完了する。 畳み込みアーキテクチャ探索空間における広範囲な実験により,提案手法の有効性が検証された。

Many recently proposed methods for Neural Architecture Search (NAS) can be formulated as bilevel optimization. For efficient implementation, its solution requires approximations of second-order methods. In this paper, we demonstrate that gradient errors caused by such approximations lead to suboptimality, in the sense that the optimization procedure fails to converge to a (locally) optimal solution. To remedy this, this paper proposes \mldas, a mixed-level reformulation for NAS that can be optimized efficiently and reliably. It is shown that even when using a simple first-order method on the mixed-level formulation, \mldas\ can achieve a lower validation error for NAS problems. Consequently, architectures obtained by our method achieve consistently higher accuracies than those obtained from bilevel optimization. Moreover, \mldas\ proposes a framework beyond DARTS. It is upgraded via model size-based search and early stopping strategies to complete the search process in around 5 hours. Extensive experiments within the convolutional architecture search space validate the effectiveness of our approach.
翻訳日:2022-12-19 04:17:28 公開日:2020-03-27
# GANによる不確かさの定量化

GAN-based Priors for Quantifying Uncertainty ( http://arxiv.org/abs/2003.12597v1 )

ライセンス: Link先を確認
Dhruv V. Patel, Assad A. Oberai(参考訳) ベイズ推論は、数学モデルによって2つが連結されたとき、関連する場の測定により推論された場の不確かさを定量化するために広く用いられる。 多くの応用にもかかわらず、ベイズ推論は、大きな次元の離散表現を持つ場を推論したり、数学的に特徴付けるのが難しい事前分布を持つ場合の課題に直面している。 本研究では,この2つの課題に対するベイズ的更新において,gan (deep generative adversarial network) によって学習される近似分布が,事前にどのように用いられるかを示す。 このアプローチの有効性を2つの異なる、そして非常に広い、問題のクラスで実証する。 第1クラスは,分布検出と精度に優れた画像分類と,組込み分散推定による画像インパインティングのための教師あり学習アルゴリズムを導出する。 第2のクラスは、画像の雑音化と物理駆動逆問題を解くための教師なし学習アルゴリズムに繋がる。

Bayesian inference is used extensively to quantify the uncertainty in an inferred field given the measurement of a related field when the two are linked by a mathematical model. Despite its many applications, Bayesian inference faces challenges when inferring fields that have discrete representations of large dimension, and/or have prior distributions that are difficult to characterize mathematically. In this work we demonstrate how the approximate distribution learned by a deep generative adversarial network (GAN) may be used as a prior in a Bayesian update to address both these challenges. We demonstrate the efficacy of this approach on two distinct, and remarkably broad, classes of problems. The first class leads to supervised learning algorithms for image classification with superior out of distribution detection and accuracy, and for image inpainting with built-in variance estimation. The second class leads to unsupervised learning algorithms for image denoising and for solving physics-driven inverse problems.
翻訳日:2022-12-19 04:17:14 公開日:2020-03-27
# MCFlow:データインプットのためのモンテカルロフローモデル

MCFlow: Monte Carlo Flow Models for Data Imputation ( http://arxiv.org/abs/2003.12628v1 )

ライセンス: Link先を確認
Trevor W. Richardson, Wencheng Wu, Lei Lin, Beilei Xu, Edgar A. Bernal(参考訳) データインプテーション(data imputation)とは、データ不足の問題に対処する機械学習の基本的なタスクである。 そこで本研究では,フロー生成モデルの正規化とモンテカルロサンプリングを利用した計算手法であるMCFlowを提案する。 本稿では,不完全データを用いたトレーニングモデルにおいて生じる因果性ジレンマに対処し,学習データに欠けている項目の密度推定値と値を交互に更新する反復学習方式を導入する。 本稿では,提案手法の有効性の広範囲な実証的検証を行い,その性能を最先端の代替案と比較する。 MCFlowは, インプットされたデータの品質や, データのセマンティックな構造を維持する能力において, 競合する手法よりも優れていることを示す。

We consider the topic of data imputation, a foundational task in machine learning that addresses issues with missing data. To that end, we propose MCFlow, a deep framework for imputation that leverages normalizing flow generative models and Monte Carlo sampling. We address the causality dilemma that arises when training models with incomplete data by introducing an iterative learning scheme which alternately updates the density estimate and the values of the missing entries in the training data. We provide extensive empirical validation of the effectiveness of the proposed method on standard multivariate and image datasets, and benchmark its performance against state-of-the-art alternatives. We demonstrate that MCFlow is superior to competing methods in terms of the quality of the imputed data, as well as with regards to its ability to preserve the semantic structure of the data.
翻訳日:2022-12-19 04:16:58 公開日:2020-03-27
# 画像再構成のための不安定検出器としてのインターバルニューラルネットワーク

Interval Neural Networks as Instability Detectors for Image Reconstructions ( http://arxiv.org/abs/2003.13471v1 )

ライセンス: Link先を確認
Jan Macdonald, Maximilian M\"arz, Luis Oala and Wojciech Samek(参考訳) 本研究では,画像再構成タスクにディープラーニングモデルを利用する場合の不安定性の検出について検討する。 ニューラルネットワークは、しばしば伝統的な再建法よりも経験的に優れているが、繊細な医療用途に使用されることは議論の余地がある。 実際、近年の一連の研究において、深い学習アプローチは様々な種類の不安定性、例えば敵対的ノイズやアウト・オブ・ディストリビューション機能によって引き起こされることが示されている。 この現象は、基盤となるアーキテクチャに関係なく観察でき、簡単に修正できるものではないと論じられている。 この知見に基づいて,不確実性定量化手法を不安定検出器として活用する2つの応用例を示す。 特に,最近提案されたインターバルニューラルネットワークは,再構成の不安定性を明らかにするのに非常に有効であることが示された。 このような能力は、深層学習に基づく医療画像再構成の安全な利用を保証するために不可欠である。

This work investigates the detection of instabilities that may occur when utilizing deep learning models for image reconstruction tasks. Although neural networks often empirically outperform traditional reconstruction methods, their usage for sensitive medical applications remains controversial. Indeed, in a recent series of works, it has been demonstrated that deep learning approaches are susceptible to various types of instabilities, caused for instance by adversarial noise or out-of-distribution features. It is argued that this phenomenon can be observed regardless of the underlying architecture and that there is no easy remedy. Based on this insight, the present work demonstrates on two use cases how uncertainty quantification methods can be employed as instability detectors. In particular, it is shown that the recently proposed Interval Neural Networks are highly effective in revealing instabilities of reconstructions. Such an ability is crucial to ensure a safe use of deep learning-based methods for medical image reconstruction.
翻訳日:2022-12-19 04:16:44 公開日:2020-03-27