このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20191230となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 注意は必要なものすべてか?
--畳み込みに基づくアクティブメモリと自己注意に関する実証的研究 Is Attention All What You Need? -- An Empirical Investigation on Convolution-Based Active Memory and Self-Attention ( http://arxiv.org/abs/1912.11959v2 ) ライセンス: Link先を確認 | Thomas Dowdell and Hongyu Zhang | (参考訳) トランスフォーマーモデルの鍵となるのはセルフアテンション機構であり、モデルが計算効率の良い方法でシーケンス全体を解析できる。
近年の研究では、RNNが使用する一般的な注意機構がアクティブメモリ機構に置き換えられる可能性が示唆されている。
本研究では,様々なアクティブメモリ機構がトランスフォーマの自己着脱を代替できるかどうかを評価する。
実験では,アクティブメモリだけで言語モデリングにおける自己着信機構と同等の結果が得られることを示唆するが,最善の結果はアクティブメモリと自己着信機構の両方を併用することで達成される。
また、特定のアルゴリズムタスクでは、アクティブメモリメカニズムだけで2つの組み合わせの自己アテンションを上回っていることも指摘します。 The key to a Transformer model is the self-attention mechanism, which allows the model to analyze an entire sequence in a computationally efficient manner. Recent work has suggested the possibility that general attention mechanisms used by RNNs could be replaced by active-memory mechanisms. In this work, we evaluate whether various active-memory mechanisms could replace self-attention in a Transformer. Our experiments suggest that active-memory alone achieves comparable results to the self-attention mechanism for language modelling, but optimal results are mostly achieved by using both active-memory and self-attention mechanisms together. We also note that, for some specific algorithmic tasks, active-memory mechanisms alone outperform both self-attention and a combination of the two. | 翻訳日:2023-06-10 00:14:31 公開日:2019-12-30 |
# ジャリメトリクスの十年 Decades of Jurimetrics ( http://arxiv.org/abs/2001.00476v1 ) ライセンス: Link先を確認 | Filipe J. Zabala and Fabiano F. Silveira | (参考訳) Jurimetrics: 数十年の歴史、数十年は注目に値する。
ブラジルの見解では、この忘れられた概念の、法律の量的アプローチにおける軌跡と、コードとフリーソフトウェアでの例である。 Jurimetrics: decades of history, decades to-be auspicious. A Brazilian point of view on the trajectory of this forgotten concept in the quantitative approach of the law, with code and examples in free software. | 翻訳日:2023-06-09 07:04:16 公開日:2019-12-30 |
# オンラインピアアセスメントデータセット Online Peer-Assessment Datasets ( http://arxiv.org/abs/1912.13050v1 ) ライセンス: Link先を確認 | Michael Mogessie Ashenafi | (参考訳) トレント大学の1年生と2年生を対象にピアアセスメント実験を行った。
実験は1学期まで続き、2013年から2016年にかけて5つのコンピュータサイエンスコースで実施された。
ピアアセスメントタスクには質問と回答の提出、回答評価タスクが含まれていた。
ピアアセスメントデータセットは、各コースの参加者の最終的なスコアによって補完される。
教師は毎週、学生が提出した質問をフィルタリングすることに関わった。
選択された質問はその後、ピアアセスメントタスクに使用された。
しかし、エキスパートレーティングはデータセットには含まれない。
この決定の主な理由は、教師の監督を最小限にしたピアアセスメントタスクが設計されたことである。
このアプローチを支持する議論が提示される。
データセットは、さまざまな実験でその利用を可能にするように設計されている。
解析可能なデータ構造として報告され、中間処理によってNLPまたはML対応データセットに成形することができる。
潜在的な応用例としては、パフォーマンス予測とテキスト類似性タスクがある。 Peer-assessment experiments were conducted among first and second year students at the University of Trento. The experiments spanned an entire semester and were conducted in five computer science courses between 2013 and 2016. Peer-assessment tasks included question and answer submission as well as answer evaluation tasks. The peer-assessment datasets are complimented by the final scores of participating students for each course. Teachers were involved in filtering out questions submitted by students on a weekly basis. Selected questions were then used in subsequent peer-assessment tasks. However, expert ratings are not included in the dataset. A major reason for this decision was that peer-assessment tasks were designed with minimal teacher supervision in mind. Arguments in favour of this approach are presented. The datasets are designed in a manner that would allow their utilization in a variety of experiments. They are reported as parsable data structures that, with intermediate processing, can be moulded into NLP or ML-ready datasets. Potential applications of interest include performance prediction and text similarity tasks. | 翻訳日:2023-06-09 07:04:11 公開日:2019-12-30 |
# 共同研究者の知恵--パフォーマンス評価に対するピアリビューアプローチ Wisdom of collaborators: a peer-review approach to performance appraisal ( http://arxiv.org/abs/1912.12861v1 ) ライセンス: Link先を確認 | Sofia Dokuka, Ivan Zaikin, Kate Furman, Maksim Tsvetovat and Alex Furman | (参考訳) 企業内の個人のパフォーマンスと評価は、賃金の分配、昇進、解雇に影響を与える主要な要因である。
現代のビジネスプロセスの複雑さとコラボレーティブな性質のため、組織の大部分における個々の影響の評価は曖昧で非自明な作業である。
既存のパフォーマンス評価アプローチは、個人が偏った判断によってしばしば影響を受けるが、組織は評価結果に不満を持っている。
従業員は複雑な協調環境において、ピアパフォーマンスを正確に測定できると断言する。
本研究では,個人の評価と定量化不可能な個人的影響を評価する新しい指標であるピアランクスコア(prs)を提案する。
PRSは従業員のペア比較に基づいている。
シミュレーションにおけるアルゴリズムの堅牢性を示し、3年間で1000人以上の従業員を対象に、遺伝子検査会社として実証的な検証を行った。 Individual performance and reputation within a company are major factors that influence wage distribution, promotion and firing. Due to the complexity and collaborative nature of contemporary business processes, the evaluation of individual impact in the majority of organizations is an ambiguous and non-trivial task. Existing performance appraisal approaches are often affected by individuals biased judgements, and organizations are dissatisfied with the results of evaluations. We assert that employees can provide accurate measurement of their peer performance in a complex collaborative environment. We propose a novel metric, the Peer Rank Score (PRS), that evaluates individual reputations and the non-quantifiable individual impact. PRS is based on pairwise comparisons of employees. We show high robustness of the algorithm on simulations and empirically validate it for a genetic testing company on more than one thousand employees using peer reviews over the course of three years. | 翻訳日:2023-06-09 07:03:59 公開日:2019-12-30 |
# 人工知能のガバナンスに関する米国の世論 U.S. Public Opinion on the Governance of Artificial Intelligence ( http://arxiv.org/abs/1912.12835v1 ) ライセンス: Link先を確認 | Baobao Zhang and Allan Dafoe | (参考訳) 人工知能(AI)は広く社会に影響を及ぼすが、社会科学者はこの技術に対する大衆の態度の研究を始めたばかりである。
既存の研究では、新興技術の規制を形成する上で、公共の機関に対する信頼が大きな役割を果たすことが示されている。
大規模調査(n=2000)を用いて、米国人が13のaiガバナンス課題に対する認識と、政府、企業、マルチステークホルダー機関が責任を持ってaiを開発し、管理する信頼について検討した。
アメリカ人は、IT企業や政府にとって重要なAIガバナンスの問題をすべて認識しているが、AIアプリケーションを管理するための機関に対する信頼度は低い。 Artificial intelligence (AI) has widespread societal implications, yet social scientists are only beginning to study public attitudes toward the technology. Existing studies find that the public's trust in institutions can play a major role in shaping the regulation of emerging technologies. Using a large-scale survey (N=2000), we examined Americans' perceptions of 13 AI governance challenges as well as their trust in governmental, corporate, and multistakeholder institutions to responsibly develop and manage AI. While Americans perceive all of the AI governance issues to be important for tech companies and governments to manage, they have only low to moderate trust in these institutions to manage AI applications. | 翻訳日:2023-06-09 07:03:45 公開日:2019-12-30 |
# トーリック符号の雑音分極のための深部Q-ラーニングデコーダ Deep Q-learning decoder for depolarizing noise on the toric code ( http://arxiv.org/abs/1912.12919v1 ) ライセンス: Link先を確認 | David Fitzek, Mattias Eliasson, Anton Frisk Kockum, Mats Granath | (参考訳) トーリック符号上の雑音の量子誤差補正のためのAIに基づく復号化エージェントを提案する。
このエージェントは、深層強化学習(DRL)を用いて訓練され、ニューラルネットワークがエラー訂正のQ値である$X$、$Y$、$Z$Pauli演算を符号化し、それぞれ$p_x$、$p_y$、$p_z$の確率で発生する。
ビットフリップと位相フリップの誤差の相関を利用して、デコーダは最小ウェイト・パーフェクト・マッチング(MWPM)アルゴリズムより優れ、符号距離が$d\leq 9$に対して高い成功率と高誤差閾値を達成する(p_z = p_x = p_y$)。
非相関ノイズに対する最適性能に近づき、バイアスノイズ(p_z \neq p_x = p_y$)に対して機能的だが準最適デコードを提供する。
DRL型デコーダは,将来的なトポロジカル符号の誤り訂正のためのフレームワークとして,深層Qネットワークの前方評価と事前学習と情報記憶という形で,オンザフライ計算のバランスを崩すことを論じる。
完全なコードと使えるデコーダ(事前トレーニング済みネットワーク)は、リポジトリhttps://github.com/mats-granath/toric-RL-decoderにある。 We present an AI-based decoding agent for quantum error correction of depolarizing noise on the toric code. The agent is trained using deep reinforcement learning (DRL), where an artificial neural network encodes the state-action Q-values of error-correcting $X$, $Y$, and $Z$ Pauli operations, occurring with probabilities $p_x$, $p_y$, and $p_z$, respectively. By learning to take advantage of the correlations between bit-flip and phase-flip errors, the decoder outperforms the minimum-weight-perfect-matching (MWPM) algorithm, achieving higher success rate and higher error threshold for depolarizing noise ($p_z = p_x = p_y$), for code distances $d\leq 9$. The decoder trained on depolarizing noise also has close to optimal performance for uncorrelated noise and provides functional but sub-optimal decoding for biased noise ($p_z \neq p_x = p_y$). We argue that the DRL-type decoder provides a promising framework for future practical error correction of topological codes, striking a balance between on-the-fly calculations, in the form of forward evaluation of a deep Q-network, and pre-training and information storage. The complete code, as well as ready-to-use decoders (pre-trained networks), can be found in the repository https://github.com/mats-granath/toric-RL-decoder. | 翻訳日:2023-01-17 03:11:19 公開日:2019-12-30 |
# ハイブリッドナノフォトニック-ナノノマグニックSiC-YiG量子センサ:II/光ファイバーベースODMRとOP-PELDORによるHPSI 4H-SiCのバルク化実験 Hybrid nanophotonic-nanomagnonic SiC-YiG quantum sensor: II/ optical fiber based ODMR and OP-PELDOR experiments on bulk HPSI 4H-SiC ( http://arxiv.org/abs/1912.13111v1 ) ライセンス: Link先を確認 | J\'er\^ome Tribollet | (参考訳) ここでは、最近私が理論的に説明した新しいSiC-YiG量子センサの開発に関連する、私の最初のファイバーベース複合光および電子PR実験を紹介する(arXiv:1912.11634)。
この量子センサーは、xバンドパルスepr分光計、光ファイバ、フォトルミネッセンス設定を用いて、ナノスケールの単一外部スピン感度を光学的に検出するパルス電子二重共鳴分光法を可能にするために設計された。
ODPELDOR分光のデモンストレーションの前に最初に実験を行った。
残留するV2色中心(スピンS=3/2)のアンサンブルを含むバルク4H-SiC試料で行った。
ここでは,i/光ポンピング支援パルスEPR実験,ii/ファイバーベースODMR,光検出RABI振動,iii/光ポンピング支援PELDOR実験,iv/光スピン波共鳴実験を紹介する。
これらの実験は、提案された新しい量子センシング手法の実現可能性を確認する。 Here I present my first fiber based coupled optical and EPR experiments associated to the development of a new SiC-YiG quantum sensor that I recently theoretically described (arXiv:1912.11634). This quantum sensor was designed to allow sub-nanoscale single external spin sensitivity optically detected pulsed electron electron double resonance spectroscopy, using an X band pulsed EPR spectrometer, an optical fiber, and a photoluminescence setup. First key experiments before the demonstration of ODPELDOR spectroscopy are presented here. They were performed on a bulk 4H-SiC sample containing an ensemble of residual V2 color centers (spin S=3/2). Here I demonstrate i/ optical pumping assisted pulsed EPR experiments, ii/ fiber based ODMR and optically detected RABI oscillations, and iii/ optical pumping assisted PELDOR experiments, and iv/ some spin wave resonance experiments. Those experiments confirm the feasability of the new quantum sensing approach proposed. | 翻訳日:2023-01-17 03:09:39 公開日:2019-12-30 |
# icstrace:産業用制御システムの攻撃データに対する悪意のあるipトレースモデル ICSTrace: A Malicious IP Traceback Model for Attacking Data of Industrial Control System ( http://arxiv.org/abs/1912.12828v1 ) ライセンス: Link先を確認 | Feng Xiao and Qiang Xu | (参考訳) 産業制御システムに対する攻撃は概ね組織的かつ事前検討された行動であり,産業制御システムのセキュリティにはipトレースバックが重要である。
インターネットのインフラに基づいて,新たなサービスをデプロイすることなく,新たな悪意あるIPトレースバックモデルICSTraceを開発した。
このモデルは、産業制御プロトコルのフォーマットに従って、攻撃データから関数コードとそのパラメータを抽出し、関数コードとそのパラメータをベクトルに変換する短いシーケンス確率法を用いて、悪意のあるIPアドレスの攻撃パターンを特徴付ける。
さらに、パターンのクラスタリングのために部分シードk-meansアルゴリズムが提案されており、攻撃を組織に遡ることができる。
産業用制御システムのための大規模展開型ハニーポットによる攻撃データに基づいてictraceを評価し,産業用制御システムの悪意のあるipトレースにictraceが有効であることを示す。 Considering the attacks against industrial control system are mostly organized and premeditated actions, IP traceback is significant for the security of industrial control system. Based on the infrastructure of the Internet, we have developed a novel malicious IP traceback model-ICSTrace, without deploying any new services. The model extracts the function codes and their parameters from the attack data according to the format of industrial control protocol, and employs a short sequence probability method to transform the function codes and their parameter into a vector, which characterizes the attack pattern of malicious IP addresses. Furthermore, a Partial Seeded K-Means algorithm is proposed for the pattern's clustering, which helps in tracing the attacks back to an organization. ICSTrace is evaluated basing on the attack data captured by the large-scale deployed honeypots for industrial control system, and the results demonstrate that ICSTrace is effective on malicious IP traceback in industrial control system. | 翻訳日:2023-01-17 03:09:20 公開日:2019-12-30 |
# 超高速過渡分極分光法によるニトロベンゼンの励起電子状態の超高速ダイナミクス Ultrafast dynamics of excited electronic states in nitrobenzene measured by ultrafast transient polarization spectroscopy ( http://arxiv.org/abs/1912.12902v1 ) ライセンス: Link先を確認 | Richard Thurston, Matthew M. Brister, Liang Z. Tan, Elio G. Champenois, Said Bakhti, Pavan Muddukrishna, Thorsten Weber, Ali Belkacem, Daniel S.Slaughter, and Niranjan Shivaram | (参考訳) 超高速過渡偏光分光法 (UTPS) を用いて, 液体ニトロベンゼン中の最も低い一重項励起電子状態の超高速ダイナミクスを解明し, 光ケラー効果(OKE)分光法を励起電子状態に拡張した。
励起分子アンサンブルの3次非線形応答は励起状態特性とジオメトリーの詳細に非常に敏感であり、3フェムト秒パルスに続く2つのフェムト秒パルスを用いて測定される。
この応答を3つのパルス間の時間遅延の関数として測定することにより、励起状態における波束の減衰時間を抽出する。
ポンプ励起後の時間遅延関数として測定された劣化時間は、励起状態における振動波パケットダイナミクスを示す振動を示す。
実験結果から,S1状態と三重項T2状態の間の3つの系間交差の後に,波束がS1状態から完全に離脱することが推定された。 We investigate ultrafast dynamics of the lowest singlet excited electronic state in liquid nitrobenzene using Ultrafast Transient Polarization Spectroscopy (UTPS), extending the well-known technique of Optical-Kerr Effect (OKE) spectroscopy to excited electronic states. The third-order non-linear response of the excited molecular ensemble is highly sensitive to details of excited state character and geometries and is measured using two femtosecond pulses following a third femtosecond pulse that populates the S1 excited state. By measuring this response as a function of time delays between the three pulses involved, we extract the dephasing time of the wave-packet on the excited state. The dephasing time measured as a function of time-delay after pump excitation shows oscillations indicating oscillatory wave-packet dynamics on the excited state. From the experimental measurements and supporting theoretical calculations, we deduce that the wave-packet completely leaves the S1 state surface after three traversals of the inter-system crossing between the singlet S1 and triplet T2 states. | 翻訳日:2023-01-17 03:09:02 公開日:2019-12-30 |
# 巨大原子を持つ量子光学 - 最初の5年 Quantum optics with giant atoms -- the first five years ( http://arxiv.org/abs/1912.13012v1 ) ライセンス: Link先を確認 | Anton Frisk Kockum | (参考訳) 量子光学では、原子は相互作用する光の波長と比較して点状であると仮定することが一般的である。
しかし、超伝導回路から構築された人工原子の実験の最近の進歩は、この仮定を破ることができることを示している。
代わりに、これらの人工原子は、波長距離が離れている複数の点において電磁場に結合することができる。
本章では、そのような系のサーベイを行い、これを \textit{giant atoms} と呼ぶ。
巨大原子の主な新規性は、複数の結合点が通常の小さな原子を持つ量子光学では存在しない干渉効果を引き起こすことである。
単一および複数個の巨大原子の理論的および実験的結果について論じ、干渉効果が興味深い用途にどのように利用できるかを示す。
我々はまた、量子光学のこの新興分野の展望も示している。 In quantum optics, it is common to assume that atoms can be approximated as point-like compared to the wavelength of the light they interact with. However, recent advances in experiments with artificial atoms built from superconducting circuits have shown that this assumption can be violated. Instead, these artificial atoms can couple to an electromagnetic field at multiple points, which are spaced wavelength distances apart. In this chapter, we present a survey of such systems, which we call \textit{giant atoms}. The main novelty of giant atoms is that the multiple coupling points give rise to interference effects that are not present in quantum optics with ordinary, small atoms. We discuss both theoretical and experimental results for single and multiple giant atoms, and show how the interference effects can be used for interesting applications. We also give an outlook for this emerging field of quantum optics. | 翻訳日:2023-01-17 03:08:45 公開日:2019-12-30 |
# SUSYは共形量子力学のスケーリング対称性を遮蔽する SUSY shields the scaling symmetry of conformal quantum mechanics ( http://arxiv.org/abs/1912.13014v1 ) ライセンス: Link先を確認 | A.A. Lima, J.V.S. Scursulim, U. Camara da Silva, G.M. Sotkov | (参考訳) 逆二乗ポテンシャルの再正規化は通常、その古典的共形不変性を破る。
強魅力的なポテンシャルでは、スケーリング対称性は離散部分群に分解され、強い反発ポテンシャルでは量子レベルで保存される。
カップリングの中間、弱い中ジウム範囲では、臨界点から離れた再正規化群の流れによって異常な長さスケールが現れる。
強反発性および弱中性範囲のカップリングを持つポテンシャルは、動的超対称性によって関連付けられることを示す。
SUSY不変性を導入することはこれらの2つの範囲を統一し、異常スケールを0に修正し、連続スケーリング対称性を復元する。 Renormalization of the inverse square potential usually breaks its classical conformal invariance. In a strongly attractive potential, the scaling symmetry is broken to a discrete subgroup while, in a strongly repulsive potential, it is preserved at quantum level. In the intermediate, weak-medium range of the coupling, an anomalous length scale appears due to a flow of the renormalization group away from a critical point. We show that potentials with couplings in the strongly-repulsive and in the weak-medium ranges can be related by a dynamical supersymmetry. Imposing SUSY invariance unifies these two ranges, and fixes the anomalous scale to zero, thus restoring the continuous scaling symmetry. | 翻訳日:2023-01-17 03:08:34 公開日:2019-12-30 |
# 糖尿病網膜症の早期発見と重症度測定--進歩的レビューと展望 Early Detection of Diabetic Retinopathy and Severity Scale Measurement: A Progressive Review & Scopes ( http://arxiv.org/abs/1912.12829v1 ) ライセンス: Link先を確認 | Asma Khatun and Sk. Golam Sarowar Hossain | (参考訳) 糖尿病網膜症の早期発見は、目の視力の喪失や失明を予防する。
DR検出法は,使用する特徴抽出法の種類に基づいて,Deep Convolutional Neural Network(CNN)と従来の特徴抽出(機械学習)に大きく分類することができる。
本稿では,Deep CNNに基づく既存の特徴抽出手法とDR検出のための従来の特徴抽出手法に関する総合的な調査を行う。
さらに,本論文は,DR検出の重症度尺度測定に焦点をあて,我々の知る限り,重度グレーディング尺度をカバーする最初の調査論文である。
また, 深層cnnに基づく手法を, 最先端のdr検出法として検討した最初の研究であることも指摘する必要がある。
本研究では,最近提案された深層学習に基づくdr検出手法が,文献における従来の特徴抽出手法よりも精度が高く,大規模データセットにも有用であることを示す。
しかし、ディープラーニングベースの手法では、望ましい出力を得るためにGPU実装が必要である。
この論文のもう1つの大きな発見は、グレーディングを測定するための明らかな標準重度尺度検出基準がないことである。
バイナリクラスを使うものもあれば、マルチステージクラスを使うものもある。 Early detection of diabetic retinopathy prevents visual loss and blindness of a human eye. Based on the types of feature extraction method used, DR detection method can be broadly classified as Deep Convolutional Neural Network (CNN) based and traditional feature extraction (machine learning) based. This paper presents a comprehensive survey of existing feature extraction methods based on Deep CNN and conventional feature extraction for DR detection. In addition to that, this paper focuses on the severity scale measurement of the DR detection and to the best of our knowledge this is the first survey paper which covers severity grading scale. It is also necessary to mention that this is the first study which reviews the proposed Deep CNN based method in the state of the art for DR detection methods. This study discovers that recently proposed deep learning based DR detection methods provides higher accuracy than existing traditional feature extraction methods in the literature and also useful in large scale datasets. However, deep learning based methods require GPU implementation to get the desirable output. The one of the other major finding of this paper is that there are no obvious standard severity scale detection criteria to measure the grading. Some used binary class while many other used multi stage class. | 翻訳日:2023-01-17 03:01:55 公開日:2019-12-30 |
# ビデオオブジェクト追跡のための正規化l1トラッキングとインスタンスセグメンテーションの統合 Integration of Regularized l1 Tracking and Instance Segmentation for Video Object Tracking ( http://arxiv.org/abs/1912.12883v1 ) ライセンス: Link先を確認 | Filiz Gurkan and Bilge Gunsel | (参考訳) 本稿では,追跡対象をスパース辞書で表現する正規化フレームワークにおいて,深層物体検出器と粒子フィルタトラッカを統合した追跡検出方式を提案する。
ディテクターとトラッカーのコンセンサスを確立する新しい観測モデルを作成し,ディープディテクターの指導により辞書の更新を可能にした。
これにより、ビデオシーケンスを通してオブジェクトの出現を効率的に表現できるため、オクルージョンやポーズの変化に対するロバスト性が向上する。
さらに,変形した対象バウンディングボックスを追跡可能な変換,回転,スケーリング,せん断パラメータからなる新しい状態ベクトルを提案することにより,スケール変更に対するロバスト性が大幅に向上する。
VOT2016 と VOT2018 のベンチマークデータセットに関する数値的な結果から,導入したトラッカー L1DPF-M は両データセットで同等のロバスト性を達成し,IoU-th=0.5 での成功率が 11% と 9% に向上した。 We introduce a tracking-by-detection method that integrates a deep object detector with a particle filter tracker under the regularization framework where the tracked object is represented by a sparse dictionary. A novel observation model which establishes consensus between the detector and tracker is formulated that enables us to update the dictionary with the guidance of the deep detector. This yields an efficient representation of the object appearance through the video sequence hence improves robustness to occlusion and pose changes. Moreover we propose a new state vector consisting of translation, rotation, scaling and shearing parameters that allows tracking the deformed object bounding boxes hence significantly increases robustness to scale changes. Numerical results reported on challenging VOT2016 and VOT2018 benchmarking data sets demonstrate that the introduced tracker, L1DPF-M, achieves comparable robustness on both data sets while it outperforms state-of-the-art trackers on both data sets where the improvement achieved in success rate at IoU-th=0.5 is 11% and 9%, respectively. | 翻訳日:2023-01-17 03:01:06 公開日:2019-12-30 |
# Wi2Vi:WiFi CSIサンプルからビデオフレームを生成する Wi2Vi: Generating Video Frames from WiFi CSI Samples ( http://arxiv.org/abs/2001.05842v1 ) ライセンス: Link先を確認 | Mohammad Hadi Kefayati, Vahid Pourahmadi and Hassan Aghaeinia | (参考訳) 環境中の物体は電磁波に影響を及ぼす。
この効果は周波数によって異なるが、それらの間には相関関係があり、十分なキャパシティを持つモデルがこの相関関係を異なる周波数で捉えることができる。
本稿では、WiFiチャネルの状態情報とビデオフレームのバリエーションを関連付けるためのWi2Viモデルを提案する。
提案するWi2Viシステムでは,CSIによる映像フレーム生成が可能である。
Wi2Viが作成したビデオフレームは、重要な状況下で従来の監視システムに補助情報を提供する。
Wi2Viシステムの実装は、異なる周波数スペクトルの測定値間の相関関係を導出できるシステムの構築の可能性を確認する。 Objects in an environment affect electromagnetic waves. While this effect varies across frequencies, there exists a correlation between them, and a model with enough capacity can capture this correlation between the measurements in different frequencies. In this paper, we propose the Wi2Vi model for associating variations in the WiFi channel state information with video frames. The proposed Wi2Vi system can generate video frames entirely using CSI measurements. The produced video frames by the Wi2Vi provide auxiliary information to the conventional surveillance system in critical circumstances. Our implementation of the Wi2Vi system confirms the feasibility of constructing a system capable of deriving the correlations between measurements in different frequency spectrums. | 翻訳日:2023-01-17 03:00:47 公開日:2019-12-30 |
# 直観主義線形時間論理 Intuitionistic Linear Temporal Logics ( http://arxiv.org/abs/1912.12893v1 ) ライセンス: Link先を確認 | Philippe Balbiani and Joseph Boudou and Mart\'in Di\'eguez and David Fern\'andez-Duque | (参考訳) 我々は,'next', 'until', `release' を含む線形時相論理の直観的変種を考える。
この構造のクラスは、我々が $\iltl$ と表現する論理を生み出し、追加の制約を課すことで、持続的なポーズの $\itlb$ と、ここで考える時相論理の $\itlht$ を得る。
我々は、$\iltl$ が有効有限モデル特性を持ち、したがって決定可能であることを証明し、$\itlb$ は有限モデル特性を持たない。
また、これらの論理に対する有界双シミュレーションの概念を導入し、それらを用いて、持続的なポーズのクラスでさえも 'until' と 'release' 作用素が互いに定義できないことを示す。 We consider intuitionistic variants of linear temporal logic with `next', `until' and `release' based on expanding posets: partial orders equipped with an order-preserving transition function. This class of structures gives rise to a logic which we denote $\iltl$, and by imposing additional constraints we obtain the logics $\itlb$ of persistent posets and $\itlht$ of here-and-there temporal logic, both of which have been considered in the literature. We prove that $\iltl$ has the effective finite model property and hence is decidable, while $\itlb$ does not have the finite model property. We also introduce notions of bounded bisimulations for these logics and use them to show that the `until' and `release' operators are not definable in terms of each other, even over the class of persistent posets. | 翻訳日:2023-01-17 03:00:37 公開日:2019-12-30 |
# 畳み込みニューラルネットワークを用いた壁面量による壁面乱流の予測 Prediction of wall-bounded turbulence from wall quantities using convolutional neural networks ( http://arxiv.org/abs/1912.12969v1 ) ライセンス: Link先を確認 | L. Guastoni, M. P. Encinar, P. Schlatter, H. Azizpour, R. Vinuesa | (参考訳) 完全畳み込みニューラルネットワークモデルを用いて,乱流開水路流中の流れ面とスパン方向壁面を入力として,複数の壁面正規位置における流れ方向の速度場を予測する。
トレーニングデータは、Reynolds数$Re_{\tau}=180$の摩擦で直接数値シミュレーション(DNS)を実行することで生成される。
様々なネットワークは、3つのインナースケールの場所(y^+ = 15~30,~50$)での予測と、入力サンプル間で異なる時間ステップ($\delta t^{+}_{s}$)で訓練される。
ニューラルネットワークモデルの固有非線形性は線形法よりも優れた予測能力を実現し、瞬時流れ場と乱流統計量の両方において誤差が低い。
より高額な$\Delta t^+_{s}$のデータセットを使用することで、ネットワーク容量がデータセット上での一般化に十分である限り、すべての壁正規な場所における一般化が改善される。
2つのウォールノーマルロケーションに並列に専用ブランチを持つマルチアウトプットネットワークは、トレーニング時間を適度に節約する以外、2つの分離したシングルアウトプットネットワークに対して改善を提供していない。
事前学習されたネットワークの最適化パラメータを用いてネットワークパラメータを初期化する転送学習手法により、トレーニング時間を4倍に短縮することができる。 A fully-convolutional neural-network model is used to predict the streamwise velocity fields at several wall-normal locations by taking as input the streamwise and spanwise wall-shear-stress planes in a turbulent open channel flow. The training data are generated by performing a direct numerical simulation (DNS) at a friction Reynolds number of $Re_{\tau}=180$. Various networks are trained for predictions at three inner-scaled locations ($y^+ = 15,~30,~50$) and for different time steps between input samples $\Delta t^{+}_{s}$. The inherent non-linearity of the neural-network model enables a better prediction capability than linear methods, with a lower error in both the instantaneous flow fields and turbulent statistics. Using a dataset with higher $\Delta t^+_{s}$ improves the generalization at all the considered wall-normal locations, as long as the network capacity is sufficient to generalize over the dataset. The use of a multiple-output network, with parallel dedicated branches for two wall-normal locations, does not provide any improvement over two separated single-output networks, other than a moderate saving in training time. Training time can be effectively reduced, by a factor of 4, via a transfer learning method that initializes the network parameters using the optimized parameters of a previously-trained network. | 翻訳日:2023-01-17 02:59:54 公開日:2019-12-30 |
# 制限ボルツマン機械による不変データの「位置セル」の出現と学習--重み空間における連続対称性の破れと動的復元 'Place-cell' emergence and learning of invariant data with restricted Boltzmann machines: breaking and dynamical restoration of continuous symmetries in the weight space ( http://arxiv.org/abs/1912.12942v1 ) ライセンス: Link先を確認 | Moshir Harsh (LPENS, PSL), J\'er\^ome Tubiana (TAU-CS), Simona Cocco (LPENS, PSL), Remi Monasson (LPENS, PSL) | (参考訳) データや感覚刺激の分布は、しばしば根底にある不変性を楽しむ。
これらの対称性が教師なしの学習方法によってどのように、どの程度捕獲されるかは、機械学習と計算神経科学において関連する問題である。
本研究では,表現学習のためのニューラルネットワークパラダイムである制限ボルツマンマシン(rbm)の学習ダイナミクスを,数値的および解析的ツールの組み合わせで研究する。
ネットワーク重みのランダムな構成から学習が進むにつれて、データをサポートする不変多様体の限られた部分に焦点を当てた受容場を潜在変数が獲得する対称性破壊現象の存在、特徴付けを行う。
対称性は不変多様体上の受容場が拡散することによって、大きな学習時間で復元されるため、RBMはネットワーク重みの空間において、効果的に連続的な誘引子にまたがる。
この対称性を破る現象は、ネットワークサイズとデータ内の対称性によって引き起こされる相関の強度によって、トレーニングに利用できるデータの量がいくつかの臨界値を超える場合にのみ起こる。 Distributions of data or sensory stimuli often enjoy underlying invariances. How and to what extent those symmetries are captured by unsupervised learning methods is a relevant question in machine learning and in computational neuroscience. We study here, through a combination of numerical and analytical tools, the learning dynamics of Restricted Boltzmann Machines (RBM), a neural network paradigm for representation learning. As learning proceeds from a random configuration of the network weights, we show the existence of, and characterize a symmetry-breaking phenomenon, in which the latent variables acquire receptive fields focusing on limited parts of the invariant manifold supporting the data. The symmetry is restored at large learning times through the diffusion of the receptive field over the invariant manifold; hence, the RBM effectively spans a continuous attractor in the space of network weights. This symmetry-breaking phenomenon takes place only if the amount of data available for training exceeds some critical value, depending on the network size and the intensity of symmetry-induced correlations in the data; below this 'retarded-learning' threshold, the network weights are essentially noisy and overfit the data. | 翻訳日:2023-01-17 02:59:31 公開日:2019-12-30 |
# 量子ネットワークにおける非局在化情報 Delocalized information in quantum networks ( http://arxiv.org/abs/1912.12935v1 ) ライセンス: Link先を確認 | Jorge Miguel-Ramiro and Wolfgang D\"ur | (参考訳) 領域内やネットワーク全体の非局在的な方法で情報を格納する絡み合い型量子ネットワークを考える。
これにより、ネットワークノードの障害、損失と非一貫性に対する自然保護が実現され、セキュリティ機能が組み込まれている。
量子情報は個々のノードでのみ局所的な測定を行うことでネットワーク内で送信される。
情報は、ある領域内でのみ絡み合ったり、あるいは絡み合わなくても、協調的なアクションによって、リージョン内または特定のノードにローカライズすることができる。
本稿では,誤り訂正安定化符号,ディッケ状態,相関空間符号化について述べる。
符号化状態や相関空間リソースを用いた完全機能ネットワークの設計方法を示す。 We consider entanglement-based quantum networks where information is stored in a delocalized way within regions or the whole network. This offers a natural protection against failure of network nodes, loss and decoherence, and has built-in security features. Quantum information is transmitted within the network by performing local measurements on individual nodes only. Information can be localized within regions or at a specific node by collaborative actions using only entanglement within a region, or sometimes even without entanglement. We discuss several examples based on error correction stabilizer codes, Dicke states and correlation space encodings. We show how to design fully functional networks using encoded states or correlation space resources. | 翻訳日:2023-01-17 02:52:20 公開日:2019-12-30 |
# ビストキスティック写像によるエントロピーの不確かさ関係に対する下限の列 Sequences of lower bounds for entropic uncertainty relations from bistochastic maps ( http://arxiv.org/abs/1912.12991v1 ) ライセンス: Link先を確認 | Paolo Giorda | (参考訳) 2つの正則基底 A と B が与えられたとき、エントロピーの不確実性原理の基本形は、与えられた量子状態への A と B の測定確率のシャノンエントロピーの和として記述される。
この和に対する状態独立な下界は、A と B の基底に対角線を持つ可観測天体の不和性の度合いをカプセル化し、通常、2つの基底を接続するユニタリ作用素 U からできるだけ多くの情報を抽出することによって導出される。
ここでは,A と B に交互に測定した列に基づいて下界の列を導出する戦略を示す。この問題は,非定常行列が U から直接導出できる力によって記述できる,両確率過程の多重応用にマッピングすることができる。
その結果、純粋な状態と混合状態のシナリオの両方において、戦略が有利になることが示された。
下界の列は、基礎となるヒルベルト空間の次元における多項式である資源とともに得られ、従って高次元の場合の研究に適している。 Given two orthornormal bases A and B, the basic form of the entropic uncertainty principle is stated in terms of the sum of the Shannon entropies of the probabilities of measuring A and B onto a given quantum state. State independent lower bounds for this sum encapsulate the degree of incompatibility of the observables diagonal in the A and B bases, and are usually derived by extracting as much information as possible from the unitary operator U connecting the two bases. Here we show a strategy to derive sequences of lower bounds based on alternating sequences of measurements onto A and B. The problem can be mapped into the multiple application of bistochastic processes that can be described by the powers of the unistochastic matrices directly derivable from U. By means of several examples we study the applicability of the method. The results obtained show that the strategy can allow for an advantage both in the pure state and in the mixed state scenario. The sequence of lower bounds is obtained with resources which are polynomial in the dimension of the underlying Hilbert space, and it is thus suitable for studying high dimensional cases. | 翻訳日:2023-01-17 02:52:08 公開日:2019-12-30 |
# Boldly、これまでプロバーがいなかった場所へ Boldly Going Where No Prover Has Gone Before ( http://arxiv.org/abs/1912.12958v1 ) ライセンス: Link先を確認 | Giles Reger (University of Manchester) | (参考訳) 自動推論の研究者が直面している最も興味深いゴールは、既存のツールやメソッドで現在解決できない問題を解決することです。
これは明らかなように見え、明らかにオリジナルの考えではありませんが、主要な目標としてこれに焦点を当てることで、新しい光の下で他の目標を調べることが可能になります。
多くの成功した定理証明者は、問題を解くための様々な方法のポートフォリオを使っている。
既に解決できる問題の解決は、技術の現状を改善できないかもしれないし、現在の方法では解決できないが、ほとんどの問題では一般的には不十分である、いくつかの問題を解決する方法は非常に有用である。
ポートフォリオソルバと競合する新しい手法を強制することはイノベーションを損なう可能性があることを認めます。
しかし、これは解決された問題の総数で比較を行う場合のみである。
我々は,評価と競争におけるユニークなソリューション,すなわちポートフォリオ・ソルバへの潜在的貢献を評価することに焦点を当てる動きを提案する。
この状態は特に一階述語論理において顕著であり、決定不能である。
決定可能な論理で推論する場合、決定手順の最適化と平均解時間の測定に重点を置くことができる。
しかし、解を見つけるのが難しい環境では、平均的な解法時間は意味を失い、テクニックの効率性を改善することは許容できる時間内に潜在的な解を動かすことができるが、一般に補足的戦略はより成功するかもしれない。 I argue that the most interesting goal facing researchers in automated reasoning is being able to solve problems that cannot currently be solved by existing tools and methods. This may appear obvious, and is clearly not an original thought, but focusing on this as a primary goal allows us to examine other goals in a new light. Many successful theorem provers employ a portfolio of different methods for solving problems. This changes the landscape on which we perform our research: solving problems that can already be solved may not improve the state of the art and a method that can solve a handful of problems unsolvable by current methods, but generally performs poorly on most problems, can be very useful. We acknowledge that forcing new methods to compete against portfolio solvers can stifle innovation. However, this is only the case when comparisons are made at the level of total problems solved. We propose a movement towards focussing on unique solutions in evaluation and competitions i.e. measuring the potential contribution to a portfolio solver. This state of affairs is particularly prominent in first-order logic, which is undecidable. When reasoning in a decidable logic there can be a focus on optimising a decision procedure and measuring average solving times. But in a setting where solutions are difficult to find, average solving times lose meaning, and whilst improving the efficiency of a technique can move potential solutions within acceptable time limits, in general, complementary strategies may be more successful. | 翻訳日:2023-01-17 02:51:43 公開日:2019-12-30 |
# モデリング倫理における量化様相定理の証明について On Quantified Modal Theorem Proving for Modeling Ethics ( http://arxiv.org/abs/1912.12959v1 ) ライセンス: Link先を確認 | Naveen Sundar Govindarajulu (Rensselaer AI and Reasoning Lab), Selmer Bringsjord (Rensselaer Polytechnic Institute), Matthew Peveler (Rensselaer Polytechnic Institute) | (参考訳) 過去10年間、形式論理は、自律システム内でこれらのモデルを使用することを目標に、幅広い倫理理論と原則をモデル化するために使われてきた。
倫理理論をモデル化するための論理と、それらの自動推論は、時間的推論など他の目的のために使われるモーダル論理とは異なる要件を持つ。
これらの要件を満たすためには、証明自動化のための新しいアプローチの調査が必要である。
特に、定量化された様相論理(deontic cognitive event calculus (dcec))は、二重効果、失語、徳倫理の様々な種類のドクトリンをモデル化するために用いられる。
DCECの断片を用いて、これらの特徴を概説し、DCECのいくつかの側面の証明自動化に役立つアルゴリズムのスケッチを示す。 In the last decade, formal logics have been used to model a wide range of ethical theories and principles with the goal of using these models within autonomous systems. Logics for modeling ethical theories, and their automated reasoners, have requirements that are different from modal logics used for other purposes, e.g. for temporal reasoning. Meeting these requirements necessitates investigation of new approaches for proof automation. Particularly, a quantified modal logic, the deontic cognitive event calculus (DCEC), has been used to model various versions of the doctrine of double effect, akrasia, and virtue ethics. Using a fragment of DCEC, we outline these distinct characteristics and present a sketches of an algorithm that can help with some aspects proof automation for DCEC. | 翻訳日:2023-01-17 02:51:19 公開日:2019-12-30 |
# 声門音源推定のための複素ケプストラムを用いた音声の因果分解 Causal-Anticausal Decomposition of Speech using Complex Cepstrum for Glottal Source Estimation ( http://arxiv.org/abs/1912.12843v1 ) ライセンス: Link先を確認 | Thomas Drugman, Baris Bozkurt, Thierry Dutoit | (参考訳) 複素ケプストラムは、因果成分と対因果成分を線形に分離する文献で知られている。
本稿では,Z-Transform (ZZT) 手法のゼロによって達成された進歩を踏まえ,大規模データベース上でのスロットルフロー推定に複雑なケプストラムを用いることの可能性を検討する。
開窓効果の系統的研究により,特定の開窓基準が満たされた場合,複雑なケプストラムの因果分解を声門流量推定に有効に利用できることが示唆された。
また、この複雑なケプストラム分解は、ZZT法で得られたものと類似したスロットタル推定を与えることを示した。
しかし、複素ケプストラムは高次多項式の分解を必要とせず、FFT演算を使用するため、この手法ははるかに高速である。
最後に,実表現型音声の大規模コーパスを用いた実験において,提案手法が音声品質分析に有用であることを示す。 Complex cepstrum is known in the literature for linearly separating causal and anticausal components. Relying on advances achieved by the Zeros of the Z-Transform (ZZT) technique, we here investigate the possibility of using complex cepstrum for glottal flow estimation on a large-scale database. Via a systematic study of the windowing effects on the deconvolution quality, we show that the complex cepstrum causal-anticausal decomposition can be effectively used for glottal flow estimation when specific windowing criteria are met. It is also shown that this complex cepstral decomposition gives similar glottal estimates as obtained with the ZZT method. However, as complex cepstrum uses FFT operations instead of requiring the factoring of high-degree polynomials, the method benefits from a much higher speed. Finally in our tests on a large corpus of real expressive speech, we show that the proposed method has the potential to be used for voice quality analysis. | 翻訳日:2023-01-17 02:50:42 公開日:2019-12-30 |
# ピッチ同期残差符号ブックを用いたハイブリッドHMM/フレーム選択音声合成 Using a Pitch-Synchronous Residual Codebook for Hybrid HMM/Frame Selection Speech Synthesis ( http://arxiv.org/abs/1912.12887v1 ) ライセンス: Link先を確認 | Thomas Drugman, Alexis Moinet, Thierry Dutoit, Geoffrey Wilfart | (参考訳) 本稿では,統計的パラメトリック音声合成器による品質向上手法を提案する。
そこで我々は,ピッチ同期残差フレームのコードブックを用いて,よりリアルな音源信号を構築する。
まず、典型的な引用の限定的なコードブックがトレーニングデータベースから構築される。
合成部では、HMMを用いてフィルタとソース係数を生成する。
後者の係数は、ピッチと目標残留フレームのコンパクトな表現の両方を含む。
選択基準に基づいてコードブックから選択した励磁フレームを連結し、目標残差係数を入力としてソース信号を得る。
主観的な結果は,基本技術と比較して改善が見られた。 This paper proposes a method to improve the quality delivered by statistical parametric speech synthesizers. For this, we use a codebook of pitch-synchronous residual frames, so as to construct a more realistic source signal. First a limited codebook of typical excitations is built from some training database. During the synthesis part, HMMs are used to generate filter and source coefficients. The latter coefficients contain both the pitch and a compact representation of target residual frames. The source signal is obtained by concatenating excitation frames picked up from the codebook, based on a selection criterion and taking target residual coefficients as input. Subjective results show a relevant improvement compared to the basic technique. | 翻訳日:2023-01-17 02:50:25 公開日:2019-12-30 |
# 相関フィルタに基づく追跡における畳み込み特徴の再考 Rethinking Convolutional Features in Correlation Filter Based Tracking ( http://arxiv.org/abs/1912.12811v1 ) ライセンス: Link先を確認 | Fang Liang, Wenjun Peng, Qinghao Liu, Haijin Wang | (参考訳) 正確性と効率性は、視覚オブジェクト追跡のタスクにおいて重要である。
近年、深層学習の急増に伴い、深層畳み込みニューラルネットワーク(dcnn)が追跡コミュニティの中で非常に人気のある選択肢となっている。
しかし、計算の複雑さが高いため、エンドツーエンドのビジュアルオブジェクトトラッカーは許容できる推論時間を達成できないため、多くの実世界のアプリケーションで利用するのが困難である。
本稿では,階層的な特徴量に基づく視覚トラッカーを再検討し,その性能と効率は,特徴品質の低下によって制限されることを示した。
そこで本研究では,トラッカの識別機能を選択するための特徴選択モジュールを提案する。
冗長な機能を取り除いた後、提案するトラッカーは性能と効率の両方で大幅に改善される。
最後に、最先端トラッカーとの比較を行う。 Both accuracy and efficiency are of significant importance to the task of visual object tracking. In recent years, as the surge of deep learning, Deep Convolutional NeuralNetwork (DCNN) becomes a very popular choice among the tracking community. However, due to the high computational complexity, end-to-end visual object trackers can hardly achieve an acceptable inference time and therefore can difficult to be utilized in many real-world applications. In this paper, we revisit a hierarchical deep feature-based visual tracker and found that both the performance and efficiency of the deep tracker are limited by the poor feature quality. Therefore, we propose a feature selection module to select more discriminative features for the trackers. After removing redundant features, our proposed tracker achieves significant improvements in both performance and efficiency. Finally, comparisons with state-of-the-art trackers are provided. | 翻訳日:2023-01-17 02:44:07 公開日:2019-12-30 |
# 2ストリームアーキテクチャによる敵の例から守る Defending from adversarial examples with a two-stream architecture ( http://arxiv.org/abs/1912.12859v1 ) ライセンス: Link先を確認 | Hao Ge, Xiaoguang Tu, Mei Xie, Zheng Ma | (参考訳) 近年、ディープラーニングは多くのタスクで顕著なパフォーマンスを示している。
しかし、最近の研究では、深層学習システムは人間には受け入れられない小さな、特別に作られた摂動に弱いことが示されている。
このような摂動のあるイメージは、いわゆる逆境の例であり、DNNベースのアプリケーションにとって決定的な脅威であることが証明されている。
DNNの理解が良くないことは、敵の例に対する効率的な防御の開発を妨げている。
本稿では,cnnを敵の事例からの攻撃から守る2つのストリームアーキテクチャを提案する。
本モデルでは,セキュリティ分野において一般的な「2ストリーム」の概念を取り入れ,特徴抽出における「高解像度」ネットワークと「低解像度」ネットワークの違いにより,様々な攻撃手法の防衛に成功した。
我々は,2ストリームアーキテクチャがなぜ打ち破るのが難しいのかを合理的に解釈し,我々の手法が最先端の攻撃で打ち破るのが難しいことを実験的に示す。
我々の2ストリームアーキテクチャは、現在知られている攻撃アルゴリズムによって構築された敵の例に対して堅牢であることを示す。 In recent years, deep learning has shown impressive performance on many tasks. However, recent researches showed that deep learning systems are vulnerable to small, specially crafted perturbations that are imperceptible to humans. Images with such perturbations are the so called adversarial examples, which have proven to be an indisputable threat to the DNN based applications. The lack of better understanding of the DNNs has prevented the development of efficient defenses against adversarial examples. In this paper, we propose a two-stream architecture to protect CNN from attacking by adversarial examples. Our model draws on the idea of "two-stream" which commonly used in the security field, and successfully defends different kinds of attack methods by the differences of "high-resolution" and "low-resolution" networks in feature extraction. We provide a reasonable interpretation on why our two-stream architecture is difficult to defeat, and show experimentally that our method is hard to defeat with state-of-the-art attacks. We demonstrate that our two-stream architecture is robust to adversarial examples built by currently known attacking algorithms. | 翻訳日:2023-01-17 02:43:54 公開日:2019-12-30 |
# 予め定義されたパターンと空間領域情報に基づく局所テクスチャ情報に基づく画像検索手法 Image retrieval approach based on local texture information derived from predefined patterns and spatial domain information ( http://arxiv.org/abs/1912.12978v1 ) ライセンス: Link先を確認 | Nazgol Hor, Shervan Fekri-Ershad | (参考訳) 情報技術とコミュニケーションの発展により、データベースの大部分は画像やビデオに特化している。
これにより、大規模データベースからクエリ画像に関連する画像を取得することは、コンピュータビジョンにおいて重要な研究領域となっている。
これまで、テクスチャ、色、形状によって画像内容を定義する様々な画像検索方法が存在する。
本稿では,2つの異なるテクスチャ記述子から得られる局所テクスチャ情報を組み合わせて画像検索を行う手法を提案する。
まず、入力画像の色チャンネルを分離する。
テクスチャ情報は、評価済みローカルバイナリパターンや予め定義されたパターンユニットといった2つの記述子を用いて抽出される。
特徴を抽出した後、距離基準に基づいて類似性マッチングを行う。
提案手法の性能は,簡易データベース上での精度とリコールの観点から評価した。
比較の結果,提案手法は多くの既知の手法よりも精度が高いことがわかった。 With the development of Information technology and communication, a large part of the databases is dedicated to images and videos. Thus retrieving images related to a query image from a large database has become an important area of research in computer vision. Until now, there are various methods of image retrieval that try to define image contents by texture, color or shape properties. In this paper, a method is presented for image retrieval based on a combination of local texture information derived from two different texture descriptors. First, the color channels of the input image are separated. The texture information is extracted using two descriptors such as evaluated local binary patterns and predefined pattern units. After extracting the features, the similarity matching is done based on distance criteria. The performance of the proposed method is evaluated in terms of precision and recall on the Simplicity database. The comparative results showed that the proposed approach offers higher precision rate than many known methods. | 翻訳日:2023-01-17 02:42:07 公開日:2019-12-30 |
# 超解像顔画像の特徴正規化 Characteristic Regularisation for Super-Resolving Face Images ( http://arxiv.org/abs/1912.12987v1 ) ライセンス: Link先を確認 | Zhiyi Cheng, Xiatian Zhu, Shaogang Gong | (参考訳) 既存の顔画像超解像法(SR)は、主に人工的にダウンサンプリングされた低解像度(LR)画像の改善に焦点を当てている。
このようなSRモデルは、人工LR画像の処理に長けているが、真のLRテストデータに対する大きな性能低下に悩まされることが多い。
従来の非教師なしドメイン適応(UDA)手法は、未ペアの真のLRとHRデータとサイクル整合損失の定式化を用いてモデルをトレーニングすることでこの問題に対処する。
しかし、このモデルでは、視覚特性の構成と解像度向上という2つのタスクがオーバーストレッチされている。
重要なことに、エンドツーエンドモデルのトレーニングは、2つの連結cnnによる逆伝播勾配の難しさのために効果がない。
この問題を解決するために、従来のSRモデルとUDAモデルの利点を結合する手法を定式化する。
具体的には,特徴分担と画像超解像の最適化を分離制御し,特徴分担(CR)を導入する。
このタスク分割により、モデルトレーニングはより効果的で、計算的に抽出できる。
実画像データと人工顔画像データの両方において,最先端のSRモデルとUDAモデルよりも優れた性能を示す。 Existing facial image super-resolution (SR) methods focus mostly on improving artificially down-sampled low-resolution (LR) imagery. Such SR models, although strong at handling artificial LR images, often suffer from significant performance drop on genuine LR test data. Previous unsupervised domain adaptation (UDA) methods address this issue by training a model using unpaired genuine LR and HR data as well as cycle consistency loss formulation. However, this renders the model overstretched with two tasks: consistifying the visual characteristics and enhancing the image resolution. Importantly, this makes the end-to-end model training ineffective due to the difficulty of back-propagating gradients through two concatenated CNNs. To solve this problem, we formulate a method that joins the advantages of conventional SR and UDA models. Specifically, we separate and control the optimisations for characteristics consistifying and image super-resolving by introducing Characteristic Regularisation (CR) between them. This task split makes the model training more effective and computationally tractable. Extensive evaluations demonstrate the performance superiority of our method over state-of-the-art SR and UDA models on both genuine and artificial LR facial imagery data. | 翻訳日:2023-01-17 02:41:55 公開日:2019-12-30 |
# パラメータ化カラーエンハンスメントの教師あり・教師なし学習 Supervised and Unsupervised Learning of Parameterized Color Enhancement ( http://arxiv.org/abs/2001.05843v1 ) ライセンス: Link先を確認 | Yoav Chai, Raja Giryes, Lior Wolf | (参考訳) 色強調の問題を画像翻訳タスクとして扱い、教師なし学習と教師なし学習の両方を用いて取り組む。
従来の画像生成装置とは異なり、画像情報を直接マップするのではなく、グローバルなパラメータ化色変換を用いて翻訳を行う。
教師付きケースでは、各トレーニング画像が所望の目標画像とペアリングされ、専門家が修正した画像から変換のパラメータを畳み込みニューラルネットワーク(CNN)が学習する。
非ペアの場合、これらのパラメータを学習し、円度制約を適用するために2方向生成対向ネットワーク(GAN)を用いる。
我々は,MIT-Adobe FiveKベンチマークにおいて,教師付き(ペアデータ)と教師なし(ペアデータ)の2つの画像強調手法と比較して,最先端の結果を得た。
さらに,20世紀前半の写真や暗黒ビデオフレームに適用することにより,本手法の一般化能力を示す。 We treat the problem of color enhancement as an image translation task, which we tackle using both supervised and unsupervised learning. Unlike traditional image to image generators, our translation is performed using a global parameterized color transformation instead of learning to directly map image information. In the supervised case, every training image is paired with a desired target image and a convolutional neural network (CNN) learns from the expert retouched images the parameters of the transformation. In the unpaired case, we employ two-way generative adversarial networks (GANs) to learn these parameters and apply a circularity constraint. We achieve state-of-the-art results compared to both supervised (paired data) and unsupervised (unpaired data) image enhancement methods on the MIT-Adobe FiveK benchmark. Moreover, we show the generalization capability of our method, by applying it on photos from the early 20th century and to dark video frames. | 翻訳日:2023-01-17 02:41:35 公開日:2019-12-30 |
# 限界における段階的ニューラルグラフの探索 Searching for Stage-wise Neural Graphs In the Limit ( http://arxiv.org/abs/1912.12860v1 ) ライセンス: Link先を確認 | Xin Zhou, Dejing Dou, Boyang Li | (参考訳) 検索空間は、ニューラルネットワーク検索の重要な考慮事項である。
最近、Xie et al. (2019) は、同じ分布からランダムに生成されたネットワークも同様に動作し、グラフの代わりにランダムなグラフ分布を探索すべきであることを示した。
我々は新しい検索空間としてGraphonを提案する。
グラフオンとは、グラフのコーシー列とスケールのない確率分布の極限であり、そこから異なる数のノードのグラフを描くことができる。
グラフェン空間とそれに伴うカット距離計量の特性を利用することで、小さなデータセットにある小容量のステージワイズグラフを、イメージネットを処理可能な大容量グラフに探索・拡張する理論的動機付け技術を開発する。
スケールしたステージワイドグラフは、DenseNetやランダムに配線されたWatts-Strogatzネットワークよりも優れており、NAS応用におけるグラノン理論の利点を示している。 Search space is a key consideration for neural architecture search. Recently, Xie et al. (2019) found that randomly generated networks from the same distribution perform similarly, which suggests we should search for random graph distributions instead of graphs. We propose graphon as a new search space. A graphon is the limit of Cauchy sequence of graphs and a scale-free probabilistic distribution, from which graphs of different number of nodes can be drawn. By utilizing properties of the graphon space and the associated cut-distance metric, we develop theoretically motivated techniques that search for and scale up small-capacity stage-wise graphs found on small datasets to large-capacity graphs that can handle ImageNet. The scaled stage-wise graphs outperform DenseNet and randomly wired Watts-Strogatz networks, indicating the benefits of graphon theory in NAS applications. | 翻訳日:2023-01-17 02:41:18 公開日:2019-12-30 |
# 機能非スティル化によるInstagramのフィルタ画像認識 Recognizing Instagram Filtered Images with Feature De-stylization ( http://arxiv.org/abs/1912.13000v1 ) ライセンス: Link先を確認 | Zhe Wu, Zuxuan Wu, Bharat Singh, Larry S. Davis | (参考訳) 深層ニューラルネットワークは、小さな摂動(ガウスノイズのような)が加えられたときの一般化が貧弱であることが示されているが、フォトフィルターのようなより自然な画像変換に対する頑健性を評価するための研究はほとんど行われていない。
本稿では,一般的なinstagramフィルタによる事前学習モデルへの影響について検討する。
この目的のために、imagenetのフィルタバージョンであるimagenet-instagramを紹介し、imagenetの各イメージに20の人気のあるinstagramフィルタを適用する。
解析の結果,画像の全体像のみを変化させる単純な構造保存フィルタは畳み込み特徴空間に大きな差をもたらす可能性が示唆された。
汎用性を向上させるために,特徴マップのスケーリングやシフトに使用されるパラメータを予測し,フィルタによって発生する変更をアンドにし,スタイル転送タスクのプロセスを反転させる軽量な非スタイライゼーションモジュールを提案する。
我々はさらに、モジュールをスキップ接続と共に最新のcnnアーキテクチャに容易にプラグインできることを実証する。
本研究では,imagenet-instagramに関する広範囲な研究を行い,提案するモジュールがネットワーク全体を再トレーニングすることなく正規化パラメータを学習することによって,フィルタによる特徴空間の変化を回復することにより,一般化を効果的に改善できることを示す。 Deep neural networks have been shown to suffer from poor generalization when small perturbations are added (like Gaussian noise), yet little work has been done to evaluate their robustness to more natural image transformations like photo filters. This paper presents a study on how popular pretrained models are affected by commonly used Instagram filters. To this end, we introduce ImageNet-Instagram, a filtered version of ImageNet, where 20 popular Instagram filters are applied to each image in ImageNet. Our analysis suggests that simple structure preserving filters which only alter the global appearance of an image can lead to large differences in the convolutional feature space. To improve generalization, we introduce a lightweight de-stylization module that predicts parameters used for scaling and shifting feature maps to "undo" the changes incurred by filters, inverting the process of style transfer tasks. We further demonstrate the module can be readily plugged into modern CNN architectures together with skip connections. We conduct extensive studies on ImageNet-Instagram, and show quantitatively and qualitatively, that the proposed module, among other things, can effectively improve generalization by simply learning normalization parameters without retraining the entire network, thus recovering the alterations in the feature space caused by the filters. | 翻訳日:2023-01-17 02:34:39 公開日:2019-12-30 |
# 抽象要約(DR.SAS)のための深部強化自己注意マスク Deep Reinforced Self-Attention Masks for Abstractive Summarization (DR.SAS) ( http://arxiv.org/abs/2001.00009v1 ) ライセンス: Link先を確認 | Ankit Chadha and Mohamed Masoud | (参考訳) 本稿では,事前学習されたディープラーニングモデルであるunilmと強化学習(rl)を融合させたcnn/dmdatasetに基づく抽象的要約問題に対処し,様々な自然言語課題を解決するための新しいアーキテクチャスキームを提案する。
要約品質を向上させるためにトランスフォーマーの微妙な注意を学習する限界を検証した。
UniLMは、グローバルな方法でトークン空間全体に注意を向けます。
本稿では,アクタ・クリティカル(AC)アルゴリズムを用いてトークン上の動的自己アテンション分布を学習し,冗長性を低減し,現実的かつ一貫性のある要約を生成し,要約の質を向上するDR.SASを提案する。
ハイパーパラメータチューニングを行った結果,ベースラインと比較してROUGEを達成できた。
我々のモデルは、ROUGEの報酬に対する最適化のため、より抽出的かつ実効的だが詳細は一貫性がある傾向にある。
本稿では,モデルの強みと限界を例に,詳細な誤差解析を行う。
コードベースはgithubで公開される予定だ。 We present a novel architectural scheme to tackle the abstractive summarization problem based on the CNN/DMdataset which fuses Reinforcement Learning (RL) withUniLM, which is a pre-trained Deep Learning Model, to solve various natural language tasks. We have tested the limits of learning fine-grained attention in Transformers to improve the summarization quality. UniLM applies attention to the entire token space in a global fashion. We propose DR.SAS which applies the Actor-Critic (AC) algorithm to learn a dynamic self-attention distribution over the tokens to reduce redundancy and generate factual and coherent summaries to improve the quality of summarization. After performing hyperparameter tuning, we achievedbetter ROUGE results compared to the baseline. Our model tends to be more extractive/factual yet coherent in detail because of optimization over ROUGE rewards. We present detailed error analysis with examples of the strengths and limitations of our model. Our codebase will be publicly available on our GitHub. | 翻訳日:2023-01-17 02:33:24 公開日:2019-12-30 |
# ConceptNetを使ってCommon Senseを自動定理プローバーに教える Using ConceptNet to Teach Common Sense to an Automated Theorem Prover ( http://arxiv.org/abs/1912.12957v1 ) ライセンス: Link先を確認 | Claudia Schon, Sophie Siebert, Frieder Stolzenburg | (参考訳) CoRgシステムは常識推論問題を解決するシステムである。
CoRgシステムの中核は、大量の背景知識が供給される自動定理証明器Hyperである。
この背景知識は、常識推論問題を解決する上で重要な役割を果たす。
本稿では,知識グラフを背景知識として利用するさまざまな方法を提案する。 The CoRg system is a system to solve commonsense reasoning problems. The core of the CoRg system is the automated theorem prover Hyper that is fed with large amounts of background knowledge. This background knowledge plays a crucial role in solving commonsense reasoning problems. In this paper we present different ways to use knowledge graphs as background knowledge and discuss challenges that arise. | 翻訳日:2023-01-17 02:32:56 公開日:2019-12-30 |
# PMC-GANs:マルチモーダルカスケードGANを用いたマルチスケール高性能ペデストリアンの生成 PMC-GANs: Generating Multi-Scale High-Quality Pedestrian with Multimodal Cascaded GANs ( http://arxiv.org/abs/1912.12799v1 ) ライセンス: Link先を確認 | Jie Wu, Ying Peng, Chenghao Zheng, Zongbo Hao, Jian Zhang | (参考訳) 近年,GAN(Generative Adversarial Network)は画像合成において大きな優位性を示し,偽画像を用いたデータ拡張の探索が進められている。
本稿では, 現実的で多様な歩行者画像を生成し, 歩行者検出データを拡張するためのマルチモーダル・カスケード生成対向ネットワーク(PMC-GAN)を提案する。
本モデルの生成者は,マルチスケールの残差ブロックを符号化する残差u-net構造と,歩行者画像のデコードと再構築を支援する注意残差ブロックを適用する。
このモデルは細部まで粗い構造をしており、高い解像度の歩行者を生み出すのに役立つカスケード構造を採用している。
PMC-GANはベースラインを上回り、データ拡張に使用すると歩行者検出結果が改善される。 Recently, generative adversarial networks (GANs) have shown great advantages in synthesizing images, leading to a boost of explorations of using faked images to augment data. This paper proposes a multimodal cascaded generative adversarial networks (PMC-GANs) to generate realistic and diversified pedestrian images and augment pedestrian detection data. The generator of our model applies a residual U-net structure, with multi-scale residual blocks to encode features, and attention residual blocks to help decode and rebuild pedestrian images. The model constructs in a coarse-to-fine fashion and adopts cascade structure, which is beneficial to produce high-resolution pedestrians. PMC-GANs outperforms baselines, and when used for data augmentation, it improves pedestrian detection results. | 翻訳日:2023-01-17 02:32:25 公開日:2019-12-30 |
# 通信複雑度が低い局所SGDのばらつき低減 Variance Reduced Local SGD with Lower Communication Complexity ( http://arxiv.org/abs/1912.12844v1 ) ライセンス: Link先を確認 | Xianfeng Liang, Shuheng Shen, Jingchang Liu, Zhen Pan, Enhong Chen, Yifei Cheng | (参考訳) 機械学習モデルのトレーニングを加速するために、分散確率勾配降下(SGD)とその変種が広く採用され、トレーニングを高速化するために複数のワーカーが並行して適用されている。
中でもローカルSGDは通信コストの低さから注目されている。
それでも、ワーカのデータ分散が識別不能である場合、ローカルsgd は \emph{linear iteration speedup} プロパティを維持するために $o(t^{\frac{3}{4}} n^{\frac{3}{4}})$ communications を必要とし、ここで $t$ は反復の総数、$n$ はワーカ数である。
本稿では, 通信の複雑さをさらに軽減するために, Variance Reduced Local SGD (VRL-SGD) を提案する。
vrl-sgdは、労働者間の勾配分散の依存性をなくすことで、たとえ労働者が非同一のデータセットにアクセスしたとしても、より低い通信複雑性である$o(t^{\frac{1}{2}} n^{\frac{3}{2}})$の \emph{linear iteration speedup} を達成できることを理論的に証明する。
3つの機械学習タスクについて実験を行い,vrl-sgdは,作業者間のデータが極めて多様である場合,ローカルsgdよりも優れた性能を示す。 To accelerate the training of machine learning models, distributed stochastic gradient descent (SGD) and its variants have been widely adopted, which apply multiple workers in parallel to speed up training. Among them, Local SGD has gained much attention due to its lower communication cost. Nevertheless, when the data distribution on workers is non-identical, Local SGD requires $O(T^{\frac{3}{4}} N^{\frac{3}{4}})$ communications to maintain its \emph{linear iteration speedup} property, where $T$ is the total number of iterations and $N$ is the number of workers. In this paper, we propose Variance Reduced Local SGD (VRL-SGD) to further reduce the communication complexity. Benefiting from eliminating the dependency on the gradient variance among workers, we theoretically prove that VRL-SGD achieves a \emph{linear iteration speedup} with a lower communication complexity $O(T^{\frac{1}{2}} N^{\frac{3}{2}})$ even if workers access non-identical datasets. We conduct experiments on three machine learning tasks, and the experimental results demonstrate that VRL-SGD performs impressively better than Local SGD when the data among workers are quite diverse. | 翻訳日:2023-01-17 02:26:24 公開日:2019-12-30 |
# イノベーションサーチによる外乱検出とデータクラスタリング Outlier Detection and Data Clustering via Innovation Search ( http://arxiv.org/abs/1912.12988v1 ) ライセンス: Link先を確認 | Mostafa Rahmani and Ping Li | (参考訳) Innovation Searchのアイデアは,隣接行列の計算にイノベーションの方向性を利用するデータクラスタリング手法として提案され,Innovation Pursuitは自己表現に基づくサブスペースクラスタリング手法よりも優れていることが示された。
本稿では,イノベーションの方向性を,証明可能かつ強固な(外れ値)pca法の設計に応用できることを新たに発見する。
提案手法はiSearchと呼ばれ、方向探索最適化問題を用いて各データポイントに対応する最適方向を算出する。
isearchはイノベーションの方向を利用してデータポイントのイノベーションを計測し、外れ値を最も革新的なデータポイントとして識別する。
異なるモデルに基づくロバストpca法について,ランダム分布のアウトリアー,クラスタ分布のアウトリアー,線形依存のアウトリアーなどのアウトリアー分布について解析的性能保証を導出する。
さらに,サブスペースの和合体における外乱検出の問題について検討し,iSearchがサブスペースの和合体内にある場合,インレーヤの幅を確実に回復することを示した。
さらに,提案手法はノイズの存在下で安定であり,iSearchの性能はノイズの多いデータに対して堅牢であることを示す理論的研究を行った。
外れ値が互いに近かったり、外れ値の範囲に近かったりする難しいシナリオでは、isearchが既存のメソッドの大部分を著しく上回っていることが示される。
提案手法は,データクラスタリングと外乱検出の両方に使用可能なデータに対して,イノベーションの方向性が有用であることを示す。 The idea of Innovation Search was proposed as a data clustering method in which the directions of innovation were utilized to compute the adjacency matrix and it was shown that Innovation Pursuit can notably outperform the self representation based subspace clustering methods. In this paper, we present a new discovery that the directions of innovation can be used to design a provable and strong robust (to outlier) PCA method. The proposed approach, dubbed iSearch, uses the direction search optimization problem to compute an optimal direction corresponding to each data point. iSearch utilizes the directions of innovation to measure the innovation of the data points and it identifies the outliers as the most innovative data points. Analytical performance guarantees are derived for the proposed robust PCA method under different models for the distribution of the outliers including randomly distributed outliers, clustered outliers, and linearly dependent outliers. In addition, we study the problem of outlier detection in a union of subspaces and it is shown that iSearch provably recovers the span of the inliers when the inliers lie in a union of subspaces. Moreover, we present theoretical studies which show that the proposed measure of innovation remains stable in the presence of noise and the performance of iSearch is robust to noisy data. In the challenging scenarios in which the outliers are close to each other or they are close to the span of the inliers, iSearch is shown to remarkably outperform most of the existing methods. The presented method shows that the directions of innovation are useful representation of the data which can be used to perform both data clustering and outlier detection. | 翻訳日:2023-01-17 02:24:32 公開日:2019-12-30 |
# 新しいバローズホイーラーはマルコフ距離を変換する A New Burrows Wheeler Transform Markov Distance ( http://arxiv.org/abs/1912.13046v1 ) ライセンス: Link先を確認 | Edward Raff, Charles Nicholas, Mark McLean | (参考訳) 圧縮アルゴリズムにインスパイアされた以前の研究は、バイオインフォマティクス問題に対する距離測定を作成するためにBurrows Wheeler Transformをどのように使用できるかを記述している。
我々は、広く知られていなかったこのアプローチの問題を説明し、新しいBurrows Wheeler Markov Distance (BWMD) を代替として紹介する。
BWMDは、以前の取り組みの欠点を回避し、可変長DNAシークエンスクラスタリングの問題に取り組むことができる。
BWMDは、マルウェア分類タスクにおいて、他のドメインにも適応可能である。
圧縮に基づく他の距離測定と異なり、BWMDは配列を固定長特徴ベクトルに埋め込むことで機能する。
これにより,従来手法の弱点である大規模マルウェアコーパスのクラスタリング性能が大幅に向上します。 Prior work inspired by compression algorithms has described how the Burrows Wheeler Transform can be used to create a distance measure for bioinformatics problems. We describe issues with this approach that were not widely known, and introduce our new Burrows Wheeler Markov Distance (BWMD) as an alternative. The BWMD avoids the shortcomings of earlier efforts, and allows us to tackle problems in variable length DNA sequence clustering. BWMD is also more adaptable to other domains, which we demonstrate on malware classification tasks. Unlike other compression-based distance metrics known to us, BWMD works by embedding sequences into a fixed-length feature vector. This allows us to provide significantly improved clustering performance on larger malware corpora, a weakness of prior methods. | 翻訳日:2023-01-17 02:24:04 公開日:2019-12-30 |
# マルチエージェントデータの構造発見と表現学習の改善 Improved Structural Discovery and Representation Learning of Multi-Agent Data ( http://arxiv.org/abs/1912.13107v1 ) ライセンス: Link先を確認 | Jennifer Hobbs, Matthew Holbrook, Nathan Frank, Long Sha, Patrick Lucey | (参考訳) すべての機械学習アルゴリズムの中心はデータ表現である。
マルチエージェントシステムでは、エージェント間のインタラクションを適切にキャプチャする表現の選択は、コンテキストによって異なる可能性のあるグループ構造のために困難である。
しかし、強い群構造を持つマルチエージェントシステムでは、この構造を同時に学習し、エージェントの集合を一貫した順序の表現にマッピングして、さらなる学習を行うことができる。
本稿では,構造化マルチエージェントデータのロバストな順序付けを実現する動的アライメント手法を提案する。
プロリーグからの大量のサッカー追跡データを用いて,このアプローチの価値を実証する。 Central to all machine learning algorithms is data representation. For multi-agent systems, selecting a representation which adequately captures the interactions among agents is challenging due to the latent group structure which tends to vary depending on context. However, in multi-agent systems with strong group structure, we can simultaneously learn this structure and map a set of agents to a consistently ordered representation for further learning. In this paper, we present a dynamic alignment method which provides a robust ordering of structured multi-agent data enabling representation learning to occur in a fraction of the time of previous methods. We demonstrate the value of this approach using a large amount of soccer tracking data from a professional league. | 翻訳日:2023-01-17 02:23:30 公開日:2019-12-30 |
# 正規化フローを用いた半教師付き学習 Semi-Supervised Learning with Normalizing Flows ( http://arxiv.org/abs/1912.13025v1 ) ライセンス: Link先を確認 | Pavel Izmailov, Polina Kirichenko, Marc Finzi, Andrew Gordon Wilson | (参考訳) 正規化フローは、可逆性ニューラルネットワークを通じて潜在分布を変換し、正確な確率を保ちながら、生成モデリングに対する柔軟で快くシンプルなアプローチを実現する。
本稿では,フローの正規化を伴う生成半教師付き学習のエンドツーエンドアプローチであるFlowGMMを提案する。
flowgmmは単純さ、ラベル付きデータとラベル付きデータの統一的な扱い、正確な可能性、解釈可能性、画像データを超えた幅広い適用性において異なる。
我々はAG-NewsやYahoo Answersのテキストデータ、表データ、半教師付き画像分類など、幅広いアプリケーションにおいて有望な結果を示す。
また、FlowGMMは解釈可能な構造を発見し、リアルタイムな最適化不要な特徴可視化を提供し、よく校正された予測分布を指定できることを示す。 Normalizing flows transform a latent distribution through an invertible neural network for a flexible and pleasingly simple approach to generative modelling, while preserving an exact likelihood. We propose FlowGMM, an end-to-end approach to generative semi supervised learning with normalizing flows, using a latent Gaussian mixture model. FlowGMM is distinct in its simplicity, unified treatment of labelled and unlabelled data with an exact likelihood, interpretability, and broad applicability beyond image data. We show promising results on a wide range of applications, including AG-News and Yahoo Answers text data, tabular data, and semi-supervised image classification. We also show that FlowGMM can discover interpretable structure, provide real-time optimization-free feature visualizations, and specify well calibrated predictive distributions. | 翻訳日:2023-01-17 02:17:19 公開日:2019-12-30 |
# 大規模医療保険請求データを用いて非常に高価な請求者を予測する:機械学習アプローチ Using massive health insurance claims data to predict very high-cost claimants: a machine learning approach ( http://arxiv.org/abs/1912.13032v1 ) ライセンス: Link先を確認 | Jos\'e M. Maisog and Wenhong Li and Yanchun Xu and Brian Hurley and Hetal Shah and Ryan Lemberg and Tina Borden and Stephen Bandeian and Melissa Schline and Roxanna Cross and Alan Spiro and Russ Michael and Alexander Gutfraind | (参考訳) 医療費の増大により、どの患者が高コストになるかを正確に予測することは、医療提供者や支払者にとって重要な課題である。
ハイコスト請求者 (HiCCs) は、年間250,000ドル以上の費用がかかる患者であり、被保険者の0.16%に過ぎず、現在の医療費の9%を占めている。
本研究では,hiccsを予測し,新しいケア管理システムに通知する高性能アルゴリズムを開発することを目的とした。
人口4800万人の健康保険請求と国勢調査データを用いて,2進分類モデルのトレーニングに機械学習を適用し,hiccの個人的リスクを算出した。
モデルのトレーニングのために, 臨床および人口動態の全体にわたって6,006変数のプラットフォームを開発し, 100以上の候補モデルを構築した。
最良モデルは受信機動作特性曲線91.2%の範囲を達成した。
このモデルが最も高い成績(84%)を上回り、高コスト状態の既往歴がない(89%)、1年未満の入学率(87%)、薬局の請求データ(88%)を欠いている患者にとって高い水準を維持している。
精度リコール曲線23.1%、精度74%の領域をしきい値0.99で達成する。
hiccリスクの高い500人を対象にしたケアマネジメントプログラムでは、199のhccを治療し、年間7.3億ドルの純貯蓄が期待されている。
この結果から,250,000ドルを超える稀な高コスト請求者であっても,クレームデータと公開データだけで高い性能の予測モデルを構築できることが示唆された。
本モデルは,医療従事者や提供者が次世代のケア管理プログラムを導入することができるように,医療管理における機械学習と人工知能の変容力を実証する。 Due to escalating healthcare costs, accurately predicting which patients will incur high costs is an important task for payers and providers of healthcare. High-cost claimants (HiCCs) are patients who have annual costs above $\$250,000$ and who represent just 0.16% of the insured population but currently account for 9% of all healthcare costs. In this study, we aimed to develop a high-performance algorithm to predict HiCCs to inform a novel care management system. Using health insurance claims from 48 million people and augmented with census data, we applied machine learning to train binary classification models to calculate the personal risk of HiCC. To train the models, we developed a platform starting with 6,006 variables across all clinical and demographic dimensions and constructed over one hundred candidate models. The best model achieved an area under the receiver operating characteristic curve of 91.2%. The model exceeds the highest published performance (84%) and remains high for patients with no prior history of high-cost status (89%), who have less than a full year of enrollment (87%), or lack pharmacy claims data (88%). It attains an area under the precision-recall curve of 23.1%, and precision of 74% at a threshold of 0.99. A care management program enrolling 500 people with the highest HiCC risk is expected to treat 199 true HiCCs and generate a net savings of $\$7.3$ million per year. Our results demonstrate that high-performing predictive models can be constructed using claims data and publicly available data alone, even for rare high-cost claimants exceeding $\$250,000$. Our model demonstrates the transformational power of machine learning and artificial intelligence in care management, which would allow healthcare payers and providers to introduce the next generation of care management programs. | 翻訳日:2023-01-17 02:17:05 公開日:2019-12-30 |
# 表現マッチングと適応型ハイパーパラメータによるロバスト連合学習 Robust Federated Learning Through Representation Matching and Adaptive Hyper-parameters ( http://arxiv.org/abs/1912.13075v1 ) ライセンス: Link先を確認 | Hesham Mostafa | (参考訳) フェデレーション学習(federated learning)は、複数のクライアントに属するデータに対して単一のモデルをトレーニングする、プライバシを意識した分散学習シナリオである。
各クライアントはデータ上でローカルモデルをトレーニングし、そのローカルモデルは中央のパーティによって集約される。
現在のフェデレーション学習手法では、異種なクライアント側データ分散の場合には、ローカルモデルの違いとパフォーマンスの低下に素早くつながります。
注意深いハイパーパラメータチューニングは、これらのケースでは特に重要であるが、従来の自動ハイパーパラメータチューニング手法では、連合学習環境では実用的でないいくつかのトレーニング試行が必要になる。
フェデレート学習環境におけるロバストネスとハイパーパラメータチューニングの問題に対する2段階の解法について述べる。
本稿では,グローバル(集約)モデルの特徴表現を局所学習表現から導出できることを保証することにより,局所モデルの発散を低減する新しい表現マッチングスキームを提案する。
また、強化アルゴリズムのオンラインバージョンを用いて、トレーニング損失の期待値の改善を最大化するハイパーパラメータ分布を求めるオンラインハイパーパラメータチューニングスキームを提案する。
局所的表現マッチングと大域的適応型ハイパーパラメータの2部構成が性能とトレーニングの堅牢性を大幅に向上させることを示す。 Federated learning is a distributed, privacy-aware learning scenario which trains a single model on data belonging to several clients. Each client trains a local model on its data and the local models are then aggregated by a central party. Current federated learning methods struggle in cases with heterogeneous client-side data distributions which can quickly lead to divergent local models and a collapse in performance. Careful hyper-parameter tuning is particularly important in these cases but traditional automated hyper-parameter tuning methods would require several training trials which is often impractical in a federated learning setting. We describe a two-pronged solution to the issues of robustness and hyper-parameter tuning in federated learning settings. We propose a novel representation matching scheme that reduces the divergence of local models by ensuring the feature representations in the global (aggregate) model can be derived from the locally learned representations. We also propose an online hyper-parameter tuning scheme which uses an online version of the REINFORCE algorithm to find a hyper-parameter distribution that maximizes the expected improvements in training loss. We show on several benchmarks that our two-part scheme of local representation matching and global adaptive hyper-parameters significantly improves performance and training robustness. | 翻訳日:2023-01-17 02:16:11 公開日:2019-12-30 |
# 新しい犬の古いトリックを教える:ゼロショット学習による多言語検索の復活 Teaching a New Dog Old Tricks: Resurrecting Multilingual Retrieval Using Zero-shot Learning ( http://arxiv.org/abs/1912.13080v1 ) ライセンス: Link先を確認 | Sean MacAvaney, Luca Soldaini, Nazli Goharian | (参考訳) 毎日何十億もの非英語話者が検索エンジンに頼っているが、アドホックな情報検索の問題は英語以外の言語ではほとんど研究されていない。
これは主に、ランキングアルゴリズムのトレーニングに適したデータセットが不足しているためである。
本稿では,事前学習された多言語モデルを用いて,非英語クエリや文書に英語コレクションを学習した検索システムを転送することにより,データの欠如に対処する。
我々のモデルはゼロショット設定で評価されており、トレーニング中に見たことのない言語におけるクエリ-ドキュメントペアの関連点の予測に使用する。
以上の結果から,提案手法は,アラビア語,中国語,スペイン語の教師なし検索技術を大幅に上回ることがわかった。
また、英語のトレーニングコレクションを対象言語からの例で強化することで、時にパフォーマンスが向上することを示す。 While billions of non-English speaking users rely on search engines every day, the problem of ad-hoc information retrieval is rarely studied for non-English languages. This is primarily due to a lack of data set that are suitable to train ranking algorithms. In this paper, we tackle the lack of data by leveraging pre-trained multilingual language models to transfer a retrieval system trained on English collections to non-English queries and documents. Our model is evaluated in a zero-shot setting, meaning that we use them to predict relevance scores for query-document pairs in languages never seen during training. Our results show that the proposed approach can significantly outperform unsupervised retrieval techniques for Arabic, Chinese Mandarin, and Spanish. We also show that augmenting the English training collection with some examples from the target language can sometimes improve performance. | 翻訳日:2023-01-17 02:15:38 公開日:2019-12-30 |
# 観察と相互作用から予測モデルを学ぶ Learning Predictive Models From Observation and Interaction ( http://arxiv.org/abs/1912.12773v1 ) ライセンス: Link先を確認 | Karl Schmeckpeper, Annie Xie, Oleh Rybkin, Stephen Tian, Kostas Daniilidis, Sergey Levine, Chelsea Finn | (参考訳) 世界とのインタラクションから予測モデルを学ぶことで、エージェント(ロボットなど)が世界がどのように機能するかを学習し、この学習モデルを使用して、望ましい結果をもたらすための協調したアクションのシーケンスを計画することができる。
しかし、複雑なスキルのダイナミクスを捉えるモデルを学ぶことは大きな課題である:もしエージェントがこれらのスキルを実行するのに良いモデルを必要とするなら、これらの繊細で複雑な振る舞いを学ぶのに必要な経験を自分自身で収集することはできないかもしれない。
代わりに、人間のような他のエージェントの観測データでトレーニングセットを拡張できることを想像できます。
このようなデータはより豊富である可能性が高いが、異なる実施形態を示している。
例えば、人間のビデオはロボットにツールの使い方を見せてくれるかもしれないが、
(i)適切なロボットの動作に注釈を付けていないこと、
(ii)人間とロボットの具体的差異による系統的分布変化を含む。
本稿では、対応するグラフィカルモデルを定式化し、対話データに対する観測変数と観測データに対する観測変数とを扱い、ドメイン依存の先行データを用いて第2の課題に対処する。
インタラクションデータに加えて、運転データセットとロボット操作ビデオのデータセットにおいて、受動的観察のビデオを活用することができる。
本手法を応用したロボット計画エージェントは、ツール使用のロボットビデオを見ることなく、人間を観察してテーブルトップロボット操作設定におけるツールの使用を学習することができる。 Learning predictive models from interaction with the world allows an agent, such as a robot, to learn about how the world works, and then use this learned model to plan coordinated sequences of actions to bring about desired outcomes. However, learning a model that captures the dynamics of complex skills represents a major challenge: if the agent needs a good model to perform these skills, it might never be able to collect the experience on its own that is required to learn these delicate and complex behaviors. Instead, we can imagine augmenting the training set with observational data of other agents, such as humans. Such data is likely more plentiful, but represents a different embodiment. For example, videos of humans might show a robot how to use a tool, but (i) are not annotated with suitable robot actions, and (ii) contain a systematic distributional shift due to the embodiment differences between humans and robots. We address the first challenge by formulating the corresponding graphical model and treating the action as an observed variable for the interaction data and an unobserved variable for the observation data, and the second challenge by using a domain-dependent prior. In addition to interaction data, our method is able to leverage videos of passive observations in a driving dataset and a dataset of robotic manipulation videos. A robotic planning agent equipped with our method can learn to use tools in a tabletop robotic manipulation setting by observing humans without ever seeing a robotic video of tool use. | 翻訳日:2023-01-17 02:15:08 公開日:2019-12-30 |
# フェデレーション・トランスファー学習の性能の定量化 Quantifying the Performance of Federated Transfer Learning ( http://arxiv.org/abs/1912.12795v1 ) ライセンス: Link先を確認 | Qinghe Jing, Weiyan Wang, Junxue Zhang, Han Tian, Kai Chen | (参考訳) データと孤立したデータアイランドの不足により、さまざまな組織がデータを互いに共有して、マシンラーニングモデルをトレーニングすることが可能になる。
しかし、データプライバシとセキュリティの問題に対する懸念が高まり、データプライバシに違反せずにトレーニングデータを共有するために、federated transfer learning(ftl)のようなソリューションを求めることが求められている。
ftlはトランスファー学習技術を利用して、異なるソースからのデータをトレーニングに利用し、データプライバシ保護を、精度を損なうことなく実現している。
しかし、その利点は余分な計算と通信消費のコストが伴うため、効率上の問題が生じる。
実際にFTLソリューションを効率的にデプロイし、スケールアップするには、インフラがFTLの効率にどのように影響するかを深く理解する必要がある。
本稿では,実世界のFTL実装であるFATEをGoogle Cloud上で定量的に測定することで,この問題に対処しようとする。
注意深く設計された実験の結果、以下のボトルネックをさらに最適化できることを確認した。
1)プロセス間通信が大きなボトルネックである。
2) データの暗号化は,大幅な計算オーバーヘッドを増大させる。
3)インターネットネットワークの条件は,モデルが大きい場合のパフォーマンスに大きく影響する。 The scarcity of data and isolated data islands encourage different organizations to share data with each other to train machine learning models. However, there are increasing concerns on the problems of data privacy and security, which urges people to seek a solution like Federated Transfer Learning (FTL) to share training data without violating data privacy. FTL leverages transfer learning techniques to utilize data from different sources for training, while achieving data privacy protection without significant accuracy loss. However, the benefits come with a cost of extra computation and communication consumption, resulting in efficiency problems. In order to efficiently deploy and scale up FTL solutions in practice, we need a deep understanding on how the infrastructure affects the efficiency of FTL. Our paper tries to answer this question by quantitatively measuring a real-world FTL implementation FATE on Google Cloud. According to the results of carefully designed experiments, we verified that the following bottlenecks can be further optimized: 1) Inter-process communication is the major bottleneck; 2) Data encryption adds considerable computation overhead; 3) The Internet networking condition affects the performance a lot when the model is large. | 翻訳日:2023-01-17 02:14:45 公開日:2019-12-30 |
# 言語非依存モデルに影響する要因に関する実証的研究 An Empirical Study of Factors Affecting Language-Independent Models ( http://arxiv.org/abs/1912.13106v1 ) ライセンス: Link先を確認 | Xiaotong Liu, Yingbei Tong, Anbang Xu, Rama Akkiraju | (参考訳) 既存のアプリケーションやソリューションを複数のヒューマン言語にスケールすることは伝統的に困難であることが証明されている。
本研究では,タスクタイプ,言語セット,データリソースなど多言語表現を用いた言語非依存モデルに影響を及ぼす要因を実証的に検討する。
文分類とシーケンスラベリングの2つの代表的NLPタスクにおいて、言語に依存しないモデルは、単言語データを用いて訓練されたモデルに匹敵するか、さらに優れることを示す。
多くの異なる言語で言語に依存しないモデルを実験し、類型的に類似した言語に適していることを示す。
また,言語非依存モデルのトレーニングとテストにおけるデータサイズの違いの影響についても検討し,高リソース言語に適合するだけでなく,低リソース言語にも非常に有効であることを実証した。 Scaling existing applications and solutions to multiple human languages has traditionally proven to be difficult, mainly due to the language-dependent nature of preprocessing and feature engineering techniques employed in traditional approaches. In this work, we empirically investigate the factors affecting language-independent models built with multilingual representations, including task type, language set and data resource. On two most representative NLP tasks -- sentence classification and sequence labeling, we show that language-independent models can be comparable to or even outperforms the models trained using monolingual data, and they are generally more effective on sentence classification. We experiment language-independent models with many different languages and show that they are more suitable for typologically similar languages. We also explore the effects of different data sizes when training and testing language-independent models, and demonstrate that they are not only suitable for high-resource languages, but also very effective in low-resource languages. | 翻訳日:2023-01-17 02:07:27 公開日:2019-12-30 |
# 最適不確実性誘導ニューラルネットワークトレーニング Optimal Uncertainty-guided Neural Network Training ( http://arxiv.org/abs/1912.12761v1 ) ライセンス: Link先を確認 | H M Dipu Kabir, Abbas Khosravi, Abdollah Kavousi-Fard, Saeid Nahavandi, Dipti Srinivasan | (参考訳) ニューラルネットワーク(NN)に基づく直接不確実性定量化(UQ)法は、Low-upper-bound Estimation(LUBE)法として知られる最初の開始以来、技術パフォーマンスの状態を達成している。
しかし、現在利用可能な不確実性NNトレーニングのコスト関数は必ずしも収束せず、すべての収束NNは最適化予測間隔(PI)を生成していない。
さらに、いくつかのグループがPIの異なる品質基準を提案している。
これらは相対的有効性に関する疑問を提起する。
不確実性誘導NNトレーニングの既存のコスト関数のほとんどはカスタマイズ可能ではなく、トレーニングの収束性は不確実である。
そこで本稿では,NNを最適に構築するためのスムーズなコスト関数を提案する。
テストデータセットに対して、PIの最適化平均幅、PI欠陥距離、PICP(PI coverage probability)を算出する。
風力発電および電力需要データについて,提案手法の性能について検討した。
提案手法は,PIの品質の変動を低減し,トレーニングを加速し,収束確率を99.2%から99.8%に向上させる。 The neural network (NN)-based direct uncertainty quantification (UQ) methods have achieved the state of the art performance since the first inauguration, known as the lower-upper-bound estimation (LUBE) method. However, currently-available cost functions for uncertainty guided NN training are not always converging and all converged NNs are not generating optimized prediction intervals (PIs). Moreover, several groups have proposed different quality criteria for PIs. These raise a question about their relative effectiveness. Most of the existing cost functions of uncertainty guided NN training are not customizable and the convergence of training is uncertain. Therefore, in this paper, we propose a highly customizable smooth cost function for developing NNs to construct optimal PIs. The optimized average width of PIs, PI-failure distances and the PI coverage probability (PICP) are computed for the test dataset. The performance of the proposed method is examined for the wind power generation and the electricity demand data. Results show that the proposed method reduces variation in the quality of PIs, accelerates the training, and improves convergence probability from 99.2% to 99.8%. | 翻訳日:2023-01-17 02:07:11 公開日:2019-12-30 |
# 部分空間の結合に対する多視点表現学習 Multiview Representation Learning for a Union of Subspaces ( http://arxiv.org/abs/1912.12766v1 ) ライセンス: Link先を確認 | Nils Holzenberger and Raman Arora | (参考訳) カノニカル相関解析(CCA)は、データ内の複数のビューで最大に相関する表現を学習するための一般的な手法である。
本稿では,多視点混合モデル学習のためのCCAベースのフレームワークを拡張する。
提案したモデルと単純なヒューリスティックスのセットは,下流タスクのパフォーマンスを指標として,標準CCAよりも改善されていることを示す。
実験の結果、相関に基づく目的がCCAの目的をCCAモデルの混合に有意に一般化することが示された。 Canonical correlation analysis (CCA) is a popular technique for learning representations that are maximally correlated across multiple views in data. In this paper, we extend the CCA based framework for learning a multiview mixture model. We show that the proposed model and a set of simple heuristics yield improvements over standard CCA, as measured in terms of performance on downstream tasks. Our experimental results show that our correlation-based objective meaningfully generalizes the CCA objective to a mixture of CCA models. | 翻訳日:2023-01-17 02:06:53 公開日:2019-12-30 |
# ワッサースタイン全相関を用いた連接表現学習 Disentangled Representation Learning with Wasserstein Total Correlation ( http://arxiv.org/abs/1912.12818v1 ) ライセンス: Link先を確認 | Yijun Xiao, William Yang Wang | (参考訳) 不整合表現の教師なし学習には、データ生成プロセスに寄与する様々な要因の解明が含まれる。
完全相関ペナリゼーションは近年の解離に対する手法において重要な要素である。
しかし、kullback-leibler (kl) の発散に基づく全相関はメトリックに依存しず、データサンプルに敏感である。
本稿では,変分オートエンコーダとワッセルシュタインオートエンコーダの設定にワッセルシュタイン全相関を導入し,非絡み付き潜在表現を学習する。
批評家は、ワッサーシュタインの総相関項を推定する主な目的と共に、敵対的に訓練される。
独立度を測り、複数のデータセット上で定量的かつ定性的な実験を行うために、KL分散よりもワッサーシュタイン距離を用いる利点について論じる。
さらに, 絡み合いを測定するための新しい指標を提案する。
提案手法は, 再建能力の犠牲が小さく, 絡み合いに匹敵する性能を有することを示す。 Unsupervised learning of disentangled representations involves uncovering of different factors of variations that contribute to the data generation process. Total correlation penalization has been a key component in recent methods towards disentanglement. However, Kullback-Leibler (KL) divergence-based total correlation is metric-agnostic and sensitive to data samples. In this paper, we introduce Wasserstein total correlation in both variational autoencoder and Wasserstein autoencoder settings to learn disentangled latent representations. A critic is adversarially trained along with the main objective to estimate the Wasserstein total correlation term. We discuss the benefits of using Wasserstein distance over KL divergence to measure independence and conduct quantitative and qualitative experiments on several data sets. Moreover, we introduce a new metric to measure disentanglement. We show that the proposed approach has comparable performances on disentanglement with smaller sacrifices in reconstruction abilities. | 翻訳日:2023-01-17 02:06:44 公開日:2019-12-30 |
# 回帰のためのランダム射影付加ガウス過程 Randomly Projected Additive Gaussian Processes for Regression ( http://arxiv.org/abs/1912.12834v1 ) ライセンス: Link先を確認 | Ian A. Delbridge, David S. Bindel, Andrew Gordon Wilson | (参考訳) ガウス過程(GP)は、カーネルによって制御される誘導バイアスを持つ関数上の柔軟な分布を提供する。
しかし、多くの応用において、ガウス過程は中等度な入力次元に苦しむことがある。
低次元プロジェクションの学習は、この呪いの次元性を軽減するのに役立つが、訓練可能なハイパーパラメータが多数導入されている。
我々はgp回帰のためにカーネルの加算和を使い、各カーネルは入力の異なるランダムな投影で動作する。
驚くべきことに、ランダムなプロジェクションの数が増えると、このアプローチの予測性能は、たとえ私たちが単一の次元に投影しているとしても、元の全次元入力で動作しているカーネルのパフォーマンスに素早く収束する。
その結果、多くの問題は変換を学習することなく、1次元の入力空間に著しく縮小することができる。
この収束とその速度を証明し、また純粋にランダムな射影よりも早く収束する決定論的アプローチを提案する。
さらに,本手法は,従来の入力空間のカーネルと比較して,高速な推論と高次元入力の予測精度の向上を実現する。 Gaussian processes (GPs) provide flexible distributions over functions, with inductive biases controlled by a kernel. However, in many applications Gaussian processes can struggle with even moderate input dimensionality. Learning a low dimensional projection can help alleviate this curse of dimensionality, but introduces many trainable hyperparameters, which can be cumbersome, especially in the small data regime. We use additive sums of kernels for GP regression, where each kernel operates on a different random projection of its inputs. Surprisingly, we find that as the number of random projections increases, the predictive performance of this approach quickly converges to the performance of a kernel operating on the original full dimensional inputs, over a wide range of data sets, even if we are projecting into a single dimension. As a consequence, many problems can remarkably be reduced to one dimensional input spaces, without learning a transformation. We prove this convergence and its rate, and additionally propose a deterministic approach that converges more quickly than purely random projections. Moreover, we demonstrate our approach can achieve faster inference and improved predictive accuracy for high-dimensional inputs compared to kernels in the original input space. | 翻訳日:2023-01-17 02:06:29 公開日:2019-12-30 |
# paretoのマルチタスク学習 Pareto Multi-Task Learning ( http://arxiv.org/abs/1912.12854v1 ) ライセンス: Link先を確認 | Xi Lin, Hui-Ling Zhen, Zhenhua Li, Qingfu Zhang, Sam Kwong | (参考訳) マルチタスク学習は、複数の相関タスクを同時に解く強力な方法である。
しかしながら、異なるタスクが互いに衝突する可能性があるため、すべてのタスクを最適化する単一のソリューションを見つけることはしばしば不可能である。
近年,マルチタスク学習を多目的最適化として活用することにより,タスク間のトレードオフが良好である1つのパレート最適解を求める方法が提案されている。
本稿では,この概念を一般化し,異なるタスク間で異なるトレードオフを表現できる分散paretoソリューションのセットを探索するために,新しいpareto multi-task learningアルゴリズム(pareto mtl)を提案する。
提案手法は,まずマルチタスク学習問題を多目的最適化問題として定式化し,その後,多目的最適化問題をトレードオフ選択の異なる制約付き部分問題に分解する。
これらのサブプロブレムを並列に解くことで、パレート MTL は全てのタスクで異なるトレードオフを持つよく表現可能なパレート最適解の集合を見つけることができる。
実践者はこれらのParetoソリューションから好みのソリューションを簡単に選択したり、異なる状況で異なるトレードオフソリューションを使うことができます。
実験結果から,提案アルゴリズムはよく表現可能な解を生成し,多くのマルチタスク学習アプリケーションにおいて最先端のアルゴリズムより優れることを確認した。 Multi-task learning is a powerful method for solving multiple correlated tasks simultaneously. However, it is often impossible to find one single solution to optimize all the tasks, since different tasks might conflict with each other. Recently, a novel method is proposed to find one single Pareto optimal solution with good trade-off among different tasks by casting multi-task learning as multiobjective optimization. In this paper, we generalize this idea and propose a novel Pareto multi-task learning algorithm (Pareto MTL) to find a set of well-distributed Pareto solutions which can represent different trade-offs among different tasks. The proposed algorithm first formulates a multi-task learning problem as a multiobjective optimization problem, and then decomposes the multiobjective optimization problem into a set of constrained subproblems with different trade-off preferences. By solving these subproblems in parallel, Pareto MTL can find a set of well-representative Pareto optimal solutions with different trade-off among all tasks. Practitioners can easily select their preferred solution from these Pareto solutions, or use different trade-off solutions for different situations. Experimental results confirm that the proposed algorithm can generate well-representative solutions and outperform some state-of-the-art algorithms on many multi-task learning applications. | 翻訳日:2023-01-17 02:06:12 公開日:2019-12-30 |
# ラベルの有無に関わらず、エンドツーエンドの学習 End-to-end Learning, with or without Labels ( http://arxiv.org/abs/1912.12979v1 ) ライセンス: Link先を確認 | Corinne Jones, Vincent Roulet, Zaid Harchaoui | (参考訳) 本稿では,ラベルなしデータ(ラベル付きデータの有無に関わらず)から特徴表現を共同学習し,ラベルなしデータのラベルを予測できるエンドツーエンド学習手法を提案する。
特徴表現は、微分可能なプログラミングフレームワーク、すなわち、自動微分に対応可能なパラメータ化マッピングで特定されていると仮定される。
提案手法はラベル付きデータやラベルなしデータでも使用でき、監督の量に応じて優雅に調整できる。
本手法の有効性を示す実験結果を提供する。 We present an approach for end-to-end learning that allows one to jointly learn a feature representation from unlabeled data (with or without labeled data) and predict labels for unlabeled data. The feature representation is assumed to be specified in a differentiable programming framework, that is, as a parameterized mapping amenable to automatic differentiation. The proposed approach can be used with any amount of labeled and unlabeled data, gracefully adjusting to the amount of supervision. We provide experimental results illustrating the effectiveness of the approach. | 翻訳日:2023-01-17 02:05:16 公開日:2019-12-30 |
# 構成状態と行動空間におけるモデルベース学習と計画のための世界プログラム World Programs for Model-Based Learning and Planning in Compositional State and Action Spaces ( http://arxiv.org/abs/1912.13007v1 ) ライセンス: Link先を確認 | Marwin H.S. Segler | (参考訳) もっとも重要なタスクは、安価で完璧なシミュレータが欠けている環境で起こり、モデルフリー強化学習(RL)の適用を妨げる。
モデルベースのrlはダイナミクスモデルを学ぶことを目指しているが、より一般的なケースでは学習者はアクション空間が何であるかを事前に知らない。
本稿では,学習者が状態遷移の例を観察して,グラフベースの構成環境における動的モデルと動作を学習することにより,世界プログラムを誘導するフォーマリズムを提案する。
そして、学習者は、複雑な計画タスクのシミュレータとしてワールドプログラムでrlを実行することができる。
我々は,最近の応用を取り上げ,コミュニティが世界プログラムベースの計画を評価するための課題を提案する。 Some of the most important tasks take place in environments which lack cheap and perfect simulators, thus hampering the application of model-free reinforcement learning (RL). While model-based RL aims to learn a dynamics model, in a more general case the learner does not know a priori what the action space is. Here we propose a formalism where the learner induces a world program by learning a dynamics model and the actions in graph-based compositional environments by observing state-state transition examples. Then, the learner can perform RL with the world program as the simulator for complex planning tasks. We highlight a recent application, and propose a challenge for the community to assess world program-based planning. | 翻訳日:2023-01-17 02:05:07 公開日:2019-12-30 |
# 進化的多目的最適化を用いた逆例生成 Adversarial Example Generation using Evolutionary Multi-objective Optimization ( http://arxiv.org/abs/2001.05844v1 ) ライセンス: Link先を確認 | Takahiro Suzuki, Shingo Takeshita, Satoshi Ono | (参考訳) 本稿では,ブラックボックス設定下での進化的多目的最適化(EMO)に基づく適応例(AE)設計手法を提案する。
従来の勾配法では、対象画像のすべてのピクセルを変更してAEを生成するのに対し、以前のEC法では少数のピクセルを変更してAEを生成する。
提案手法は,EMOの個体群ベースサーベイの特性により,従来の2つのアプローチによるAE間の位置決めを含む様々な種類のAEを生成し,対象モデルの特徴や未知の攻撃パターンを知るのに役立つ。
実験の結果,高分解能画像に対するDCTに基づく摂動パターン生成の助けを借りて,ロバストなAEを生成できるなど,提案手法の可能性が確認された。 This paper proposes Evolutionary Multi-objective Optimization (EMO)-based Adversarial Example (AE) design method that performs under black-box setting. Previous gradient-based methods produce AEs by changing all pixels of a target image, while previous EC-based method changes small number of pixels to produce AEs. Thanks to EMO's property of population based-search, the proposed method produces various types of AEs involving ones locating between AEs generated by the previous two approaches, which helps to know the characteristics of a target model or to know unknown attack patterns. Experimental results showed the potential of the proposed method, e.g., it can generate robust AEs and, with the aid of DCT-based perturbation pattern generation, AEs for high resolution images. | 翻訳日:2023-01-17 02:00:00 公開日:2019-12-30 |
# hinglish" 言語 -- 乱雑なコード混合言語をモデル化する "Hinglish" Language -- Modeling a Messy Code-Mixed Language ( http://arxiv.org/abs/1912.13109v1 ) ライセンス: Link先を確認 | Vivek Kumar Gupta | (参考訳) インドでは、言語的に多様である「ヒングリッシュ」の利用者が急増し、Twitter、Reddit、Facebookなどのプラットフォームでこの言語で書かれたソーシャルコンテンツを分析することがますます重要になっている。
本研究は,ヒンディー語で書かれた社会コンテンツを,嫌悪的・憎悪的・不快なカテゴリーに分類する上で,ディープラーニング技術を用いて分類問題に取り組むことに焦点を当てる。
本論文では,同義語置換,ランダム挿入,ランダムスワップ,ランダム削除などのテキスト拡張手法を用いた双方向シーケンスモデルを用いて,先行研究であるデータ解析に匹敵する画像分類器の状態を生成する。 With a sharp rise in fluency and users of "Hinglish" in linguistically diverse country, India, it has increasingly become important to analyze social content written in this language in platforms such as Twitter, Reddit, Facebook. This project focuses on using deep learning techniques to tackle a classification problem in categorizing social content written in Hindi-English into Abusive, Hate-Inducing and Not offensive categories. We utilize bi-directional sequence models with easy text augmentation techniques such as synonym replacement, random insertion, random swap, and random deletion to produce a state of the art classifier that outperforms the previous work done on analyzing this dataset. | 翻訳日:2023-01-17 01:58:35 公開日:2019-12-30 |
# クエリ効率の良い能動模倣学習のための新しいフレームワーク A New Framework for Query Efficient Active Imitation Learning ( http://arxiv.org/abs/1912.13037v1 ) ライセンス: Link先を確認 | Daniel Hsu | (参考訳) 我々は,エージェント政策と人間専門家の行動とを,力学,報酬関数,安全でない状態に関する事前知識のない強化学習(RL)環境で整合させることを模索する。
彼の好みと目的に基づいて報酬と安全でない状態を知っている人間の専門家がいますが、人間の専門家は高価です。
この課題に対処するために,ユーザの報酬関数のモデルと効率的なクエリをアクティブかつインタラクティブに学習する,模倣学習(IL)アルゴリズムの新しいフレームワークを提案する。
学習方針によって収集された遷移経験に基づいて学習した状態の逆生成モデルと後継特徴(SR)モデルを構築した。
提案手法では,これらのモデルを用いて状態と動作のペアを選択し,ユーザに最適性や安全性についてコメントを求め,敵のニューラルネットワークを訓練して報酬を予測する。
不確実性サンプリングに基づく以前の論文と異なり、クエリ(専門家)と未問い合わせ(生成)データを区別し、価値関数学習の効率を最大化することにより、オン・ポリシーとオフ・ポリシーの両方の体験から、能動的かつ効率的にステートアクションペアを選択することが鍵となる。
我々は,この手法を後継表現を用いた逆報酬クエリと呼ぶ。
本研究では,高度観測と複雑な状態ダイナミクスを有する2次元ナビゲーションタスク,ロボット制御タスク,画像ベースのビデオゲームにおいて,シミュレート人間を用いて提案手法を評価する。
その結果,提案手法は報酬モデルの学習において不確実性に基づく手法を著しく上回り,クエリ効率が向上し,相手の判別者がエージェントの行動をより効率的に学習し,srが価値関数に強い影響を与える状態を選択できることがわかった。
さらに,提案手法は報酬モデルのトレーニング時に安全でない状態を避けることも可能である。 We seek to align agent policy with human expert behavior in a reinforcement learning (RL) setting, without any prior knowledge about dynamics, reward function, and unsafe states. There is a human expert knowing the rewards and unsafe states based on his preference and objective, but querying that human expert is expensive. To address this challenge, we propose a new framework for imitation learning (IL) algorithm that actively and interactively learns a model of the user's reward function with efficient queries. We build an adversarial generative model of states and a successor feature (SR) model trained over transition experience collected by learning policy. Our method uses these models to select state-action pairs, asking the user to comment on the optimality or safety, and trains a adversarial neural network to predict the rewards. Different from previous papers, which are almost all based on uncertainty sampling, the key idea is to actively and efficiently select state-action pairs from both on-policy and off-policy experience, by discriminating the queried (expert) and unqueried (generated) data and maximizing the efficiency of value function learning. We call this method adversarial reward query with successor representation. We evaluate the proposed method with simulated human on a state-based 2D navigation task, robotic control tasks and the image-based video games, which have high-dimensional observation and complex state dynamics. The results show that the proposed method significantly outperforms uncertainty-based methods on learning reward models, achieving better query efficiency, where the adversarial discriminator can make the agent learn human behavior more efficiently and the SR can select states which have stronger impact on value function. Moreover, the proposed method can also learn to avoid unsafe states when training the reward model. | 翻訳日:2023-01-17 01:58:22 公開日:2019-12-30 |
# 少ないデータで説明可能な多臓器アノテーションの新しいアプローチ A New Approach for Explainable Multiple Organ Annotation with Few Data ( http://arxiv.org/abs/1912.12932v1 ) ライセンス: Link先を確認 | R\'egis Pierrard (LIST, MICS), Jean-Philippe Poli (LIST), C\'eline Hudelot (MICS) | (参考訳) 最近のディープラーニングの成功にもかかわらず、そのようなモデルはいくつかの例から学び、推論し、決定を説明するような人間の能力とは程遠い。
本稿では,医療画像における臓器アノテーションに着目し,ファジィ関係の学習に基づく推論フレームワークを提案する。
関係のカタログが与えられると、最も関係性の高い関係を効率的に誘導し、それらを組み合わせて制約を構築し、オルガンアノテーションタスクを解決し、説明を生成する。
我々は、複数の臓器がすでにセグメンテーションされている医療画像の公開データセットで、このアプローチをテストする。
解説したアノテーションの例を例に,本モデルのデモンストレーションを提案する。
少数の例を含む小さな訓練セットで訓練された。 Despite the recent successes of deep learning, such models are still far from some human abilities like learning from few examples, reasoning and explaining decisions. In this paper, we focus on organ annotation in medical images and we introduce a reasoning framework that is based on learning fuzzy relations on a small dataset for generating explanations. Given a catalogue of relations, it efficiently induces the most relevant relations and combines them for building constraints in order to both solve the organ annotation task and generate explanations. We test our approach on a publicly available dataset of medical images where several organs are already segmented. A demonstration of our model is proposed with an example of explained annotations. It was trained on a small training set containing as few as a couple of examples. | 翻訳日:2023-01-17 01:57:52 公開日:2019-12-30 |
# 部分空間保存回復のための基底法と直交整合法:理論的解析 Basis Pursuit and Orthogonal Matching Pursuit for Subspace-preserving Recovery: Theoretical Analysis ( http://arxiv.org/abs/1912.13091v1 ) ライセンス: Link先を確認 | Daniel P. Robinson and Rene Vidal and Chong You | (参考訳) あるスパースベクトル $c^*$ に対して、超完全辞書 $a$ と信号 $b = ac^*$ が与えられ、その非ゼロエントリが$a$ の線形独立列に対応すると、古典的なスパース信号回復理論は、$c^*$ が、$b = a c$ に対する一意なスパース解として回収できるかどうかという問題を考察する。
辞書 $a$ が非一貫性または制限された等尺性である場合、実用的なアルゴリズムによってそのような回復が可能であることはよく理解されている。
本稿では、$b$ が部分空間 $\mathcal{S}_0$ に含まれるようなより一般的な場合を考える。
この場合、最も広い表現は一意ではないかもしれないし、辞書は不整合あるいは制限された等尺的でないかもしれない。
目的は、$c$の表現を正しくサブ空間を識別させることであり、すなわち$c$の 0 でないエントリは、サブ空間 $\mathcal{S}_0$ にある$A$の列に対応するべきである。
このような表現 $c$ は部分空間保存(subspace-serving)と呼ばれ、これは高次元データにおいて低次元構造を学習するための重要な応用を見出した鍵概念である。
部分空間保存回復を保証する様々な幾何学的条件を示す。
それらのうち, 主結果は, 部分空間内の点の分布と, 部分空間の点と部分空間の外側の点との類似性をそれぞれ捉える被覆半径と角距離によって特徴づけられる。
重要なことに、これらの条件は辞書が不整合あるいは制限された等尺性である必要はない。
部分空間保存回復問題と古典的スパース信号回復問題は,後者の一般的な仮定で等価であることを示すことにより,提案した条件のいくつかはスパース信号回復の文献でよく知られた条件の一般化であることを示す。 Given an overcomplete dictionary $A$ and a signal $b = Ac^*$ for some sparse vector $c^*$ whose nonzero entries correspond to linearly independent columns of $A$, classical sparse signal recovery theory considers the problem of whether $c^*$ can be recovered as the unique sparsest solution to $b = A c$. It is now well-understood that such recovery is possible by practical algorithms when the dictionary $A$ is incoherent or restricted isometric. In this paper, we consider the more general case where $b$ lies in a subspace $\mathcal{S}_0$ spanned by a subset of linearly dependent columns of $A$, and the remaining columns are outside of the subspace. In this case, the sparsest representation may not be unique, and the dictionary may not be incoherent or restricted isometric. The goal is to have the representation $c$ correctly identify the subspace, i.e. the nonzero entries of $c$ should correspond to columns of $A$ that are in the subspace $\mathcal{S}_0$. Such a representation $c$ is called subspace-preserving, a key concept that has found important applications for learning low-dimensional structures in high-dimensional data. We present various geometric conditions that guarantee subspace-preserving recovery. Among them, the major results are characterized by the covering radius and the angular distance, which capture the distribution of points in the subspace and the similarity between points in the subspace and points outside the subspace, respectively. Importantly, these conditions do not require the dictionary to be incoherent or restricted isometric. By establishing that the subspace-preserving recovery problem and the classical sparse signal recovery problem are equivalent under common assumptions on the latter, we show that several of our proposed conditions are generalizations of some well-known conditions in the sparse signal recovery literature. | 翻訳日:2023-01-17 01:57:39 公開日:2019-12-30 |
# RC-DARTS:資源制約付き微分可能なアーキテクチャ検索 RC-DARTS: Resource Constrained Differentiable Architecture Search ( http://arxiv.org/abs/1912.12814v1 ) ライセンス: Link先を確認 | Xiaojie Jin, Jiang Wang, Joshua Slocum, Ming-Hsuan Yang, Shengyang Dai, Shuicheng Yan, Jiashi Feng | (参考訳) 近年の進歩により,NAS(Neural Architectural Search)手法は最先端の画像分類の深層構造を見つけることができる。
本稿では,資源制約型アプリケーションにおけるNAS問題について考察する。
リソースが制約された場合、タスクの複雑さに応じて異なるアーキテクチャを選択することが重要となるため、この問題は非常に興味深い。
従来のテクニックはワンショット学習には遅すぎるか、リソース制約を考慮していないかのどちらかです。
本稿では,資源制約付き微分可能アーキテクチャ探索(RC-DARTS)手法を提案する。
具体的には、資源制約を追加して制約最適化問題としてRC-DARTSタスクを定式化する。
与えられた制約付き最適化問題を解くために反復射影法を提案する。
また、異なる深さの層が異なるタイプのニューラルアーキテクチャを適応的に学習できるようにするマルチレベル探索戦略を提案する。
cifar10とimagenetのデータセットを広範囲に実験した結果、rc-darts法はモデルサイズが小さく計算量も少ない軽量ニューラルネットワークを学習し、最先端の手法と同等あるいは優れた性能が得られることを示した。 Recent advances show that Neural Architectural Search (NAS) method is able to find state-of-the-art image classification deep architectures. In this paper, we consider the one-shot NAS problem for resource constrained applications. This problem is of great interest because it is critical to choose different architectures according to task complexity when the resource is constrained. Previous techniques are either too slow for one-shot learning or does not take the resource constraint into consideration. In this paper, we propose the resource constrained differentiable architecture search (RC-DARTS) method to learn architectures that are significantly smaller and faster while achieving comparable accuracy. Specifically, we propose to formulate the RC-DARTS task as a constrained optimization problem by adding the resource constraint. An iterative projection method is proposed to solve the given constrained optimization problem. We also propose a multi-level search strategy to enable layers at different depths to adaptively learn different types of neural architectures. Through extensive experiments on the Cifar10 and ImageNet datasets, we show that the RC-DARTS method learns lightweight neural architectures which have smaller model size and lower computational complexity while achieving comparable or better performances than the state-of-the-art methods. | 翻訳日:2023-01-17 01:56:58 公開日:2019-12-30 |
# タスク指向ダイアログにおける教師なし領域検出のためのラピッド比と生成型分類器 Likelihood Ratios and Generative Classifiers for Unsupervised Out-of-Domain Detection In Task Oriented Dialog ( http://arxiv.org/abs/1912.12800v1 ) ライセンス: Link先を確認 | Varun Gangal, Abhinav Arora, Arash Einolghozati, Sonal Gupta | (参考訳) ドメイン外インプット(OOD)をテスト時に直接識別するタスクは、最近、モデルの実際のデプロイの増加により、新たな関心を集めている。
本研究では,タスクベース対話システムに対する自然言語文入力のOOD検出に着目した。
まず、rostd(タスク指向ダイアログからの実際のドメイン外文)をキュレートし、リリースします。 - 公開されているデータセットの4k oodサンプルのデータセットです(schuster et al. 2019)。
クラスをサブセットとして保持することでOODの例を合成する既存の設定とは対照的に,既存のデータセットの文に対して,アプリロリ命令のアノテータによってドメイン外命令が作成されました。
第2に,現在普及しているパラダイムの代替として,確率比に基づくアプローチを検討する。
具体的には、これらのアプローチを自然言語入力に適用する。
データセットのような非アーティフィシャルなOODベンチマークよりも大幅に改善され、すべてのデータセットで後者にマッチするか、より優れています。
我々は,OODデータとドメイン内データとを識別するためには,特異な可能性ではなく,確率比を特に利用する必要があることを検証した。
第三に、生成型分類器を学習し、OOD検出の限界確率(比)を計算することを提案する。
これにより、トレーニングタイムラベルの活用と同時に、原則化された可能性を使用することができます。
このアプローチは、simple likelihood(ratio)ベースと他の先行アプローチの両方よりも優れています。
我々は,OOD検出における生成型分類器の使用をテスト時に初めて検討する。 The task of identifying out-of-domain (OOD) input examples directly at test-time has seen renewed interest recently due to increased real world deployment of models. In this work, we focus on OOD detection for natural language sentence inputs to task-based dialog systems. Our findings are three-fold: First, we curate and release ROSTD (Real Out-of-Domain Sentences From Task-oriented Dialog) - a dataset of 4K OOD examples for the publicly available dataset from (Schuster et al. 2019). In contrast to existing settings which synthesize OOD examples by holding out a subset of classes, our examples were authored by annotators with apriori instructions to be out-of-domain with respect to the sentences in an existing dataset. Second, we explore likelihood ratio based approaches as an alternative to currently prevalent paradigms. Specifically, we reformulate and apply these approaches to natural language inputs. We find that they match or outperform the latter on all datasets, with larger improvements on non-artificial OOD benchmarks such as our dataset. Our ablations validate that specifically using likelihood ratios rather than plain likelihood is necessary to discriminate well between OOD and in-domain data. Third, we propose learning a generative classifier and computing a marginal likelihood (ratio) for OOD detection. This allows us to use a principled likelihood while at the same time exploiting training-time labels. We find that this approach outperforms both simple likelihood (ratio) based and other prior approaches. We are hitherto the first to investigate the use of generative classifiers for OOD detection at test-time. | 翻訳日:2023-01-17 01:56:40 公開日:2019-12-30 |