このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20210424となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 所望の量子遷移を達成する適応ベイズアルゴリズム Adaptive Bayesian algorithm for achieving desired quantum transition ( http://arxiv.org/abs/2004.12674v5 ) ライセンス: Link先を確認 | Chengyin Han, Jiahao Huang, Xunda Jiang, Ruihuan Fang, Yuxiang Qiu, Bo Lu, Chaohong Lee | (参考訳) ベイズの定理を用いて各測定の後に所望のパラメータの知識を更新するベイズ法は、幅広い量子科学で用いられている。
量子科学における様々な応用において、量子遷移周波数を効率的かつ正確に決定することが不可欠である。
しかし、所望の遷移周波数と制御可能な実験パラメータの正確な関係は通常存在しない。
本稿では,適応ベイズアルゴリズムを用いて所望の量子遷移に適した条件を探索する効率的な手法を提案し,レーザー冷却した$^{87}$rb原子のアンサンブルにおけるコヒーレント集団トラップを用いて実験的に証明する。
遷移周波数は外部磁場によって制御され、d.c.電圧を印加することで、リアルタイムに調整できる。
適応ベイズアルゴリズムにより、電圧は数回の反復後にのみランダムな初期値から自動的に所望の値に収束する。
特に, 対象周波数と印加電圧の関係が非線形である場合, 従来の手法よりも有意な優位性を示す。
この研究は、遷移周波数を決定するための単純で効率的な方法を提供し、原子時計、磁気センサ、核磁気共鳴などの精密分光の分野に広く応用できる。 Bayesian methods which utilize Bayes' theorem to update the knowledge of desired parameters after each measurement, are used in a wide range of quantum science. For various applications in quantum science, efficiently and accurately determining a quantum transition frequency is essential. However, the exact relation between a desired transition frequency and the controllable experimental parameters is usually absent. Here, we propose an efficient scheme to search the suitable conditions for a desired quantum transition via an adaptive Bayesian algorithm, and experimentally demonstrate it by using coherent population trapping in an ensemble of laser-cooled $^{87}$Rb atoms. The transition frequency is controlled by an external magnetic field, which can be tuned in realtime by applying a d.c. voltage. Through an adaptive Bayesian algorithm, the voltage can automatically converge to the desired one from a random initial value only after few iterations. In particular, when the relation between the target frequency and the applied voltage is nonlinear, our algorithm shows significant advantages over traditional methods. This work provides a simple and efficient way to determine a transition frequency, which can be widely applied in the fields of precision spectroscopy, such as atomic clocks, magnetometers, and nuclear magnetic resonance. | 翻訳日:2023-05-22 00:21:03 公開日:2021-04-24 |
# 線形代数における難解問題の量子近似最適化 Quantum Approximate Optimization for Hard Problems in Linear Algebra ( http://arxiv.org/abs/2006.15438v3 ) ライセンス: Link先を確認 | Ajinkya Borle, Vincent E. Elfving, Samuel J. Lomonaco | (参考訳) 量子近似最適化アルゴリズム (Quantum Approximate Optimization Algorithm, QAOA) は、量子や古典的な最適化タスクを解くための量子計算フレームワークである。
ここでは、線形代数において、非線形行列因子化(NBMF)や非負行列因子化(NMF)問題など、いくつかの難しい問題のビルディングブロックとして機能する問題であるBLLS(Binary Linear Least Squares)に対するQAOAの使用について検討する。
これらの問題を解決するための量子コンピューティングにおける以前の取り組みのほとんどは、量子アニーリングパラダイムを用いて行われた。
この研究の範囲では、ノイズのない量子シミュレータ、デバイスリアリスティックノイズモデルを含むシミュレータ、2つのIBM Q 5-qubitマシンで実験を行った。
本稿では,QAOAとQAOAライクな変分アルゴリズムを,量子波動関数で振幅符号化されるのではなく,サンプルとして直接的に試用できる可能性を強調した。
我々の数値は、基底状態のサンプリングの確率が$p\leq3$のQAOA深さでBLLSのQAOAより優れていることを示している。
最後に、クラウドベースの量子コンピュータ上でのこの技術の実験的な実装に関わる課題について述べる。 The Quantum Approximate Optimization Algorithm (QAOA) by Farhi et al. is a quantum computational framework for solving quantum or classical optimization tasks. Here, we explore using QAOA for Binary Linear Least Squares (BLLS); a problem that can serve as a building block of several other hard problems in linear algebra, such as the Non-negative Binary Matrix Factorization (NBMF) and other variants of the Non-negative Matrix Factorization (NMF) problem. Most of the previous efforts in quantum computing for solving these problems were done using the quantum annealing paradigm. For the scope of this work, our experiments were done on noiseless quantum simulators, a simulator including a device-realistic noise-model, and two IBM Q 5-qubit machines. We highlight the possibilities of using QAOA and QAOA-like variational algorithms for solving such problems, where trial solutions can be obtained directly as samples, rather than being amplitude-encoded in the quantum wavefunction. Our numerics show that Simulated Annealing can outperform QAOA for BLLS at a QAOA depth of $p\leq3$ for the probability of sampling the ground state. Finally, we point out some of the challenges involved in current-day experimental implementations of this technique on cloud-based quantum computers. | 翻訳日:2023-05-12 07:27:17 公開日:2021-04-24 |
# 絡み合いと不適切 Entanglement and Impropriety ( http://arxiv.org/abs/2008.04364v2 ) ライセンス: Link先を確認 | Brian R. La Cour and Thomas W. Yudichak | (参考訳) 量子エンタングルメントと古典的不適切な関係は、光の多モード圧縮状態の文脈において考慮される。
圧縮状態に対するボゴリューボフ変換における複素ガウス確率変数を持つ置き換え作用素は、結果の変換変数が相関するだけでなく、不適切なことも見出す。
光子検出の簡単なしきい値超越モデルを検討し,不適切なガウス確率変数の挙動が偶然に選択されたときの絡み合った光子対の挙動を如何に模倣できるかを示す。 The relationship between quantum entanglement and classical impropriety is considered in the context of multi-modal squeezed states of light. Replacing operators with complex Gaussian random variables in the Bogoliubov transformations for squeezed states, we find that the resulting transformed variables are not only correlated but also improper. A simple threshold exceedance model of photon detection is considered and used to demonstrate how the behavior of improper Gaussian random variables can mimic that of entangled photon pairs when coincidence post-selection is performed. | 翻訳日:2023-05-06 15:50:20 公開日:2021-04-24 |
# 雑音支援量子オートエンコーダ Noise-Assisted Quantum Autoencoder ( http://arxiv.org/abs/2012.08331v2 ) ライセンス: Link先を確認 | Chenfeng Cao, Xin Wang | (参考訳) 量子オートエンコーダは、量子データ圧縮のための効率的な変分量子アルゴリズムである。
しかし、以前の量子オートエンコーダはハイランク混合状態の圧縮と復元に失敗した。
本研究では,標準量子オートエンコーダモデルの基本特性と限界をより深く議論し,その回復忠実度に対する情報理論的解を提供する。
この理解に基づき,ノイズ支援型量子オートエンコーダアルゴリズムを提案する。
適切なノイズチャンネルを用いて入力混合性と出力混合性を整合させ、ゴミシステムの測定結果によりノイズ設定を決定する。
従来の量子オートエンコーダモデルと比較すると,測定情報はアルゴリズムで完全に使用されている。
回路モデルに加えて、量子アニール上で実装可能な量子オートエンコーダの(ノイズアシストによる)断熱モデルを設計する。
逆場IsingモデルとWerner状態の熱状態を圧縮し,本手法の有効性を検証した。
純粋な状態アンサンブル圧縮のために、投影量子オートエンコーダアルゴリズムも導入する。 Quantum autoencoder is an efficient variational quantum algorithm for quantum data compression. However, previous quantum autoencoders fail to compress and recover high-rank mixed states. In this work, we discuss the fundamental properties and limitations of the standard quantum autoencoder model in more depth, and provide an information-theoretic solution to its recovering fidelity. Based on this understanding, we present a noise-assisted quantum autoencoder algorithm to go beyond the limitations, our model can achieve high recovering fidelity for general input states. Appropriate noise channels are used to make the input mixedness and output mixedness consistent, the noise setup is determined by measurement results of the trash system. Compared with the original quantum autoencoder model, the measurement information is fully used in our algorithm. In addition to the circuit model, we design a (noise-assisted) adiabatic model of quantum autoencoder that can be implemented on quantum annealers. We verified the validity of our methods through compressing the thermal states of transverse field Ising model and Werner states. For pure state ensemble compression, we also introduce a projected quantum autoencoder algorithm. | 翻訳日:2023-04-20 19:04:57 公開日:2021-04-24 |
# NLP Cookbook: トランスフォーマーに基づくディープラーニングアーキテクチャのための現代的なレシピ The NLP Cookbook: Modern Recipes for Transformer based Deep Learning Architectures ( http://arxiv.org/abs/2104.10640v3 ) ライセンス: Link先を確認 | Sushant Singh and Ausif Mahmood | (参考訳) 近年、自然言語処理(NLP)モデルは、テキスト分類、機械翻訳、認知対話システム、自然言語理解(NLU)による情報検索、自然言語生成(NLG)といった言語的・意味的なタスクにおいて驚くべき成功を収めている。
この成果は主に、BERT、GPT (I, II, III) などの設計に繋がるセミナルトランスフォーマーアーキテクチャによるものである。
これらの大規模モデルは前例のない性能を達成したが、計算コストが高い。
その結果、最近のnlpアーキテクチャのいくつかは、トランスファーラーニング、プルーニング、量子化、知識蒸留の概念を利用して、前任者が達成したほぼ同様の性能を維持しながら、適度なモデルサイズを達成する。
さらに、知識抽出の観点から言語モデルによって引き起こされるデータサイズ課題を軽減するために、大量のデータベースから明示的なデータドキュメントを効率と正確性を高めるために知識検索器が構築されている。
近年の研究では、より長い入力シーケンスに効率的に注意を向けることで、優れた推論にも焦点を当てている。
本稿では,多くの NLP タスクに採用されている現状の NLP モデルを,性能と効率の最適化のために要約し,検討する。
我々は,異なるアーキテクチャの詳細な理解と機能,NLP設計の分類,比較評価,今後の方向性について述べる。 In recent years, Natural Language Processing (NLP) models have achieved phenomenal success in linguistic and semantic tasks like text classification, machine translation, cognitive dialogue systems, information retrieval via Natural Language Understanding (NLU), and Natural Language Generation (NLG). This feat is primarily attributed due to the seminal Transformer architecture, leading to designs such as BERT, GPT (I, II, III), etc. Although these large-size models have achieved unprecedented performances, they come at high computational costs. Consequently, some of the recent NLP architectures have utilized concepts of transfer learning, pruning, quantization, and knowledge distillation to achieve moderate model sizes while keeping nearly similar performances as achieved by their predecessors. Additionally, to mitigate the data size challenge raised by language models from a knowledge extraction perspective, Knowledge Retrievers have been built to extricate explicit data documents from a large corpus of databases with greater efficiency and accuracy. Recent research has also focused on superior inference by providing efficient attention to longer input sequences. In this paper, we summarize and examine the current state-of-the-art (SOTA) NLP models that have been employed for numerous NLP tasks for optimal performance and efficiency. We provide a detailed understanding and functioning of the different architectures, a taxonomy of NLP designs, comparative evaluations, and future directions in NLP. | 翻訳日:2023-04-07 01:47:53 公開日:2021-04-24 |
# マヨラナ相空間における相互作用フェルミオンダイナミクス Interacting fermion dynamics in Majorana phase-space ( http://arxiv.org/abs/2104.11925v1 ) ライセンス: Link先を確認 | Ria Rushin Joseph, Laura E C Rosales-Z\'arate and Peter D Drummond | (参考訳) フェルミオン力学の問題はフェルミオンのQ関数を用いて研究される。
これは確率的位相空間表現であり、マヨラナ作用素を用いて表現するので、位相空間変数は真の非対称行列である。
4つのマヨラナ作用素と任意の性質を持つ一般相互作用ハミルトニアンを考える。
我々のモデルは、マヨラナ・ハバードとフェルミ・ハバード・ハミルトニアン、および相互作用フェルミオンの一般量子場理論を含む。
majorana q-関数を用いて一般化されたフォッカー・プランク方程式を導出し、ドリフト項と拡散項の結果を得る。
拡散項はトレースレスであることが証明され、フォワードバックワード確率過程として動的解釈を与える。
このアプローチは、実際の真空変動を伴うオントロジーの観点から量子測定のモデルにつながる。 The problem of fermion dynamics is studied using the Q-function for fermions. This is a probabilistic phase-space representation, which we express using Majorana operators, so that the phase-space variable is a real antisymmetric matrix. We consider a general interaction Hamiltonian with four Majorana operators and arbitrary properties. Our model includes the Majorana Hubbard and Fermi Hubbard Hamiltonians, as well as general quantum field theories of interacting fermions. Using the Majorana Q-function we derive a generalized Fokker-Planck equation, with results for the drift and diffusion terms. The diffusion term is proved to be traceless, which gives a dynamical interpretation as a forwards-backwards stochastic process. This approach leads to a model of quantum measurement in terms of an ontology with real vacuum fluctuations. | 翻訳日:2023-04-02 13:06:05 公開日:2021-04-24 |
# オプション:オントロジーをベンチマークするオプティマイズアルゴリズム OPTION: OPTImization Algorithm Benchmarking ONtology ( http://arxiv.org/abs/2104.11889v1 ) ライセンス: Link先を確認 | Ana Kostovska, Diederick Vermetten, Carola Doerr, Sa\v{s}o D\v{z}eroski, Pan\v{c}e Panov, Tome Eftimov | (参考訳) ベンチマーク最適化アルゴリズムのための多くのプラットフォームは、再現可能で再利用可能な研究を促進する目的で、実験データを共有できるようにする。
しかし、異なるプラットフォームは異なるデータモデルとフォーマットを使用し、関連するデータセットの識別、解釈、相互運用性を著しく阻害する。
その結果、意味的にリッチなオントロジーベースの機械可読データモデルが望まれる。
本稿では,OPTION(OPTImization algorithm benchmarking ONtology)と呼ぶオントロジーの開発について報告する。
我々のオントロジーは、アルゴリズム、問題、評価尺度などのベンチマークプロセスに関与するコアエンティティのセマンティックアノテーションに必要な語彙を提供する。
また、自動データ統合、相互運用性の改善、強力なクエリ機能、推論のための手段を提供し、ベンチマークデータの価値を高める。
BBOBワークショップデータからベンチマークパフォーマンスデータのコーパスを注釈付けしてクエリすることでOPTIONの有用性を実証する。 Many platforms for benchmarking optimization algorithms offer users the possibility of sharing their experimental data with the purpose of promoting reproducible and reusable research. However, different platforms use different data models and formats, which drastically inhibits identification of relevant data sets, their interpretation, and their interoperability. Consequently, a semantically rich, ontology-based, machine-readable data model is highly desired. We report in this paper on the development of such an ontology, which we name OPTION (OPTImization algorithm benchmarking ONtology). Our ontology provides the vocabulary needed for semantic annotation of the core entities involved in the benchmarking process, such as algorithms, problems, and evaluation measures. It also provides means for automated data integration, improved interoperability, powerful querying capabilities and reasoning, thereby enriching the value of the benchmark data. We demonstrate the utility of OPTION by annotating and querying a corpus of benchmark performance data from the BBOB workshop data - a use case which can be easily extended to cover other benchmarking data collections. | 翻訳日:2023-04-02 13:04:03 公開日:2021-04-24 |
# Data Envelopment Analysis を用いた教員評価の一貫したシステムの構築 Building a consistent system for faculty appraisal using Data Envelopment Analysis ( http://arxiv.org/abs/2105.06412v1 ) ライセンス: Link先を確認 | Amar Oukil | (参考訳) data envelopment analysis (dea)は単なる測定手段以上のものと思われる。
deaモデルは、決定的文脈における民主的ボイシングの数学的構造と見なすことができる。
このようなDEAの重要な側面は、仮想ビジネスカレッジの教授グループのパフォーマンス評価を通じて強化される。
分析の結果は多くのレベルで意思決定プロセスを支援するのに非常に有用であることを示す。
助教授、助教授、助教授、全教授の3つのカテゴリーがある。
これらの教授の評価過程は2つの異なるケースで調査される。
第1のケースは、独立した人口を表す別個のサンプルとして、教授の各カテゴリを扱う。
その結果,全教授の平均効率得点は0.85から0.93に低下することがわかった。
公平性を高めるにもかかわらず、このようなアプローチはDEAの民主的精神に反する排他的性格に苦しむ。
第2の事例は、同じ人口から抽出された単一のサンプルとして教員の査定により、この欠陥に対処しようとする試みであり、すなわち、助教授、准教授、およびフル教授は、それぞれの入力と出力に基づいて平等に扱われるが、学術的地位は重要ではない。
基本的には、出力集中よりも効率が高い手順としてのDEAの性質が原因で、明確な効率低下が報告されている。 Data Envelopment Analysis (DEA) appears more than just an instrument of measurement. DEA models can be seen as a mathematical structure for democratic voicing within decisional contexts. Such an important aspect of DEA is enhanced through the performance evaluation of a group of professors in a virtual Business college. We show that the outcomes of the analysis can be very useful to support decision processes at many levels. There are three categories of professors: Assistant professors, Associate professors, and Full professors. The evaluation process of these professors is investigated through two different cases. The first case handles each category of professors as a separate sample representing an independent population. The results show that the mean efficiency scores fall between 0.85 and 0.93 for all professors no matters their category. In spite of enabling more fairness, such an approach suffers from its exclusive character, which is contrary to the democratic spirit of DEA. The second case tries to cope with this deficiency through the assessment of the faculty members as a single sample drawn from the same population, i.e., Assistant professors, Associate professors, and Full professors are treated equally, only on the ground of their respective inputs and outputs, no matters their academic rank. A clear efficiency decline is reported, basically due to the very nature of DEA as a procedure that is more efficiency than output focused. | 翻訳日:2023-04-02 12:58:14 公開日:2021-04-24 |
# 緊急遠隔学習におけるグループワークを促進するツールとしてのオンラインハッカソン Online Hackathons as an Engaging Tool to Promote Group Work in Emergency Remote Learning ( http://arxiv.org/abs/2105.06388v1 ) ライセンス: Link先を確認 | Kiev Gama, Carlos Zimmerle, Pedro Rossi | (参考訳) 2020年、新型コロナウイルス(covid-19)のパンデミックのため、教育活動は感染拡大を避ける手段として遠隔で行う必要があった。
起きたのは、オンライン学習モデルへの移行ではなく、緊急遠隔教育と呼ばれる新しいアプローチへの移行だった。
大学体育施設への復帰が再び安全になるまで活動を続けるという一時的な戦略である。
この新しい設定は教師と学生の両方にとって難題となった。
相互作用の欠如と教室の社交化は、学生が関わり続ける障害となった。
Before the pandemic, hackathons -short-lived events (1 to 3 days) where participants intensively collaboration to develop software prototypes -- were starting to be explored as an alternative venue to engage students in acquiring and practicing technical skills. In this paper, we present an experience report on the usage of an online hackathon as a resource to engage students in the development of their semester project in a distributed applications course during this emergency remote teaching period. We describe details of the intervention and present an analysis of the students' perspective of the approach. One of the important findings was the efficient usage of the Discord communication tool -- already used by all students while playing games -- which helped them socialize and keep them continuously engaged in synchronous group work, "virtually collocated". In 2020, due to the COVID-19 pandemic, educational activities had to be done remotely as a way to avoid the spread of the disease. What happened was not exactly a shift to an online learning model but a transition to a new approach called Emergency Remote Teaching. It is a temporary strategy to keep activities going on until it is safe again to return to the physical facilities of universities. This new setting became a challenge to both teachers and students. The lack of interaction and classroom socialization became obstacles for students to continue engaged. Before the pandemic, hackathons -- short-lived events (1 to 3 days) where participants intensively collaboration to develop software prototypes -- were starting to be explored as an alternative venue to engage students in acquiring and practicing technical skills. In this paper, we present an experience report on the usage of an online hackathon as a resource to engage students in the development of their semester project in a distributed applications course during this emergency remote teaching period. We describe details of the intervention and present an analysis of the students' perspective of the approach. One of the important findings was the efficient usage of the Discord communication tool -- already used by all students while playing games -- which helped them socialize and keep them continuously engaged in synchronous group work, "virtually collocated". | 翻訳日:2023-04-02 12:57:56 公開日:2021-04-24 |
# 信号ベース量子エミュレーション装置を用いた雑音量子託を用いた非構造探索のための部分空間投影法 Subspace projection method for unstructured searches with noisy quantum oracles using a signal-based quantum emulation device ( http://arxiv.org/abs/2104.12028v1 ) ライセンス: Link先を確認 | Brian R. La Cour and Corey I. Ostrove | (参考訳) 本稿では,量子コンピュータの古典的信号ベースエミュレーションを用いた非構造化探索問題の解法について述べる。
表現の古典的な性質は、通常のユニタリゲート演算に加えて部分空間射影を実行することができる。
帯域幅の要求は、この方法で解決できる問題の規模を制限するが、しかしながら、限られたサイズの問題に対して大きな計算上の利点をもたらすことができる。
特に、同じ数のうるさいオラクル呼び出しに対して、提案したサブスペースプロジェクション法は、Groverのアルゴリズムを同一デバイスに単一応用するよりも、解を見つけるための成功確率が高いことが判明した。 This paper describes a novel approach to solving unstructured search problems using a classical, signal-based emulation of a quantum computer. The classical nature of the representation allows one to perform subspace projections in addition to the usual unitary gate operations. Although bandwidth requirements will limit the scale of problems that can be solved by this method, it can nevertheless provide a significant computational advantage for problems of limited size. In particular, we find that, for the same number of noisy oracle calls, the proposed subspace projection method provides a higher probability of success for finding a solution than does an single application of Grover's algorithm on the same device. | 翻訳日:2023-04-02 12:57:40 公開日:2021-04-24 |
# ユニバーサル量子コンピュータの信号に基づく古典的エミュレーション Signal-based classical emulation of a universal quantum computer ( http://arxiv.org/abs/2104.12027v1 ) ライセンス: Link先を確認 | Brian R. La Cour and Granville E. Ott | (参考訳) 本稿では,任意の量子状態を表現するために,有界持続時間と振幅の信号を用いる古典的システムを用いて,普遍量子コンピュータをエミュレートする新しい手法を提案する。
信号はどんなモダリティ(例えば、音響、電磁など)であっても構わないが、ここでの議論は電子信号に焦点をあてる。
単項ゲート操作は4クワラント乗算器、オペレーショナルアンプ、アナログフィルタなどのアナログ電子回路装置を用いて行われるが、非単項演算も行うことができる。
このようにして、量子状態のヒルベルト空間構造は、ゲート演算の普遍集合と同様に、古典的に完全にエミュレートすることができる。
しかし、要求される帯域幅はキュービットの数とともに指数関数的にスケールするので、アプローチのスケーラビリティは制限されるが、本質的な並列性、構成の容易さ、デコヒーレンスに対する古典的な堅牢性は、現在の高性能コンピュータの能力と効率に匹敵する可能性がある。 In this paper we present a novel approach to emulating a universal quantum computer with a classical system, one that uses a signal of bounded duration and amplitude to represent an arbitrary quantum state. The signal may be of any modality (e.g., acoustic, electromagnetic, etc), but we focus our discussion here on electronic signals. Unitary gate operations are performed using analog electronic circuit devices, such as four-quadrant multipliers, operational amplifiers, and analog filters, although non-unitary operations may be performed as well. In this manner, the Hilbert space structure of the quantum state, as well as a universal set of gate operations, may be fully emulated classically. The required bandwidth scales exponentially with the number of qubits, however, thereby limiting the scalability of the approach, but the intrinsic parallelism, ease of construction, and classical robustness to decoherence may nevertheless lead to capabilities and efficiencies rivaling that of current high performance computers. | 翻訳日:2023-04-02 12:57:26 公開日:2021-04-24 |
# 有限量子力学における量子系のサブシステムへの分解 Decomposition of a Quantum System Into Subsystems in Finite Quantum Mechanics ( http://arxiv.org/abs/2104.11992v1 ) ライセンス: Link先を確認 | Vladimir V. Kornyak | (参考訳) 合成次元を持つ任意のヒルベルト空間は、より小さいヒルベルト空間のテンソル積に分解することができる。
これにより、量子システムをサブシステムに分解することができる。
量子系の分解を構成論的に研究するために, 簡単な扱いやすいモデルを提案する。 Any Hilbert space with composite dimension can be factorized into a tensor product of smaller Hilbert spaces. This allows to decompose a quantum system into subsystems. We propose a simple tractable model for a constructive study of decompositions of quantum systems. | 翻訳日:2023-04-02 12:57:05 公開日:2021-04-24 |
# 大規模人体移動データを用いた効果的なメタグラフベースライフパターンクラスタリング Effective Metagraph-based Life Pattern Clustering with Big Human Mobility Data ( http://arxiv.org/abs/2104.11968v1 ) ライセンス: Link先を確認 | Wenjing Li, Haoran Zhang, Jinyu Chen, Peiran Li, Yuhao Yao, Mariko Shibasaki, Xuan Song, Ryosuke Shibasaki | (参考訳) ライフパターンのクラスタリングは、グループの日々のモビリティパターンと活動の規則性の特徴を抽象化するために不可欠である。
数百万のGPS記録に基づいて,同種のライフパターンを持つ群を効率的に識別できるライフパターンクラスタリングの枠組みを提案する。
提案手法は,アグリゲーションなしで個々の生活パターンデータの本来の特徴を保持できる。
多様な生活パターンを示すために,メタグラフに基づくデータ構造を提案する。
空間-時間的類似性には、重要な位置意味論、時間逐次特性、周波数がこのデータ構造に統合され、個人の不確かさと個人間の多様性を捉える。
非負分解法を用いて次元を縮小した。
提案手法は, 従来の手法と比較し, 計算効率とロバスト性に優れ, ライフパターンが類似した群を効果的に同定できることを示す。
代表的な生活パターン群を明らかにし,異なる期間と異なる地域における生活パターン群の特徴を分析した。
我々は、今後のインフラ計画、サービス改善、都市・交通に関する政策立案に役立ち、人間化された持続可能な都市を推進できると信じている。 Life pattern clustering is essential for abstracting the groups' characteristics of daily mobility patterns and activity regularity. Based on millions of GPS records, this paper proposed a framework on the life pattern clustering which can efficiently identify the groups have similar life pattern. The proposed method can retain original features of individual life pattern data without aggregation. Metagraph-based data structure is proposed for presenting the diverse life pattern. Spatial-temporal similarity includes significant places semantics, time sequential properties and frequency are integrated into this data structure, which captures the uncertainty of an individual and the diversities between individuals. Non-negative-factorization-based method was utilized for reducing the dimension. The results show that our proposed method can effectively identify the groups have similar life pattern and takes advantages in computation efficiency and robustness comparing with the traditional method. We revealed the representative life pattern groups and analyzed the group characteristics of human life patterns during different periods and different regions. We believe our work will help in future infrastructure planning, services improvement and policies making related to urban and transportation, thus promoting a humanized and sustainable city. | 翻訳日:2023-04-02 12:57:02 公開日:2021-04-24 |
# コメント: "aharonov-bohm effect for bound states from the interaction of the magnetic quadrupole moment of a neutral particle with axial fields"
Phys
rev. a 101, 032102 (2020) Comment on: "Aharonov-Bohm effect for bound states from the interaction of the magnetic quadrupole moment of a neutral particle with axial fields". Phys. Rev. A 101, 032102 (2020) ( http://arxiv.org/abs/2104.11942v1 ) ライセンス: Link先を確認 | Francisco M. Fern\'andez | (参考訳) 我々は、中性粒子の磁気四極子モーメントと軸場との相互作用から、境界状態に対するアハロノフ・ボーム効果に関する最近発表された結果を分析する。
フロベニウス級数列の任意の切り離しから著者によって得られる固有値が複数のモデルに対応することを示し、従って任意の物理的結論を導出するのに不適であることを示す。
さらに、許容振動子の周波数の予測は、先ほど述べたトランケーション条件の単なる結果である。 We analyze recently published results about the Aharonov-Bohm effect for bound states from the interaction of the magnetic quadrupole moment of a neutral particle with axial fields. We show that the eigenvalues obtained by the authors from an arbitrary truncation of the Frobenius power series correspond to more than one model and, consequently, are unsuitable for drawing any sound physical conclusion. Besides, the prediction of allowed oscillator frequencies is a mere consequence of the truncation condition just mentioned. | 翻訳日:2023-04-02 12:56:43 公開日:2021-04-24 |
# 有限無限系結合に基づく非可換グラフ:コヒーレント場に結合した量子ビットの量子誤差補正 Non-commutative graphs based on finite-infinite system couplings: quantum error correction for a qubit coupled to a coherent field ( http://arxiv.org/abs/2104.11937v1 ) ライセンス: Link先を確認 | G.G. Amosov, A.S. Mokeev, A.N. Pechen | (参考訳) 量子誤り訂正は、量子情報伝達と量子コンピューティングにおいて重要な役割を果たす。
本研究では,有限次元量子系と無限次元系を結合した場合の誤差補正について,非可換作用素グラフの理論を開発し,適用する。
我々は、Jaynes-Cummings Hamiltonian をボソニックコヒーレント場と結合する qubit の明示的な例と考える。
我々は非可換グラフの理論をこの状況に拡張し、ガゼウ・クラウダーコヒーレント状態、対応する非可換グラフを用いて構成する。
その結果、誤差補正部分空間上のプロジェクタである量子斜め線が、量子ビットとボゾン場の周波数の関数として解析されることがわかった。
一般的な処理は、Jaynes-Cummings Hamiltonian のパラメータの特定の実験値に対する誤差補正部分空間の解析にも適用される。
提案されたスキームは、ハミルトニアンスペクトルのスペクトルをjcモデルのように直接和に分解する全ての系に適用できる。 Quantum error correction plays a key role for quantum information transmission and quantum computing. In this work, we develop and apply the theory of non-commutative operator graphs to study error correction in the case of a finite-dimensional quantum system coupled to an infinite dimensional system. We consider as an explicit example a qubit coupled via the Jaynes-Cummings Hamiltonian with a bosonic coherent field. We extend the theory of non-commutative graphs to this situation and construct, using the Gazeau-Klauder coherent states, the corresponding non-commutative graph. As the result, we find the quantum anticlique, which is the projector on the error correcting subspace, and analyze it as a function of the frequencies of the qubit and the bosonic field. The general treatment is also applied to the analysis of the error correcting subspace for certain experimental values of the parameters of the Jaynes-Cummings Hamiltonian. The proposed scheme can be applied to any system that possess the same decomposition of spectrum of the Hamiltonian into a direct sum as in JC model, where eigenenergies in the two direct summands form strictly increasing sequences. | 翻訳日:2023-04-02 12:56:33 公開日:2021-04-24 |
# 超電導量子系におけるデータ駆動勾配上昇パルス工学を用いた制御Zゲートの最適化 Optimization of Controlled-Z Gate with Data-Driven Gradient Ascent Pulse Engineering in a Superconducting Qubit System ( http://arxiv.org/abs/2104.11936v1 ) ライセンス: Link先を確認 | Zhiwen Zong, Zhenhai Sun, Zhangjingzi Dong, Chongxin Run, Liang Xiang, Ze Zhan, Qianlong Wang, Ying Fei, Yaozu Wu, Wenyan Jin, Cong Xiao, Zhilong Jia, Peng Duan, Jianlan Wu, Yi Yin, Guoping Guo | (参考訳) 2ビット制御Z(CZ)ゲートの実験最適化は、ゲート演算子と出力量子状態の最適化を目的とした2つの異なるデータ駆動勾配上昇パルス工学(GRAPE)プロトコルに従って実現される。
両方のGRAPEプロトコルに対して、グラデーションの鍵計算は入力Z制御パルスと実験測定の混合情報を利用する。
フラットトップ波形における不完全な初期パルスにより, 実験によりCZゲートは急速に改善され, 2つの最適化パルスに対するゲートの忠実度は約99%であった。
実験により, ゲート最適化問題におけるデータ駆動グレーププロトコルの適用性を確認した。 The experimental optimization of a two-qubit controlled-Z (CZ) gate is realized following two different data-driven gradient ascent pulse engineering (GRAPE) protocols in the aim of optimizing the gate operator and the output quantum state, respectively. For both GRAPE protocols, the key computation of gradients utilizes mixed information of the input Z-control pulse and the experimental measurement. With an imperfect initial pulse in a flattop waveform, our experimental implementation shows that the CZ gate is quickly improved and the gate fidelities subject to the two optimized pulses are around 99%. Our experimental study confirms the applicability of the data-driven GRAPE protocols in the problem of the gate optimization. | 翻訳日:2023-04-02 12:56:16 公開日:2021-04-24 |
# LiDARNet: ポイントクラウドセマンティックセマンティックセグメンテーションのための境界対応ドメイン適応モデル LiDARNet: A Boundary-Aware Domain Adaptation Model for Point Cloud Semantic Segmentation ( http://arxiv.org/abs/2003.01174v3 ) ライセンス: Link先を確認 | Peng Jiang and Srikanth Saripalli | (参考訳) 本稿では,LiDARスキャンのフルシーンセマンティックセマンティックセグメンテーション(LiDARNet)のための境界対応ドメイン適応モデルを提案する。
我々のモデルは、ドメインプライベート機能とドメイン共有機能の両方を2ブランチ構造で抽出することができる。
我々はGated-SCNNをLiDARNetのセグメンタコンポーネントに組み込んで境界情報を学習し、フルシーンセグメンテーションラベルを予測した。
さらに、ドメイン共有機能とプライベート機能を使って2つのドメイン間のマッピングを学習するためにモデルを誘導することで、ドメインギャップをさらに小さくする。
さらに、LiDARポイントクラウドセマンティックセグメンテーションのためのドメイン適応のための新しいデータセット(SemanticUSL\footnote{The access address of SemanticUSL:\url{https://unmannedlab.github.io/research/SemanticUSL}})を導入する。
データセットはSemanticKITTIと同じデータフォーマットとオントロジーを持つ。
実世界のデータセットsemantickitti,semanticposs,semanticuslについて実験を行い,チャネル分布,反射率分布,シーンの多様性,センサ設定の違いについて検討した。
このアプローチを用いることで、両方のドメインで動作する単一のプロジェクションベースのLiDARのフルシーンセマンティックセマンティックセマンティクスモデルが得られる。
私たちのモデルは、適応後、ほぼ同じパフォーマンスをソースドメインに保持でき、ターゲットドメインで8\%-22\%miouパフォーマンスが向上します。 We present a boundary-aware domain adaptation model for LiDAR scan full-scene semantic segmentation (LiDARNet). Our model can extract both the domain private features and the domain shared features with a two-branch structure. We embedded Gated-SCNN into the segmentor component of LiDARNet to learn boundary information while learning to predict full-scene semantic segmentation labels. Moreover, we further reduce the domain gap by inducing the model to learn a mapping between two domains using the domain shared and private features. Additionally, we introduce a new dataset (SemanticUSL\footnote{The access address of SemanticUSL:\url{https://unmannedlab.github.io/research/SemanticUSL}}) for domain adaptation for LiDAR point cloud semantic segmentation. The dataset has the same data format and ontology as SemanticKITTI. We conducted experiments on real-world datasets SemanticKITTI, SemanticPOSS, and SemanticUSL, which have differences in channel distributions, reflectivity distributions, diversity of scenes, and sensors setup. Using our approach, we can get a single projection-based LiDAR full-scene semantic segmentation model working on both domains. Our model can keep almost the same performance on the source domain after adaptation and get an 8\%-22\% mIoU performance increase in the target domain. | 翻訳日:2022-12-27 04:56:11 公開日:2021-04-24 |
# x線画像におけるcovid-19パターン検出のための効率的かつ効率的なディープラーニングモデルの構築 Towards an Effective and Efficient Deep Learning Model for COVID-19 Patterns Detection in X-ray Images ( http://arxiv.org/abs/2004.05717v5 ) ライセンス: Link先を確認 | Eduardo Luz, Pedro Lopes Silva, Rodrigo Silva, Ludmila Silva, Gladston Moreira and David Menotti | (参考訳) 新型コロナウイルス(covid-19)のパンデミックに直面している現在、ヒト種の最も顕著な課題の1つとなっている。
ウイルスの増殖を遅らせる重要な要因は、感染した患者の迅速な診断と隔離である。
逆転写ポリメラーゼ連鎖反応法(Reverse transcription polymerase chain reaction method)は、新型コロナウイルスの標準的な同定方法である。
そこで研究者らは、胸部X線に応用された別のスクリーニング方法と深層学習を、有望な結果を示してきた。
その成功にもかかわらず、これらの手法の計算コストは依然として高く、アクセシビリティと可用性に困難が伴う。
そこで本研究の目的は,胸部x線検査におけるcovid-19スクリーニング問題に対するメモリと処理時間の観点から,高精度かつ効率的な方法を提案することである。
方法: 定義された目的を達成するために,その精度とフットプリントの低さで知られている深層ニューラルネットワークの効率的なネットワークファミリを,他のアプリケーションで活用し,拡張する。
また、階層型分類器による問題の根底にある分類も活用する。
13,569個のx線画像のデータセットを、健康で非共生型肺炎とcovid-19患者に分けて、提案されたアプローチと他の5つの競合するアーキテクチャをトレーニングするために使用する。
最後に,3つの分類の231画像を用いて,手法の質評価を行った。
結果: 提案手法は, 全体の精度が93.9%, 新型コロナウイルス, 感度96.8%, 正の予測が100%であり, 他のテスト済みアーキテクチャに比べて5~30分の1のパラメータしか得られなかった。
深層学習は、X線画像から新型コロナウイルスを検出するタスクにおいて、医師を助けることができると主張している。 Confronting the pandemic of COVID-19, is nowadays one of the most prominent challenges of the human species. A key factor in slowing down the virus propagation is the rapid diagnosis and isolation of infected patients. The standard method for COVID-19 identification, the Reverse transcription polymerase chain reaction method, is time-consuming and in short supply due to the pandemic. Thus, researchers have been looking for alternative screening methods and deep learning applied to chest X-rays of patients has been showing promising results. Despite their success, the computational cost of these methods remains high, which imposes difficulties to their accessibility and availability. Thus, the main goal of this work is to propose an accurate yet efficient method in terms of memory and processing time for the problem of COVID-19 screening in chest X-rays. Methods: To achieve the defined objective we exploit and extend the EfficientNet family of deep artificial neural networks which are known for their high accuracy and low footprints in other applications. We also exploit the underlying taxonomy of the problem with a hierarchical classifier. A dataset of 13,569 X-ray images divided into healthy, non-COVID-19 pneumonia, and COVID-19 patients is used to train the proposed approaches and other 5 competing architectures. Finally, 231 images of the three classes were used to assess the quality of the methods. Results: The results show that the proposed approach was able to produce a high-quality model, with an overall accuracy of 93.9%, COVID-19, sensitivity of 96.8% and positive prediction of 100%, while having from 5 to 30 times fewer parameters than other than the other tested architectures. Larger and more heterogeneous databases are still needed for validation before claiming that deep learning can assist physicians in the task of detecting COVID-19 in X-ray images. | 翻訳日:2022-12-14 05:22:59 公開日:2021-04-24 |
# proformer: オンデバイスlshプロジェクションベースのトランスフォーマー ProFormer: Towards On-Device LSH Projection Based Transformers ( http://arxiv.org/abs/2004.05801v2 ) ライセンス: Link先を確認 | Chinnadhurai Sankar, Sujith Ravi, Zornitsa Kozareva | (参考訳) テキストベースのニューラルモデルの中心にはワード表現があり、強力だが多くのメモリを占有しているため、携帯電話やウォッチ、IoTといったメモリ制約のあるデバイスへのデプロイが困難である。
これらの課題を克服するために、proformer - プロジェクションベースのトランスフォーマーアーキテクチャを紹介します。これはより高速で軽量で、メモリ制約デバイスへのデプロイとユーザのプライバシの保持に適しています。
我々は、LSHプロジェクション層を用いて、LSHプロジェクション表を埋め込むことなく、動的に単語表現を生成する。これにより、メモリフットプリントがO(V.d)からO(T)に大幅に減少し、Vは語彙サイズ、dは埋め込み次元サイズ、TはLSHプロジェクション表現の次元となる。
また,NLSHワードプロジェクションの入力シーケンスを,自己アテンションを用いてN/K表現のシーケンスに変換することで,O(K^2)による計算を2次的に削減するローカルプロジェクションアテンション(LPA)層を提案する。
本稿では,複数のテキスト分類タスクにおけるproformerの評価と,先行する最先端のオン・ザ・デバイスアプローチによる短いテキスト分類と,長いテキスト分類タスクにおける同等の性能向上を観察した。
2層BERTモデルと比較して、ProFormerは組み込みメモリのフットプリントを92.16MBから1.3KBに削減し、計算オーバーヘッドを16倍削減した。 At the heart of text based neural models lay word representations, which are powerful but occupy a lot of memory making it challenging to deploy to devices with memory constraints such as mobile phones, watches and IoT. To surmount these challenges, we introduce ProFormer -- a projection based transformer architecture that is faster and lighter making it suitable to deploy to memory constraint devices and preserve user privacy. We use LSH projection layer to dynamically generate word representations on-the-fly without embedding lookup tables leading to significant memory footprint reduction from O(V.d) to O(T), where V is the vocabulary size, d is the embedding dimension size and T is the dimension of the LSH projection representation. We also propose a local projection attention (LPA) layer, which uses self-attention to transform the input sequence of N LSH word projections into a sequence of N/K representations reducing the computations quadratically by O(K^2). We evaluate ProFormer on multiple text classification tasks and observed improvements over prior state-of-the-art on-device approaches for short text classification and comparable performance for long text classification tasks. In comparison with a 2-layer BERT model, ProFormer reduced the embedding memory footprint from 92.16 MB to 1.3 KB and requires 16 times less computation overhead, which is very impressive making it the fastest and smallest on-device model. | 翻訳日:2022-12-13 23:06:48 公開日:2021-04-24 |
# シーン画像表現のためのコンテンツとコンテキスト特徴 Content and Context Features for Scene Image Representation ( http://arxiv.org/abs/2006.03217v3 ) ライセンス: Link先を確認 | Chiranjibi Sitaula and Sunil Aryal and Yong Xiang and Anish Basnet and Xuequan Lu | (参考訳) シーンイメージ分類における既存の研究は、コンテンツ特徴(例えば、視覚情報)またはコンテキスト特徴(例えば、アノテーション)に焦点を当てている。
相補的で,異なるクラスの画像の識別に有用である画像の異なる情報を取得することにより,それらの融合により分類結果が改善されると考えられる。
本稿では,コンテンツの特徴やコンテキストの特徴を計算し,それらを融合させる新しい手法を提案する。
コンテンツ機能については,画像の背景情報と前景情報に基づくマルチスケールの深い特徴を設計する。
コンテクストの特徴として、Webで利用可能な類似画像のアノテーションを使用して、フィルタワード(コードブック)を設計する。
サポートベクターマシン分類器を用いた3つのベンチマークシーンデータセットを用いた実験により,提案するコンテキスト特徴とコンテンツ特徴が,既存のコンテキストとコンテンツ特徴よりも優れた結果を生み出すことが明らかになった。
提案された2種類の特徴の融合は、多くの最先端の特徴を著しく上回っている。 Existing research in scene image classification has focused on either content features (e.g., visual information) or context features (e.g., annotations). As they capture different information about images which can be complementary and useful to discriminate images of different classes, we suppose the fusion of them will improve classification results. In this paper, we propose new techniques to compute content features and context features, and then fuse them together. For content features, we design multi-scale deep features based on background and foreground information in images. For context features, we use annotations of similar images available in the web to design a filter words (codebook). Our experiments in three widely used benchmark scene datasets using support vector machine classifier reveal that our proposed context and content features produce better results than existing context and content features, respectively. The fusion of the proposed two types of features significantly outperform numerous state-of-the-art features. | 翻訳日:2022-11-25 03:07:39 公開日:2021-04-24 |
# AWAC:オフラインデータセットによるオンライン強化学習の促進 AWAC: Accelerating Online Reinforcement Learning with Offline Datasets ( http://arxiv.org/abs/2006.09359v6 ) ライセンス: Link先を確認 | Ashvin Nair, Abhishek Gupta, Murtaza Dalal, Sergey Levine | (参考訳) 強化学習(rl)は経験から制御ポリシーを学ぶための魅力的な形式を提供する。
しかし、古典的なRLのアクティブな定式化は、それぞれの行動に長いアクティブな探索プロセスを必要とするため、ロボット制御のような現実世界の環境では適用が困難である。
オンライン学習プロセスを支援するために、RLアルゴリズムが効果的に収集されたデータを使用することができれば、そのようなアプリケーションはより実用的なものになります。
このような事前データは、専門家によるデモンストレーションや、潜在的に有用な移行を示すサブ最適事前データを構成することができる。
以前の多くの手法では、RLのブートストラップに最適なデモを使ったり、純粋にオフラインでトレーニングするために準最適データを使用したりしていたが、オフラインデータでポリシーをトレーニングすることは極めて困難であり、オンラインRLでは改善が続けられている。
本稿では,この課題がなぜ難しいのかを分析し,サンプルの効率的な動的プログラミングと最大可能性ポリシー更新を組み合わせるアルゴリズムを提案し,大量のオフラインデータを活用し,rlポリシーのオンライン微調整を迅速に行うための,シンプルで効果的なフレームワークを提供する。
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの迅速な学習を可能にする。
シミュレーションや実世界のロボット工学の領域では、実際の多指ハンドによるデクスター操作、ロボットアームによる引き出し開口、バルブの回転など、これらの利点を実証する。
以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることがわかった。 Reinforcement learning (RL) provides an appealing formalism for learning control policies from experience. However, the classic active formulation of RL necessitates a lengthy active exploration process for each behavior, making it difficult to apply in real-world settings such as robotic control. If we can instead allow RL algorithms to effectively use previously collected data to aid the online learning process, such applications could be made substantially more practical: the prior data would provide a starting point that mitigates challenges due to exploration and sample complexity, while the online training enables the agent to perfect the desired skill. Such prior data could either constitute expert demonstrations or sub-optimal prior data that illustrates potentially useful transitions. While a number of prior methods have either used optimal demonstrations to bootstrap RL, or have used sub-optimal data to train purely offline, it remains exceptionally difficult to train a policy with offline data and actually continue to improve it further with online RL. In this paper we analyze why this problem is so challenging, and propose an algorithm that combines sample efficient dynamic programming with maximum likelihood policy updates, providing a simple and effective framework that is able to leverage large amounts of offline data and then quickly perform online fine-tuning of RL policies. We show that our method, advantage weighted actor critic (AWAC), enables rapid learning of skills with a combination of prior demonstration data and online experience. We demonstrate these benefits on simulated and real-world robotics domains, including dexterous manipulation with a real multi-fingered hand, drawer opening with a robotic arm, and rotating a valve. Our results show that incorporating prior data can reduce the time required to learn a range of robotic skills to practical time-scales. | 翻訳日:2022-11-20 20:22:20 公開日:2021-04-24 |
# リプシッツ・リカレントニューラルネットワーク Lipschitz Recurrent Neural Networks ( http://arxiv.org/abs/2006.12070v3 ) ライセンス: Link先を確認 | N.Benjamin Erichson, Omri Azencot, Alejandro Queiruga, Liam Hodgkinson, and Michael W. Mahoney | (参考訳) リカレントニューラルネットワーク(RNN)を連続時間力学系とみなし、よく理解された線形成分とリプシッツ非線形性という2つの部分で隠れた状態の進化を記述する。
この特別な機能形式は、非線形システム理論のツールを用いて、繰り返し単位の長期挙動の安定性解析を容易にする。
これにより、実験前にアーキテクチャ設計の決定が可能になる。
再帰単位の大域的安定のための十分条件が得られ、隠れて隠れた行列を構築するための新しいスキームが動機となる。
我々の実験は、リプシッツRNNがコンピュータビジョン、言語モデリング、音声予測タスクなど、様々なベンチマークタスクにおいて、既存の繰り返しユニットよりも優れていることを示した。
最後に,Hessian に基づく解析により,我々のリプシッツ再帰ユニットは,他の連続時間 RNN と比較して,入力およびパラメータ摂動に対してより堅牢であることを示す。 Viewing recurrent neural networks (RNNs) as continuous-time dynamical systems, we propose a recurrent unit that describes the hidden state's evolution with two parts: a well-understood linear component plus a Lipschitz nonlinearity. This particular functional form facilitates stability analysis of the long-term behavior of the recurrent unit using tools from nonlinear systems theory. In turn, this enables architectural design decisions before experimentation. Sufficient conditions for global stability of the recurrent unit are obtained, motivating a novel scheme for constructing hidden-to-hidden matrices. Our experiments demonstrate that the Lipschitz RNN can outperform existing recurrent units on a range of benchmark tasks, including computer vision, language modeling and speech prediction tasks. Finally, through Hessian-based analysis we demonstrate that our Lipschitz recurrent unit is more robust with respect to input and parameter perturbations as compared to other continuous-time RNNs. | 翻訳日:2022-11-18 05:28:46 公開日:2021-04-24 |
# 逆向きに訓練されたディープネット転送の改善:画像分類の図解 Adversarially-Trained Deep Nets Transfer Better: Illustration on Image Classification ( http://arxiv.org/abs/2007.05869v2 ) ライセンス: Link先を確認 | Francisco Utrera, Evan Kravitz, N. Benjamin Erichson, Rajiv Khanna and Michael W. Mahoney | (参考訳) トランスファーラーニングは、訓練済みのディープニューラルネットワークを新しいドメインへの画像認識タスクに適用するための強力な方法論として登場した。
このプロセスは、大きな機能豊富なソースデータセットで事前トレーニングされたニューラルネットワークを取り、必須のジェネリックイメージプロパティをエンコードする初期のレイヤを凍結し、ターゲット状況に関連する特定の情報をキャプチャするために最後のいくつかのレイヤを微調整する。
このアプローチは、新しいタスクで限定的あるいは弱いラベル付きデータしか利用できない場合に特に有用である。
本研究では,非学習モデルよりも,特に新しいドメインタスクに限られたデータしか利用できない場合に,学習モデルがより良く転送できることを実証する。
さらに, 学習した表現をテクスチャではなく, 形状保持に偏り, 情報源モデルの伝達性に影響を与えることが観察された。
最後に、影響関数のレンズを通して、伝達された敵が訓練したモデルがより人間に識別可能な意味情報を含むことを発見した。 Transfer learning has emerged as a powerful methodology for adapting pre-trained deep neural networks on image recognition tasks to new domains. This process consists of taking a neural network pre-trained on a large feature-rich source dataset, freezing the early layers that encode essential generic image properties, and then fine-tuning the last few layers in order to capture specific information related to the target situation. This approach is particularly useful when only limited or weakly labeled data are available for the new task. In this work, we demonstrate that adversarially-trained models transfer better than non-adversarially-trained models, especially if only limited data are available for the new domain task. Further, we observe that adversarial training biases the learnt representations to retaining shapes, as opposed to textures, which impacts the transferability of the source models. Finally, through the lens of influence functions, we discover that transferred adversarially-trained models contain more human-identifiable semantic information, which explains -- at least partly -- why adversarially-trained models transfer better. | 翻訳日:2022-11-11 13:18:23 公開日:2021-04-24 |
# 抗がん剤感受性予測のためのREFINED CNNアンサンブル学習の検討 Investigation of REFINED CNN ensemble learning for anti-cancer drug sensitivity prediction ( http://arxiv.org/abs/2009.04076v2 ) ライセンス: Link先を確認 | Omid Bazgir, Souparno Ghosh, Ranadip Pal | (参考訳) 個々の細胞株に対するディープラーニングモデルを用いた抗がん剤感受性予測は、パーソナライズ医療において重要な課題である。
ReFINED (Representation of Features as Images with Neighborhood Dependencies) CNN (Convolutional Neural Network) を用いたモデルでは薬剤感受性の予測に有望な結果が示されている。
REFINED CNNの基本的な考え方は、畳み込みニューラルネットワークアーキテクチャの恩恵を受けることができる空間相関を持つコンパクトなイメージとして、高次元ベクトルを表現することである。
しかし、ベクトルからコンパクトな2次元画像へのマッピングは、考慮された距離測度や近傍のばらつきのためユニークではない。
本稿では,このようなマッピングから構築したアンサンブルに基づく予測について検討し,最高の単一REFINED CNNモデル予測を改良する。
NCI60 と NCIALMANAC データベースを用いた結果から,アンサンブルアプローチは個々のモデルと比較して大幅な性能向上をもたらすことが示された。
さらに、異なるマッピングのアマルガメーションから生成された単一のマッピングは、スタックングアンサンブルと同様のパフォーマンスを提供するが、計算の複雑さは著しく低い。 Anti-cancer drug sensitivity prediction using deep learning models for individual cell line is a significant challenge in personalized medicine. REFINED (REpresentation of Features as Images with NEighborhood Dependencies) CNN (Convolutional Neural Network) based models have shown promising results in drug sensitivity prediction. The primary idea behind REFINED CNN is representing high dimensional vectors as compact images with spatial correlations that can benefit from convolutional neural network architectures. However, the mapping from a vector to a compact 2D image is not unique due to variations in considered distance measures and neighborhoods. In this article, we consider predictions based on ensembles built from such mappings that can improve upon the best single REFINED CNN model prediction. Results illustrated using NCI60 and NCIALMANAC databases shows that the ensemble approaches can provide significant performance improvement as compared to individual models. We further illustrate that a single mapping created from the amalgamation of the different mappings can provide performance similar to stacking ensemble but with significantly lower computational complexity. | 翻訳日:2022-10-20 08:46:42 公開日:2021-04-24 |
# ループを持つネットワークに対する信念伝播 Belief propagation for networks with loops ( http://arxiv.org/abs/2009.12246v2 ) ライセンス: Link先を確認 | Alec Kirkley and George T. Cantwell and M. E. J. Newman | (参考訳) 信念伝播は、流行モデル、スピンモデル、ベイズ図形モデルなどのネットワーク上の確率論的モデルの解法として広く用いられているが、短いループを含むネットワークの一般的な場合ではうまく機能しないという深刻な欠点に悩まされている。
本稿では,この長期的問題に対する解法を導出し,ループが短いシステムにおける確率分布の高速計算を可能にするとともに,エントロピーや分割関数の計算が困難であることを示す。
例えば、イジングモデルを用いて、本手法が実ネットワークと合成ネットワークの両方に優れた結果を与え、標準メッセージパッシング法で大幅に改善することを示す。
また,本手法の様々な問題への応用の可能性についても論じる。 Belief propagation is a widely used message passing method for the solution of probabilistic models on networks such as epidemic models, spin models, and Bayesian graphical models, but it suffers from the serious shortcoming that it works poorly in the common case of networks that contain short loops. Here we provide a solution to this long-standing problem, deriving a belief propagation method that allows for fast calculation of probability distributions in systems with short loops, potentially with high density, as well as giving expressions for the entropy and partition function, which are notoriously difficult quantities to compute. Using the Ising model as an example, we show that our approach gives excellent results on both real and synthetic networks, improving significantly on standard message passing methods. We also discuss potential applications of our method to a variety of other problems. | 翻訳日:2022-10-15 17:03:18 公開日:2021-04-24 |
# 条件付き対話生成のためのシンプルで効率的なマルチタスク学習手法 A Simple and Efficient Multi-Task Learning Approach for Conditioned Dialogue Generation ( http://arxiv.org/abs/2010.11140v2 ) ライセンス: Link先を確認 | Yan Zeng and Jian-Yun Nie | (参考訳) 条件付き対話生成はラベル付き応答の不足に苦しむ。
本研究では,この条件に関連するラベル付き非ダイアログテキストデータを活用し,より収集が容易である。
ラベル付き対話とテキストデータの両方を活用するマルチタスク学習手法を提案する。
3つのタスクは、ラベル付き対話データ上の条件付き対話生成タスクと、条件付き言語符号化タスクと、ラベル付きテキストデータ上の条件付き言語生成タスクとを共同で最適化する。
実験の結果,提案手法はラベル付きテキストを活用し,最先端モデルよりも優れており,また,従来の手法と比較してテキストデータを活用する性能も向上していることがわかった。 Conditioned dialogue generation suffers from the scarcity of labeled responses. In this work, we exploit labeled non-dialogue text data related to the condition, which are much easier to collect. We propose a multi-task learning approach to leverage both labeled dialogue and text data. The 3 tasks jointly optimize the same pre-trained Transformer -- conditioned dialogue generation task on the labeled dialogue data, conditioned language encoding task and conditioned language generation task on the labeled text data. Experimental results show that our approach outperforms the state-of-the-art models by leveraging the labeled texts, and it also obtains larger improvement in performance comparing to the previous methods to leverage text data. | 翻訳日:2022-10-04 22:49:31 公開日:2021-04-24 |
# 衝突通信を用いたノンセンシングマルチプレイヤーマルチアームバンディットについて On No-Sensing Adversarial Multi-player Multi-armed Bandits with Collision Communications ( http://arxiv.org/abs/2011.01090v2 ) ライセンス: Link先を確認 | Chengshuai Shi, Cong Shen | (参考訳) 我々は,新しい視点から,難解な非感知型マルチプレイヤー・マルチアーム・バンディット(mp-mab)問題について検討した。
複数のプレイヤーの硬さに焦点を当てる代わりに、攻撃可能性と呼ばれる新しい硬さの次元を導入する。
全ての敵は攻撃性に基づいて分類でき、プレイヤー間で強制協調通信を行うアルゴリズムのファミリーであるAdversary-Adaptive Collision-Communication (A2C2)を導入する。
攻撃性認識と無意識設定の両方を研究し,zチャネルモデルの情報理論ツールと誤り訂正符号化を用いて,敵対環境における衝突情報のない暗黙的通信の課題に対処する。
そこで本研究では,新たな誤り検出繰り返し符号と同期のためのランダム化通信により,攻撃可能性を推定する簡単な手法を提案する。
理論的分析は、漸近的攻撃可能性に依存したサブ線形後悔は、攻撃可能性を知ることなく達成可能であることを証明している。
特に、漸近的後悔はプレイヤー数に指数関数的依存を持たず、この問題における2次元の硬さの基本的なトレードオフを明らかにする。 We study the notoriously difficult no-sensing adversarial multi-player multi-armed bandits (MP-MAB) problem from a new perspective. Instead of focusing on the hardness of multiple players, we introduce a new dimension of hardness, called attackability. All adversaries can be categorized based on the attackability and we introduce Adversary-Adaptive Collision-Communication (A2C2), a family of algorithms with forced-collision communication among players. Both attackability-aware and unaware settings are studied, and information-theoretic tools of the Z-channel model and error-correction coding are utilized to address the challenge of implicit communication without collision information in an adversarial environment. For the more challenging attackability-unaware problem, we propose a simple method to estimate the attackability enabled by a novel error-detection repetition code and randomized communication for synchronization. Theoretical analysis proves that asymptotic attackability-dependent sublinear regret can be achieved, with or without knowing the attackability. In particular, the asymptotic regret does not have an exponential dependence on the number of players, revealing a fundamental tradeoff between the two dimensions of hardness in this problem. | 翻訳日:2022-09-30 11:29:21 公開日:2021-04-24 |
# 深部ニューラルネットワークにおける訓練損失レベルセットの数値探査 Numerical Exploration of Training Loss Level-Sets in Deep Neural Networks ( http://arxiv.org/abs/2011.04189v3 ) ライセンス: Link先を確認 | Naveed Tahir, Garrett E. Katz | (参考訳) 本稿では,ディープニューラルネットワークの学習損失レベルセットを実験的に特徴付ける計算手法を提案する。
本手法は, パラメータ空間内の経路を, 固定された近ゼロの訓練損失を持つ集合に制約する。
この経路内の異なる点における正則化関数とテスト損失を測定することにより、パラメータ空間内の同じ固定トレーニング損失の異なる点を一般化能力の観点から比較する。
また, 正規化点を求める手法を, トレーニング損失と正規化項の重み付けされた目的関数を用いた, より典型的な手法と比較した。
パラメータ空間の整列領域における損失レベル集合を可視化するために,トラバースパスに次元性低減を適用する。
その結果,ディープニューラルネットワークの損失状況に関する新たな情報と,テスト損失低減のための新たな戦略が得られた。 We present a computational method for empirically characterizing the training loss level-sets of deep neural networks. Our method numerically constructs a path in parameter space that is constrained to a set with a fixed near-zero training loss. By measuring regularization functions and test loss at different points within this path, we examine how different points in the parameter space with the same fixed training loss compare in terms of generalization ability. We also compare this method for finding regularized points with the more typical method, that uses objective functions which are weighted sums of training loss and regularization terms. We apply dimensionality reduction to the traversed paths in order to visualize the loss level sets in a well-regularized region of parameter space. Our results provide new information about the loss landscape of deep neural networks, as well as a new strategy for reducing test loss. | 翻訳日:2022-09-28 00:08:03 公開日:2021-04-24 |
# (参考訳) データマイニングと機械学習を用いた大規模メモリ障害予測 Large-scale memory failure prediction using mcelog-based Data Mining and Machine Learning ( http://arxiv.org/abs/2105.04547v1 ) ライセンス: CC BY-SA 4.0 | Chengdong Yao | (参考訳) データセンタでは、メモリ障害による予期せぬダウンタイムは、サーバの安定性と、ビジネスに害を与える情報技術基盤全体の低下につながる可能性がある。
したがって、メモリ障害を事前に正確に予測できるかどうかが、データセンターで研究すべき最も重要な課題の1つとなっている。
しかし、生産システムにおけるメモリ障害予測には、巨大なデータノイズや正と負のサンプル間の極端な不均衡といった技術的問題を解く必要があり、同時にアルゴリズムの長期的な安定性を確保する必要がある。
本稿では、一般的に使用されるスキルとそれらがもたらす改善を比較要約する。
私たちが提案した1つのモデルは、第25回太平洋アジア知識発見およびデータマイニング会議に属する第2回Alibaba Cloud AIOpsコンペティションでトップ15を獲得した。 In the data center, unexpected downtime caused by memory failures can lead to a decline in the stability of the server and even the entire information technology infrastructure, which harms the business. Therefore, whether the memory failure can be accurately predicted in advance has become one of the most important issues to be studied in the data center. However, for the memory failure prediction in the production system, it is necessary to solve technical problems such as huge data noise and extreme imbalance between positive and negative samples, and at the same time ensure the long-term stability of the algorithm. This paper compares and summarizes some commonly used skills and the improvement they can bring. The single model we proposed won the top 15th in the 2nd Alibaba Cloud AIOps Competition belonging to the 25th Pacific-Asia Conference on Knowledge Discovery and Data Mining. | 翻訳日:2021-05-14 06:47:56 公開日:2021-04-24 |
# 回答選択のための注意機構を有するマルチサイズニューラルネットワーク A Multi-Size Neural Network with Attention Mechanism for Answer Selection ( http://arxiv.org/abs/2105.03278v1 ) ライセンス: Link先を確認 | Jie Huang | (参考訳) セマンティックマッチングは、ある質問に対する正しい回答を候補回答プールから選択することを目的とした回答選択タスクにおいて重要なものである。
有用な方法は、ニューラルネットワークを用いて、一対の文からの情報が相互に表現の計算に影響を与えるように文表現を生成することである。
本研究では,アテンション機構を備えたマルチサイズニューラルネットワーク(AM-MSNN)を解答選択タスクに導入する。
このアーキテクチャは、単一層cnnや多層cnnと比較してフィルタのサイズが異なるため、言語粒度を並列に捉えることができる。
一方、注意機構によって文表現を拡張し、様々な種類の質問についてより多くの情報を含んでいる。
回答選択の3つのベンチマークタスクに関する実証研究は、すべてのベンチマークにおける提案モデルの有効性と、その競合に対する優位性を示している。
実験の結果,(1)多層ニューラルネットワーク(MSNN)は単層/多層CNNよりも粒度の異なる抽象的特徴を捉えるのに有用な手法であり,(2)注目機構(AM)はより情報的表現を導き出すためのより良い戦略であり,(3)AM-MSNNは今のところの回答選択タスクの優れたアーキテクチャであることがわかった。 Semantic matching is of central significance to the answer selection task which aims to select correct answers for a given question from a candidate answer pool. A useful method is to employ neural networks with attention to generate sentences representations in a way that information from pair sentences can mutually influence the computation of representations. In this work, an effective architecture,multi-size neural network with attention mechanism (AM-MSNN),is introduced into the answer selection task. This architecture captures more levels of language granularities in parallel, because of the various sizes of filters comparing with single-layer CNN and multi-layer CNNs. Meanwhile it extends the sentence representations by attention mechanism, thus containing more information for different types of questions. The empirical study on three various benchmark tasks of answer selection demonstrates the efficacy of the proposed model in all the benchmarks and its superiority over competitors. The experimental results show that (1) multi-size neural network (MSNN) is a more useful method to capture abstract features on different levels of granularities than single/multi-layer CNNs; (2) the attention mechanism (AM) is a better strategy to derive more informative representations; (3) AM-MSNN is a better architecture for the answer selection task for the moment. | 翻訳日:2021-05-11 08:35:07 公開日:2021-04-24 |
# (参考訳) 6Gネットワークのためのワイヤレスフェデレーションラーニング(WFL) -その1:研究課題と今後の展望 Wireless Federated Learning (WFL) for 6G Networks -- Part I: Research Challenges and Future Trends ( http://arxiv.org/abs/2105.00842v1 ) ライセンス: CC BY 4.0 | Pavlos S. Bouzinis, Panagiotis D. Diamantoulakis, George K. Karagiannidis | (参考訳) 従来の機械学習技術は集中的に行われる。
近年、発生した無線データの量、プライバシの懸念、ワイヤレス端末のコンピューティング能力の増大により、ワイヤレスフェデレートラーニング(Wireless Federated Learning, WFL)と呼ばれる有望な分散ソリューションが出現している。
本稿では,第1報において,第6世代無線ネットワーク (6g) におけるwflの適用について述べる。
WFLの重要概念を分析した後、無線(またはモバイル通信)環境によって課されるWFLの中核的課題について論じる。
最後に,将来的な無線ネットワークへのFLの構成的統合を目指して,WFLの今後の方向性に光を当てた。 Conventional machine learning techniques are conducted in a centralized manner. Recently, the massive volume of generated wireless data, the privacy concerns and the increasing computing capabilities of wireless end-devices have led to the emergence of a promising decentralized solution, termed as Wireless Federated Learning (WFL). In this first of the two parts paper, we present the application of WFL in the sixth generation of wireless networks (6G), which is envisioned to be an integrated communication and computing platform. After analyzing the key concepts of WFL, we discuss the core challenges of WFL imposed by the wireless (or mobile communication) environment. Finally, we shed light to the future directions of WFL, aiming to compose a constructive integration of FL into the future wireless networks. | 翻訳日:2021-05-06 07:03:09 公開日:2021-04-24 |
# 貯留層コンピュータによるハミルトン力学の学習 Learning Hamiltonian dynamics by reservoir computer ( http://arxiv.org/abs/2104.14474v1 ) ライセンス: Link先を確認 | Han Zhang, Huawei Fan, Liang Wang, and Xingang Wang | (参考訳) 限られた数のパラメータの時系列からハミルトニアン系のカム動力学図を再構成することは、非線形科学において、特に系の力学を支配するハミルトニアンが未知の場合には、顕著な問題である。
本稿では,この課題に対して,貯水池コンピュータ (rc) を意識した機械学習アプローチによって解決できることを実証する。
具体的には、ハミルトンの運動方程式に関する事前の知識がなければ、訓練されたrcはシステムの状態の短期的発展を予測できるだけでなく、システムのダイナミクスの長期的エルゴード特性を再現できることを示した。
さらに,パラメータ対応rcのアーキテクチャにより,一握りのパラメータで取得した時系列で訓練されたrcは,制御パラメータを外部にチューニングすることで,kamダイナミクスダイアグラム全体を高精度に再構成できることを示した。
学習技術の有効性と効率性は、2つの古典的非線形ハミルトン系、すなわち二重振り子振動子と標準写像で実証される。
我々の研究は、複雑な力学系として、RCはハミルトニアンのデータから学習できることを示している。 Reconstructing the KAM dynamics diagram of Hamiltonian system from the time series of a limited number of parameters is an outstanding question in nonlinear science, especially when the Hamiltonian governing the system dynamics are unknown. Here, we demonstrate that this question can be addressed by the machine learning approach knowing as reservoir computer (RC). Specifically, we show that without prior knowledge about the Hamilton's equations of motion, the trained RC is able to not only predict the short-term evolution of the system state, but also replicate the long-term ergodic properties of the system dynamics. Furthermore, by the architecture of parameter-aware RC, we also show that the RC trained by the time series acquired at a handful parameters is able to reconstruct the entire KAM dynamics diagram with a high precision by tuning a control parameter externally. The feasibility and efficiency of the learning techniques are demonstrated in two classical nonlinear Hamiltonian systems, namely the double-pendulum oscillator and the standard map. Our study indicates that, as a complex dynamical system, RC is able to learn from data the Hamiltonian. | 翻訳日:2021-05-03 19:48:54 公開日:2021-04-24 |
# (参考訳) グラフニューラルネットワークを用いたスマートグリッドにおけるステルス偽データインジェクション攻撃の検出と局在化 Joint Detection and Localization of Stealth False Data Injection Attacks in Smart Grids using Graph Neural Networks ( http://arxiv.org/abs/2104.11846v1 ) ライセンス: CC BY 4.0 | Osman Boyaci, Mohammad Rasoul Narimani, Katherine Davis, Muhammad Ismail, Thomas J Overbye, and Erchin Serpedin | (参考訳) 電力システムではそのような攻撃が頻繁に発生するため、偽データ注入攻撃(fdia)は研究の活発な道筋になっている。
これらの攻撃の検出とは対照的に、グリッドの攻撃部隊を特定することには注意が払われていない。
この目的のために、現代の電力網におけるステルスFDIAの検出とローカライズを共同研究する。
本稿では,電力系統の固有グラフトポロジと,スマートメータのデータ空間相関を探索し,グラフニューラルネットワーク(GNN)に基づくFDIAの存在と位置の同定手法を提案する。
提案手法は自己回帰移動平均 (arma) 型グラフ畳み込みフィルタを活用し,chebyshev のような多項式型グラフ畳み込みフィルタと比較して,ノイズロバスト性と周波数応答の柔軟性を向上させる。
我々の知る限りでは、電力系統におけるFDIAを自動的に検出し、ローカライズするGNNに基づく最初の作品である。
広範なシミュレーションと可視化により,提案手法は異なるieeeテストシステムにおいて,検出と局所化の両方において利用可能な手法よりも優れていることが示された。
これにより、パワーグリッド内の目標領域を識別でき、攻撃がグリッドに衝突する前に予防措置を講じることができる。 False data injection attacks (FDIA) are becoming an active avenue of research as such attacks are more frequently encountered in power systems. Contrary to the detection of these attacks, less attention has been paid to identifying the attacked units of the grid. To this end, this work jointly studies detecting and localizing the stealth FDIA in modern power grids. Exploiting the inherent graph topology of power systems as well as the spatial correlations of smart meters' data, this paper proposes an approach based on the graph neural network (GNN) to identify the presence and location of the FDIA. The proposed approach leverages the auto-regressive moving average (ARMA) type graph convolutional filters which offer better noise robustness and frequency response flexibility compared to the polynomial type graph convolutional filters such as Chebyshev. To the best of our knowledge, this is the first work based on GNN that automatically detects and localizes FDIA in power systems. Extensive simulations and visualizations show that the proposed approach outperforms the available methods in both detection and localization FDIA for different IEEE test systems. Thus, the targeted areas in power grids can be identified and preventive actions can be taken before the attack impacts the grid. | 翻訳日:2021-04-29 04:52:24 公開日:2021-04-24 |
# (参考訳) すべてのモバイルネットは貧弱か?
マルチスケール分布動力学の視点を通した奥行き分離可能な畳み込みネットワークに対する量子化の影響に関する考察 Do All MobileNets Quantize Poorly? Gaining Insights into the Effect of Quantization on Depthwise Separable Convolutional Networks Through the Eyes of Multi-scale Distributional Dynamics ( http://arxiv.org/abs/2104.11849v1 ) ライセンス: CC BY 4.0 | Stone Yun and Alexander Wong | (参考訳) モバイルAI”革命が拡大を続けるにつれ、エッジデプロイされたディープニューラルネットワークの振る舞いを理解する必要も出てくる。
特にmobilenetsは、モバイル向けのディープ畳み込みニューラルネットワーク(cnn)のgo-toファミリーである。
しかし、訓練後の量子化では精度が著しく低下することが多い。
研究はこの課題に対処するための量子化対応トレーニングやその他の手法を導入しているが、MobileNets(およびDWSCNN)が他のCNNアーキテクチャと比べて量子化に乏しい理由については限定的な理解がある。
この現象についてより深い知見を得るため、我々は異なる戦略を採り、より小さなDWSCNNと通常のCNNの集合であるMobileNet-V1のマルチスケール分布ダイナミクスについて研究する。
具体的には、情報伝達層から層へと伝播する重みと活性化分布ダイナミクスに対する量子化の影響と、ネットワークレベルでの分布力学の全体的な変化について検討する。
この微粒化分析により,DWSCNNのチャネルワイド分布と層ワイド分布の「分布ミスマッチ」が明らかとなり,情報伝達における量子化劣化と分布シフトが増大した。
さらに, アクティベーション量子化誤差の解析により, 通常のCNNと比較して, DWSCNNの量子化誤差の蓄積が大きいことが示された。
このような洞察が、分散ダイナミクスの変化を低減し、モバイルのトレーニング後の量子化を改善するための革新的な戦略に繋がることを期待している。 As the "Mobile AI" revolution continues to grow, so does the need to understand the behaviour of edge-deployed deep neural networks. In particular, MobileNets are the go-to family of deep convolutional neural networks (CNN) for mobile. However, they often have significant accuracy degradation under post-training quantization. While studies have introduced quantization-aware training and other methods to tackle this challenge, there is limited understanding into why MobileNets (and potentially depthwise-separable CNNs (DWSCNN) in general) quantize so poorly compared to other CNN architectures. Motivated to gain deeper insights into this phenomenon, we take a different strategy and study the multi-scale distributional dynamics of MobileNet-V1, a set of smaller DWSCNNs, and regular CNNs. Specifically, we investigate the impact of quantization on the weight and activation distributional dynamics as information propagates from layer to layer, as well as overall changes in distributional dynamics at the network level. This fine-grained analysis revealed significant dynamic range fluctuations and a "distributional mismatch" between channelwise and layerwise distributions in DWSCNNs that lead to increasing quantized degradation and distributional shift during information propagation. Furthermore, analysis of the activation quantization errors show that there is greater quantization error accumulation in DWSCNN compared to regular CNNs. The hope is that such insights can lead to innovative strategies for reducing such distributional dynamics changes and improve post-training quantization for mobile. | 翻訳日:2021-04-29 04:33:42 公開日:2021-04-24 |
# (参考訳) Music Embedding: 音楽理論を計算音楽アプリケーションに組み込むツール Music Embedding: A Tool for Incorporating Music Theory into Computational Music Applications ( http://arxiv.org/abs/2104.11880v1 ) ライセンス: CC BY 4.0 | SeyyedPooya HekmatiAthar and Mohd Anwar | (参考訳) デジタル技術の進歩により、研究者は様々な計算音楽アプリケーションの開発が可能になった。
このようなアプリケーションは、音楽に関するデータをキャプチャ、処理、生成するために必要です。
したがって、音楽理論と簡潔な方法で音楽をデジタル的に表現することが重要である。
既存の音楽表現法は音楽理論の活用という点では効果がない。
本稿では,音楽理論に基づくオープンソース表現ツールを開発することにより,音楽理論と計算音楽の融合を解消する。
幅広い使用事例を通して,発達した音楽の埋め込みの有用性を示すため,古典音楽の楽曲の分析を行う。 Advancements in the digital technologies have enabled researchers to develop a variety of Computational Music applications. Such applications are required to capture, process, and generate data related to music. Therefore, it is important to digitally represent music in a music theoretic and concise manner. Existing approaches for representing music are ineffective in terms of utilizing music theory. In this paper, we address the disjoint of music theory and computational music by developing an opensource representation tool based on music theory. Through the wide range of use cases, we run an analysis on the classical music pieces to show the usefulness of the developed music embedding. | 翻訳日:2021-04-29 04:16:38 公開日:2021-04-24 |
# (参考訳) 白い箱でcnnチャンネルの刈り込みを実行する Carrying out CNN Channel Pruning in a White Box ( http://arxiv.org/abs/2104.11883v1 ) ライセンス: CC BY 4.0 | Yuxin Zhang, Mingbao Lin, Chia-Wen Lin, Jie Chen, Feiyue Huang, Yongjian Wu, Yonghong Tian, Rongrong Ji | (参考訳) Channel Pruningは、CNNの圧縮に長い間採用されており、全体的な計算を大幅に削減している。
先行研究では、説明不能な方法でチャネルプルーニングを実装しており、各チャネルの内部的な影響を考慮せず、最終分類エラーを減少させる傾向がある。
本稿では,ホワイトボックスでチャネルの刈り込みを行う。
異なるチャネルによって活性化される特徴写像の深い可視化を通して、異なるチャネルが画像分類における異なるカテゴリに様々な寄与があることを観察する。
これにより、ほとんどのカテゴリに寄与するチャネルを保存できるようになりました。
具体的には,異なるカテゴリーに対する各チャネルの貢献をモデル化するために,動的学習方法w.r.tで実装された各チャネルのクラスワイズマスクを開発する。
入力画像のカテゴリ。
学習したクラスワイズマスクに基づき, カテゴリー識別の少ないチャンネルを削除するためのグローバル投票機構を実施。
最後に,プルーニングモデルの性能を回復するための微調整処理を行う。
我々の知る限り、CNNの解釈可能性理論がチャネルプルーニングを導くのはこれが初めてである。
広範な実験によって、我々のホワイトボックスが最先端技術よりも優れていることが示されました。
例えば、CIFAR-10では65.23%のFLOPを削減し、ResNet-110の精度は0.62%向上した。
ILSVRC-2012では、White-Boxは45.6%のFLOPを削減し、ResNet-50のトップ1の精度は0.83%しか失われなかった。
コード、トレーニングログ、prunedモデルは匿名でhttps://github.com/zyxxmu/white-boxにある。 Channel Pruning has been long adopted for compressing CNNs, which significantly reduces the overall computation. Prior works implement channel pruning in an unexplainable manner, which tends to reduce the final classification errors while failing to consider the internal influence of each channel. In this paper, we conduct channel pruning in a white box. Through deep visualization of feature maps activated by different channels, we observe that different channels have a varying contribution to different categories in image classification. Inspired by this, we choose to preserve channels contributing to most categories. Specifically, to model the contribution of each channel to differentiating categories, we develop a class-wise mask for each channel, implemented in a dynamic training manner w.r.t. the input image's category. On the basis of the learned class-wise mask, we perform a global voting mechanism to remove channels with less category discrimination. Lastly, a fine-tuning process is conducted to recover the performance of the pruned model. To our best knowledge, it is the first time that CNN interpretability theory is considered to guide channel pruning. Extensive experiments demonstrate the superiority of our White-Box over many state-of-the-arts. For instance, on CIFAR-10, it reduces 65.23% FLOPs with even 0.62% accuracy improvement for ResNet-110. On ILSVRC-2012, White-Box achieves a 45.6% FLOPs reduction with only a small loss of 0.83% in the top-1 accuracy for ResNet-50. Code, training logs and pruned models are anonymously at https://github.com/zyxxmu/White-Box. | 翻訳日:2021-04-29 04:09:57 公開日:2021-04-24 |
# (参考訳) 現代的深層学習に基づく物体検出モデルの検討 A Survey of Modern Deep Learning based Object Detection Models ( http://arxiv.org/abs/2104.11892v1 ) ライセンス: CC BY 4.0 | Syed Sahil Abbas Zaidi, Mohammad Samar Ansari, Asra Aslam, Nadia Kanwal, Mamoona Asghar, and Brian Lee | (参考訳) オブジェクト検出は、画像やビデオ内のオブジェクトの分類とローカライゼーションのタスクである。
近年は広く普及しているため、広く普及している。
本稿では,ディープラーニングに基づく物体検出装置の最近の進歩について概説する。
検出に使用されるベンチマークデータセットと評価指標の簡潔な概要と、認識タスクで使用される著名なバックボーンアーキテクチャも提供される。
また、エッジデバイスで使用される現代的な軽量分類モデルもカバーしている。
最後に、これらのアーキテクチャのパフォーマンスを複数のメトリクスで比較する。 Object Detection is the task of classification and localization of objects in an image or video. It has gained prominence in recent years due to its widespread applications. This article surveys recent developments in deep learning based object detectors. Concise overview of benchmark datasets and evaluation metrics used in detection is also provided along with some of the prominent backbone architectures used in recognition tasks. It also covers contemporary lightweight classification models used on edge devices. Lastly, we compare the performances of these architectures on multiple metrics. | 翻訳日:2021-04-29 03:54:42 公開日:2021-04-24 |
# (参考訳) 軽度過パラメータニューラルネットワークにおける小さなテスト誤差の達成 Achieving Small Test Error in Mildly Overparameterized Neural Networks ( http://arxiv.org/abs/2104.11895v1 ) ライセンス: CC BY 4.0 | Shiyu Liang, Ruoyu Sun and R. Srikant | (参考訳) 過パラメータニューラルネットに関する最近の理論研究は、最適化と一般化の2つの側面に焦点を当てている。
最適化と一般化を一緒に研究する多くの既存の研究は、ニューラルネットワークカーネルに基づいており、非常に大きな幅を必要とする。
本研究では,2層過度パラメータ化ReLUネットワークを用いた二層分類問題に対して,多項式時間におけるテスト誤差の小さい点を見つけることができるか?
まず、明示的な正規化を伴う損失関数のランドスケープには以下の性質があることを示した。
次に、畳み込みニューラルネットに対して、これらの点の1つを多項式時間(入力次元とデータ点数)で見つけるアルゴリズムが存在することを証明した。
さらに、完全に接続されたニューラルネットワークに対して、データ分布を仮定して多項式時間アルゴリズムが存在することを証明した。 Recent theoretical works on over-parameterized neural nets have focused on two aspects: optimization and generalization. Many existing works that study optimization and generalization together are based on neural tangent kernel and require a very large width. In this work, we are interested in the following question: for a binary classification problem with two-layer mildly over-parameterized ReLU network, can we find a point with small test error in polynomial time? We first show that the landscape of loss functions with explicit regularization has the following property: all local minima and certain other points which are only stationary in certain directions achieve small test error. We then prove that for convolutional neural nets, there is an algorithm which finds one of these points in polynomial time (in the input dimension and the number of data points). In addition, we prove that for a fully connected neural net, with an additional assumption on the data distribution, there is a polynomial time algorithm. | 翻訳日:2021-04-29 03:23:40 公開日:2021-04-24 |
# (参考訳) ask & explore: 好奇心駆動探索のための根拠付き質問応答 Ask & Explore: Grounded Question Answering for Curiosity-Driven Exploration ( http://arxiv.org/abs/2104.11902v1 ) ライセンス: CC BY 4.0 | Jivat Neet Kaur, Yiding Jiang, Paul Pu Liang | (参考訳) エージェントに対する外在的な報酬が極めて希薄な現実のシナリオでは、エージェントが環境を探索し、その目標を達成するために情報を得ることのできる本質的な報酬を提供する有用な概念として好奇心が出現している。
多くの疎外的なタスクで強いパフォーマンスを誇っているにもかかわらず、既存の好奇心のアプローチは状態遷移の過度な全体論的見解に依存しており、環境の特定の側面の構造化された理解を許していない。
本稿では,環境に関する質問をエージェントに促し,これらの質問に対する回答がいつ変わるのかを問うことで,根拠付き質問応答に基づく好奇心を定式化する。
自然言語の質問は,物体の物理的特性や他の物体との空間的関係などの環境に関する特定の知識を明らかにすることを促進し,スパース・リワードの課題をより効率的に解決するための貴重な好奇心の報酬となることを示す。 In many real-world scenarios where extrinsic rewards to the agent are extremely sparse, curiosity has emerged as a useful concept providing intrinsic rewards that enable the agent to explore its environment and acquire information to achieve its goals. Despite their strong performance on many sparse-reward tasks, existing curiosity approaches rely on an overly holistic view of state transitions, and do not allow for a structured understanding of specific aspects of the environment. In this paper, we formulate curiosity based on grounded question answering by encouraging the agent to ask questions about the environment and be curious when the answers to these questions change. We show that natural language questions encourage the agent to uncover specific knowledge about their environment such as the physical properties of objects as well as their spatial relationships with other objects, which serve as valuable curiosity rewards to solve sparse-reward tasks more efficiently. | 翻訳日:2021-04-29 03:22:35 公開日:2021-04-24 |
# (参考訳) 制約誘導強化学習:エージェント環境相互作用の強化 Constraint-Guided Reinforcement Learning: Augmenting the Agent-Environment-Interaction ( http://arxiv.org/abs/2104.11918v1 ) ライセンス: CC BY 4.0 | Helge Spieker | (参考訳) 強化学習(rl)エージェントは、限られたフィードバックから大きな観察とアクションスペースでタスクを解決することに成功しています。
それでもエージェントのトレーニングはデータ集約的であり、学習された振る舞いが安全であり、現実のシナリオにおける実際のデプロイに制限がある環境のルールに違反していないという保証はない。
本稿では,RLエージェントを安全な動作に導くために,制約に基づく拡張モデルと深部RLの統合による信頼性エージェントの工学について論じる。
制約セット内では、RLエージェントは、与えられた問題を解決する効果が妨げられないように適応および探索が自由である。
しかし、RLエージェントが制約によって定義された空間を離れると、外部モデルは確実に動作するためのガイダンスを提供することができる。
我々は,rlプロセス内の制約誘導のための統合ポイントについて検討し,厳密な制約付きカードゲームと追加のコンビネート・サブゴールを持つグリッド・ワールド環境という2つのケーススタディで実験を行う。
以上の結果から,制約ガイダンスは信頼性の向上と安全性の向上,およびトレーニングの高速化をもたらすことが示唆された。 Reinforcement Learning (RL) agents have great successes in solving tasks with large observation and action spaces from limited feedback. Still, training the agents is data-intensive and there are no guarantees that the learned behavior is safe and does not violate rules of the environment, which has limitations for the practical deployment in real-world scenarios. This paper discusses the engineering of reliable agents via the integration of deep RL with constraint-based augmentation models to guide the RL agent towards safe behavior. Within the constraints set, the RL agent is free to adapt and explore, such that its effectiveness to solve the given problem is not hindered. However, once the RL agent leaves the space defined by the constraints, the outside models can provide guidance to still work reliably. We discuss integration points for constraint guidance within the RL process and perform experiments on two case studies: a strictly constrained card game and a grid world environment with additional combinatorial subgoals. Our results show that constraint-guidance does both provide reliability improvements and safer behavior, as well as accelerated training. | 翻訳日:2021-04-29 03:14:29 公開日:2021-04-24 |
# (参考訳) 幅移動:(in)幅最適化のばらつきについて Width Transfer: On the (In)variance of Width Optimization ( http://arxiv.org/abs/2104.13255v1 ) ライセンス: CC BY 4.0 | Ting-Wu Chin, Diana Marculescu, Ari S. Morcos | (参考訳) CNNの異なるレイヤのチャネルカウントを最適化することは、テスト時のCNNの効率を改善する上で非常に有望である。
しかし、これらの手法はしばしば大きな計算オーバーヘッドをもたらす(例えば、標準訓練の2倍のFLOP)。
このオーバーヘッドを最小限にすれば、トレーニングを大幅にスピードアップできる。
本研究では,最適化された幅(あるいはチャネル数)がサイズや深さにわたって規則的であるという仮定を利用するワイド転送を提案する。
幅転送は様々な幅最適化アルゴリズムとネットワークでうまく機能することを示す。
具体的には、imagenetのtop-1精度を損なうことなく、最大320倍の幅最適化オーバーヘッドを削減でき、初期トレーニングに対して幅最適化の追加コストを無視できる。
この結果から,ネットワークアーキテクチャやトレーニングデータの様々な側面に対して,より高精度な幅最適化を実現するための効率的な手法が提案されている。 Optimizing the channel counts for different layers of a CNN has shown great promise in improving the efficiency of CNNs at test-time. However, these methods often introduce large computational overhead (e.g., an additional 2x FLOPs of standard training). Minimizing this overhead could therefore significantly speed up training. In this work, we propose width transfer, a technique that harnesses the assumptions that the optimized widths (or channel counts) are regular across sizes and depths. We show that width transfer works well across various width optimization algorithms and networks. Specifically, we can achieve up to 320x reduction in width optimization overhead without compromising the top-1 accuracy on ImageNet, making the additional cost of width optimization negligible relative to initial training. Our findings not only suggest an efficient way to conduct width optimization but also highlight that the widths that lead to better accuracy are invariant to various aspects of network architectures and training data. | 翻訳日:2021-04-29 03:00:50 公開日:2021-04-24 |
# オンライン学習におけるデータ中毒攻撃に対する影響に基づく防御 Influence Based Defense Against Data Poisoning Attacks in Online Learning ( http://arxiv.org/abs/2104.13230v1 ) ライセンス: Link先を確認 | Sanjay Seetharaman, Shubham Malaviya, Rosni KV, Manish Shukla, Sachin Lodha | (参考訳) データ中毒は、攻撃者が少数のデータを操作して機械学習モデルの性能を低下させる訓練データに対する敵対攻撃の一種である。
したがって、トレーニングデータの外部データソースに依存するアプリケーションは、リスクが著しく高くなる。
このような攻撃による脅威を軽減するための防御機構がいくつか知られている。
例えば、データの衛生化は、学習者がトレーニングインスタンスのセットから十分な距離にあるこれらのデータポイントを拒否する一般的な防御メカニズムである。
データ中毒防御に関する以前の作業は、主にオフライン設定に重点を置いており、分析のためにすべてのデータが利用できると仮定されている。
データポイントが順次到着するオンライン学習の防御策は、同様の関心を集めていない。
本研究では,オンライン環境における学習者のモデル上での有毒トレーニングデータによる劣化を最小限に抑える防衛機構を提案する。
提案手法は,ロバスト統計学における古典的手法である影響関数を利用する。
さらに,有毒なデータポイントのいくつかをフィルタリングする既存のデータ衛生手法を補足する。
オンライン学習者に対する複数のデータセットおよび複数の攻撃戦略に対する防衛機構の有効性を検討した。 Data poisoning is a type of adversarial attack on training data where an attacker manipulates a fraction of data to degrade the performance of machine learning model. Therefore, applications that rely on external data-sources for training data are at a significantly higher risk. There are several known defensive mechanisms that can help in mitigating the threat from such attacks. For example, data sanitization is a popular defensive mechanism wherein the learner rejects those data points that are sufficiently far from the set of training instances. Prior work on data poisoning defense primarily focused on offline setting, wherein all the data is assumed to be available for analysis. Defensive measures for online learning, where data points arrive sequentially, have not garnered similar interest. In this work, we propose a defense mechanism to minimize the degradation caused by the poisoned training data on a learner's model in an online setup. Our proposed method utilizes an influence function which is a classic technique in robust statistics. Further, we supplement it with the existing data sanitization methods for filtering out some of the poisoned data points. We study the effectiveness of our defense mechanism on multiple datasets and across multiple attack strategies against an online learner. | 翻訳日:2021-04-28 13:35:34 公開日:2021-04-24 |
# 隠れた共通原因の存在下での量子因果推論:-エントロピー的アプローチ Quantum Causal Inference in the Presence of Hidden Common Causes: an Entropic Approach ( http://arxiv.org/abs/2104.13227v1 ) ライセンス: Link先を確認 | Mohammad Ali Javidian, Vaneet Aggarwal, Zubin Jacob | (参考訳) 量子因果性(quantum causality)は、量子系の理解を大幅に前進させる可能性を持つ新しい研究分野である。
量子因果関係における最も重要な問題の1つは、相関関係が因果関係を意味するものではないというこの顕著なアフォリズムに関連している。
既存の因果推論技術の量子領域への直接的一般化は、重ね合わせと絡み合いのため不可能である。
エントロピック原理を利用して量子情報科学と因果推論を融合する新たな理論的枠組みを提案した。
この目的のために,条件密度行列の概念を活用し,量子システムにおける潜在共起者(共通の原因)の存在下で因果関係を推測するスケーラブルなアルゴリズム手法を開発した。
本稿では,提案手法を量子ノイズリンク上でメッセージ送信者を特定する実験的なシナリオに適用し,ノイズ前の入力が雑音出力の原因であることを検証した。
また,共役確率分布ではなく密度行列を用いて変数間の量子依存を利用して,変数が古典的であっても古典的因果推論の結果より優れていることを示す。
したがって、提案手法は古典的および量子因果推論を原則的に統一する。
この合成量子データセットでの推論の成功は、将来のマルチノード量子ネットワークにおける悪意ある活動の起因者を特定する基礎となる。 Quantum causality is an emerging field of study which has the potential to greatly advance our understanding of quantum systems. One of the most important problems in quantum causality is linked to this prominent aphorism that states correlation does not mean causation. A direct generalization of the existing causal inference techniques to the quantum domain is not possible due to superposition and entanglement. We put forth a new theoretical framework for merging quantum information science and causal inference by exploiting entropic principles. For this purpose, we leverage the concept of conditional density matrices to develop a scalable algorithmic approach for inferring causality in the presence of latent confounders (common causes) in quantum systems. We apply our proposed framework to an experimentally relevant scenario of identifying message senders on quantum noisy links, where it is validated that the input before noise as a latent confounder is the cause of the noisy outputs. We also demonstrate that the proposed approach outperforms the results of classical causal inference even when the variables are classical by exploiting quantum dependence between variables through density matrices rather than joint probability distributions. Thus, the proposed approach unifies classical and quantum causal inference in a principled way. This successful inference on a synthetic quantum dataset can lay the foundations of identifying originators of malicious activity on future multi-node quantum networks. | 翻訳日:2021-04-28 13:19:09 公開日:2021-04-24 |
# ソーシャルメディア上での平和なトラクタ追跡 --2021年赤砦暴動のXAI対応分析 Tracking Peaceful Tractors on Social Media -- XAI-enabled analysis of Red Fort Riots 2021 ( http://arxiv.org/abs/2104.13352v1 ) ライセンス: Link先を確認 | Ajay Agarwal | (参考訳) 2021年1月26日、インドは人口統計上の予想外の農民からの恥辱を目撃した。
農夫の擬似愛国的な暴徒が首都デリーを襲い、国民の誇りであるレッドフォートを破壊した。
事件の後に行われた調査は、そのような事件に繋がるソーシャルメディア・トレイルの存在を明らかにした。
その結果、このパスをソーシャルメディア分析のためにアーカイブすることが不可欠となり、また、このイベントにおける誤報やフェイクニュースが果たす役割を可視化するためにも必要となった。
本稿では,このイベント前後に投稿された約0.05万ツイートを含むトラクタ2twitterデータセットを提案する。
また、データセットを説明可能なAI MLモデルでベンチマークし、それぞれのツイートを、偽情報、偽情報、意見の3つのカテゴリに分類する。 On 26 January 2021, India witnessed a national embarrassment from the demographic least expected from - farmers. People across the nation watched in horror as a pseudo-patriotic mob of farmers stormed capital Delhi and vandalized the national pride- Red Fort. Investigations that followed the event revealed the existence of a social media trail that led to the likes of such an event. Consequently, it became essential and necessary to archive this trail for social media analysis - not only to understand the bread-crumbs that are dispersed across the trail but also to visualize the role played by misinformation and fake news in this event. In this paper, we propose the tractor2twitter dataset which contains around 0.05 million tweets that were posted before, during, and after this event. Also, we benchmark our dataset with an Explainable AI ML model for classification of each tweet into either of the three categories - disinformation, misinformation, and opinion. | 翻訳日:2021-04-28 13:18:07 公開日:2021-04-24 |
# (参考訳) 分岐結合型MDDソルバのフィルタリング改善(拡張) Improving the filtering of Branch-And-Bound MDD solver (extended) ( http://arxiv.org/abs/2104.11951v1 ) ライセンス: CC BY 4.0 | Xavier Gillard, Vianney Copp\'e, Pierre Schaus, Andr\'e Augusto Cire | (参考訳) 本稿では,マルチ値決定ダイアグラム(mdd)に基づく制約最適化ソルバの効率を高めるための2つのプルーニング手法を提案し,評価する。
Bergmanらによって提案されたブランチ・アンド・バウンド・フレームワークを採用している。
2016年、動的プログラムを最適に解く。
特に,本論文では,局所的バウンド (LocB) と粗大な上行プルーニング (RUB) の有効性について述べる。
LocBは、興味深いノードの探索を避けるために、近似MDD構造を利用する新しい効果的なルールである。
rubは、有界幅mddの開発中に探索空間を減らすための規則である。
最大独立セット問題(MISP)、最大カット問題(MCP)、最大2サスティフィビリティ問題(MAX2SAT)、旅行セールスマン問題(TSPTW)について行った実験は、粗アップパーバウンドおよび局所リバウンドプルーニングがMDDとの分岐とバウンドに基づく最適化問題に大きな影響を与えることを示す証拠である。
特に、rubは優れた結果をもたらすが、モデルを定義するのに多少の労力を要することを示している。
また、locbはユーザから提供された情報を必要とせずに、自動的に大幅な改善を提供する。
最後に,ラフアップパーバウンドとローカルバウンドプルーニングは相互排他的ではないことも示し,それらの組み合わせによる利益は,各手法の使用による個別の利益を上回っている。 This paper presents and evaluates two pruning techniques to reinforce the efficiency of constraint optimization solvers based on multi-valued decision-diagrams (MDD). It adopts the branch-and-bound framework proposed by Bergman et al. in 2016 to solve dynamic programs to optimality. In particular, our paper presents and evaluates the effectiveness of the local-bound (LocB) and rough upper-bound pruning (RUB). LocB is a new and effective rule that leverages the approximate MDD structure to avoid the exploration of non-interesting nodes. RUB is a rule to reduce the search space during the development of bounded-width-MDDs. The experimental study we conducted on the Maximum Independent Set Problem (MISP), Maximum Cut Problem (MCP), Maximum 2 Satisfiability (MAX2SAT) and the Traveling Salesman Problem with Time Windows (TSPTW) shows evidence indicating that rough-upper-bound and local-bound pruning have a high impact on optimization solvers based on branch-and-bound with MDDs. In particular, it shows that RUB delivers excellent results but requires some effort when defining the model. Also, it shows that LocB provides a significant improvement automatically; without necessitating any user-supplied information. Finally, it also shows that rough-upper-bound and local-bound pruning are not mutually exclusive, and their combined benefit supersedes the individual benefit of using each technique. | 翻訳日:2021-04-28 13:05:26 公開日:2021-04-24 |
# (参考訳) 局所外周係数アルゴリズムを用いた自動車運動の新規性の測定 Measuring Novelty in Autonomous Vehicles Motion Using Local Outlier Factor Algorithm ( http://arxiv.org/abs/2104.11970v1 ) ライセンス: CC BY 4.0 | Hassan Alsawadi and Muhammad Bilal | (参考訳) 予期せぬ状況やシナリオの下では、自動運転車(av)は、その時点でのルールや経験が限られているため、計画外の異常な行動に追随する傾向が強い。
AVをリアルタイムで動作が新規である程度を測定することで、潜在的な負の結果が減少する可能性がある。
本稿では,この新奇性尺度を定量化するために,Local Outlier Factor (LOF)アルゴリズムに基づく手法を提案する。
我々は、慣性測定ユニット(IMU)センサーの読み出しから特徴を抽出し、車両の動きを捉えた。
我々は,通常のデータのみを用いてモデルを取り付ける新たな検出手法に従った。
実世界の車両ミッションから得られたデータセットを用いて,提案する指標がある程度の新規性の定量化が可能であることを実証する。
最後に,本モデルの性能評価により,新規性指標が実用可能であることを確認した。 Under unexpected conditions or scenarios, autonomous vehicles (AV) are more likely to follow abnormal unplanned actions, due to the limited set of rules or amount of experience they possess at that time. Enabling AV to measure the degree at which their movements are novel in real-time may help to decrease any possible negative consequences. We propose a method based on the Local Outlier Factor (LOF) algorithm to quantify this novelty measure. We extracted features from the inertial measurement unit (IMU) sensor's readings, which captures the vehicle's motion. We followed a novelty detection approach in which the model is fitted only using the normal data. Using datasets obtained from real-world vehicle missions, we demonstrate that the suggested metric can quantify to some extent the degree of novelty. Finally, a performance evaluation of the model confirms that our novelty metric can be practical. | 翻訳日:2021-04-28 12:41:32 公開日:2021-04-24 |
# (参考訳) 6gネットワークのための無線フェデレーション学習(wfl) --その2:計算・変換ノマパラダイム Wireless Federated Learning (WFL) for 6G Networks -- Part II: The Compute-then-Transmit NOMA Paradigm ( http://arxiv.org/abs/2104.12005v1 ) ライセンス: CC BY 4.0 | Pavlos S. Bouzinis, Panagiotis D. Diamantoulakis, George K. Karagiannidis | (参考訳) 本研究の前半で論じられているように、先進的な多重アクセスプロトコルの利用と通信資源と計算機資源の協調最適化は、第6世代無線ネットワーク(6G)におけるWFLの効率的な統合において最重要となる無線連合学習(WFL)の遅延の低減を促進することができる。
この目的のために,第2部では,非直交多重アクセス(noma)に基づくwflネットワークのための新しい通信プロトコルを導入し,最適化する。
より具体的には、CT-NOMA(Compute-then-Transmit NOMA)プロトコルが導入され、ユーザーはローカルモデルトレーニングを同時に終了し、トレーニングされたパラメータを中央サーバに同時に送信する。
さらに、NOMAにおけるユーザ間干渉の緩和のための2つの異なる検出手法を検討、評価し、連続した干渉キャンセル過程における固定および可変復号順序に対応する。
さらに,WFL通信ラウンドにおける全体の遅延を最小化することを目的として,両方式の計算と通信資源を協調的に最適化する。
最後に,ct-nomaの有効性を時間分割多重アクセスに基づくベンチマークと比較し,遅延低減の観点から検証した。 As it has been discussed in the first part of this work, the utilization of advanced multiple access protocols and the joint optimization of the communication and computing resources can facilitate the reduction of delay for wireless federated learning (WFL), which is of paramount importance for the efficient integration of WFL in the sixth generation of wireless networks (6G). To this end, in this second part we introduce and optimize a novel communication protocol for WFL networks, that is based on non-orthogonal multiple access (NOMA). More specifically, the Compute-then-Transmit NOMA (CT-NOMA) protocol is introduced, where users terminate concurrently the local model training and then simultaneously transmit the trained parameters to the central server. Moreover, two different detection schemes for the mitigation of inter-user interference in NOMA are considered and evaluated, which correspond to fixed and variable decoding order during the successive interference cancellation process. Furthermore, the computation and communication resources are jointly optimized for both considered schemes, with the aim to minimize the total delay during a WFL communication round. Finally, the simulation results verify the effectiveness of CT-NOMA in terms of delay reduction, compared to the considered benchmark that is based on time-division multiple access. | 翻訳日:2021-04-28 12:37:46 公開日:2021-04-24 |
# (参考訳) 意味的相互情報を用いたLiDARとカメラの校正 Calibrating LiDAR and Camera using Semantic Mutual information ( http://arxiv.org/abs/2104.12023v1 ) ライセンス: CC BY 4.0 | Peng Jiang, Philip Osteen, Srikanth Saripalli | (参考訳) 意味情報を用いたlidarおよびカメラシステムの自動的・非目標的・極端的キャリブレーションアルゴリズムを提案する。
センサ間のセマンティック情報の相互情報(MI)を最大化し、ニューラルネットワークを利用してセマンティックな相互情報を推定し、行列指数で校正計算を行う。
lidar投影点に基づくカメラ計測からのサンプルデータにカーネルベースサンプリングを用いることで,グラデーションに基づく最適化手法をサポートする新しい微分可能な客観的関数として問題を定式化する。
また、2次元MI画像登録を用いた初期校正手法を提案する。
最後に,本手法のロバスト性を示し,合成データセットの精度を定量的に解析し,kitti360およびrellis-3dベンチマークデータセットを定性的に評価した。 We propose an algorithm for automatic, targetless, extrinsic calibration of a LiDAR and camera system using semantic information. We achieve this goal by maximizing mutual information (MI) of semantic information between sensors, leveraging a neural network to estimate semantic mutual information, and matrix exponential for calibration computation. Using kernel-based sampling to sample data from camera measurement based on LiDAR projected points, we formulate the problem as a novel differentiable objective function which supports the use of gradient-based optimization methods. We also introduce an initial calibration method using 2D MI-based image registration. Finally, we demonstrate the robustness of our method and quantitatively analyze the accuracy on a synthetic dataset and also evaluate our algorithm qualitatively on KITTI360 and RELLIS-3D benchmark datasets, showing improvement over recent comparable approaches. | 翻訳日:2021-04-28 12:27:05 公開日:2021-04-24 |
# (参考訳) 経験的測度の収束のための次元自由測度の一クラス A class of dimensionality-free metrics for the convergence of empirical measures ( http://arxiv.org/abs/2104.12036v1 ) ライセンス: CC BY 4.0 | Jiequn Han, Ruimeng Hu, Jihao Long | (参考訳) 本稿では,高次元における経験的測度の収束について述べる。
我々は,新しい尺度のクラスを提案し,そのような尺度の下では,収束が次元性の呪い(CoD)を伴わないことを示す。
このような特徴は高次元解析において重要であり、古典的メトリクスとは対照的である(例)。
は、ワッサーシュタイン距離(Wasserstein distance)。
提案手法は,テスト関数空間を選択するための特定の基準を提案して,CoDを含まない性質を保証することで,平均誤差の最大値から導かれる。
したがって、このメトリクスのクラスを一般化された最大平均差(gmmd)と呼ぶ。
選択されたテスト関数空間の例としては、再生核ヒルベルト空間、バロン空間、フロー誘起関数空間がある。
提案したメトリクスの3つの応用例を示す。
確率変数の場合の経験的測度の収束; 2。
n$粒子系のmckean-vlasov確率微分方程式解への収束; 3。
平均場極限による同質な$n$-playerゲームに対する$\varepsilon$-Nash平衡の構成。
副産物として、gmmdで測定された目標分布に近い分布と目標分布の特定の表現が与えられたとき、ワッサースタイン距離と相対エントロピーの観点で目標分布に近い分布を生成できることを証明する。
全体として,提案するメトリクスクラスは,codを使わずに高次元での経験的測度の収束を分析する強力なツールであることを示す。 This paper concerns the convergence of empirical measures in high dimensions. We propose a new class of metrics and show that under such metrics, the convergence is free of the curse of dimensionality (CoD). Such a feature is critical for high-dimensional analysis and stands in contrast to classical metrics ({\it e.g.}, the Wasserstein distance). The proposed metrics originate from the maximum mean discrepancy, which we generalize by proposing specific criteria for selecting test function spaces to guarantee the property of being free of CoD. Therefore, we call this class of metrics the generalized maximum mean discrepancy (GMMD). Examples of the selected test function spaces include the reproducing kernel Hilbert space, Barron space, and flow-induced function spaces. Three applications of the proposed metrics are presented: 1. The convergence of empirical measure in the case of random variables; 2. The convergence of $n$-particle system to the solution to McKean-Vlasov stochastic differential equation; 3. The construction of an $\varepsilon$-Nash equilibrium for a homogeneous $n$-player game by its mean-field limit. As a byproduct, we prove that, given a distribution close to the target distribution measured by GMMD and a certain representation of the target distribution, we can generate a distribution close to the target one in terms of the Wasserstein distance and relative entropy. Overall, we show that the proposed class of metrics is a powerful tool to analyze the convergence of empirical measures in high dimensions without CoD. | 翻訳日:2021-04-28 12:09:20 公開日:2021-04-24 |
# (参考訳) Precarity: 個別の不安定性に対する複合決定の長期的影響のモデル化 Precarity: Modeling the Long Term Effects of Compounded Decisions on Individual Instability ( http://arxiv.org/abs/2104.12037v1 ) ライセンス: CC BY 4.0 | Pegah Nokhiz, Aravinda Kanchana Ruwanpathirana, Neal Patwari, Suresh Venkatasubramanian | (参考訳) 意思決定の影響を研究することに関して、この研究は主に意思決定の公平性、意思決定パイプラインの長期的な影響、意思決定者と個人の両方を考慮したユーティリティベースの視点の検証に焦点が当てられている。
しかし、人の生活の不安定さをカプセル化するプリカルティ(precarity)という用語にはほとんど焦点が当てられていない。
つまり、ネガティブな結果は他の意思決定や幸福の尺度に過大評価される。
先発性の研究は、意思決定者の視点から意思決定対象の視点への焦点のシフトを必要とする。
この課題の中心は、意思決定の長期的な影響を調べるため、総合的な措置と別れることの重要性を解き放つ重要な方向である。
この問題に対処するため,本稿では,複合意思決定の時間経過に対する影響をシミュレートするモデリングフレームワークを提案する。
シミュレーションにより,基礎人口の異なる所得クラスに対する負の判断による不均一な後遺症と,政策介入がどのような影響を軽減できるかを示すことができた。 When it comes to studying the impacts of decision making, the research has been largely focused on examining the fairness of the decisions, the long-term effects of the decision pipelines, and utility-based perspectives considering both the decision-maker and the individuals. However, there has hardly been any focus on precarity which is the term that encapsulates the instability in people's lives. That is, a negative outcome can overspread to other decisions and measures of well-being. Studying precarity necessitates a shift in focus - from the point of view of the decision-maker to the perspective of the decision subject. This centering of the subject is an important direction that unlocks the importance of parting with aggregate measures to examine the long-term effects of decision making. To address this issue, in this paper, we propose a modeling framework that simulates the effects of compounded decision-making on precarity over time. Through our simulations, we are able to show the heterogeneity of precarity by the non-uniform ruinous aftereffects of negative decisions on different income classes of the underlying population and how policy interventions can help mitigate such effects. | 翻訳日:2021-04-28 12:08:05 公開日:2021-04-24 |
# 知識グラフと深層学習表現を融合させる説明可能なニューラル・シンボリック・ラーニング(X-NeSyL)手法:モヌマイ文化遺産利用事例 EXplainable Neural-Symbolic Learning (X-NeSyL) methodology to fuse deep learning representations with expert knowledge graphs: the MonuMAI cultural heritage use case ( http://arxiv.org/abs/2104.11914v1 ) ライセンス: Link先を確認 | Natalia D\'iaz-Rodr\'iguez, Alberto Lamas, Jules Sanchez, Gianni Franchi, Ivan Donadello, Siham Tabik, David Filliat, Policarpo Cruz, Rosana Montes, Francisco Herrera | (参考訳) 検出と分類のための最新のディープラーニング(DL)モデルは、古典的な機械学習アルゴリズムよりも前例のないパフォーマンスを達成した。
しかし、DLモデルはデバッグ、解釈、認証が難しいブラックボックスメソッドである。
DLだけでは、技術的でない聴衆が検証できる説明は提供できない。
対照的に、知識グラフのような概念をルールやシンボルに変換するシンボリックAIシステムは、説明が容易です。
しかし、それらはより低い一般化とスケーリング能力を示す。
非常に重要な課題は、DL表現を専門家の知識と融合させることである。
この課題に対処する1つの方法は、パフォーマンス-説明可能性のトレードオフと同様に、ドメインエキスパートの知識を損なうことなく両方のストリームを最大限活用することである。
我々は、その記号的知識をドメインエキスパートの知識グラフとして表現することで、この問題に取り組む。
本稿では,記号表現と深部表現の両方を学習するために設計されたeXplainable Neural-symbolic Learning(X-NeSyL)方法論と,機械と人間の専門的説明のアライメントレベルを評価するための説明可能性指標を提案する。
究極的な目的は、学習過程のエキスパートドメイン知識とDL表現を融合させ、説明可能性の健全な基盤として機能させることである。
x-nesylの方法論は、推論とトレーニング時の説明の2つの概念をそれぞれ具体化したものである: 1)explanet: expert-aligned explainedable part-based classifier network architecture, a compositional cnn that make use of symbolic representations, 2) shap-backprop, the explanationable ai-informed training procedure that the dl process to align with such symbolic representations in form of knowledge graphs。
記念碑ファサード画像分類のためのMonuMAIデータセットを用いたX-NeSyL手法を紹介し,提案手法が説明可能性と性能を向上させることを示す。 The latest Deep Learning (DL) models for detection and classification have achieved an unprecedented performance over classical machine learning algorithms. However, DL models are black-box methods hard to debug, interpret, and certify. DL alone cannot provide explanations that can be validated by a non technical audience. In contrast, symbolic AI systems that convert concepts into rules or symbols -- such as knowledge graphs -- are easier to explain. However, they present lower generalisation and scaling capabilities. A very important challenge is to fuse DL representations with expert knowledge. One way to address this challenge, as well as the performance-explainability trade-off is by leveraging the best of both streams without obviating domain expert knowledge. We tackle such problem by considering the symbolic knowledge is expressed in form of a domain expert knowledge graph. We present the eXplainable Neural-symbolic learning (X-NeSyL) methodology, designed to learn both symbolic and deep representations, together with an explainability metric to assess the level of alignment of machine and human expert explanations. The ultimate objective is to fuse DL representations with expert domain knowledge during the learning process to serve as a sound basis for explainability. X-NeSyL methodology involves the concrete use of two notions of explanation at inference and training time respectively: 1) EXPLANet: Expert-aligned eXplainable Part-based cLAssifier NETwork Architecture, a compositional CNN that makes use of symbolic representations, and 2) SHAP-Backprop, an explainable AI-informed training procedure that guides the DL process to align with such symbolic representations in form of knowledge graphs. We showcase X-NeSyL methodology using MonuMAI dataset for monument facade image classification, and demonstrate that our approach improves explainability and performance. | 翻訳日:2021-04-27 15:02:49 公開日:2021-04-24 |
# $\beta$-VAE を用いた溶接部の異常検出 Anomaly Detection for Solder Joints Using $\beta$-VAE ( http://arxiv.org/abs/2104.11927v1 ) ライセンス: Link先を確認 | Furkan Ulger, Seniha Esen Yuksel, Atila Yilmaz | (参考訳) プリント回路基板(pcb)の組立工程において、誤差の大部分は表面実装装置(smd)のはんだ接合によるものである。
文献では,従来の特徴抽出法では手作りの特徴を設計,階層型rgb照明を用いてはんだジョイントエラーを検知するが,教師付き畳み込みニューラルネットワーク(cnn)に基づく手法では高精度にラベル付き異常サンプル(欠陥はんだジョイント)を多数必要としている。
特殊な照明がなく,かつ,エラーのない参照ボードが存在しない環境下での光検査問題を解決するために,ICと非ICの両方で動作可能な異常検出のための新しいベータ可変オートエンコーダ(ベータVAE)アーキテクチャを提案する。
提案手法はデータの不連続表現を学習し,より独立な特徴と潜在空間表現の改善をもたらすことを示す。
異常を特徴付けるために用いられるアクティベーションと勾配に基づく表現を比較し、異なるベータパラメータがβ-VAEにおける特徴表現の精度と解答に与える影響を観察する。
最後に, ハンダ接合部の異常を, ハードウェアや特徴工学の指定なしに, 直接正規サンプルで訓練したモデルを用いて高精度に検出できることを示す。 In the assembly process of printed circuit boards (PCB), most of the errors are caused by solder joints in Surface Mount Devices (SMD). In the literature, traditional feature extraction based methods require designing hand-crafted features and rely on the tiered RGB illumination to detect solder joint errors, whereas the supervised Convolutional Neural Network (CNN) based approaches require a lot of labelled abnormal samples (defective solder joints) to achieve high accuracy. To solve the optical inspection problem in unrestricted environments with no special lighting and without the existence of error-free reference boards, we propose a new beta-Variational Autoencoders (beta-VAE) architecture for anomaly detection that can work on both IC and non-IC components. We show that the proposed model learns disentangled representation of data, leading to more independent features and improved latent space representations. We compare the activation and gradient-based representations that are used to characterize anomalies; and observe the effect of different beta parameters on accuracy and on untwining the feature representations in beta-VAE. Finally, we show that anomalies on solder joints can be detected with high accuracy via a model trained on directly normal samples without designated hardware or feature engineering. | 翻訳日:2021-04-27 15:01:19 公開日:2021-04-24 |
# RelTransformer: ローカルコンテキスト,シーン,メモリからの視覚的関係検出のバランシング RelTransformer: Balancing the Visual Relationship Detection from Local Context, Scene and Memory ( http://arxiv.org/abs/2104.11934v1 ) ライセンス: Link先を確認 | Jun Chen, Aniket Agarwal, Sherif Abdelkarim, Deyao Zhu, Mohamed Elhoseiny | (参考訳) 視覚的関係認識(VRR)はシーン理解の基本課題である。
VRRが提供する構造は、画像キャプションや視覚的質問応答といった下流タスクにおけるAI解釈可能性を改善するために不可欠である。
近年の研究では、vrrのロングテール問題は、構成の複雑さと構造のため、物体認識においてさらに重要であることが示されている。
この制限を克服するために、複数の画像レベルからリッチなセマンティック特徴を用いた関係予測を行うRelTransformerと呼ばれる新しいトランスフォーマーベースのフレームワークを提案する。
より豊富なテキスト特徴は、十分なトレーニングデータが欠如している場合に有用である、より正確で差別的な関係を生み出すことができると仮定する。
我々のモデルの主な特徴は、3つの異なるレベルの特徴(ローカルコンテキスト、シーン、データセットレベル)を集約して視覚的関係を合成する能力である。
我々は、視覚ゲノムモデルと、GQA-LTとVG8k-LTの2つの「ロングテール」VRRデータセットの評価を行った。
さらに,本モデルでは,尾部関係予測に基づく最良基準値に対して,GQA-LTの精度を27.4%向上させる。
私たちのコードはhttps://github.com/Vision-CAIR/RelTransformerで利用可能です。 Visual relationship recognition (VRR) is a fundamental scene understanding task. The structure that VRR provides is essential to improve the AI interpretability in downstream tasks such as image captioning and visual question answering. Several recent studies showed that the long-tail problem in VRR is even more critical than that in object recognition due to the compositional complexity and structure. To overcome this limitation, we propose a novel transformer-based framework, dubbed as RelTransformer, which performs relationship prediction using rich semantic features from multiple image levels. We assume that more abundantcon textual features can generate more accurate and discriminative relationships, which can be useful when sufficient training data are lacking. The key feature of our model is its ability to aggregate three different-level features (local context, scene, and dataset-level) to compositionally predict the visual relationship. We evaluate our model on the visual genome and two "long-tail" VRR datasets, GQA-LT and VG8k-LT. Extensive experiments demonstrate that our RelTransformer could improve over the state-of-the-art baselines on all the datasets. In addition, our model significantly improves the accuracy of GQA-LT by 27.4% upon the best baselines on tail-relationship prediction. Our code is available in https://github.com/Vision-CAIR/RelTransformer. | 翻訳日:2021-04-27 15:00:56 公開日:2021-04-24 |
# 概念ドリフト下の継続学習のためのクラスインクリメンタル体験リプレイ Class-Incremental Experience Replay for Continual Learning under Concept Drift ( http://arxiv.org/abs/2104.11861v1 ) ライセンス: Link先を確認 | {\L}ukasz Korycki, Bartosz Krawczyk | (参考訳) 現代の機械学習システムは、データの頻繁な到着と変更に対応できる必要がある。
このようなシナリオを扱う2つの研究分野は、継続的学習とデータストリームマイニングである。
継続的学習は、知識を蓄積し、学習した情報を保存すべきと仮定して、忘れることを避けることに焦点を当てている。
データストリームマイニングは、最新のデータだけが関連すると仮定して、概念ドリフトへの適応と古い情報の破棄に焦点を当てている。
これら2つの領域は主に分離して開発されているが、動的データから学習する問題の相補的な見解を提供する。
新たな情報を学習し、保存し、また、以前見た概念の変更を見直し、適応できるアーキテクチャを提供することで、それらを統一する必要性がある。
両タスクを処理可能な新しい連続学習手法を提案する。
experience replayメソッドは、インクリメンタルに到着するクラスの多様なインスタンスを格納するcentroid駆動のメモリによって実現されます。
これはリアクティブサブスペースバッファによって強化され、前述のクラスでの概念ドリフトの発生を追跡し、それに応じてクラスタに適応する。
提案したアーキテクチャは、有効性と古い情報を忘れることの両方を記憶することができ、概念ドリフト下での連続学習のための総合的なフレームワークを提供する。 Modern machine learning systems need to be able to cope with constantly arriving and changing data. Two main areas of research dealing with such scenarios are continual learning and data stream mining. Continual learning focuses on accumulating knowledge and avoiding forgetting, assuming information once learned should be stored. Data stream mining focuses on adaptation to concept drift and discarding outdated information, assuming that only the most recent data is relevant. While these two areas are mainly being developed in separation, they offer complementary views on the problem of learning from dynamic data. There is a need for unifying them, by offering architectures capable of both learning and storing new information, as well as revisiting and adapting to changes in previously seen concepts. We propose a novel continual learning approach that can handle both tasks. Our experience replay method is fueled by a centroid-driven memory storing diverse instances of incrementally arriving classes. This is enhanced with a reactive subspace buffer that tracks concept drift occurrences in previously seen classes and adapts clusters accordingly. The proposed architecture is thus capable of both remembering valid and forgetting outdated information, offering a holistic framework for continual learning under concept drift. | 翻訳日:2021-04-27 14:56:39 公開日:2021-04-24 |
# MusCaps:音楽オーディオのキャプション生成 MusCaps: Generating Captions for Music Audio ( http://arxiv.org/abs/2104.11984v1 ) ライセンス: Link先を確認 | Ilaria Manco, Emmanouil Benetos, Elio Quinton, Gyorgy Fazekas | (参考訳) コンテンツに基づく音楽情報検索は,ディープラーニングの導入によって急速に進歩している。
ハイレベル音楽記述への現在のアプローチは、オートタグやジャンル、ムード分類などの分類モデルを利用するのが一般的である。
本研究では,人間的な方法で音声コンテンツの自然言語記述を生成するタスクとして定義された音声キャプションによる音楽記述に対処することを提案する。
そこで本研究では,テンポラルアテンションを持つエンコーダデコーダからなる最初の音楽オーディオキャプションモデルMusCapsを提案する。
提案手法は畳み込みと繰り返しのニューラルネットワークアーキテクチャを組み合わせることで,マルチモーダルエンコーダを通じて音声テキスト入力を共同処理し,音声データの事前学習を利用して,入力中の音楽的特徴を効果的に捉え,要約する表現を得る。
自動計測によるキャプションの評価は,非音楽音声キャプションのためのベースラインよりも優れていることを示す。
アブレーション研究を通じて、この性能向上は、主にオーディオエンコーダの事前学習によるものであり、他の設計選択モダリティ融合、復号化戦略、注意力の利用は、わずかに寄与する。
我々のモデルは、分類に基づく音楽記述から脱却し、音楽情報検索における意味的ギャップを埋めるために、聴覚と言語の両方の理解を必要とするタスクを組み合わせる。 Content-based music information retrieval has seen rapid progress with the adoption of deep learning. Current approaches to high-level music description typically make use of classification models, such as in auto-tagging or genre and mood classification. In this work, we propose to address music description via audio captioning, defined as the task of generating a natural language description of music audio content in a human-like manner. To this end, we present the first music audio captioning model, MusCaps, consisting of an encoder-decoder with temporal attention. Our method combines convolutional and recurrent neural network architectures to jointly process audio-text inputs through a multimodal encoder and leverages pre-training on audio data to obtain representations that effectively capture and summarise musical features in the input. Evaluation of the generated captions through automatic metrics shows that our method outperforms a baseline designed for non-music audio captioning. Through an ablation study, we unveil that this performance boost can be mainly attributed to pre-training of the audio encoder, while other design choices - modality fusion, decoding strategy and the use of attention - contribute only marginally. Our model represents a shift away from classification-based music description and combines tasks requiring both auditory and linguistic understanding to bridge the semantic gap in music information retrieval. | 翻訳日:2021-04-27 14:54:22 公開日:2021-04-24 |
# 食事配送問題に対する深層強化学習アプローチ A Deep Reinforcement Learning Approach for the Meal Delivery Problem ( http://arxiv.org/abs/2104.12000v1 ) ライセンス: Link先を確認 | Hadi Jahanshahi, Aysun Bozanta, Mucahit Cevik, Eray Mert Kavuk, Ay\c{s}e Tosun, Sibel B. Sonuc, Bilgin Kosucu, Ay\c{s}e Ba\c{s}ar | (参考訳) 一日に一組の宅配業者に与えられた動的顧客要求を満たす食事配達サービスについて検討する。
宅配業者の義務は、レストランから注文を受け取り、顧客に届けることである。
私たちはこのサービスをマルコフ決定プロセスとしてモデル化し、ソリューションアプローチとして深層強化学習を使用します。
合成および実世界のデータセットに対する結果のポリシーを実験し、ベースラインポリシーと比較する。
また,異なる数のクーリエの利用状況についても検討した。
本分析では,食事提供問題における限られた資源の影響に着目した。
さらに,インテリジェントな注文拒否と配送業者の再配置の効果について検討した。
数値実験により,飲食店,顧客,デポの地理的位置を組み込むことにより,期待される総報酬と配送時間によって特徴付けられる総合的なサービス品質が大幅に向上することを示した。
本研究は,ある日に異なる順序周波数のクーリエの割り当てプロセスと最適なクーリエ数の両方について有意な知見を与える。
提案モデルはまた,実世界の実装における様々なシナリオ下での堅牢な性能を示す。 We consider a meal delivery service fulfilling dynamic customer requests given a set of couriers over the course of a day. A courier's duty is to pick-up an order from a restaurant and deliver it to a customer. We model this service as a Markov decision process and use deep reinforcement learning as the solution approach. We experiment with the resulting policies on synthetic and real-world datasets and compare those with the baseline policies. We also examine the courier utilization for different numbers of couriers. In our analysis, we specifically focus on the impact of the limited available resources in the meal delivery problem. Furthermore, we investigate the effect of intelligent order rejection and re-positioning of the couriers. Our numerical experiments show that, by incorporating the geographical locations of the restaurants, customers, and the depot, our model significantly improves the overall service quality as characterized by the expected total reward and the delivery times. Our results present valuable insights on both the courier assignment process and the optimal number of couriers for different order frequencies on a given day. The proposed model also shows a robust performance under a variety of scenarios for real-world implementation. | 翻訳日:2021-04-27 14:53:05 公開日:2021-04-24 |
# 説明可能な人工知能が乳癌患者の予後改善と腫瘍微小環境条件の新たな知見を公表 Explainable Artificial Intelligence Reveals Novel Insight into Tumor Microenvironment Conditions Linked with Better Prognosis in Patients with Breast Cancer ( http://arxiv.org/abs/2104.12021v1 ) ライセンス: Link先を確認 | Debaditya Chakraborty, Cristina Ivan, Paola Amero, Maliha Khan, Cristian Rodriguez-Aguayo, Hakan Ba\c{s}a\u{g}ao\u{g}lu, and Gabriel Lopez-Berestein | (参考訳) 腫瘍微小環境 (TME) の特徴と3重陰性乳癌 (TNBC) と非TNBC (NTNBC) 患者の生存年数との関係について, Explainable Artificial Intelligence (XAI) モデルを用いて検討した。
The Cancer Genome Atlasの浸潤乳癌患者とCbioPortalとPanCanAtlasプロジェクトとGDAC Firehose研究の2つの研究から臨床情報を得た。
そこで本研究では,UCSC Xenaデータセットから1015名の乳癌患者から得られた正常化RNAシークエンシングデータを用いて,EPIC法と統合的デコンボリューションを行い,RNAシークエンシングデータから7種類の免疫および間質細胞の比率を推定した。
XAIモデルから得られた新たな知見は,CD4+T細胞およびB細胞が,TNBCおよびNTNBC患者の予後を高めるために他のTME特徴よりも重要であることを示している。
XAIモデルではCD4+T細胞と5年生存率を向上したB細胞に臨界反射点(しきい値)が認められた。
以上の結果より, TNBCおよびNTNBC患者は, 摂動点から推定した条件条件下で5年間生存可能と判断された。
特にXAIモデルでは,TMEのB細胞分画は0.018以上であり,NTNBC患者の生存率は100%であった。
この研究から得られた知見は、より正確な臨床予測と免疫療法の強化、乳がん患者のTMEをプログラムする革新的な戦略の設計につながる可能性がある。 We investigated the data-driven relationship between features in the tumor microenvironment (TME) and the overall and 5-year survival in triple-negative breast cancer (TNBC) and non-TNBC (NTNBC) patients by using Explainable Artificial Intelligence (XAI) models. We used clinical information from patients with invasive breast carcinoma from The Cancer Genome Atlas and from two studies from the cbioPortal, the PanCanAtlas project and the GDAC Firehose study. In this study, we used a normalized RNA sequencing data-driven cohort from 1,015 breast cancer patients, alive or deceased, from the UCSC Xena data set and performed integrated deconvolution with the EPIC method to estimate the percentage of seven different immune and stromal cells from RNA sequencing data. Novel insights derived from our XAI model showed that CD4+ T cells and B cells are more critical than other TME features for enhanced prognosis for both TNBC and NTNBC patients. Our XAI model revealed the critical inflection points (i.e., threshold fractions) of CD4+ T cells and B cells above or below which 5-year survival rates improve. Subsequently, we ascertained the conditional probabilities of $\geq$ 5-year survival in both TNBC and NTNBC patients under specific conditions inferred from the inflection points. In particular, the XAI models revealed that a B-cell fraction exceeding 0.018 in the TME could ensure 100% 5-year survival for NTNBC patients. The findings from this research could lead to more accurate clinical predictions and enhanced immunotherapies and to the design of innovative strategies to reprogram the TME of breast cancer patients. | 翻訳日:2021-04-27 14:52:50 公開日:2021-04-24 |
# CycleGANとTransfer Learningを用いたCT画像からのCOVID-19自動診断 Automatic Diagnosis of COVID-19 from CT Images using CycleGAN and Transfer Learning ( http://arxiv.org/abs/2104.11949v1 ) ライセンス: Link先を確認 | Navid Ghassemi, Afshin Shoeibi, Marjane Khodatars, Jonathan Heras, Alireza Rahimi, Assef Zare, Ram Bilas Pachori, J. Manuel Gorriz | (参考訳) コロナウイルス(COVID-19)の流行は、地球上のほとんどの人々の生活に変化をもたらした。
この疾患の感染率が高いことから、患者を隔離するための正確な診断は、このパンデミックと闘う上で最も重要である。
診断に使用される様々なモダリティの中で、医用画像、特にCT(Computed tomography)画像は、その正確さと可用性から、多くの研究の焦点となっている。
さらに、診断方法の自動化は、医師にとって非常に役立ちます。
本稿では,事前学習した深層ニューラルネットワークに基づく手法を提案する。この手法は,データ拡張のための循環生成逆ネットワーク(cyclegan)モデルを利用して,手前のタスク,すなわち99.60%の精度で最先端の性能を達成している。
また、この方法を評価するために、医師が189人の患者から3163枚の画像を含むデータセットを収集し、ラベル付けした。
従来のデータセットとは異なり、通常のデータは他の疾患のデータではなく、新型コロナウイルスの疑いのある人々から収集されており、このデータベースは一般に公開されている。 The outbreak of the corona virus disease (COVID-19) has changed the lives of most people on Earth. Given the high prevalence of this disease, its correct diagnosis in order to quarantine patients is of the utmost importance in steps of fighting this pandemic. Among the various modalities used for diagnosis, medical imaging, especially computed tomography (CT) imaging, has been the focus of many previous studies due to its accuracy and availability. In addition, automation of diagnostic methods can be of great help to physicians. In this paper, a method based on pre-trained deep neural networks is presented, which, by taking advantage of a cyclic generative adversarial net (CycleGAN) model for data augmentation, has reached state-of-the-art performance for the task at hand, i.e., 99.60% accuracy. Also, in order to evaluate the method, a dataset containing 3163 images from 189 patients has been collected and labeled by physicians. Unlike prior datasets, normal data have been collected from people suspected of having COVID-19 disease and not from data from other diseases, and this database is made available publicly. | 翻訳日:2021-04-27 14:50:44 公開日:2021-04-24 |
# 不規則またはランダムな変形下における深部畳み込みニューラルネットワークの安定性について On the stability of deep convolutional neural networks under irregular or random deformations ( http://arxiv.org/abs/2104.11977v1 ) ライセンス: Link先を確認 | Fabio Nicola and S. Ivan Trapasso | (参考訳) 深部畳み込みニューラルネットワーク(DCNN)における位置変形によるロバスト性の問題は非常に理論的かつ実用的なものである。
この問題は、特に散乱型アーキテクチャにおいて、変形ベクトル場 $\tau(x)$ と少なくとも $c^1$ に対する先駆的研究で研究されている。
ここでは、任意のフィールド$\tau\in l^\infty(\mathbb{r}^d;\mathbb{r}^d)$に対して、追加の正規性仮定なしにこの問題に対処する。
マルチレゾリューション近似空間の信号に対して、ネットワークがリプシッツ連続である(そのアーキテクチャによらず)とき、$l^2$の安定性は$\|\tau\|_{l^\infty}/s\ll 1$であり、本質的に不確実性原理の結果である。
ウェーブレット散乱ネットワークのような構造が整ったdcnnであっても、$\|\tau\|_{l^\infty}/s\gg 1$不安定になる場合、漸近的成長速度の鋭い上限を与える。
安定性結果は、与えられた多重解像度近似に合わせてベソフ空間$B^{d/2}_{2,1}$の信号に拡張される。
さらに,より一般的な時間-周波数変形についても考察する。
最後に、上記の結果の確率的なバージョン、すなわち、$\tau(x)$が同じ分散変数 $|\tau(x)|$, $x\in\mathbb{R}^d$ を持つランダム場(一般には有界ではない)としてモデル化されたときの平均安定性の問題を考察する。 The problem of robustness under location deformations for deep convolutional neural networks (DCNNs) is of great theoretical and practical interest. This issue has been studied in pioneering works, especially for scattering-type architectures, for deformation vector fields $\tau(x)$ with some regularity - at least $C^1$. Here we address this issue for any field $\tau\in L^\infty(\mathbb{R}^d;\mathbb{R}^d)$, without any additional regularity assumption, hence including the case of wild irregular deformations such as a noise on the pixel location of an image. We prove that for signals in multiresolution approximation spaces $U_s$ at scale $s$, whenever the network is Lipschitz continuous (regardless of its architecture), stability in $L^2$ holds in the regime $\|\tau\|_{L^\infty}/s\ll 1$, essentially as a consequence of the uncertainty principle. When $\|\tau\|_{L^\infty}/s\gg 1$ instability can occur even for well-structured DCNNs such as the wavelet scattering networks, and we provide a sharp upper bound for the asymptotic growth rate. The stability results are then extended to signals in the Besov space $B^{d/2}_{2,1}$ tailored to the given multiresolution approximation. We also consider the case of more general time-frequency deformations. Finally, we provide stochastic versions of the aforementioned results, namely we study the issue of stability in mean when $\tau(x)$ is modeled as a random field (not bounded, in general) with with identically distributed variables $|\tau(x)|$, $x\in\mathbb{R}^d$. | 翻訳日:2021-04-27 14:50:29 公開日:2021-04-24 |
# Riemannian Gauss-Newtonによる低ランクテンソル推定:統計的最適性と2次収束 Low-rank Tensor Estimation via Riemannian Gauss-Newton: Statistical Optimality and Second-Order Convergence ( http://arxiv.org/abs/2104.12031v1 ) ライセンス: Link先を確認 | Yuetian Luo, Anru R. Zhang | (参考訳) 本稿では, タッカー級のテンソルを, ノイズの少ない線形測定値から推定する。
一般的な問題は、テンソル回帰、テンソル完備化、テンソルPCA/SVDなど、応用から生じる多くの具体例をカバーする。
低タッカー階テンソル推定のための高速実装を備えたリーマンガウスニュートン法(RGN)を提案する。
文献におけるRGNの一般(超)線形収束保証とは違い、軽度条件下での低ランクテンソル推定に対するRGNの最初の二次収束保証を証明する。
rgnの統計的最適性を示す決定論的推定誤差が上限値に一致する。
RGNの利点は、テンソル回帰とテンソルSVDという2つの機械学習アプリケーションを通して説明される。
最後に,理論的な知見を裏付けるシミュレーション結果を提供する。 In this paper, we consider the estimation of a low Tucker rank tensor from a number of noisy linear measurements. The general problem covers many specific examples arising from applications, including tensor regression, tensor completion, and tensor PCA/SVD. We propose a Riemannian Gauss-Newton (RGN) method with fast implementations for low Tucker rank tensor estimation. Different from the generic (super)linear convergence guarantee of RGN in the literature, we prove the first quadratic convergence guarantee of RGN for low-rank tensor estimation under some mild conditions. A deterministic estimation error lower bound, which matches the upper bound, is provided that demonstrates the statistical optimality of RGN. The merit of RGN is illustrated through two machine learning applications: tensor regression and tensor SVD. Finally, we provide the simulation results to corroborate our theoretical findings. | 翻訳日:2021-04-27 14:47:11 公開日:2021-04-24 |
# マルチラウンド新クラスによるインクリメンタル・マイナショットテキスト分類:定式化、データセット、およびシステム Incremental Few-shot Text Classification with Multi-round New Classes: Formulation, Dataset and System ( http://arxiv.org/abs/2104.11882v1 ) ライセンス: Link先を確認 | Congying Xia, Wenpeng Yin, Yihao Feng, Philip Yu | (参考訳) テキスト分類は通常、予め定義された集合から関連するカテゴリの自然言語テキストをラベル付けすることで研究される。
現実の世界では、新しいクラスはラベル付きデータで既存のシステムに挑戦し続けるかもしれない。
システムは、いくつかの例で新しいクラスを認識できるほどインテリジェントであるべきです。
本研究では,NLP領域における新たなタスク,インクリメンタルな数ショットのテキスト分類を定義し,複数の新しいクラスを段階的に処理する。
各ラウンドには、クラスごとにいくつかのラベル付き例を持つ新しいクラスのバッチがある。
新しいタスクには2つの大きな課題が存在する: (i) 学習プロセスでは、システムは、前のクラスの例を再トレーニングすることなく、段階的に新しいクラスを段階的に学習する必要があります。
新しいタスクの定式化に加えて,インテント分類と関係分類という,インクリメンタルなマイナショット設定の2つのベンチマークデータセットもリリースしています。
さらに,この問題を解決するための提案手法として,ENTAILMENTとHYBRIDの2つを提案する。 Text classification is usually studied by labeling natural language texts with relevant categories from a predefined set. In the real world, new classes might keep challenging the existing system with limited labeled data. The system should be intelligent enough to recognize upcoming new classes with a few examples. In this work, we define a new task in the NLP domain, incremental few-shot text classification, where the system incrementally handles multiple rounds of new classes. For each round, there is a batch of new classes with a few labeled examples per class. Two major challenges exist in this new task: (i) For the learning process, the system should incrementally learn new classes round by round without re-training on the examples of preceding classes; (ii) For the performance, the system should perform well on new classes without much loss on preceding classes. In addition to formulating the new task, we also release two benchmark datasets in the incremental few-shot setting: intent classification and relation classification. Moreover, we propose two entailment approaches, ENTAILMENT and HYBRID, which show promise for solving this novel problem. | 翻訳日:2021-04-27 14:46:10 公開日:2021-04-24 |
# 非自己回帰型ニューラルマシン翻訳のモデル化カバレッジ Modeling Coverage for Non-Autoregressive Neural Machine Translation ( http://arxiv.org/abs/2104.11897v1 ) ライセンス: Link先を確認 | Yong Shan, Yang Feng, Chenze Shao | (参考訳) non-autoregressive neural machine translation(nat)は、すべてのトークンを同時に生成することで、大幅な推論速度向上を達成した。
高い効率にもかかわらず、NATは通常2種類の翻訳エラーに悩まされる。
繰り返しトークン)とアンダー翻訳(例)
翻訳を欠く) 最終的に翻訳の質を制限します
本稿では,これらのNATの問題は,自己回帰復号化に有用であることが証明されたカバレッジ・モデリングによって解決可能であることを論じる。
本稿では,トークンレベルの反復的カバレッジ改善機構と文レベルのカバレッジ合意によって,そのカバレッジ情報を直接モデル化する新しいカバレッジNATを提案し,ソーストークンが翻訳されたかどうかをモデルに思い出させ,翻訳とソース間のセマンティクスの整合性を改善する。
WMT14 En-De および WMT16 En-Ro 翻訳タスクの実験結果から,本手法はこれらの誤りを軽減し,ベースラインシステムに対して強い改善が達成できることが示された。 Non-Autoregressive Neural Machine Translation (NAT) has achieved significant inference speedup by generating all tokens simultaneously. Despite its high efficiency, NAT usually suffers from two kinds of translation errors: over-translation (e.g. repeated tokens) and under-translation (e.g. missing translations), which eventually limits the translation quality. In this paper, we argue that these issues of NAT can be addressed through coverage modeling, which has been proved to be useful in autoregressive decoding. We propose a novel Coverage-NAT to model the coverage information directly by a token-level coverage iterative refinement mechanism and a sentence-level coverage agreement, which can remind the model if a source token has been translated or not and improve the semantics consistency between the translation and the source, respectively. Experimental results on WMT14 En-De and WMT16 En-Ro translation tasks show that our method can alleviate those errors and achieve strong improvements over the baseline system. | 翻訳日:2021-04-27 14:45:53 公開日:2021-04-24 |
# 抽出と蒸留:効率的なタスク非依存BERT蒸留 Extract then Distill: Efficient and Effective Task-Agnostic BERT Distillation ( http://arxiv.org/abs/2104.11928v1 ) ライセンス: Link先を確認 | Cheng Chen, Yichun Yin, Lifeng Shang, Zhi Wang, Xin Jiang, Xiao Chen, Qun Liu | (参考訳) タスク依存型知識蒸留は, BERT圧縮に有効であることが証明されている。
NLPタスクで有望な結果を達成するには、膨大な計算資源が必要である。
本稿では,教師のパラメータを有効かつ効果的なタスク非依存蒸留に利用するための汎用的かつ柔軟な戦略であるextract then distill (etd)を提案する。
具体的には,教師のパラメータをランダムに抽出するETD,ETD-Rand,ETD-Imptの2つの変種を紹介する。
このようにして、学生は蒸留プロセスの開始時に既にいくつかの知識を取得しており、蒸留プロセスはより早く収束する。
GLUEベンチマークとSQuADにおけるETDの有効性を示す。
実験の結果,(1)ETD戦略のないベースラインと比較して,ETDは計算コストの70%を節約できることがわかった。
さらに、同じ計算リソースを使用する場合、ベースラインよりも優れた結果が得られる。
2)ETDは汎用的であり,様々な蒸留法(TinyBERTやMiniLMなど)と異なるサイズの学生に有効であることが証明されている。
ソースコードは公開時には公開される予定だ。 Task-agnostic knowledge distillation, a teacher-student framework, has been proved effective for BERT compression. Although achieving promising results on NLP tasks, it requires enormous computational resources. In this paper, we propose Extract Then Distill (ETD), a generic and flexible strategy to reuse the teacher's parameters for efficient and effective task-agnostic distillation, which can be applied to students of any size. Specifically, we introduce two variants of ETD, ETD-Rand and ETD-Impt, which extract the teacher's parameters in a random manner and by following an importance metric respectively. In this way, the student has already acquired some knowledge at the beginning of the distillation process, which makes the distillation process converge faster. We demonstrate the effectiveness of ETD on the GLUE benchmark and SQuAD. The experimental results show that: (1) compared with the baseline without an ETD strategy, ETD can save 70\% of computation cost. Moreover, it achieves better results than the baseline when using the same computing resource. (2) ETD is generic and has been proven effective for different distillation methods (e.g., TinyBERT and MiniLM) and students of different sizes. The source code will be publicly available upon publication. | 翻訳日:2021-04-27 14:45:37 公開日:2021-04-24 |
# Eコマースサイトにおけるベトナムのオープンドメイン問題検出 Vietnamese Open-domain Complaint Detection in E-Commerce Websites ( http://arxiv.org/abs/2104.11969v1 ) ライセンス: Link先を確認 | Nhung Thi-Hong Nguyen, Phuong Ha-Dieu Phan, Luan Thanh Nguyen, Kiet Van Nguyen, Ngan Luu-Thuy Nguyen | (参考訳) 顧客製品レビューは、組織やブランドの製品やサービスの品質向上に重要な役割を果たします。
苦情とは、顧客の期待を満たさないイベントや製品に対する不満を表す態度である。
本稿では,eコマースサイトにおける製品レビューに関する4つのカテゴリについて,5,485人の人間によるレビューを含むベトナムのデータセット(UIT-ViOCD)を構築した。
データ収集フェーズの後、アノテーションタスクに進み、fleiss' kappaによってam = 87%を達成する。
そこで本研究では,F1スコアで92.16%を達成し,苦情の特定を行う。
結果は、将来的にはeコマースウェブサイトでオープンドメイン苦情検出システムを構築したいと考えています。 Customer product reviews play a role in improving the quality of products and services for organizations or brands. Complaining is an attitude that expresses dissatisfaction with an event or a product not meeting customer expectations. In this paper, we build a Vietnamese dataset (UIT-ViOCD), including 5,485 human-annotated reviews on four categories about product reviews on e-commerce sites. After the data collection phase, we proceed to the annotation task and achieve Am = 87% by Fleiss' Kappa. Then, we present an extensive methodology for the research purposes and achieve 92.16% by F1-score for identifying complaints. With the results, in the future, we want to build a system for open-domain complaint detection in E-commerce websites. | 翻訳日:2021-04-27 14:45:19 公開日:2021-04-24 |
# 小型・自由回転物体のための配向バウンディングボックス Oriented Bounding Boxes for Small and Freely Rotated Objects ( http://arxiv.org/abs/2104.11854v1 ) ライセンス: Link先を確認 | Mohsen Zand, Ali Etemad, and Michael Greenspan | (参考訳) 2\times 2$ピクセルの小さなオブジェクトを含む任意のサイズのオブジェクトを自由に回転させる新しいオブジェクト検出方法が提案されている。
このような小さな物体はリモートセンシング画像に頻繁に現れ、最近の物体検出アルゴリズムに挑戦する。
さらに重要なことは、現在のオブジェクト検出法はもともと軸方向のバウンディングボックス検出を許容するように設計されており、従って、回転するオブジェクトを最もよく記述する向きのボックスを正確にローカライズすることができない。
これとは対照的に,提案手法では,アンカーボックスなどの外部リソースを必要とせず,複数スケールの画素情報を用いて,グリッドセル位置における対象オブジェクトの特徴の正確な位置と向きを符号化する。
境界ボックスの位置と次元を回帰する既存の方法とは異なり、提案手法は、余分な計算をせずに、指向的境界ボックス検出を可能にするという利点を付加した、分類による全ての必要な情報を学習する。
これにより、予測されたクラスラベルの集合ごとに最小の周囲ボックスを見つけることで、推論時にのみ境界ボックスを推論する。
さらに、各スケールに回転不変の特徴表現を適用し、トレーニングサンプルの360度回転範囲をカバーするように正規化制約を課し、同様の特徴を共有する。
xView と DOTA データセットの評価は,提案手法が既存の最先端手法よりも一様に性能を向上させることを示す。 A novel object detection method is presented that handles freely rotated objects of arbitrary sizes, including tiny objects as small as $2\times 2$ pixels. Such tiny objects appear frequently in remotely sensed images, and present a challenge to recent object detection algorithms. More importantly, current object detection methods have been designed originally to accommodate axis-aligned bounding box detection, and therefore fail to accurately localize oriented boxes that best describe freely rotated objects. In contrast, the proposed CNN-based approach uses potential pixel information at multiple scale levels without the need for any external resources, such as anchor boxes.The method encodes the precise location and orientation of features of the target objects at grid cell locations. Unlike existing methods which regress the bounding box location and dimension,the proposed method learns all the required information by classification, which has the added benefit of enabling oriented bounding box detection without any extra computation. It thus infers the bounding boxes only at inference time by finding the minimum surrounding box for every set of the same predicted class labels. Moreover, a rotation-invariant feature representation is applied to each scale, which imposes a regularization constraint to enforce covering the 360 degree range of in-plane rotation of the training samples to share similar features. Evaluations on the xView and DOTA datasets show that the proposed method uniformly improves performance over existing state-of-the-art methods. | 翻訳日:2021-04-27 14:41:42 公開日:2021-04-24 |
# M3DeTR: トランスフォーマーを用いたマルチ表現・マルチスケール・相互関連3次元物体検出 M3DeTR: Multi-representation, Multi-scale, Mutual-relation 3D Object Detection with Transformers ( http://arxiv.org/abs/2104.11896v1 ) ライセンス: Link先を確認 | Tianrui Guan, Jun Wang, Shiyi Lan, Rohan Chandra, Zuxuan Wu, Larry Davis, Dinesh Manocha | (参考訳) 本稿では,様々な点クラウド表現(raw,voxels,bird-eye view)と,マルチスケール特徴ピラミッドに基づく異なる特徴スケールを組み合わせた,新たな3dオブジェクト検出アーキテクチャであるm3detrを提案する。
M3DeTRは、マルチポイントクラウド表現、特徴スケールを統一する最初のアプローチであり、トランスフォーマーを使用してポイントクラウド間の相互関係をモデル化する。
我々は、表現とスケールの融合の利点を強調し、関係をモデル化する広範囲なアブレーション実験を行う。
提案手法は,KITTI 3Dオブジェクト検出データセットとWaymo Open Dataset上での最先端性能を実現する。
その結果,Waymo Open Datasetの全クラスに対して,M3DeTRは1.48%のmAPでベースラインを大幅に改善した。
特に,車と自転車の両クラスでよく知られたkitti 3d検出ベンチマークで1位,単一フレームポイントクラウド入力によるwaymo open datasetでは1位にランクインした。 We present a novel architecture for 3D object detection, M3DeTR, which combines different point cloud representations (raw, voxels, bird-eye view) with different feature scales based on multi-scale feature pyramids. M3DeTR is the first approach that unifies multiple point cloud representations, feature scales, as well as models mutual relationships between point clouds simultaneously using transformers. We perform extensive ablation experiments that highlight the benefits of fusing representation and scale, and modeling the relationships. Our method achieves state-of-the-art performance on the KITTI 3D object detection dataset and Waymo Open Dataset. Results show that M3DeTR improves the baseline significantly by 1.48% mAP for all classes on Waymo Open Dataset. In particular, our approach ranks 1st on the well-known KITTI 3D Detection Benchmark for both car and cyclist classes, and ranks 1st on Waymo Open Dataset with single frame point cloud input. | 翻訳日:2021-04-27 14:41:17 公開日:2021-04-24 |
# ハイパースペクトル画像のためのアンカーグラフを用いた空間スペクトルクラスタリング Spatial-Spectral Clustering with Anchor Graph for Hyperspectral Image ( http://arxiv.org/abs/2104.11904v1 ) ライセンス: Link先を確認 | Qi Wang, Yanling Miao, Mulin Chen, Xuelong Li | (参考訳) hyperspectral image (hsi)クラスタリングは、ハイパースペクトラルピクセルをクラスタに分割することを目的としており、実用的な応用において大きな注目を集めている。
近年,データ関係をモデル化するために隣接グラフを構築するグラフベースのクラスタリング手法が多数提案されている。
しかし、hsiデータの高次元化はペアワイズ隣接グラフの構築を困難にしている。
さらに、多くの空間構造はクラスタリングの過程で見過ごされることが多い。
本稿では,高次元問題に対処し,空間構造を保存するために,HSIデータクラスタリングのためのアンカーグラフ(SSCAG)を用いた空間スペクトルクラスタリングという,新しい非教師なし手法を提案する。
The SSCAG has the following contributions: 1) the anchor graph-based strategy is used to construct a tractable large graph for HSI data, which effectively exploits all data points and reduces the computational complexity; 2) a new similarity metric is presented to embed the spatial-spectral information into the combined adjacent graph, which can mine the intrinsic property structure of HSI data; 3) an effective neighbors assignment strategy is adopted in the optimization, which performs the singular value decomposition (SVD) on the adjacent graph to get solutions efficiently.
3つの公開HSIデータセットに対する大規模な実験は、提案されたSSCAGが最先端のアプローチと競合していることを示している。 Hyperspectral image (HSI) clustering, which aims at dividing hyperspectral pixels into clusters, has drawn significant attention in practical applications. Recently, many graph-based clustering methods, which construct an adjacent graph to model the data relationship, have shown dominant performance. However, the high dimensionality of HSI data makes it hard to construct the pairwise adjacent graph. Besides, abundant spatial structures are often overlooked during the clustering procedure. In order to better handle the high dimensionality problem and preserve the spatial structures, this paper proposes a novel unsupervised approach called spatial-spectral clustering with anchor graph (SSCAG) for HSI data clustering. The SSCAG has the following contributions: 1) the anchor graph-based strategy is used to construct a tractable large graph for HSI data, which effectively exploits all data points and reduces the computational complexity; 2) a new similarity metric is presented to embed the spatial-spectral information into the combined adjacent graph, which can mine the intrinsic property structure of HSI data; 3) an effective neighbors assignment strategy is adopted in the optimization, which performs the singular value decomposition (SVD) on the adjacent graph to get solutions efficiently. Extensive experiments on three public HSI datasets show that the proposed SSCAG is competitive against the state-of-the-art approaches. | 翻訳日:2021-04-27 14:41:00 公開日:2021-04-24 |
# 適応外観レンダリング Adaptive Appearance Rendering ( http://arxiv.org/abs/2104.11931v1 ) ライセンス: Link先を確認 | Mengyao Zhai, Ruizhi Deng, Jiacheng Chen, Lei Chen, Zhiwei Deng, Greg Mori | (参考訳) そこで本稿では,望ましい外観とポーズを与えられた人々の画像を生成するアプローチを提案する。
生成画像の複合変動を扱うには,ポーズと外観の絡み合った表現が必要となる。
そこで本研究では,ポーズと外観の中間表現に基づくアプローチを開発し,まず,エンコーダ・デコーダニューラルネットワークを用いて対象者のポーズを符号化する。
そして、完全畳み込みネットワークを用いて適応的外観フィルタを学習することにより、ターゲットの外観を符号化する。
最後に、これらのフィルタをエンコーダデコーダニューラルネットワークに配置してレンダリングを完了させる。
本モデルでは,最先端の手法よりも優れた画像や映像を生成でき,画像と映像の両方においてポーズ案内映像のレンダリングを処理できることを実証する。 We propose an approach to generate images of people given a desired appearance and pose. Disentangled representations of pose and appearance are necessary to handle the compound variability in the resulting generated images. Hence, we develop an approach based on intermediate representations of poses and appearance: our pose-guided appearance rendering network firstly encodes the targets' poses using an encoder-decoder neural network. Then the targets' appearances are encoded by learning adaptive appearance filters using a fully convolutional network. Finally, these filters are placed in the encoder-decoder neural networks to complete the rendering. We demonstrate that our model can generate images and videos that are superior to state-of-the-art methods, and can handle pose guided appearance rendering in both image and video generation. | 翻訳日:2021-04-27 14:40:41 公開日:2021-04-24 |
# Piggyback GAN:イメージコンディショニングのための効率的な生涯学習 Piggyback GAN: Efficient Lifelong Learning for Image Conditioned Generation ( http://arxiv.org/abs/2104.11939v1 ) ライセンス: Link先を確認 | Mengyao Zhai, Lei Chen, Jiawei He, Megha Nawhal, Frederick Tung, Greg Mori | (参考訳) 人間は生涯を通じて知識を蓄積する。
一方、現代のディープニューラルネットワークは破滅的な忘れがちで、新しいタスクの実行に適応すると、前もって学習したタスクのパフォーマンスを維持できないことが多い。
タスクのシーケンスが与えられた場合、破滅的な忘れに対処する単純なアプローチは、各タスクに対して独立したスタンドアロンモデルをトレーニングすることである。
対照的に,従来のタスクでトレーニングされたモデルのフィルタに因果化される畳み込みフィルタとデコンボリューションフィルタのセットを構築することにより,現在のタスクを学習するパラメータ効率の高いフレームワーク piggyback gan を提案する。
現在のタスクでは,本モデルでは,パラメータ数が低いスタンドアロンモデルと同等の高次品質を実現している。
従来のタスクでは,従来のタスクのフィルタが変更されないため,生成品質も維持できる。
そこで我々はPiggyback GANを様々な領域にわたる画像条件付き生成タスクで検証し,定性的かつ定量的な結果を得るとともに,提案手法が破滅的忘れを効果的かつ効率的に解決できることを示す。 Humans accumulate knowledge in a lifelong fashion. Modern deep neural networks, on the other hand, are susceptible to catastrophic forgetting: when adapted to perform new tasks, they often fail to preserve their performance on previously learned tasks. Given a sequence of tasks, a naive approach addressing catastrophic forgetting is to train a separate standalone model for each task, which scales the total number of parameters drastically without efficiently utilizing previous models. In contrast, we propose a parameter efficient framework, Piggyback GAN, which learns the current task by building a set of convolutional and deconvolutional filters that are factorized into filters of the models trained on previous tasks. For the current task, our model achieves high generation quality on par with a standalone model at a lower number of parameters. For previous tasks, our model can also preserve generation quality since the filters for previous tasks are not altered. We validate Piggyback GAN on various image-conditioned generation tasks across different domains, and provide qualitative and quantitative results to show that the proposed approach can address catastrophic forgetting effectively and efficiently. | 翻訳日:2021-04-27 14:40:28 公開日:2021-04-24 |
# 自己認識型プールと1次元畳み込みを用いた音声からの言語ID予測 Language ID Prediction from Speech Using Self-Attentive Pooling and 1D-Convolutions ( http://arxiv.org/abs/2104.11985v1 ) ライセンス: Link先を確認 | Roman Bedyakin, Nikolay Mikhaylovskiy | (参考訳) 本報告では,SIGTYP 2021におけるNTR-TSUによる音声からの言語ID予測タスクについて述べる。
音声言語識別(LID)は多言語自動音声認識(ASR)システムパイプラインにおいて重要なステップである。
多くの低リソースおよび絶滅危惧言語では、単一話者記録のみが利用可能であり、ドメインおよび話者不変の言語IDシステムを必要とする。
本報告では,自己拘束的プーリング層を有する畳み込みニューラルネットワークが,言語識別タスクに有望な結果を示すことを示す。 This memo describes NTR-TSU submission for SIGTYP 2021 Shared Task on predicting language IDs from speech. Spoken Language Identification (LID) is an important step in a multilingual Automated Speech Recognition (ASR) system pipeline. For many low-resource and endangered languages, only single-speaker recordings may be available, demanding a need for domain and speaker-invariant language ID systems. In this memo, we show that a convolutional neural network with a Self-Attentive Pooling layer shows promising results for the language identification task. | 翻訳日:2021-04-27 14:30:28 公開日:2021-04-24 |
# LGD-GCN: ローカルおよびグローバルな分散グラフ畳み込みネットワーク LGD-GCN: Local and Global Disentangled Graph Convolutional Networks ( http://arxiv.org/abs/2104.11893v1 ) ライセンス: Link先を確認 | Jingwei Guo, Kaizhu Huang, Xinping Yi, Rui Zhang | (参考訳) disentangled graph convolutional network(disengcn)は、実世界のグラフで発生する潜在要因を解消するためのフレームワークである。
しかし、ローカルな範囲(すなわちノードとその1ホップの隣人)からの情報の密接化に依存しており、多くの場合、ローカルな情報は不均一で不完全であり、DisenGCNの補間力やモデル性能を妨げている。
本稿では,ローカル・グローバル・ディスタングル型グラフ畳み込みネットワーク(LGD-GCN)について紹介する。
LGD-GCNは、因子対応の潜在連続空間を導出する統計混合モデルを実行し、異なる構造 w.r.t を構築する。
明らかにされた空間と異なる要因です
このようにして、グローバルファクタ固有の情報は、これらの構築された構造に沿って渡されるメッセージを通じて効率的かつ選択的にエンコードされ、ファクタ内一貫性が強化される。
また, 潜在空間モデルを用いて, 因子間多様性を促進するための新しい多様性促進手法を提案する。
合成および実世界のデータセットに対するLGD-GCNの評価は、既存の競合モデルよりも優れた解釈可能性とノード分類の性能の向上を示している。 Disentangled Graph Convolutional Network (DisenGCN) is an encouraging framework to disentangle the latent factors arising in a real-world graph. However, it relies on disentangling information heavily from a local range (i.e., a node and its 1-hop neighbors), while the local information in many cases can be uneven and incomplete, hindering the interpretabiliy power and model performance of DisenGCN. In this paper, we introduce a novel Local and Global Disentangled Graph Convolutional Network (LGD-GCN) to capture both local and global information for graph disentanglement. LGD-GCN performs a statistical mixture modeling to derive a factor-aware latent continuous space, and then constructs different structures w.r.t. different factors from the revealed space. In this way, the global factor-specific information can be efficiently and selectively encoded via a message passing along these built structures, strengthening the intra-factor consistency. We also propose a novel diversity promoting regularizer employed with the latent space modeling, to encourage inter-factor diversity. Evaluations of the proposed LGD-GCN on the synthetic and real-world datasets show a better interpretability and improved performance in node classification over the existing competitive models. | 翻訳日:2021-04-27 14:30:19 公開日:2021-04-24 |
# 条件付き生成型adversarial networkとアンサンブルアクティブラーニングによる教師付き異常検出 Supervised Anomaly Detection via Conditional Generative Adversarial Network and Ensemble Active Learning ( http://arxiv.org/abs/2104.11952v1 ) ライセンス: Link先を確認 | Zhi Chen, Jiang Duan, Li Kang and Guoping Qiu | (参考訳) 異常検出はマシンインテリジェンスに広く応用されているが、未解決の問題である。
主な課題はラベル付き異常の希少性であり、非常に不均衡な問題である。
従来の教師なし異常検出器は最適であるが、教師なしモデルは通常のデータに偏りのある予測をすることができる。
本稿では,EAL-GAN(Ensemble Active Learning Generative Adversarial Network)を導入し,新しい教師付き異常検出手法を提案する。
EAL-GANは、識別器の補助分類器によって異常検出を行う複数の識別器アーキテクチャに対して、ユニークな1つのジェネレータを持つ条件付きGANである。
条件付きGANを用いてクラスバランス付補足訓練データを生成することに加え、各識別器が他者の欠陥を補うことを保証した革新的なアンサンブル学習損失関数を設計し、実世界のデータのラベル付けコストを大幅に削減するアクティブ学習アルゴリズムを導入する。
我々は,新しい異常検出器が様々なSOTA法を有意なマージンで一貫した性能を発揮することを示すため,広範囲な実験結果を示した。
コードはgithubから入手できる。 Anomaly detection has wide applications in machine intelligence but is still a difficult unsolved problem. Major challenges include the rarity of labeled anomalies and it is a class highly imbalanced problem. Traditional unsupervised anomaly detectors are suboptimal while supervised models can easily make biased predictions towards normal data. In this paper, we present a new supervised anomaly detector through introducing the novel Ensemble Active Learning Generative Adversarial Network (EAL-GAN). EAL-GAN is a conditional GAN having a unique one generator vs. multiple discriminators architecture where anomaly detection is implemented by an auxiliary classifier of the discriminator. In addition to using the conditional GAN to generate class balanced supplementary training data, an innovative ensemble learning loss function ensuring each discriminator makes up for the deficiencies of the others is designed to overcome the class imbalanced problem, and an active learning algorithm is introduced to significantly reduce the cost of labeling real-world data. We present extensive experimental results to demonstrate that the new anomaly detector consistently outperforms a variety of SOTA methods by significant margins. The codes are available on Github. | 翻訳日:2021-04-27 14:29:55 公開日:2021-04-24 |
# 非剛性画像登録のための深層畳み込みニューラルネットワーク Deep Convolutional Neural Network for Non-rigid Image Registration ( http://arxiv.org/abs/2104.12034v1 ) ライセンス: Link先を確認 | Eduard F. Durech | (参考訳) 異なる時間や位置で撮影された画像は、回転、スケーリング、歪むなどの変換を受ける。
変換された異なる画像を整列するプロセスは、登録によって行うことができる。
登録は、疾患の追跡、平均化、または鑑別診断のための時系列データを分析する際に望ましい。
剛性変換(線形変換やアフィン変換を含む)には効率的な登録方法が存在するが、非剛性変換(非アフィン変換とも呼ばれる)では、現在の手法は計算に高価で時間を要する。
本稿では、深層ニューラルネットワーク(dnn)と、より具体的には、深層畳み込みニューラルネットワーク(cnn)の非剛性画像登録を効率的に行う能力について検討する。
実験の結果、CNNは非剛体画像の効率的な登録に利用でき、従来のDiffomorphic Demons や Pyramiding に比べて計算時間もかなり少ないことがわかった。 Images taken at different times or positions undergo transformations such as rotation, scaling, skewing, and more. The process of aligning different images which have undergone transformations can be done via registration. Registration is desirable when analyzing time-series data for tracking, averaging, or differential diagnoses of diseases. Efficient registration methods exist for rigid (including linear or affine) transformations; however, for non-rigid (also known as non-affine) transformations, current methods are computationally expensive and time-consuming. In this report, I will explore the ability of a deep neural network (DNN) and, more specifically, a deep convolutional neural network (CNN) to efficiently perform non-rigid image registration. The experimental results show that a CNN can be used for efficient non-rigid image registration and in significantly less computational time than a conventional Diffeomorphic Demons or Pyramiding approach. | 翻訳日:2021-04-27 14:25:52 公開日:2021-04-24 |
# サブセット埋め込みによる多次元データの探索 Exploring Multi-dimensional Data via Subset Embedding ( http://arxiv.org/abs/2104.11867v1 ) ライセンス: Link先を確認 | Peng Xie, Wenyuan Tao, Jie Li, Wentao Huang, Siming Chen | (参考訳) 多次元データ探索は可視化における古典的な研究テーマである。
既存のアプローチのほとんどは、次元空間や部分空間のレコードパターンを特定するように設計されている。
本稿では,サブセットパターンを探索する視覚分析手法を提案する。
アプローチの中核はサブセット埋め込みネットワーク(SEN)であり、サブセットの群を一様に変形した埋め込みとして表現する。
損失関数を分離した複数のサブネットとしてSENを実装した。
この設計により、任意のサブセットを処理し、単一の機能上のサブセットの類似性をキャプチャできるため、正確なパターン探索が可能になる。
さらに、各サブネットは1つの隠れレイヤを持つ完全に接続されたニューラルネットワークである。
単純な構造は高い訓練効率をもたらす。
SENを3段階のワークフローを実現する可視化システムに統合する。
具体的には、アナリストは(1)データセットをサブセットに分割し、(2)senを使って生成された投影された潜在空間内の部分を選択し、(3)選択されたサブセット内のパターンの存在を決定する。
一般に, 可視化, 対話, 自動手法, 定量的手法を組み合わせることで, 探索の柔軟性と操作効率をバランスさせ, 同定されたパターンの解釈性と忠実性を向上させる。
複数のオープンデータセットに関するケーススタディと定量的実験は、我々のアプローチの汎用性と有効性を示している。 Multi-dimensional data exploration is a classic research topic in visualization. Most existing approaches are designed for identifying record patterns in dimensional space or subspace. In this paper, we propose a visual analytics approach to exploring subset patterns. The core of the approach is a subset embedding network (SEN) that represents a group of subsets as uniformly-formatted embeddings. We implement the SEN as multiple subnets with separate loss functions. The design enables to handle arbitrary subsets and capture the similarity of subsets on single features, thus achieving accurate pattern exploration, which in most cases is searching for subsets having similar values on few features. Moreover, each subnet is a fully-connected neural network with one hidden layer. The simple structure brings high training efficiency. We integrate the SEN into a visualization system that achieves a 3-step workflow. Specifically, analysts (1) partition the given dataset into subsets, (2) select portions in a projected latent space created using the SEN, and (3) determine the existence of patterns within selected subsets. Generally, the system combines visualizations, interactions, automatic methods, and quantitative measures to balance the exploration flexibility and operation efficiency, and improve the interpretability and faithfulness of the identified patterns. Case studies and quantitative experiments on multiple open datasets demonstrate the general applicability and effectiveness of our approach. | 翻訳日:2021-04-27 14:22:57 公開日:2021-04-24 |
# Baller2vec++: 協調エージェントをモデル化するためのルックアヘッドマルチエンティティトランスフォーマー baller2vec++: A Look-Ahead Multi-Entity Transformer For Modeling Coordinated Agents ( http://arxiv.org/abs/2104.11980v1 ) ライセンス: Link先を確認 | Michael A. Alcorn, Anh Nguyen | (参考訳) 多くのマルチエージェントの時空間システムでは、エージェントは共有変数(例えば、チームがバスケットボールの試合で実行しているプレー)の影響を受けている。
結果として、エージェントの軌道はしばしば任意の時間ステップで統計的に依存するが、概して、マルチエージェントモデルはエージェントの軌道は各時間ステップで統計的に独立であると暗黙的に仮定する。
本稿では,コーディネートエージェントを効果的にモデル化できるマルチエンティティトランスフォーマであるballer2vec++を紹介する。
特に、Baller2vec++は、統計的に依存するエージェント軌跡の分布を学習するために、ロケーションと"ルックアヘッド"トラジェクトリシーケンスの混合に特別に設計されたセルフアテンションマスクを適用している。
baller2vec(baller2vec++の前身)とは異なり、baller2vec++は完全な調整されたエージェントの振る舞いをシミュレートされたトイデータセットでエミュレートすることを学ぶことができる。
さらに、プロバスケットボール選手の軌道をモデル化するとき、baller2vec++はballer2vecをはるかに上回っている。 In many multi-agent spatiotemporal systems, the agents are under the influence of shared, unobserved variables (e.g., the play a team is executing in a game of basketball). As a result, the trajectories of the agents are often statistically dependent at any given time step; however, almost universally, multi-agent models implicitly assume the agents' trajectories are statistically independent at each time step. In this paper, we introduce baller2vec++, a multi-entity Transformer that can effectively model coordinated agents. Specifically, baller2vec++ applies a specially designed self-attention mask to a mixture of location and "look-ahead" trajectory sequences to learn the distributions of statistically dependent agent trajectories. We show that, unlike baller2vec (baller2vec++'s predecessor), baller2vec++ can learn to emulate the behavior of perfectly coordinated agents in a simulated toy dataset. Additionally, when modeling the trajectories of professional basketball players, baller2vec++ outperforms baller2vec by a wide margin. | 翻訳日:2021-04-27 14:22:39 公開日:2021-04-24 |
# ソフトウェアリポジトリの報告されるバグの数を予測する Predicting the Number of Reported Bugs in a Software Repository ( http://arxiv.org/abs/2104.12001v1 ) ライセンス: Link先を確認 | Hadi Jahanshahi, Mucahit Cevik, Ay\c{s}e Ba\c{s}ar | (参考訳) バグ成長パターンの予測は複雑で未解決のタスクであり、かなりの注意が必要である。
ソフトウェアシステムで見つかる可能性のあるバグの数に関する高度な知識は、ソフトウェア開発者が十分なリソースを便利なタイミングで指定するのに役立ちます。
開発者はそのような情報を使ってシステムの品質を高め、顧客満足度を高めるために必要なアクションを取ることもできる。
本研究では,Long Short Term Memory Neural Networks (LSTM), Auto-Regressive Integrated moving average (ARIMA), Random Forest Regressorの8種類の時系列予測モデルについて検討した。
さらに,ソフトウェアリリース日などの外因性変数の影響を予測モデルに組み込むことで評価する。
我々は,各モデルの長期予測の質を,異なる性能指標に基づいて分析する。
この評価は、大規模なオープンソースソフトウェアアプリケーションであるMozillaで行われている。
データセットはもともとBugzillaから採掘されたもので、2010年1月から2019年12月までのプロジェクトのバグ数を含んでいる。
我々の数値解析は、バグリポジトリのトレンドを評価する洞察を提供する。
LSTMは長期予測において有効であるのに対し,外来変数に富んだランダムフォレスト回帰器は短期的なバグ数予測に優れていた。 The bug growth pattern prediction is a complicated, unrelieved task, which needs considerable attention. Advance knowledge of the likely number of bugs discovered in the software system helps software developers in designating sufficient resources at a convenient time. The developers may also use such information to take necessary actions to increase the quality of the system and in turn customer satisfaction. In this study, we examine eight different time series forecasting models, including Long Short Term Memory Neural Networks (LSTM), auto-regressive integrated moving average (ARIMA), and Random Forest Regressor. Further, we assess the impact of exogenous variables such as software release dates by incorporating those into the prediction models. We analyze the quality of long-term prediction for each model based on different performance metrics. The assessment is conducted on Mozilla, which is a large open-source software application. The dataset is originally mined from Bugzilla and contains the number of bugs for the project between Jan 2010 and Dec 2019. Our numerical analysis provides insights on evaluating the trends in a bug repository. We observe that LSTM is effective when considering long-run predictions whereas Random Forest Regressor enriched by exogenous variables performs better for predicting the number of bugs in the short term. | 翻訳日:2021-04-27 14:22:18 公開日:2021-04-24 |
# 良性コントラスト予測符号化 Aligned Contrastive Predictive Coding ( http://arxiv.org/abs/2104.11946v1 ) ライセンス: Link先を確認 | Jan Chorowski, Grzegorz Ciesielski, Jaros{\l}aw Dzikowski, Adrian {\L}ancucki, Ricard Marxer, Mateusz Opala, Piotr Pusz, Pawe{\l} Rychlikowski, Micha{\l} Stypu{\l}kowski | (参考訳) コントラスト予測損失を用いて学習した自己教師付きモデルを用いて,ゆるやかに変化する潜在表現を抽出する可能性について検討する。
将来の表現ごとに個別の予測を生成するのではなく、モデルはそれらが整列する次の表現よりも短い一連の予測を出力する。
このようにして、予測ネットワークは、次のシンボルを予測するよりも、その正確なタイミングではなく、より簡単なタスクを解決し、一方、符号化ネットワークは、断片的に一定の潜在コードを生成するように訓練される。
そこで本研究では,音声符号化タスクにおけるモデルの評価を行い,提案手法を用いたコントラスト予測符号化(acpc)により,線形電話の予測精度が向上し,abx誤り率が低下することを示す。 We investigate the possibility of forcing a self-supervised model trained using a contrastive predictive loss to extract slowly varying latent representations. Rather than producing individual predictions for each of the future representations, the model emits a sequence of predictions shorter than that of the upcoming representations to which they will be aligned. In this way, the prediction network solves a simpler task of predicting the next symbols, but not their exact timing, while the encoding network is trained to produce piece-wise constant latent codes. We evaluate the model on a speech coding task and demonstrate that the proposed Aligned Contrastive Predictive Coding (ACPC) leads to higher linear phone prediction accuracy and lower ABX error rates, while being slightly faster to train due to the reduced number of prediction heads. | 翻訳日:2021-04-27 14:19:59 公開日:2021-04-24 |
# DecentLaM:大規模深層学習のための分散モーメントSGD DecentLaM: Decentralized Momentum SGD for Large-batch Deep Training ( http://arxiv.org/abs/2104.11981v1 ) ライセンス: Link先を確認 | Kun Yuan, Yiming Chen, Xinmeng Huang, Yingya Zhang, Pan Pan, Yinghui Xu, Wotao Yin | (参考訳) ディープラーニングのスケールでは、効率的な分散トレーニングアルゴリズムが求められている。
分散運動量 SGD (DmSGD) は、各ノードが隣り合うだけで平均となるが、全ての計算ノードで世界平均を発生させるバニラ並列運動量 SGD よりも通信効率が高い。
一方、大規模バッチトレーニングは実行時のスピードアップを達成するために重要であることが証明されている。
これはDmSGDが大規模バッチシナリオでどのように機能するかを調査する動機となります。
この研究において、運動量項はDmSGDの不整合バイアスを増幅することができる。
このようなバイアスは、バッチサイズが大きくなり、結果としてパフォーマンスが著しく低下するにつれてより明確になる。
次に,新しい分散型大バッチ運動量SGDであるDecentLaMを提案する。
非凸シナリオと強凸シナリオの収束速度が確立される。
我々の理論的結果は,特に大規模バッチシナリオにおけるDmSGDに対するDecentLaMの優位性を正当化するものである。
様々なコンピュータビジョンタスクとモデルの実験結果は、DecentLaMが効率的かつ高品質なトレーニングを約束していることを示している。 The scale of deep learning nowadays calls for efficient distributed training algorithms. Decentralized momentum SGD (DmSGD), in which each node averages only with its neighbors, is more communication efficient than vanilla Parallel momentum SGD that incurs global average across all computing nodes. On the other hand, the large-batch training has been demonstrated critical to achieve runtime speedup. This motivates us to investigate how DmSGD performs in the large-batch scenario. In this work, we find the momentum term can amplify the inconsistency bias in DmSGD. Such bias becomes more evident as batch-size grows large and hence results in severe performance degradation. We next propose DecentLaM, a novel decentralized large-batch momentum SGD to remove the momentum-incurred bias. The convergence rate for both non-convex and strongly-convex scenarios is established. Our theoretical results justify the superiority of DecentLaM to DmSGD especially in the large-batch scenario. Experimental results on a variety of computer vision tasks and models demonstrate that DecentLaM promises both efficient and high-quality training. | 翻訳日:2021-04-27 14:19:44 公開日:2021-04-24 |