このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20200411となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 超低出力音速コームの発生 Generation of Ultra-Low Power Phononic Combs ( http://arxiv.org/abs/2003.04308v2 ) ライセンス: Link先を確認 | Maxim Goryachev, Serge Galliou and Michael E. Tobar | (参考訳) 単一音の低電力信号源を用いて,20ドルmkの温度でバルク音響波系におけるフォノニック周波数コムの励起を示す。
観測された超低出力閾値は、非常に高い品質係数の10^8$と比較的強い非線形効果の組み合わせによるものである。
観測されたコムの繰り返し速度は 0.7 から 2Hz まで変化し、数十 個のヘルツにまたがる。
実証されたシステムは圧電性によって完全に励起され、モードスペクトル工学や外部の光学信号やマイクロ波信号は不要である。
コームプロファイルは励起および検出電極の形状に大きく依存することが示された。
生成しきい値以下の強いダッフィング非線形性は、この系がモノリシック光マイクロ共振器で励起されるカー周波数コムのフォニックアナログであることを示唆している。
超低電力状態は、不純物欠陥や超伝導量子ビットのような量子ハイブリッドシステムとこのフォノンシステムを統合する方法を開く。 We demonstrate excitation of phononic frequency combs in a Bulk Acoustic Wave system at a temperature of $20$mK using a single tone low power signal source. The observed ultra low power threshold is due to a combination of very high quality factor of $4.2\times 10^8$ and relatively strong nonlinear effects. The observed repetition rate of the comb varies from 0.7 to 2Hz and spans over tens of Hertz. The demonstrated system is fully excited via piezoelectricity and does not require mode spectra engineering and external optical or microwave signals. It is shown that the comb profile significantly depends on geometry of excitation and detection electrodes. Observed strong Duffing nonlinearity below the generation threshold suggests that the system is a phononic analogue to Kerr frequency combs excited in monolithic optical microresonators. The ultra-low power regime opens a way of integrating this phononic system with quantum hybrid systems such as impurity defects and superconducting qubits. | 翻訳日:2023-05-30 03:16:30 公開日:2020-04-11 |
# 位相感応力による分子量子状態の同定 Identification of molecular quantum states using phase-sensitive forces ( http://arxiv.org/abs/2004.05306v1 ) ライセンス: Link先を確認 | Kaveh Najafian, Ziv Meir, Mudit Sinhal and Stefan Willitsch | (参考訳) 量子システムを操作するための量子論理技術が、分子にますます応用されている。
単一閉じ込められた二原子種に対する以前の実験は、優れたフィダリティと高精度な分光測定で状態検出を可能にした。
しかし、高エネルギーレベルの構造を改良した複雑な分子には、方法が必要である。
本稿では,状態依存力を用いた分子状態検出のための拡張量子プロトコルを示す。
本手法は,1つの原子イオンと分子イオンの相対的位相を抽出するために,それぞれ1つの基準と信号力の干渉を基本としたものである。
この位相情報を用いて、分子エネルギー準位構造に埋め込まれた状態を特定し、状態から状態への非弾性散乱過程を監視する。
この方法は、初期状態の準備が不完全で分子特性に関する情報が不完全である場合、単一の測定において多数の状態を排除するためにも用いられる。
本実験はN$_2^+$に焦点をあてるが,本手法は汎用的であり,多原子系では特に有用であることが期待される。 Quantum-logic techniques used to manipulate quantum systems are now increasingly being applied to molecules. Previous experiments on single trapped diatomic species have enabled state detection with excellent fidelities and highly precise spectroscopic measurements. However, for complex molecules with a dense energy-level structure improved methods are necessary. Here, we demonstrate an enhanced quantum protocol for molecular state detection using state-dependent forces. Our approach is based on interfering a reference and a signal force applied to a single atomic and molecular ion, respectively, in order to extract their relative phase. We use this phase information to identify states embedded in a dense molecular energy-level structure and to monitor state-to-state inelastic scattering processes. This method can also be used to exclude a large number of states in a single measurement when the initial state preparation is imperfect and information on the molecular properties is incomplete. While the present experiments focus on N$_2^+$, the method is general and is expected to be of particular benefit for polyatomic systems. | 翻訳日:2023-05-25 04:26:33 公開日:2020-04-11 |
# 量子力学におけるシンプレクティック群法とアーサース・ケリー測定モデル Symplectic group methods and the Arthurs Kelly model of measurement in quantum mechanics ( http://arxiv.org/abs/2004.05301v1 ) ライセンス: Link先を確認 | Arvind and S. Chaturvedi and N. Mukunda | (参考訳) 本研究では,量子力学における位置と運動量を同時に測定するアーサース・ケリーモデルの解析において,実シンプレクティック群$sp(2n,\mathcal{r})$に基づく手法について検討する。
このような測定は実際には不可能であるという事実と一致し、アーサース・ケリー相互作用項の観測可能な結果が、システムと装置分散行列を初期および最終時間で接続するシンプレクティック変換法則に含まれることを示した。
個々の分散行列は、量子力学的によく定義された単一のエルミート可観測値の平均と拡散または不確実性から成り立っている。
アーサース・ケリー文脈における多モードシンプレクティック共変不確実性原理の帰結を考察した。 We study the use of methods based on the real symplectic groups $Sp(2n,\mathcal{R})$ in the analysis of the Arthurs-Kelly model of proposed simultaneous measurements of position and momentum in quantum mechanics. Consistent with the fact that such measurements are in fact not possible, we show that the observable consequences of the Arthurs-Kelly interaction term are contained in the symplectic transformation law connecting the system plus apparatus variance matrices at an initial and a final time. The individual variance matrices are made up of averages and spreads or uncertainties for single hermitian observables one at a time, which are quantum mechanically well defined. The consequences of the multimode symplectic covariant Uncertainty Principle in the Arthurs-Kelly context are examined. | 翻訳日:2023-05-25 04:26:18 公開日:2020-04-11 |
# B-TAMBiTに向けて - Mono とバイリンガルテストを備えたアジュディケータによるバックトランスレーション Towards the B-TAMBiT: A Back-Translation with an Adjudicator with Mono and Bilingual Tests ( http://arxiv.org/abs/2004.05509v1 ) ライセンス: Link先を確認 | Mahamadou Kante and Euloge Fran\c{c}ois Kouame and Macire Kante | (参考訳) 研究者たちは、情報プライバシーに対する様々な方法で貢献できる理論を探究する様々な分野に目を向けてきた。
これらの理論のデータ収集装置(クエスチョンネール)は英語である。
それでも、ソーシャルネットワークサイトに関連する問題は、異なる文化的背景を持つ様々なグループを対象としている。
したがって、これらのプラットフォームが直面する問題に対処するために、多文化・国際研究が多数利用されている。
そのため、これらの楽器をフランス語など他の言語に翻訳する必要がある。
本稿では,B-TAMBiTと異なる手法を用いて,英語楽器をフランス語に翻訳する混合手法を開発した。 Researchers have turned to various disciplines in search for theories that can contribute in different ways towards Information privacy. The data collection instrument (questionnaire) of these theories is in English. Nevertheless, issues related to Social Network Sites are meant for various groups with different cultural background. Therefore, cross-cultural and international studies are used in majority to address issues facing these platforms. Henceforth, there is a need to translate these instruments into other languages such as French. In this paper, we produced a mixed method for English instrument translation into French using different techniques from different approaches, the B-TAMBiT. | 翻訳日:2023-05-25 04:21:00 公開日:2020-04-11 |
# 急速断熱通路の非エルミート拡大としての例外点を囲む Encircling exceptional points as a non-Hermitian extension of rapid adiabatic passage ( http://arxiv.org/abs/2004.05486v1 ) ライセンス: Link先を確認 | Juraj Feilhauer, Alexander Schumer, J\"org Doppler, Alexei A. Mailybaev, Julian B\"ohm, Ulrich Kuhl, Nimrod Moiseyev, Stefan Rotter | (参考訳) 量子系の異なるレベル間の励起の効率的な転送は多くの応用における課題である。
このような状態転送を駆動システムで実行する様々なプロトコルの中で、Rapid Adiabatic passage(RAP)が最も広く使われている。
ここでは、駆動ハミルトニアンに適切な損失量を加えることによって、RAPプロトコルが関連するキラル状態移動を含む例外点を囲むスキームに変わることを理論的および実験的に示す。
そこで本研究は,RAPに関する文献全体と,この2つのシナリオに取り組んでいた不連続コミュニティ間の橋渡しとして期待できる例外点近傍の力学に関する最近の研究との密接な関係を明らかにする。 The efficient transfer of excitations between different levels of a quantum system is a task with many applications. Among the various protocols to carry out such a state transfer in driven systems, rapid adiabatic passage (RAP) is one of the most widely used. Here we show both theoretically and experimentally that adding a suitable amount of loss to the driven Hamiltonian turns a RAP protocol into a scheme for encircling an exceptional point including the chiral state transfer associated with it. Our work thus discloses an intimate connection between a whole body of literature on RAP and recent studies on the dynamics in the vicinity of an exceptional point, which we expect to serve as a bridge between the disjoint communities working on these two scenarios. | 翻訳日:2023-05-25 04:20:52 公開日:2020-04-11 |
# 三次元q変形ユークリッド空間上の量子ダイナミクス Quantum Dynamics on the three-dimensional q-deformed Euclidean Space ( http://arxiv.org/abs/2004.05444v1 ) ライセンス: Link先を確認 | Hartmut Wachter | (参考訳) 3次元のq-変形ユークリッド空間を時間要素で拡張し、この量子空間の代数構造とその微分計算について議論する。
星生成形式を用いて、時間要素を持つq-変形ユークリッド空間のq-変形解析の基本的な操作を与える。
q-変形ユークリッド空間に住む量子系の時間発展作用素は、非変形の場合と同じ形式であることを示す。
量子力学のよく知られた方法は、q-変形ユークリッド空間の量子系に適用される。 I extend the three-dimensional q-deformed Euclidean space by a time element and discuss the algebraic structure of this quantum space together with its differential calculi. Using the star-product formalism, I will give basic operations of q-deformed analysis for the q-deformed Euclidean space with a time element. I show that the time-evolution operator of a quantum system living in the q-deformed Euclidean space is of the same form as in the undeformed case. The reasonings also show that the well-known methods of quantum dynamics apply to quantum systems living in the q-deformed Euclidean space. | 翻訳日:2023-05-25 04:20:37 公開日:2020-04-11 |
# 非相反量子ドット回路の散逸工学--入出力アプローチ Dissipation-engineering of nonreciprocal quantum dot circuits: An input-output approach ( http://arxiv.org/abs/2004.05408v1 ) ライセンス: Link先を確認 | Junjie Liu and Dvira Segal | (参考訳) ナノエレクトロニクスデバイスにおける非相互効果は、情報処理のために電子輸送とエンジニアリング量子電子回路を操作するユニークな可能性をもたらす。
しかし、厳密な理論ツールの欠如がこの発展を妨げる。
ここでは、量子光学アナログに基づく固体量子ドットアーキテクチャにおける非相反輸送の一般的な入出力記述を提供する。
特に、これらの(いわゆる)一次点が相互に補助的な減衰量子点に結合する散逸工学により、コヒーレントに結合した量子ドット間の相互性を破る。
本稿では,大規模回路のビルディングブロックとして使用できる2つの代表的マルチ端末非相互作用モデルにおいて,その一般的な枠組みを説明する。
重要なことに、非相互行動の最適な条件は、局所的な電子-フォノンカップリングによって生じる追加的な散逸効果の存在においても成立する。
散乱行列の解析に加えて、非相互結合は共振輸送系における一方向電子流を誘導することを示す。
さらに、我々の分析は非相互ナノエレクトロニクスデバイスの実現に向けた形式主義と作業原理を提供する。 Nonreciprocal effects in nanoelectronic devices offer unique possibilities for manipulating electron transport and engineering quantum electronic circuits for information processing purposes. However, a lack of rigorous theoretical tools is hindering this development. Here, we provide a general input-output description of nonreciprocal transport in solid-state quantum dot architectures, based on quantum optomechanical analogs. In particular, we break reciprocity between coherently-coupled quantum dots by dissipation-engineering in which these (so-called) primary dots are mutually coupled to auxiliary, damped quantum dots. We illustrate the general framework in two representative multiterminal noninteracting models, which can be used as building blocks for larger circuits. Importantly, the identified optimal conditions for nonreciprocal behavior hold even in the presence of additional dissipative effects that result from local electron-phonon couplings. Besides the analysis of the scattering matrix, we show that a nonreciprocal coupling induces unidirectional electron flow in the resonant transport regime. Altogether, our analysis provides the formalism and working principles towards the realization of nonreciprocal nanoelectronic devices. | 翻訳日:2023-05-25 04:20:28 公開日:2020-04-11 |
# 量子プロセスの不確実性原理 The Uncertainty Principle of Quantum Processes ( http://arxiv.org/abs/2004.05315v1 ) ライセンス: Link先を確認 | Yunlong Xiao, Kuntal Sengupta, Siren Yang, and Gilad Gour | (参考訳) ハイゼンベルクの不確実性原理は、非互換な量子測定の結果を任意の精度で予測する能力に固有の制約を課し、古典力学と量子力学の主な違いの1つを証明している。
不確実性原理で考慮される物理系は本質的に静的であり、ヒルベルト空間内の量子状態とともに数学的に記述される。
しかし、多くの物理系は自然界において動的であり、量子チャネルの形式主義で記述される。
本稿では,不確実性原理を量子チャネル上で実行されるプロセス測定を含むように再構成可能であることを示す。
量子状態と量子測定はどちらも量子チャネルの特別な場合であるため、我々の形式主義は不確実性原理を最も一般的なものにカプセル化する。
具体的には、Maassen-Uffinkの不確実性関係と量子状態から量子チャネルへの普遍的不確実性関係を一般化する式を得る。 Heisenberg's uncertainty principle, which imposes intrinsic restrictions on our ability to predict the outcomes of incompatible quantum measurements to arbitrary precision, demonstrates one of the key differences between classical and quantum mechanics. The physical systems considered in the uncertainty principle are static in nature and described mathematically with a quantum state in a Hilbert space. However, many physical systems are dynamic in nature and described with the formalism of a quantum channel. In this paper, we show that the uncertainty principle can be reformulated to include process-measurements that are performed on quantum channels. Since both quantum states and quantum measurements are themselves special cases of quantum channels, our formalism encapsulates the uncertainty principle in its utmost generality. More specifically, we obtain expressions that generalize the Maassen-Uffink uncertainty relation and the universal uncertainty relations from quantum states to quantum channels. | 翻訳日:2023-05-25 04:19:09 公開日:2020-04-11 |
# AraNet: アラビアソーシャルメディアのためのディープラーニングツールキット AraNet: A Deep Learning Toolkit for Arabic Social Media ( http://arxiv.org/abs/1912.13072v2 ) ライセンス: Link先を確認 | Muhammad Abdul-Mageed, Chiyu Zhang, Azadeh Hashemi, El Moatez Billah Nagoudi | (参考訳) AraNetは、アラビア語の深層学習のためのソーシャルメディア処理ツールである。
具体的には,多種多様なソーシャルメディアデータセットを利用して,トランスフォーマーモデル(bert)から双方向エンコーダをトレーニングし,年齢,方言,性別,感情,皮肉,感情を予測する。
AraNetは、引用された多くのタスクと競合的に、最先端のパフォーマンスを提供する。
さらにAraNetは、ディープラーニングフレームワークのみをベースとすることで、機能エンジニアリングを無償で提供するというメリットもある。
私たちの知る限りでは、AraNetはアラビア語のNLPのための広範囲なタスクを予測し、重要なニーズを満たす最初の存在です。
AraNetを公開して研究を加速し、さまざまなタスクの比較を容易にする。 We describe AraNet, a collection of deep learning Arabic social media processing tools. Namely, we exploit an extensive host of publicly available and novel social media datasets to train bidirectional encoders from transformer models (BERT) to predict age, dialect, gender, emotion, irony, and sentiment. AraNet delivers state-of-the-art performance on a number of the cited tasks and competitively on others. In addition, AraNet has the advantage of being exclusively based on a deep learning framework and hence feature engineering free. To the best of our knowledge, AraNet is the first to performs predictions across such a wide range of tasks for Arabic NLP and thus meets a critical needs. We publicly release AraNet to accelerate research and facilitate comparisons across the different tasks. | 翻訳日:2023-01-17 02:15:51 公開日:2020-04-11 |
# アクティブラーニングによるテキスト分類精度とF測定の早期予測 Early Forecasting of Text Classification Accuracy and F-Measure with Active Learning ( http://arxiv.org/abs/2001.10337v2 ) ライセンス: Link先を確認 | Thomas Orth and Michael Bloodgood | (参考訳) テキスト分類システムを作成する際、大きなボトルネックの1つはトレーニングデータのアノテーションである。
データアノテーションのコストを最小限に抑えるため、このボトルネックに対処するためにアクティブラーニングが提案されている。
停止方法の有用性を改善する重要な機能は、テキスト分類モデルの性能を効果的に予測することである。
予測は、学習が進むにつれてデータの一部に回帰した対数モデルを使用することで行うことができる。
重要な未探索の疑問は、正確な予測のためにデータのどの部分が必要とされるかである。
より多くのデータを使用することが望ましいのに対して、より正確な予測ができるように、より少ないデータを使用してより早く予測を行うことが望ましいという緊張があります。
アクティブな学習では、アノテーションの無駄遣いをなくすために、より早く予測を生成することがさらに重要であることに気付きました。
テキスト分類システムの性能指標として精度とf測定値を用いた場合の予測難易度の違いを調査し,f測定値の予測が困難であることを確認した。
異なる特徴を持つセマンティックドメインと3つのベース機械学習アルゴリズムを用いて、7つのテキスト分類データセットの実験を行った。
予測は決定木学習において最も容易であり、サポートベクトルマシンでは適度であり、ニューラルネットワークでは最も難しい。 When creating text classification systems, one of the major bottlenecks is the annotation of training data. Active learning has been proposed to address this bottleneck using stopping methods to minimize the cost of data annotation. An important capability for improving the utility of stopping methods is to effectively forecast the performance of the text classification models. Forecasting can be done through the use of logarithmic models regressed on some portion of the data as learning is progressing. A critical unexplored question is what portion of the data is needed for accurate forecasting. There is a tension, where it is desirable to use less data so that the forecast can be made earlier, which is more useful, versus it being desirable to use more data, so that the forecast can be more accurate. We find that when using active learning it is even more important to generate forecasts earlier so as to make them more useful and not waste annotation effort. We investigate the difference in forecasting difficulty when using accuracy and F-measure as the text classification system performance metrics and we find that F-measure is more difficult to forecast. We conduct experiments on seven text classification datasets in different semantic domains with different characteristics and with three different base machine learning algorithms. We find that forecasting is easiest for decision tree learning, moderate for Support Vector Machines, and most difficult for neural networks. | 翻訳日:2023-01-08 04:56:43 公開日:2020-04-11 |
# 自閉症スペクトラム障害児に対する在宅社会支援ロボットの長期介入におけるエンゲージメントのモデル化 Modeling Engagement in Long-Term, In-Home Socially Assistive Robot Interventions for Children with Autism Spectrum Disorders ( http://arxiv.org/abs/2002.02453v2 ) ライセンス: Link先を確認 | Shomik Jain, Balasubramanian Thiagarajan, Zhonghao Shi, Caitlyn Clabaugh, Maja J. Matari\'c | (参考訳) 自閉症スペクトラム障害(ASD)の小児に対して、社会支援ロボティクス(SAR)は、アクセスしやすく、手頃な価格でパーソナライズされた治療介入を提供する大きな可能性を秘めている。
しかしながら、人間-ロボット相互作用(HRI)の手法は、特に非定型的ユーザや日常的な設定において、行動の手がかりを自律的に認識し、応答する能力に制限されている。
この研究は、教師付き機械学習アルゴリズムを用いて、ASDの子供に対する長期的家庭内SAR介入の文脈におけるユーザエンゲージメントをモデル化する。
具体的には,ユーザ毎に2種類のエンゲージメントモデルを示す。
(i)異なる利用者のデータに基づいて訓練された一般化モデル、及び
(ii) ユーザのデータの早期サブセットに基づいてトレーニングされた個別化モデル。
このモデルは、ユーザ、セッション、およびエンゲージメント状態間で観測されるデータのばらつきが高いにもかかわらず、hoc後のバイナリなエンゲージメント分類で約90%の精度(auroc)を達成した。
さらに、モデル予測における時間パターンは、適切なタイミングで再突入動作を確実に開始するために使用できる。
これらの結果は,HRIの長期的,現実的な設定におけるユーザの離脱に対する認識と対応の実現可能性と課題を検証した。
この研究の貢献はまた、特にAMDコミュニティのために、エンゲージメントとパーソナライズされたHRIの設計を通知する。 Socially assistive robotics (SAR) has great potential to provide accessible, affordable, and personalized therapeutic interventions for children with autism spectrum disorders (ASD). However, human-robot interaction (HRI) methods are still limited in their ability to autonomously recognize and respond to behavioral cues, especially in atypical users and everyday settings. This work applies supervised machine learning algorithms to model user engagement in the context of long-term, in-home SAR interventions for children with ASD. Specifically, we present two types of engagement models for each user: (i) generalized models trained on data from different users; and (ii) individualized models trained on an early subset of the user's data. The models achieved approximately 90% accuracy (AUROC) for post hoc binary classification of engagement, despite the high variance in data observed across users, sessions, and engagement states. Moreover, temporal patterns in model predictions could be used to reliably initiate re-engagement actions at appropriate times. These results validate the feasibility and challenges of recognition and response to user disengagement in long-term, real-world HRI settings. The contributions of this work also inform the design of engaging and personalized HRI, especially for the ASD community. | 翻訳日:2023-01-03 13:34:09 公開日:2020-04-11 |
# 深層学習活性化関数の進化的最適化 Evolutionary Optimization of Deep Learning Activation Functions ( http://arxiv.org/abs/2002.07224v2 ) ライセンス: Link先を確認 | Garrett Bingham, William Macke, and Risto Miikkulainen | (参考訳) 活性化関数の選択は、ニューラルネットワークの性能に大きな影響を与える可能性がある。
新規のアクティベーション機能を手動で操作する試みはいくつかあるが、Rectified Linear Unit (ReLU) が最も一般的に使われている。
本稿では、ReLUより優れた新規活性化関数を進化的アルゴリズムで発見できることを示す。
候補アクティベーション関数のツリーベースの検索空間を定義し、変異、クロスオーバー、徹底的な検索で探索する。
CIFAR-10とCIFAR-100の画像データセット上で、広範囲な残差ネットワークをトレーニングする実験は、このアプローチが有効であることを示している。
ReLUを活性化関数に置き換えると、統計的にネットワーク精度が向上する。
最適性能は、進化が特定のタスクにアクティベーション関数をカスタマイズできるときに達成されるが、これらの新しいアクティベーション関数は、タスク間で高いパフォーマンスを達成するように一般化される。
したがって、アクティベーション関数の進化的最適化は、ニューラルネットワークにおけるメタラーニングの新しい次元として有望である。 The choice of activation function can have a large effect on the performance of a neural network. While there have been some attempts to hand-engineer novel activation functions, the Rectified Linear Unit (ReLU) remains the most commonly-used in practice. This paper shows that evolutionary algorithms can discover novel activation functions that outperform ReLU. A tree-based search space of candidate activation functions is defined and explored with mutation, crossover, and exhaustive search. Experiments on training wide residual networks on the CIFAR-10 and CIFAR-100 image datasets show that this approach is effective. Replacing ReLU with evolved activation functions results in statistically significant increases in network accuracy. Optimal performance is achieved when evolution is allowed to customize activation functions to a particular task; however, these novel activation functions are shown to generalize, achieving high performance across tasks. Evolutionary optimization of activation functions is therefore a promising new dimension of metalearning in neural networks. | 翻訳日:2022-12-31 11:42:42 公開日:2020-04-11 |
# ほぼ最適かつパラメータフリーな単調包有物に対するhalpern反復と変分不等式に対する強解 Halpern Iteration for Near-Optimal and Parameter-Free Monotone Inclusion and Strong Solutions to Variational Inequalities ( http://arxiv.org/abs/2002.08872v3 ) ライセンス: Link先を確認 | Jelena Diakonikolas | (参考訳) 我々は,非拡張写像,単調リプシッツ作用素,近近距離写像の接続を活用し,ほぼ最適(つまり,反復複雑性の面では多対数因子まで最適)および単調包含問題を解くパラメータフリーな手法を得る。
これらの結果はすぐに、変分不等式問題に対する強い解の近似、凸凸凹 min-max 最適化問題の近似、および min-max 最適化問題における勾配のノルムの最小化の近似に変換される。
本解析は,非拡大写像の不動点を求める古典的な反復であるhalpern反復の,新規で単純なポテンシャルに基づく収束の証明に基づいている。
さらに,様々な問題クラス間の接続を強調し,学習した手法の至近性を証明する下限を導出するアルゴリズム的縮小法を提案する。 We leverage the connections between nonexpansive maps, monotone Lipschitz operators, and proximal mappings to obtain near-optimal (i.e., optimal up to poly-log factors in terms of iteration complexity) and parameter-free methods for solving monotone inclusion problems. These results immediately translate into near-optimal guarantees for approximating strong solutions to variational inequality problems, approximating convex-concave min-max optimization problems, and minimizing the norm of the gradient in min-max optimization problems. Our analysis is based on a novel and simple potential-based proof of convergence of Halpern iteration, a classical iteration for finding fixed points of nonexpansive maps. Additionally, we provide a series of algorithmic reductions that highlight connections between different problem classes and lead to lower bounds that certify near-optimality of the studied methods. | 翻訳日:2022-12-30 08:26:11 公開日:2020-04-11 |
# 3次元深部畳み込みニューラルネットワークによる電子電荷密度からの材料の弾性特性予測 Predicting Elastic Properties of Materials from Electronic Charge Density Using 3D Deep Convolutional Neural Networks ( http://arxiv.org/abs/2003.13425v2 ) ライセンス: Link先を確認 | Yong Zhao, Kunpeng Yuan, Yinqiao Liu, Steph-Yves Louis, Ming Hu, and Jianjun Hu | (参考訳) 材料表現は、材料特性の予測と新しい材料発見に基づく機械学習において重要な役割を果たす。
現在、グラフおよび3次元ボクセル表現法は結晶構造の異質な要素に基づいている。
本稿では, 電子電荷密度(ECD)を材料物性予測のための汎用的な統一3次元記述子として用いることを提案する。
我々は,cnnが複数の畳み込みとプーリング操作で効果的な階層的特徴を学習できる材料弾性特性を予測するために,ecdを用いた3次元畳み込みニューラルネットワーク(cnns)を開発した。
2,170Fm-3mの面中心キュビック(FCC)材料に対する大規模なベンチマーク実験により、ECDベースのCNNは弾力性予測に優れた性能が得られることが示された。
特に, 素子Magpie特徴とECD記述子の融合に基づくCNNモデルは, 5倍のクロスバリデーション性能を得た。
さらに重要なことは、テストサンプルに隣接するトレーニングサンプルがほとんど存在しない非冗長データセットに対して評価すると、ECDベースのCNNモデルの方が、はるかに優れた補間性能が得られることを示した。
さらに, 空間群Fm-3mの329の材料上でのモデルの予測性能をDFT計算値と比較し, せん断率よりもバルク率の予測能力が高いことを示した。
ecdの統一表現力により、ecdベースのcnnアプローチは結晶材料の他の物理的および化学的性質を予測するためにも応用できると期待されている。 Materials representation plays a key role in machine learning based prediction of materials properties and new materials discovery. Currently both graph and 3D voxel representation methods are based on the heterogeneous elements of the crystal structures. Here, we propose to use electronic charge density (ECD) as a generic unified 3D descriptor for materials property prediction with the advantage of possessing close relation with the physical and chemical properties of materials. We developed an ECD based 3D convolutional neural networks (CNNs) for predicting elastic properties of materials, in which CNNs can learn effective hierarchical features with multiple convolving and pooling operations. Extensive benchmark experiments over 2,170 Fm-3m face-centered-cubic (FCC) materials show that our ECD based CNNs can achieve good performance for elasticity prediction. Especially, our CNN models based on the fusion of elemental Magpie features and ECD descriptors achieved the best 5-fold cross-validation performance. More importantly, we showed that our ECD based CNN models can achieve significantly better extrapolation performance when evaluated over non-redundant datasets where there are few neighbor training samples around test samples. As additional validation, we evaluated the predictive performance of our models on 329 materials of space group Fm-3m by comparing to DFT calculated values, which shows better prediction power of our model for bulk modulus than shear modulus. Due to the unified representation power of ECD, it is expected that our ECD based CNN approach can also be applied to predict other physical and chemical properties of crystalline materials. | 翻訳日:2022-12-22 20:38:44 公開日:2020-04-11 |
# スマートサーベイランスのためのビデオ異常検出 Video Anomaly Detection for Smart Surveillance ( http://arxiv.org/abs/2004.00222v3 ) ライセンス: Link先を確認 | Sijie Zhu, Chen Chen, and Waqas Sultani | (参考訳) 現代のインテリジェントなビデオ監視システムでは、コンピュータビジョン分析による自動異常検出が、監視効率を著しく向上させるだけでなく、ライブ監視の負担を軽減する重要な役割を果たす。
ビデオの異常は、異常な振る舞いを示すイベントやアクティビティとして広く定義されている。
異常検出の目標は、ビデオシーケンス内の異常事象を時間的または空間的に局所化することである。
時間的局在(ビデオ中の異常事象の開始と終了のフレームを示す)は、フレームレベル検出 (frame level detection) と呼ばれる。
空間的局所化は、より難しいが、異常事象に対応する各異常フレーム内の画素を特定することを意味する。
この設定は通常ピクセルレベルの検出と呼ばれる。
本稿では,ビデオ異常検出の最近の研究動向について概説し,今後の研究の方向性について概説する。 In modern intelligent video surveillance systems, automatic anomaly detection through computer vision analytics plays a pivotal role which not only significantly increases monitoring efficiency but also reduces the burden on live monitoring. Anomalies in videos are broadly defined as events or activities that are unusual and signify irregular behavior. The goal of anomaly detection is to temporally or spatially localize the anomaly events in video sequences. Temporal localization (i.e. indicating the start and end frames of the anomaly event in a video) is referred to as frame-level detection. Spatial localization, which is more challenging, means to identify the pixels within each anomaly frame that correspond to the anomaly event. This setting is usually referred to as pixel-level detection. In this paper, we provide a brief overview of the recent research progress on video anomaly detection and highlight a few future research directions. | 翻訳日:2022-12-17 18:56:08 公開日:2020-04-11 |
# 階層ラベルを用いた画像表現の学習 Learning Representations For Images With Hierarchical Labels ( http://arxiv.org/abs/2004.00909v2 ) ライセンス: Link先を確認 | Ankit Dhall | (参考訳) 画像分類は広範に研究されてきたが、従来のイメージラベルペア以外の非伝統的な外部ガイダンスを用いてそのようなモデルを訓練する方向に限定的な研究がなされている。
本論文では,クラスラベルによって誘導されるセマンティック階層に関する情報を活用する手法について述べる。
論文の前半では,任意の分類器にラベル階層の知識を注入し,画像からの視覚的セマンティクスと組み合わせた外部意味情報の活用が全体的な性能を高めることを実証的に示す。
この方向をさらに一歩進めて,自然言語で広く普及する順序保存埋め込みモデルを用いて,ラベルラベルとラベルと画像の相互作用をより明確にモデル化し,それらをコンピュータビジョンの領域に調整して画像分類を行う。
対照的に、cnn分類器は階層的な情報を注入し、埋め込みベースのモデルは、新しく提示された現実世界のeth 昆虫学コレクション画像データセットhttps://www.research-collection.ethz.ch/handle/20.500.11850/365379で階層に依存しないモデルを上回る。 Image classification has been studied extensively but there has been limited work in the direction of using non-conventional, external guidance other than traditional image-label pairs to train such models. In this thesis we present a set of methods to leverage information about the semantic hierarchy induced by class labels. In the first part of the thesis, we inject label-hierarchy knowledge to an arbitrary classifier and empirically show that availability of such external semantic information in conjunction with the visual semantics from images boosts overall performance. Taking a step further in this direction, we model more explicitly the label-label and label-image interactions by using order-preserving embedding-based models, prevalent in natural language, and tailor them to the domain of computer vision to perform image classification. Although, contrasting in nature, both the CNN-classifiers injected with hierarchical information, and the embedding-based models outperform a hierarchy-agnostic model on the newly presented, real-world ETH Entomological Collection image dataset https://www.research-collection.ethz.ch/handle/20.500.11850/365379. | 翻訳日:2022-12-17 09:28:09 公開日:2020-04-11 |
# ディープサイムズネットワークを有するCOVID-19グリコシル化スパイク(S)タンパク質のHR1ドメイン上のペプチドリガンドのワンショットスクリーニング One-shot screening of potential peptide ligands on HR1 domain in COVID-19 glycosylated spike (S) protein with deep siamese network ( http://arxiv.org/abs/2004.02136v3 ) ライセンス: Link先を確認 | Nicol\`o Savioli | (参考訳) 新型ウイルス(2019-nCoV)は新たな国際的健康の出現と宣言され、特定の薬物は特定されていない。
現在、プロテアーゼやグリコシル化スパイク(S)タンパク質阻害薬など、新型コロナウイルスや宿主細胞の核融合部位を概説するいくつかの方法が評価されている。
しかしながら、グリコシル化スパイク(S)タンパク質上のHeptad Repeat 1(HR1)ドメインは、変異性の低い領域であり、新しい阻害剤の標的となっている。
シームズニューラルネットワーク(SNN)は、HIV-1とエボラのような2つの異なるウイルスファミリーの2019-nCoVタンパク質配列を解消するために訓練されている。
このようにして、現在のディープラーニングシステムは、2019-nCoVタンパク質構造間のペプチド結合の正確な知識を持ち、他の研究とは異なり、2019-nCoVのリガンド-ペプチド情報を提供していない公開データセットに対して自明に訓練されていない。
突然、SNNはペプチド親和性分類の8,3\%の感度を示し、SATPdbバンク上のペプチド3027ドルは、ペプチジルプロリルシストランスイソメラーゼ(PPIase)ペプチドに対して9,3\%の親和性を示す2019-nCoVの特定領域HR1に対して試験されている。
このPPIaseとHR1との親和性は、すでにいくつかの科学論文でPPIaseの主要阻害剤であるCsA免疫抑制薬がSARS-CoVとMERS-CoVを含む異なるCoVウイルスの複製を抑制することが示されていることから、新たな研究の地平を開くことができる。
最後に、科学的再現性を確保するために、コードとデータは以下のリンクで公開されている。 The novel coronavirus (2019-nCoV) has been declared to be a new international health emergence and no specific drug has been yet identified. Several methods are currently being evaluated such as protease and glycosylated spike (S) protein inhibitors, that outlines the main fusion site among coronavirus and host cells. Notwithstanding, the Heptad Repeat 1 (HR1) domain on the glycosylated spike (S) protein is the region with less mutability and then the most encouraging target for new inhibitors drugs.The novelty of the proposed approach, compared to others, lies in a precise training of a deep neural network toward the 2019-nCoV virus. Where a Siamese Neural Network (SNN) has been trained to distingue the whole 2019-nCoV protein sequence amongst two different viruses family such as HIV-1 and Ebola. In this way, the present deep learning system has precise knowledge of peptide linkage among 2019-nCoV protein structure and differently, of other works, is not trivially trained on public datasets that have not been provided any ligand-peptide information for 2019-nCoV. Suddenly, the SNN shows a sensitivity of $83\%$ of peptide affinity classification, where $3027$ peptides on SATPdb bank have been tested towards the specific region HR1 of 2019-nCoV exhibiting an affinity of $93\%$ for the peptidyl-prolyl cis-trans isomerase (PPIase) peptide. This affinity between PPIase and HR1 can open new horizons of research since several scientific papers have already shown that CsA immunosuppression drug, a main inhibitor of PPIase, suppress the reproduction of different CoV virus included SARS-CoV and MERS-CoV. Finally, to ensure the scientific reproducibility, code and data have been made public at the following link: https://github.com/bionick87/2019-nCoV | 翻訳日:2022-12-16 13:21:29 公開日:2020-04-11 |
# FairNN- Conjoint Learning of Fair Representations for Fair Decisions FairNN- Conjoint Learning of Fair Representations for Fair Decisions ( http://arxiv.org/abs/2004.02173v2 ) ライセンス: Link先を確認 | Tongxin Hu, Vasileios Iosifidis, Wentong Liao, Hang Zhang, Michael YingYang, Eirini Ntoutsi, and Bodo Rosenhahn | (参考訳) 本稿では,フェアネス認識学習のための結合特徴表現と分類を行うニューラルネットワークであるFairNNを提案する。
我々のアプローチは多目的損失関数を最適化する
a)保護属性を抑えることにより公正な表現を学ぶ
(b)レコンストラクション損失を最小化し、情報内容を維持すること。
c) 分類誤差を最小化し、等化奇数に基づく正当性を尊重することにより、公平な方法で分類タスクを解くことができる。
各種データセットに対する実験により,表現学習や教師あり学習における不公平性の分離処理よりも,このような共同アプローチの方が優れていることが示された。
さらに、正規化器は損失関数の異なる成分のバランスをとるために適応的に重み付けできるので、公正な表現学習と意思決定を結合するための非常に一般的な枠組みを実現できる。 In this paper, we propose FairNN a neural network that performs joint feature representation and classification for fairness-aware learning. Our approach optimizes a multi-objective loss function in which (a) learns a fair representation by suppressing protected attributes (b) maintains the information content by minimizing a reconstruction loss and (c) allows for solving a classification task in a fair manner by minimizing the classification error and respecting the equalized odds-based fairness regularized. Our experiments on a variety of datasets demonstrate that such a joint approach is superior to separate treatment of unfairness in representation learning or supervised learning. Additionally, our regularizers can be adaptively weighted to balance the different components of the loss function, thus allowing for a very general framework for conjoint fair representation learning and decision making. | 翻訳日:2022-12-16 12:07:21 公開日:2020-04-11 |
# centermask: ポイント表現を備えたシングルショットインスタンスセグメンテーション CenterMask: single shot instance segmentation with point representation ( http://arxiv.org/abs/2004.04446v2 ) ライセンス: Link先を確認 | Yuqing Wang, Zhaoliang Xu, Hao Shen, Baoshan Cheng, Lirong Yang | (参考訳) 本稿では,シンプルで高速かつ高精度な単一ショット・インスタンス・セグメンテーション法を提案する。
1段階のインスタンスセグメンテーションには、オブジェクトインスタンスの差別化とピクセル単位での機能アライメントという2つの大きな課題がある。
したがって、インスタンスセグメンテーションを2つの並列サブタスクに分解する。重複した条件でもインスタンスを分離するローカルシェイプ予測と、ピクセル対ピクセルの方法でイメージ全体をセグメンテーションするグローバルサリエンシ生成である。
2つのブランチの出力は、最終インスタンスマスクを形成するために組み立てられる。
これを実現するために、対象中心点の表現から局所形状情報を採用する。
完全にスクラッチからトレーニングされ、ベルやホイッスルなしで、提案されている centermask は 12.3 fps の速度で 34.5 マスク ap を達成している。
精度は、CenterMaskの有効性を示す5倍遅いTensorMaskを除いて、他のすべての1段階のインスタンスセグメンテーション方法よりも高い。
また,本手法はFCOSなどの他の1段階の物体検出器に容易に組み込むことができ,CenterMaskの一般化を示す。 In this paper, we propose a single-shot instance segmentation method, which is simple, fast and accurate. There are two main challenges for one-stage instance segmentation: object instances differentiation and pixel-wise feature alignment. Accordingly, we decompose the instance segmentation into two parallel subtasks: Local Shape prediction that separates instances even in overlapping conditions, and Global Saliency generation that segments the whole image in a pixel-to-pixel manner. The outputs of the two branches are assembled to form the final instance masks. To realize that, the local shape information is adopted from the representation of object center points. Totally trained from scratch and without any bells and whistles, the proposed CenterMask achieves 34.5 mask AP with a speed of 12.3 fps, using a single-model with single-scale training/testing on the challenging COCO dataset. The accuracy is higher than all other one-stage instance segmentation methods except the 5 times slower TensorMask, which shows the effectiveness of CenterMask. Besides, our method can be easily embedded to other one-stage object detectors such as FCOS and performs well, showing the generalization of CenterMask. | 翻訳日:2022-12-15 03:04:03 公開日:2020-04-11 |
# WES:実インフラ上でのエージェントベースユーザインタラクションシミュレーション WES: Agent-based User Interaction Simulation on Real Infrastructure ( http://arxiv.org/abs/2004.05363v1 ) ライセンス: Link先を確認 | John Ahlgren, Maria Eugenia Berezin, Kinga Bojarczuk, Elena Dulskyte, Inna Dvortsova, Johann George, Natalija Gucevska, Mark Harman, Ralf L\"ammel, Erik Meijer, Silvia Sapora, Justin Spahr-Summers | (参考訳) 本稿では,Web-Enabled Simulation (WES) 研究アジェンダを紹介し,FACEBOOK の WW システムについて述べる。
FACEBOOKでは,何億行ものコードからなるインフラストラクチャ上でのソーシャルメディアのインタラクションをシミュレートするために,WWの信頼性,完全性,プライバシへの適用について説明する。
WESアジェンダは、検索ベースのソフトウェアエンジニアリング、機械学習、プログラミング言語、マルチエージェントシステム、グラフ理論、ゲームAI、AI支援ゲームプレイなど、多くの研究分野から研究を導いている。
我々は、より広い調査の動機づけとなるオープンな問題と研究課題のセットで結論づける。 We introduce the Web-Enabled Simulation (WES) research agenda, and describe FACEBOOK's WW system. We describe the application of WW to reliability, integrity and privacy at FACEBOOK , where it is used to simulate social media interactions on an infrastructure consisting of hundreds of millions of lines of code. The WES agenda draws on research from many areas of study, including Search Based Software Engineering, Machine Learning, Programming Languages, Multi Agent Systems, Graph Theory, Game AI, and AI Assisted Game Play. We conclude with a set of open problems and research challenges to motivate wider investigation. | 翻訳日:2022-12-14 13:18:49 公開日:2020-04-11 |
# MetaIQA: 画像品質評価のための深層メタ学習 MetaIQA: Deep Meta-learning for No-Reference Image Quality Assessment ( http://arxiv.org/abs/2004.05508v1 ) ライセンス: Link先を確認 | Hancheng Zhu, Leida Li, Jinjian Wu, Weisheng Dong, and Guangming Shi | (参考訳) 近年,非参照画像品質評価(NR-IQA)において,ディープ畳み込みニューラルネットワーク(DCNN)の活用への関心が高まっている。
顕著な成功にもかかわらず、DCNNのトレーニングは大量の注釈付きデータに大きく依存しているという広い意見がある。
残念なことに、IQAは典型的な小さなサンプル問題である。
したがって、既存のDCNNベースのIQAメトリクスのほとんどは、事前訓練されたネットワークに基づいて動作する。
しかし、これらの事前学習されたネットワークはIQAタスクのために設計されておらず、異なる種類の歪みを評価する際の一般化問題を引き起こす。
本稿では,深層メタラーニングに基づく非参照IQA尺度を提案する。
基本的な考え方は、画像の品質を様々な歪みで評価する際に、人間が共有するメタ知識を学習することであり、それによって未知の歪みに容易に適応できる。
具体的には、まず様々な歪みに対してNR-IQAタスクを収集する。
次に、多様な歪みによって共有される事前知識を学ぶためにメタラーニングを採用する。
最後に、品質事前モデルをNR-IQAタスクに微調整して、品質モデルを迅速に取得する。
大規模な実験により、提案された計量は最先端の技術を大きなマージンで上回ることを示した。
さらに、合成歪みから得られたメタモデルは、IQAメトリクスの実際の応用において非常に望まれる真の歪みに容易に一般化することができる。 Recently, increasing interest has been drawn in exploiting deep convolutional neural networks (DCNNs) for no-reference image quality assessment (NR-IQA). Despite of the notable success achieved, there is a broad consensus that training DCNNs heavily relies on massive annotated data. Unfortunately, IQA is a typical small sample problem. Therefore, most of the existing DCNN-based IQA metrics operate based on pre-trained networks. However, these pre-trained networks are not designed for IQA task, leading to generalization problem when evaluating different types of distortions. With this motivation, this paper presents a no-reference IQA metric based on deep meta-learning. The underlying idea is to learn the meta-knowledge shared by human when evaluating the quality of images with various distortions, which can then be adapted to unknown distortions easily. Specifically, we first collect a number of NR-IQA tasks for different distortions. Then meta-learning is adopted to learn the prior knowledge shared by diversified distortions. Finally, the quality prior model is fine-tuned on a target NR-IQA task for quickly obtaining the quality model. Extensive experiments demonstrate that the proposed metric outperforms the state-of-the-arts by a large margin. Furthermore, the meta-model learned from synthetic distortions can also be easily generalized to authentic distortions, which is highly desired in real-world applications of IQA metrics. | 翻訳日:2022-12-14 13:09:31 公開日:2020-04-11 |
# テンソル学習による新しい多層ネットワークの構築 A new multilayer network construction via Tensor learning ( http://arxiv.org/abs/2004.05367v1 ) ライセンス: Link先を確認 | Giuseppe Brandi and T. Di Matteo | (参考訳) 多層ネットワークは異なる複雑なシステムの依存関係情報の抽出と提供に適していることが判明した。
これらのネットワークの構築は困難であり、主に静的なアプローチで行われ、遅延した相互依存を無視する。
テンソルは自然に多層ネットワークを表すオブジェクトであり,本論文では,データから直接多層ネットワークを構築するために,タッカーテンソル自己回帰に基づく新しい手法を提案する。
この手法は層間の接続を捕捉し、フィルタリング手法を用いて関連情報を抽出し、可視化を改善する。
定常分数差の財務データに対する本手法の適用について述べる。
我々は、金融リスクの3つの異なる側面(市場リスク、流動性リスク、ボラティリティリスク)にまたがる依存関係を理解するのに、この結果が有用であると主張する。
実際、結果の可視化が、さまざまなリスク要因間の依存関係の非対称性と、遅延した相互依存を考慮に入れたリスクマネージャにとって有用なツールであることを示す。
構築された多層ネットワークは,不確実性対策間の相互接続数が低い一方で,全株式の体積層と価格層の間に強い相互接続を示す。 Multilayer networks proved to be suitable in extracting and providing dependency information of different complex systems. The construction of these networks is difficult and is mostly done with a static approach, neglecting time delayed interdependences. Tensors are objects that naturally represent multilayer networks and in this paper, we propose a new methodology based on Tucker tensor autoregression in order to build a multilayer network directly from data. This methodology captures within and between connections across layers and makes use of a filtering procedure to extract relevant information and improve visualization. We show the application of this methodology to different stationary fractionally differenced financial data. We argue that our result is useful to understand the dependencies across three different aspects of financial risk, namely market risk, liquidity risk, and volatility risk. Indeed, we show how the resulting visualization is a useful tool for risk managers depicting dependency asymmetries between different risk factors and accounting for delayed cross dependencies. The constructed multilayer network shows a strong interconnection between the volumes and prices layers across all the stocks considered while a lower number of interconnections between the uncertainty measures is identified. | 翻訳日:2022-12-14 13:08:57 公開日:2020-04-11 |
# ニューラル加速のためのビットパラレルベクトル構成性 Bit-Parallel Vector Composability for Neural Acceleration ( http://arxiv.org/abs/2004.05333v1 ) ライセンス: Link先を確認 | Soroush Ghodrati, Hardik Sharma, Cliff Young, Nam Sung Kim, Hadi Esmaeilzadeh | (参考訳) 従来のニューラルアクセラレーターは、オペランド配信集約論理を通じて結果を伝達しながら原子操作を行う孤立した自己充足機能ユニットに依存している。
各ユニットはオペランドの全てのビットをアトミックに処理し、結果の全てのビットを分離して生成する。
本稿では,各ユニットがインターリーブするビットレベルの操作のスライスのみを担い,ビットレベルの並列処理と深層ニューラルネットワークにおける豊富なデータレベルの並列処理の利点を組み合わせる,異なる設計スタイルについて検討する。
これらのユニットの動的コレクションは実行時に協調して結果のビットを生成する。
このような協調は、演算子と操作がベクトル化可能である場合にのみ可能となるビット間の新たなグルーピングを抽出する必要がある。
データレベルの並列性と、主に繰り返し実行されるパターンの豊富さは、Bit-Parallel Vector Composabilityという新しい次元を定義し、活用するユニークな機会を提供します。
この設計は、データレベルの並列性の中でビット並列性を分散し、2つを動的に相互に織り込む。
このように、私たちのニューラルアクセラレーターのビルディングブロックは、Narrower-Bitwidth Vector EnginesのコレクションであるComposable Vector Unitであり、ビット粒度で動的に構成または分解される。
CNNとLSTMの6種類のディープネットワークを用いて,アルゴリズムによるビット幅の不均一性と,高帯域オフチップメモリの利用可能性と非使用性という4つの設計点において,この設計スタイルを評価する。
これら4つの設計点全体で、Bit-Parallel Vector Composabilityは(1.4xから3.5x)スピードアップと(1.1xから2.7x)エネルギー削減をもたらす。
また、私たちのデザインスタイルを、INT-4の実行もサポートするNvidia RTX 2080 TI GPUと総合的に比較しています。
効果は28.0倍から33.7倍に向上した。 Conventional neural accelerators rely on isolated self-sufficient functional units that perform an atomic operation while communicating the results through an operand delivery-aggregation logic. Each single unit processes all the bits of their operands atomically and produce all the bits of the results in isolation. This paper explores a different design style, where each unit is only responsible for a slice of the bit-level operations to interleave and combine the benefits of bit-level parallelism with the abundant data-level parallelism in deep neural networks. A dynamic collection of these units cooperate at runtime to generate bits of the results, collectively. Such cooperation requires extracting new grouping between the bits, which is only possible if the operands and operations are vectorizable. The abundance of Data Level Parallelism and mostly repeated execution patterns, provides a unique opportunity to define and leverage this new dimension of Bit-Parallel Vector Composability. This design intersperses bit parallelism within data-level parallelism and dynamically interweaves the two together. As such, the building block of our neural accelerator is a Composable Vector Unit that is a collection of Narrower-Bitwidth Vector Engines, which are dynamically composed or decomposed at the bit granularity. Using six diverse CNN and LSTM deep networks, we evaluate this design style across four design points: with and without algorithmic bitwidth heterogeneity and with and without availability of a high-bandwidth off-chip memory. Across these four design points, Bit-Parallel Vector Composability brings (1.4x to 3.5x) speedup and (1.1x to 2.7x) energy reduction. We also comprehensively compare our design style to the Nvidia RTX 2080 TI GPU, which also supports INT-4 execution. The benefits range between 28.0x and 33.7x improvement in Performance-per-Watt. | 翻訳日:2022-12-14 13:08:39 公開日:2020-04-11 |
# シングルリードECG不整脈分類のためのディープニューラルネットワークの解釈 Interpreting Deep Neural Networks for Single-Lead ECG Arrhythmia Classification ( http://arxiv.org/abs/2004.05399v1 ) ライセンス: Link先を確認 | Sricharan Vijayarangan, Balamurali Murugesan, Vignesh R, Preejith SP, Jayaraj Joseph and Mohansankar Sivaprakasam | (参考訳) 心臓不整脈は、心臓疾患における致死性や死亡の有意な原因である。
早期診断は、心不整脈に苦しむ患者に介入する上で重要である。
従来の診断は心電図(ECG)を心臓科医が検査することで行う。
この診断方法は、専門医へのアクセシビリティの欠如によって妨げられている。
長い間、信号処理法は不整脈診断の自動化に用いられてきた。
しかし、これらの伝統的な方法には専門家の知識が必要であり、幅広い不整脈をモデル化できない。
近年,ディープラーニングは大規模不整脈診断のソリューションを提供している。
しかし、これらのモデルのブラックボックス性は心不整脈の臨床的解釈を禁止している。
得られたモデル出力とecgの対応するセグメントを関連付けるダイアリゼーションが必要である。
この目的のために、モデルに解釈可能性を提供する2つの方法が提案されている。
第1の方法は,cnnモデルの塩分を可視化するための勾配重み付けクラスアクティベーションマップ(grad-cam)の新規適用である。
第2のアプローチでは、LSTMモデルの入力削除マスクを学習することで、サリエンシを導出する。
視覚化は、ベースラインとの比較によって能力が確立されたモデル上で提供される。
モデルサリエンシーの結果は、モデル予測能力の洞察を与えるだけでなく、心不整脈の分類のための医学文献とも一致している。 Cardiac arrhythmia is a prevalent and significant cause of morbidity and mortality among cardiac ailments. Early diagnosis is crucial in providing intervention for patients suffering from cardiac arrhythmia. Traditionally, diagnosis is performed by examination of the Electrocardiogram (ECG) by a cardiologist. This method of diagnosis is hampered by the lack of accessibility to expert cardiologists. For quite some time, signal processing methods had been used to automate arrhythmia diagnosis. However, these traditional methods require expert knowledge and are unable to model a wide range of arrhythmia. Recently, Deep Learning methods have provided solutions to performing arrhythmia diagnosis at scale. However, the black-box nature of these models prohibit clinical interpretation of cardiac arrhythmia. There is a dire need to correlate the obtained model outputs to the corresponding segments of the ECG. To this end, two methods are proposed to provide interpretability to the models. The first method is a novel application of Gradient-weighted Class Activation Map (Grad-CAM) for visualizing the saliency of the CNN model. In the second approach, saliency is derived by learning the input deletion mask for the LSTM model. The visualizations are provided on a model whose competence is established by comparisons against baselines. The results of model saliency not only provide insight into the prediction capability of the model but also aligns with the medical literature for the classification of cardiac arrhythmia. | 翻訳日:2022-12-14 13:08:05 公開日:2020-04-11 |
# フェデレーション学習型無線ネットワークにおける光波パワー転送 Lightwave Power Transfer for Federated Learning-based Wireless Networks ( http://arxiv.org/abs/2005.03977v1 ) ライセンス: Link先を確認 | Ha-Vu Tran, Georges Kaddoum, Hany Elgala, Chadi Abou-Rjeily and Hemani Kaushal | (参考訳) フェデレートラーニング(FL)は、データプライバシを尊重しながら、分散方法で共有機械学習モデルをトレーニングするための新しいテクニックとして、最近発表された。
しかし、無線ネットワークにおけるFLの実装は、共有学習モデルの構築に関わるため、エネルギー制約のあるモバイルデバイスの寿命を大幅に短縮する可能性がある。
この問題に対処するために,flベースの無線ネットワークにおける光波パワー転送の応用と,ネットワークの電力効率管理のための資源割当方式に基づく物理層における新しい手法を提案する。
したがって、対応する最適化問題を定式化し、最適解を得る方法を提案する。
計算結果から,提案手法はモバイル機器に十分な電力を供給でき,自電池の電力を使わずにflタスクを実行できることがわかった。
そこで,提案手法は,モバイル機器のエネルギー制限問題を克服するために,flベースの無線ネットワークをサポートすることができる。 Federated Learning (FL) has been recently presented as a new technique for training shared machine learning models in a distributed manner while respecting data privacy. However, implementing FL in wireless networks may significantly reduce the lifetime of energy-constrained mobile devices due to their involvement in the construction of the shared learning models. To handle this issue, we propose a novel approach at the physical layer based on the application of lightwave power transfer in the FL-based wireless network and a resource allocation scheme to manage the network's power efficiency. Hence, we formulate the corresponding optimization problem and then propose a method to obtain the optimal solution. Numerical results reveal that, the proposed scheme can provide sufficient energy to a mobile device for performing FL tasks without using any power from its own battery. Hence, the proposed approach can support the FL-based wireless network to overcome the issue of limited energy in mobile devices. | 翻訳日:2022-12-14 13:07:21 公開日:2020-04-11 |
# 機械学習モデルを用いた一部自由国におけるインターネットと民主主義の関係 Explaining the Relationship between Internet and Democracy in Partly Free Countries Using Machine Learning Models ( http://arxiv.org/abs/2004.05285v1 ) ライセンス: Link先を確認 | Mustafa Sagir and Said Varlioglu | (参考訳) これまでの研究では、民主主義とインターネットの関係について様々な説明がなされている。
しかし、これらの研究のほとんどは地域、特定の州、権威主義的な体制に集中している。
自由下院が定義する一部自由国におけるインターネットの影響についての研究は行われていない。
さらに、オンライン検閲が民主主義の発展、停滞、衰退に与える影響についてはほとんど知られていない。
本研究は,国際電気通信連合,自由ハウス,世界銀行のデータベースを活用し,機械学習手法を用いて,一部自由国におけるインターネットが民主化に与える影響について新たな光を当てた。
この結果は、インターネットの浸透とオンライン検閲の両方が民主主義のスコアに悪影響を及ぼし、インターネットが民主主義のスコアに悪影響を及ぼすことを示している。
さらに、無作為林の結果は、オンライン検閲が最も重要であり、その後、ガバナンス指標と民主主義スコアに関する教育が続くことを示唆している。
様々な機械学習モデルを比較すると、最良の予測モデルは92%の精度を持つ175木ランダムフォレストモデルであることが分かる。
また, この研究は, 「IT専門家」が, 技術分野だけでなく, 社会においても, 民主化や社会科学にいかに近づいたかという点においても, 重要な役割を担っている可能性がある。 Previous studies have offered a variety of explanations on the relationship between democracy and the internet. However, most of these studies concentrate on regions, specific states or authoritarian regimes. No study has investigated the influence of the internet in partly free countries defined by the Freedom House. Moreover, very little is known about the effects of online censorship on the development, stagnation, or decline of democracy. Drawing upon the International Telecommunication Union, Freedom House, and World Bank databases and using machine learning methods, this study sheds new light on the effects of the internet on democratization in partly free countries. The findings suggest that internet penetration and online censorship both have a negative impact on democracy scores and the internet's effect on democracy scores is conditioned by online censorship. Moreover, results from random forest suggest that online censorship is the most important variable followed by governance index and education on democracy scores. The comparison of the various machine learning models reveals that the best predicting model is the 175-tree random forest model which has 92% accuracy. Also, this study might help "IT professionals" to see their important role not only in the technical fields but also in society in terms of democratization and how close IT is to social sciences. | 翻訳日:2022-12-14 13:07:07 公開日:2020-04-11 |
# 有限ブロック長MLCフラッシュメモリにおけるDNN支援リード電圧閾値最適化 DNN-aided Read-voltage Threshold Optimization for MLC Flash Memory with Finite Block Length ( http://arxiv.org/abs/2004.05340v1 ) ライセンス: Link先を確認 | Cheng Wang, Kang Wei, Lingjun Kong, Long Shi, Zhen Mei, Jun Li, and Kui Cai | (参考訳) マルチレベルセル(MLC)NANDフラッシュメモリの誤り訂正性能は、リード電圧閾値の誤り訂正符号(ECC)のブロック長とログライクリフ比(LLR)と密接に関連している。
本稿では, MLCフラッシュメモリのリード電圧閾値を最適化し, 有限ブロック長ECCの復号性能を向上させる。
まず、チャネル符号化率(CCR)と有限ブロック長での復号誤差確率の分析により、リード電圧閾値の最適化問題を定式化し、最大復号誤差確率を最小化する。
第2に,フラッシュメモリチャネルの完全知識の下での可読電圧閾値を最適化するクロスイテレーティブサーチ(cis)アルゴリズムを開発した。
しかし、データ保持時間(drt)は実際にフラッシュメモリに記録することが困難であるため、データ保持ノイズ(drn)の影響下での電圧分布を解析的に特徴付けることは困難である。
この問題に対処するため, 深層ニューラルネットワーク(DNN)による読み出し電圧閾値の最適化手法を開発し, 電圧分布と読み出し電圧閾値の関係を学習するために, 多層認識(MLP)ネットワークを用いる。
シミュレーションの結果,提案したLDPC符号を用いたDNN支援型リード電圧しきい値最適化手法は,プログラム・アンド・エアース(PE)の耐久性を向上するだけでなく,読み出し遅延を低減できることがわかった。 The error correcting performance of multi-level-cell (MLC) NAND flash memory is closely related to the block length of error correcting codes (ECCs) and log-likelihood-ratios (LLRs) of the read-voltage thresholds. Driven by this issue, this paper optimizes the read-voltage thresholds for MLC flash memory to improve the decoding performance of ECCs with finite block length. First, through the analysis of channel coding rate (CCR) and decoding error probability under finite block length, we formulate the optimization problem of read-voltage thresholds to minimize the maximum decoding error probability. Second, we develop a cross iterative search (CIS) algorithm to optimize read-voltage thresholds under the perfect knowledge of flash memory channel. However, it is challenging to analytically characterize the voltage distribution under the effect of data retention noise (DRN), since the data retention time (DRT) is hard to be recorded for flash memory in reality. To address this problem, we develop a deep neural network (DNN) aided optimization strategy to optimize the read-voltage thresholds, where a multi-layer perception (MLP) network is employed to learn the relationship between voltage distribution and read-voltage thresholds. Simulation results show that, compared with the existing schemes, the proposed DNN-aided read-voltage threshold optimization strategy with a well-designed LDPC code can not only improve the program-and-erase (PE) endurance but also reduce the read latency. | 翻訳日:2022-12-14 13:06:47 公開日:2020-04-11 |
# FDA: セマンティックセグメンテーションのためのフーリエドメイン適応 FDA: Fourier Domain Adaptation for Semantic Segmentation ( http://arxiv.org/abs/2004.05498v1 ) ライセンス: Link先を確認 | Yanchao Yang and Stefano Soatto | (参考訳) 本稿では,低周波スペクトルを他方と入れ替えることで,ソース分布とターゲット分布との差を低減させる,教師なし領域適応のための簡易な手法について述べる。
本手法は意味的セグメンテーションにおいて,ある領域(合成データ)において高密度な注釈付き画像が不快であるが,別の領域(実画像)では取得が困難であることを示す。
現在の最先端の手法は複雑であり、離散領域選択変数に不変なニューラルネットワークのバックボーンをレンダリングするために逆最適化を必要とするものもある。
我々の手法は、単純なフーリエ変換とその逆のドメインアライメントを実行するためのトレーニングを必要としない。
その単純さにもかかわらず、比較的標準的なセマンティックセグメンテーションモデルに統合されると、現在のベンチマークで最先端のパフォーマンスを達成する。
以上の結果から,単純な手続きであっても,より洗練された手法が学習に苦しむデータの迷惑変動を回避できることが示唆された。 We describe a simple method for unsupervised domain adaptation, whereby the discrepancy between the source and target distributions is reduced by swapping the low-frequency spectrum of one with the other. We illustrate the method in semantic segmentation, where densely annotated images are aplenty in one domain (synthetic data), but difficult to obtain in another (real images). Current state-of-the-art methods are complex, some requiring adversarial optimization to render the backbone of a neural network invariant to the discrete domain selection variable. Our method does not require any training to perform the domain alignment, just a simple Fourier Transform and its inverse. Despite its simplicity, it achieves state-of-the-art performance in the current benchmarks, when integrated into a relatively standard semantic segmentation model. Our results indicate that even simple procedures can discount nuisance variability in the data that more sophisticated methods struggle to learn away. | 翻訳日:2022-12-14 13:00:50 公開日:2020-04-11 |
# 統合型agiに最適なプログラミング言語は何か? What Kind of Programming Language Best Suits Integrative AGI? ( http://arxiv.org/abs/2004.05267v1 ) ライセンス: Link先を確認 | Ben Goertzel | (参考訳) AGIへの統合的でマルチパラダイム、マルチソフトウェアシステムアプローチのニーズを満たすために、どのようなプログラミング言語が最適だろうか?
この疑問は、OpenCog AGI設計("Atomese 2.0")の重要なコンポーネントを形成する、よりスケーラブルで使いやすくなった"Atomese"プログラミング言語をどのように作るかという、より具体的な疑問を探求することによって解決される。
Atomese 2.0の中核は、メタグラフを書き換えるためのルールを書き換えるための非常に柔軟なフレームワークであるべきだと仮に提案されている(ルール自体が同じメタグラフ内で表現され、ルール解釈プロセスで作成、使用される中間データの一部は、同じメタグラフで表現される可能性がある)。
このフレームワークは、さまざまな不確実性-定量化のラベル付けされたルールと、さまざまな型システムに関連するさまざまなタイプのラベル付けに従って、メタグラフの同時書き換えをサポートする必要がある。
段階的型付けアプローチは、様々な型システムに関連するルールと他のメタグラフノード/リンクと、いかなる型システムとも関係のない非型付きメタグラフノード/リンクの混合を可能にするために使われるべきである。
これは、大きなメタグラフの特定のサブグラフ(変数を表すノードとのマッチングや全サブグラフとのマッチングなど、多種多様なクエリを含む)の静的パターンマッチングクエリを評価するために、処理時間の大部分を占める場合において、並列処理と分散処理のコンテキストを含む合理的な効率性とスケーラビリティを実現する方法で実行されなければならない。 What kind of programming language would be most appropriate to serve the needs of integrative, multi-paradigm, multi-software-system approaches to AGI? This question is broached via exploring the more particular question of how to create a more scalable and usable version of the "Atomese" programming language that forms a key component of the OpenCog AGI design (an "Atomese 2.0") . It is tentatively proposed that the core of Atomese 2.0 should be a very flexible framework of rewriting rules for rewriting a metagraph (where the rules themselves are represented within the same metagraph, and some of the intermediate data created and used during the rule-interpretation process may be represented in the same metagraph). This framework should support concurrent rewriting of the metagraph according to rules that are labeled with various sorts of uncertainty-quantifications, and that are labeled with various sorts of types associated with various type systems. A gradual typing approach should be used to enable mixture of rules and other metagraph nodes/links associated with various type systems, and untyped metagraph nodes/links not associated with any type system. This must be done in a way that allows reasonable efficiency and scalability, including in concurrent and distributed processing contexts, in the case where a large percentage of of processing time is occupied with evaluating static pattern-matching queries on specific subgraphs of a large metagraph (including a rich variety of queries such as matches against nodes representing variables, and matches against whole subgraphs, etc.). | 翻訳日:2022-12-14 13:00:08 公開日:2020-04-11 |
# ロボットの自己/他区別:ミラーで学習するニューラルネットワークのアクティブ推論 Robot self/other distinction: active inference meets neural networks learning in a mirror ( http://arxiv.org/abs/2004.05473v1 ) ライセンス: Link先を確認 | Pablo Lanillos and Jordi Pages and Gordon Cheng | (参考訳) 自己/他的区別と自己認識は、人間が他人と自分の行動を区別し、自己認識できるため、世界と対話するための重要なスキルである。
しかし、自己認識能力を評価するために提案された行動実験であるミラーテストに合格したのは、ヒトなどの高次哺乳類を主とする動物群のみである。
本稿では,自己認識を,身体知覚の無意識のメカニズムの上に構築するプロセスとして記述する。
我々は,ロボットが鏡上で非見かけの自己認識を実行し,その単純な動作を他の物体と区別することを可能にするアルゴリズムを提案する。
このアルゴリズムは、脳における知覚と行動の理論モデルであるアクティブ推論とニューラルネットワーク学習を組み合わせる。
ロボットは、その行動と身体との関係を、視覚と身体センサーで生成された効果で学習する。
相互作用中のモデルと実際の観測の間に発生する予測誤差は、自由エネルギーの最小化によって体の構成を推測し、その身体を認識する証拠を蓄積するために用いられる。
ヒューマノイドロボットの実験結果は、鏡認識、ロボットとロボットの区別、人間とロボットの区別など、初期条件の異なるアルゴリズムの信頼性を示している。 Self/other distinction and self-recognition are important skills for interacting with the world, as it allows humans to differentiate own actions from others and be self-aware. However, only a selected group of animals, mainly high order mammals such as humans, has passed the mirror test, a behavioural experiment proposed to assess self-recognition abilities. In this paper, we describe self-recognition as a process that is built on top of body perception unconscious mechanisms. We present an algorithm that enables a robot to perform non-appearance self-recognition on a mirror and distinguish its simple actions from other entities, by answering the following question: am I generating these sensations? The algorithm combines active inference, a theoretical model of perception and action in the brain, with neural network learning. The robot learns the relation between its actions and its body with the effect produced in the visual field and its body sensors. The prediction error generated between the models and the real observations during the interaction is used to infer the body configuration through free energy minimization and to accumulate evidence for recognizing its body. Experimental results on a humanoid robot show the reliability of the algorithm for different initial conditions, such as mirror recognition in any perspective, robot-robot distinction and human-robot differentiation. | 翻訳日:2022-12-14 12:59:37 公開日:2020-04-11 |
# 四面体を用いたオブジェクト指向SLAMと室内環境の対称性 Object-oriented SLAM using Quadrics and Symmetry Properties for Indoor Environments ( http://arxiv.org/abs/2004.05303v1 ) ライセンス: Link先を確認 | Ziwei Liao, Wei Wang, Xianyu Qi, Xiaoyu Zhang, Lin Xue, Jianzhen Jiao and Ran Wei | (参考訳) 本稿では,屋内移動ロボットのアプリケーション環境に着目し,rgb-dカメラを用いたオブジェクトレベルslamアルゴリズムを提案する。
二次表現は、その位置、向き、占有空間を含むオブジェクトをコンパクトにモデル化するランドマークとして用いられる。
最先端の2乗法に基づくSLAMアルゴリズムは,移動ロボットの平面軌道下での視野制限による可観測性問題に直面する。
この問題を解決するために,提案アルゴリズムはオブジェクト検出と点雲データの両方を融合して2次パラメータを推定する。
RGB-Dデータの単一のフレームに基づいて二次初期化を完了し、視点変化の要求を大幅に低減する。
対象物は局所的によく観察されるため、提案アルゴリズムは室内の人工物体の対称特性を用いて、隠蔽された部品を推定し、より正確な二次パラメータを求める。
実験の結果,特に移動ロボットの前方軌道における最先端のアルゴリズムと比較して,提案アルゴリズムは2次再構成の精度と収束速度を大幅に向上させることがわかった。
最後に、実験を再現するオープンソース実装を公開しました。 Aiming at the application environment of indoor mobile robots, this paper proposes a sparse object-level SLAM algorithm based on an RGB-D camera. A quadric representation is used as a landmark to compactly model objects, including their position, orientation, and occupied space. The state-of-art quadric-based SLAM algorithm faces the observability problem caused by the limited perspective under the plane trajectory of the mobile robot. To solve the problem, the proposed algorithm fuses both object detection and point cloud data to estimate the quadric parameters. It finishes the quadric initialization based on a single frame of RGB-D data, which significantly reduces the requirements for perspective changes. As objects are often observed locally, the proposed algorithm uses the symmetrical properties of indoor artificial objects to estimate the occluded parts to obtain more accurate quadric parameters. Experiments have shown that compared with the state-of-art algorithm, especially on the forward trajectory of mobile robots, the proposed algorithm significantly improves the accuracy and convergence speed of quadric reconstruction. Finally, we made available an opensource implementation to replicate the experiments. | 翻訳日:2022-12-14 12:58:59 公開日:2020-04-11 |
# アダプティブ・モーション・デブロアリングのための空間認識型パッチ階層ネットワーク Spatially-Attentive Patch-Hierarchical Network for Adaptive Motion Deblurring ( http://arxiv.org/abs/2004.05343v1 ) ライセンス: Link先を確認 | Maitreya Suin, Kuldeep Purohit, A. N. Rajagopalan | (参考訳) 本稿では,動的シーンの動作不良問題に対処する。
エンド・ツー・エンドの完全な畳み込み設計は、最近、非一様動作の非一様化の最先端に進んでいるが、その性能・複雑さのトレードオフは依然として準最適である。
既存のアプローチでは、ジェネリック畳み込み層とカーネルサイズの増加によって大きな受容フィールドを実現しているが、これはモデルサイズと推論速度の増加を犠牲にしている。
本研究では,空間位置の異なる大きなぼやけた変化を処理し,各テスト画像を適応的に処理する,効率的な画素適応化および特徴注意設計を提案する。
また,グローバル依存だけでなく,隣接画素情報を動的に活用することにより,パフォーマンスを著しく向上させる効果的なコンテンツ対応グローバルローカルフィルタリングモジュールを提案する。
本稿では,入力画像に存在するぼやけの空間的変動を暗黙的に発見し,中間特徴の局所的および大域的変調を行う,上記のモジュールからなるパッチ階層型注意アーキテクチャを用いる。
デブロアリングベンチマークにおける先行技術との比較により、我々の設計は精度と速度において最先端技術よりも大幅に改善されていることを示す。 This paper tackles the problem of motion deblurring of dynamic scenes. Although end-to-end fully convolutional designs have recently advanced the state-of-the-art in non-uniform motion deblurring, their performance-complexity trade-off is still sub-optimal. Existing approaches achieve a large receptive field by increasing the number of generic convolution layers and kernel-size, but this comes at the expense of of the increase in model size and inference speed. In this work, we propose an efficient pixel adaptive and feature attentive design for handling large blur variations across different spatial locations and process each test image adaptively. We also propose an effective content-aware global-local filtering module that significantly improves performance by considering not only global dependencies but also by dynamically exploiting neighbouring pixel information. We use a patch-hierarchical attentive architecture composed of the above module that implicitly discovers the spatial variations in the blur present in the input image and in turn, performs local and global modulation of intermediate features. Extensive qualitative and quantitative comparisons with prior art on deblurring benchmarks demonstrate that our design offers significant improvements over the state-of-the-art in accuracy as well as speed. | 翻訳日:2022-12-14 12:58:25 公開日:2020-04-11 |
# 視覚知覚と画質計測におけるstemノイズの役割 The Role of Stem Noise in Visual Perception and Image Quality Measurement ( http://arxiv.org/abs/2004.05422v1 ) ライセンス: Link先を確認 | Arash Ashtari | (参考訳) 本稿では,歪み画像と雑音画像の基準自由品質評価について考察する。
具体的には、任意の画像から評価できるstemノイズの1次および2次統計を考察する。
画像品質評価(IQA)の研究分野において、幹雑音はオートレグレッシブ(AR)プロセスの入力として定義され、そこから低エネルギーで非相関な画像のバージョンを復元することができる。
画像再構成のためのモデルパラメータとして,ARモデルパラメータと関連する幹雑音エネルギーを推定するために,付随する自己相関関数(ACF)係数を扱えるようにYule-walker方程式を用いる。
系統的信号依存および信号独立歪みを特徴付けるため、画像上でのstemノイズの平均およびばらつきを評価することができる。
本論文は,画像品質の人的評価に関して,これらの統計値が予測的妥当性を有することを示す。
さらに,特定の画像歪みの条件下では,画像品質の確立した指標と非常に大きな相関関係を示す。 This paper considers reference free quality assessment of distorted and noisy images. Specifically, it considers the first and second order statistics of stem noise that can be evaluated given any image. In the research field of Image quality Assessment (IQA), the stem noise is defined as the input of an Auto Regressive (AR) process, from which a low-energy and de-correlated version of the image can be recovered. To estimate the AR model parameters and associated stem noise energy, the Yule-walker equations are used such that the accompanying Auto Correlation Function (ACF) coefficients can be treated as model parameters for image reconstruction. To characterize systematic signal dependent and signal independent distortions, the mean and variance of stem noise can be evaluated over the image. Crucially, this paper shows that these statistics have a predictive validity in relation to human ratings of image quality. Furthermore, under certain kinds of image distortion, stem noise statistics show very significant correlations with established measures of image quality. | 翻訳日:2022-12-14 12:58:03 公開日:2020-04-11 |
# 構造-テクスチャ再構成に基づく水中画像強調 Underwater Image Enhancement Based on Structure-Texture Reconstruction ( http://arxiv.org/abs/2004.05430v1 ) ライセンス: Link先を確認 | Sen Lin, Kaichen Chi | (参考訳) 水中画像の色歪み,ぼやけ,過大ノイズの問題に着目し,構造・テクスチャ再構成に基づく水中画像強調アルゴリズムを提案する。
Firstly, the color equalization of the degraded image is realized by the automatic color enhancement algorithm; Secondly, the relative total variation is introduced to decompose the image into the structure layer and texture layer; Then, the best background light point is selected based on brightness, gradient discrimination, and hue judgment, the transmittance of the backscatter component is obtained by the red dark channel prior, which is substituted into the imaging model to remove the fogging phenomenon in the structure layer.
マルチスケールディテールエンハンスメントアルゴリズムとバイナリマスクによるテクスチャ層の有効詳細化, 最後に, 構造層とテクスチャ層を再構築して最終画像を得る。
実験により, 水中画像の色調, 彩度, 明度を効果的にバランスさせ, 異なる水中環境下での良好な性能が得られた。 Aiming at the problems of color distortion, blur and excessive noise of underwater image, an underwater image enhancement algorithm based on structure-texture reconstruction is proposed. Firstly, the color equalization of the degraded image is realized by the automatic color enhancement algorithm; Secondly, the relative total variation is introduced to decompose the image into the structure layer and texture layer; Then, the best background light point is selected based on brightness, gradient discrimination, and hue judgment, the transmittance of the backscatter component is obtained by the red dark channel prior, which is substituted into the imaging model to remove the fogging phenomenon in the structure layer. Enhancement of effective details in the texture layer by multi scale detail enhancement algorithm and binary mask; Finally, the structure layer and texture layer are reconstructed to get the final image. The experimental results show that the algorithm can effectively balance the hue, saturation, and clarity of underwater image, and has good performance in different underwater environments. | 翻訳日:2022-12-14 12:57:46 公開日:2020-04-11 |
# 緩和されたカラムに対する2重最適不等式:車両経路への適用 Relaxed Dual Optimal Inequalities for Relaxed Columns: with Application to Vehicle Routing ( http://arxiv.org/abs/2004.05499v1 ) ライセンス: Link先を確認 | Naveed Haghani, Claudio Contardo, Julian Yarkony | (参考訳) 我々は,効率的な価格設定を実現するために,列の状態空間を緩和する集合被覆問題に対して,列生成を加速する問題に対処する。
我々は、最近導入された滑らかでフレキシブルな双対最適不等式(DOI)を緩和カラムで使用するために適用することで、これを実現する。
Smooth DOI は、類似の項目がほぼ面白く、従って同様の値を持つ双対変数に関連付けられなければならないという観察を生かしている。
フレキシブルDOIは、アイテムの除去によって引き起こされるカラムのコスト変化をバウンドすることができるという観察を利用する。
我々はこれらのDOIを、ng経路緩和の文脈で容量化車両ルーティングの問題に適用する。
ベンチマークデータセットの大幅な高速化を実証するが、緩和を弱めることはない。 We address the problem of accelerating column generation for set cover problems in which we relax the state space of the columns to do efficient pricing. We achieve this by adapting the recently introduced smooth and flexible dual optimal inequalities (DOI) for use with relaxed columns. Smooth DOI exploit the observation that similar items are nearly fungible, and hence should be associated with similarly valued dual variables. Flexible DOI exploit the observation that the change in cost of a column induced by removing an item can be bounded. We adapt these DOI to the problem of capacitated vehicle routing in the context of ng-route relaxations. We demonstrate significant speed ups on a benchmark data set, while provably not weakening the relaxation. | 翻訳日:2022-12-14 12:51:01 公開日:2020-04-11 |
# イベントベース視覚センサとスパイクニューラルネットワークを用いた六脚ロボットの歩行模倣 Bio-inspired Gait Imitation of Hexapod Robot Using Event-Based Vision Sensor and Spiking Neural Network ( http://arxiv.org/abs/2004.05450v1 ) ライセンス: Link先を確認 | Justin Ting, Yan Fang, Ashwin Sanjay Lele, Arijit Raychowdhury | (参考訳) 歩くことを学ぶことは、ほとんどの動物にとって高度な神経学的課題である。
歩くためには、脳は複数の皮質、神経回路、様々な感覚入力を合成しなければならない。
人間のような一部の動物は、周囲の個体を模倣して学習をスピードアップさせる。
人間が仲間を見るとき、視覚データは脳の視覚皮質を通して処理される。
この模倣に基づく学習の複雑な問題は、中央パターン生成(CPG)による視覚データと筋活動の関連を形作る。
この模倣現象を低電力で再現し、歩行を学んでいるエネルギーに制約されたロボットは、挑戦的かつ未熟なままである。
本稿では,歩行模倣問題に対処するために,ニューロモーフィックコンピューティングとイベントベースビジョンに基づくバイオインスパイアフィードフォワードアプローチを提案する。
提案手法は「頑丈な」六脚歩行を訓練し,「熟練した」六脚歩行を観察する。
学生は、1層スパイキングニューラルネットワーク(SNN)を用いてダイナミックビジョンセンサー(DVS)データのフローを処理する。
学生のSNNは10回の小さな収束時間内に専門家を模倣し、サブマイクロジュールレベルでエネルギー効率を示す。 Learning how to walk is a sophisticated neurological task for most animals. In order to walk, the brain must synthesize multiple cortices, neural circuits, and diverse sensory inputs. Some animals, like humans, imitate surrounding individuals to speed up their learning. When humans watch their peers, visual data is processed through a visual cortex in the brain. This complex problem of imitation-based learning forms associations between visual data and muscle actuation through Central Pattern Generation (CPG). Reproducing this imitation phenomenon on low power, energy-constrained robots that are learning to walk remains challenging and unexplored. We propose a bio-inspired feed-forward approach based on neuromorphic computing and event-based vision to address the gait imitation problem. The proposed method trains a "student" hexapod to walk by watching an "expert" hexapod moving its legs. The student processes the flow of Dynamic Vision Sensor (DVS) data with a one-layer Spiking Neural Network (SNN). The SNN of the student successfully imitates the expert within a small convergence time of ten iterations and exhibits energy efficiency at the sub-microjoule level. | 翻訳日:2022-12-14 12:50:46 公開日:2020-04-11 |
# 局所学習規則付きニューラルネットワークを用いたブラインド境界音源分離 Blind Bounded Source Separation Using Neural Networks with Local Learning Rules ( http://arxiv.org/abs/2004.05479v1 ) ライセンス: Link先を確認 | Alper T. Erdogan, Cengiz Pehlevan | (参考訳) 自然信号処理システムと工学信号処理システムの両方が直面する重要な問題はブラインドソース分離である。
問題の多くの例では、ソースはその性質によって境界付けられており、特定の境界が分かっていないとしてもそうであることが知られている。
それらの混合から有界なソースを分離するために、bsm(bounded similarity matching)という新しい最適化問題を提案する。
適応的BSMアルゴリズムの原理的導出は、クリッピング非線形性を持つリカレントニューラルネットワークにつながる。
ネットワークは局所学習規則に適応し、ニューロモルフィックハードウェアにおける生物学的妥当性と実装性の両方に重要な制約を満たす。 An important problem encountered by both natural and engineered signal processing systems is blind source separation. In many instances of the problem, the sources are bounded by their nature and known to be so, even though the particular bound may not be known. To separate such bounded sources from their mixtures, we propose a new optimization problem, Bounded Similarity Matching (BSM). A principled derivation of an adaptive BSM algorithm leads to a recurrent neural network with a clipping nonlinearity. The network adapts by local learning rules, satisfying an important constraint for both biological plausibility and implementability in neuromorphic hardware. | 翻訳日:2022-12-14 12:50:29 公開日:2020-04-11 |
# マルチビューマッチング(MVM):アクションFrozen People Videoを用いたマルチパーソン3次元視点推定学習の実現 Multi-View Matching (MVM): Facilitating Multi-Person 3D Pose Estimation Learning with Action-Frozen People Video ( http://arxiv.org/abs/2004.05275v1 ) ライセンス: Link先を確認 | Yeji Shen, C.-C. Jay Kuo | (参考訳) そこで本研究では,マルチパーソン3次元ポーズ推定の問題点を解決するために,マルチビューマッチング(MVM)手法を提案する。
MVM法は、大規模なビデオデータセットであるMannequinデータセットから信頼性の高い3D人間のポーズを生成する。
mvmが自動生成する3d監督によってラベル付けされた大量のインザワイルドビデオデータによって、複数の人物の3dポーズ推定の入力として単一の画像を取るニューラルネットワークを訓練することができる。
mvmのコア技術は、強い幾何学的制約を持つ静的シーンの複数のビューから得られる2dポーズの効果的なアライメントである。
本研究の目的は,複数フレームで推定される2次元ポーズの相互整合性を最大化し,幾何学的制約と外観的類似性を同時に考慮することである。
MVM法により提供される3次元監視の有効性を示すため、3DPWとMSCOCOデータセットの実験を行い、提案手法が最先端の性能を提供することを示す。 To tackle the challeging problem of multi-person 3D pose estimation from a single image, we propose a multi-view matching (MVM) method in this work. The MVM method generates reliable 3D human poses from a large-scale video dataset, called the Mannequin dataset, that contains action-frozen people immitating mannequins. With a large amount of in-the-wild video data labeled by 3D supervisions automatically generated by MVM, we are able to train a neural network that takes a single image as the input for multi-person 3D pose estimation. The core technology of MVM lies in effective alignment of 2D poses obtained from multiple views of a static scene that has a strong geometric constraint. Our objective is to maximize mutual consistency of 2D poses estimated in multiple frames, where geometric constraints as well as appearance similarities are taken into account simultaneously. To demonstrate the effectiveness of 3D supervisions provided by the MVM method, we conduct experiments on the 3DPW and the MSCOCO datasets and show that our proposed solution offers the state-of-the-art performance. | 翻訳日:2022-12-14 12:50:00 公開日:2020-04-11 |
# 量子化DNNから量子化可能DNNへ From Quantized DNNs to Quantizable DNNs ( http://arxiv.org/abs/2004.05284v1 ) ライセンス: Link先を確認 | Kunyuan Du, Ya Zhang, Haibing Guan | (参考訳) 本稿では,実行中のビット幅(その後「ビットモード」と表記される)を,さらなる再学習なしに柔軟に定量化できる特殊なDNNであるQuantizable DNNを提案する。
全ビットモードを同時に最適化するために、低ビットモードから32ビットモードまでの一貫した予測を強制する全ビットモードの組合せ損失を提案する。
この一貫性に基づく損失は、トレーニング中にある種の正規化と見なすこともできる。
異なるビットモードにおける行列乗算の出力は異なる分布を持つので、異なるビットモード間の競合を減らすために、Bit-Specific Batch Normalizationを導入する。
CIFAR100とImageNetの実験では、量子化されたDNNと比較して、Quantizable DNNはより優れた柔軟性を持つだけでなく、より高い分類精度を実現する。
アブレーション研究により、一貫性に基づく損失による正規化がモデルの一般化性能を実際に向上することを確認する。 This paper proposes Quantizable DNNs, a special type of DNNs that can flexibly quantize its bit-width (denoted as `bit modes' thereafter) during execution without further re-training. To simultaneously optimize for all bit modes, a combinational loss of all bit modes is proposed, which enforces consistent predictions ranging from low-bit mode to 32-bit mode. This Consistency-based Loss may also be viewed as certain form of regularization during training. Because outputs of matrix multiplication in different bit modes have different distributions, we introduce Bit-Specific Batch Normalization so as to reduce conflicts among different bit modes. Experiments on CIFAR100 and ImageNet have shown that compared to quantized DNNs, Quantizable DNNs not only have much better flexibility, but also achieve even higher classification accuracy. Ablation studies further verify that the regularization through the consistency-based loss indeed improves the model's generalization performance. | 翻訳日:2022-12-14 12:49:42 公開日:2020-04-11 |
# 道路標識セグメンテーションにおける断面積親和性蒸留 Inter-Region Affinity Distillation for Road Marking Segmentation ( http://arxiv.org/abs/2004.05304v1 ) ライセンス: Link先を確認 | Yuenan Hou, Zheng Ma, Chunxiao Liu, Tak-Wai Hui, Chen Change Loy | (参考訳) 道路標識セグメンテーションの課題として,大規模な深層教師ネットワークからより小さな学生ネットワークへ知識を蒸留する問題について検討する。
本研究では,教師から生徒モデルへ,より効果的に「知識」を現場構造に移せる新しい知識蒸留法(kd)について検討する。
本手法はInter-Region Affinity KD(IntRA-KD)として知られている。
与えられた道路シーン画像を異なる領域に分割し、グラフ内のノードとして各領域を表す。
次に、特徴分布の類似性に基づいて、ノード間の対関係を確立することにより、領域間の親和性グラフを形成する。
教師ネットワークから構造知識を学習するためには,教師が生成したグラフに合わせる必要がある。
提案手法は,ApolloScape,CULane,LLAMASの3つの大規模道路マーキングセグメンテーションベンチマークにおいて,学生として軽量モデルを,教師としてResNet-101を用いて有望な結果を示す。
IntRA-KDは、従来の蒸留法と比較して、すべての軽量モデルで一貫して高い性能向上をもたらす。
私たちのコードはhttps://github.com/cardwing/Codes-for-IntRA-KDで利用可能です。 We study the problem of distilling knowledge from a large deep teacher network to a much smaller student network for the task of road marking segmentation. In this work, we explore a novel knowledge distillation (KD) approach that can transfer 'knowledge' on scene structure more effectively from a teacher to a student model. Our method is known as Inter-Region Affinity KD (IntRA-KD). It decomposes a given road scene image into different regions and represents each region as a node in a graph. An inter-region affinity graph is then formed by establishing pairwise relationships between nodes based on their similarity in feature distribution. To learn structural knowledge from the teacher network, the student is required to match the graph generated by the teacher. The proposed method shows promising results on three large-scale road marking segmentation benchmarks, i.e., ApolloScape, CULane and LLAMAS, by taking various lightweight models as students and ResNet-101 as the teacher. IntRA-KD consistently brings higher performance gains on all lightweight models, compared to previous distillation methods. Our code is available at https://github.com/cardwing/Codes-for-IntRA-KD. | 翻訳日:2022-12-14 12:49:26 公開日:2020-04-11 |
# 画像中の個々の物体を操作する学習 Learning to Manipulate Individual Objects in an Image ( http://arxiv.org/abs/2004.05495v1 ) ライセンス: Link先を確認 | Yanchao Yang, Yutong Chen and Stefano Soatto | (参考訳) 本稿では,(ほぼ)独立かつ局所的な潜在因子を用いた生成モデルを訓練する方法について述べる。
これは、潜伏変数の摂動が、オブジェクトに対応する合成画像の局所領域のみに影響を与えることを意味する。
他の教師なし生成モデルとは異なり、オブジェクトレベルのアノテーションやそれに対するいかなるアノテーションも必要とせず、オブジェクト中心の操作を可能にする。
提案手法の鍵となるのは,コンテキスト情報分離損失によって強制される空間的ゆがみと,潜伏因子の摂動に応じて画像分割の変化をペナルティ化する損失によって強制される知覚的周期整合との組み合わせである。
既存のデータセットにおける空間的および意味的因子の独立制御を可能にする手法の能力をテストするとともに,現在の手法の限界を強調する2つの新しい手法を導入する。 We describe a method to train a generative model with latent factors that are (approximately) independent and localized. This means that perturbing the latent variables affects only local regions of the synthesized image, corresponding to objects. Unlike other unsupervised generative models, ours enables object-centric manipulation, without requiring object-level annotations, or any form of annotation for that matter. The key to our method is the combination of spatial disentanglement, enforced by a Contextual Information Separation loss, and perceptual cycle-consistency, enforced by a loss that penalizes changes in the image partition in response to perturbations of the latent factors. We test our method's ability to allow independent control of spatial and semantic factors of variability on existing datasets and also introduce two new ones that highlight the limitations of current methods. | 翻訳日:2022-12-14 12:48:55 公開日:2020-04-11 |
# 適応質問による判別学習 Discriminative Learning via Adaptive Questioning ( http://arxiv.org/abs/2004.05442v1 ) ライセンス: Link先を確認 | Achal Bassamboo, Vikas Deep, Sandeep Juneja and Assaf Zeevi | (参考訳) 本研究では,候補の能力を複数のカテゴリや判別格の1つに最適に分類する質問の適応列を設計する問題を考える。
候補の能力は未知のパラメータとしてモデル化され、質問の難しさとともにs/hが正しい答えをすることができる可能性を決定する。
学習アルゴリズムは、クエリに対するこれらの騒がしい応答のみを観察できる。
この問題は、固定された信頼ベースの$\delta$-correct frameworkから考えると、我々の設定では、エラーの確率が事前に特定され小さな$\delta$よりも低いことを保証しながら、可能な限り早く正しい能力判定に到達しようとしている。
この設定では、逐次質問戦略の下位境界を開発し、原始的および双対的定式化の両方から問題構造に関する幾何学的洞察を開発する。
さらに、これらの下限に本質的に一致するアルゴリズムにも到達します。
私たちの重要な結論は、漸近的に、どの候補者も最大で2つの(能力固有の候補)レベルの質問を受ける必要があるということですが、合理的な一般的な枠組みでは、質問は1つのレベルでのみ行う必要があります。
さらに、興味深いことに、問題構造は内在的な探索を促進するため、アルゴリズムで個別に設計された探索段階は不要である。 We consider the problem of designing an adaptive sequence of questions that optimally classify a candidate's ability into one of several categories or discriminative grades. A candidate's ability is modeled as an unknown parameter, which, together with the difficulty of the question asked, determines the likelihood with which s/he is able to answer a question correctly. The learning algorithm is only able to observe these noisy responses to its queries. We consider this problem from a fixed confidence-based $\delta$-correct framework, that in our setting seeks to arrive at the correct ability discrimination at the fastest possible rate while guaranteeing that the probability of error is less than a pre-specified and small $\delta$. In this setting we develop lower bounds on any sequential questioning strategy and develop geometrical insights into the problem structure both from primal and dual formulation. In addition, we arrive at algorithms that essentially match these lower bounds. Our key conclusions are that, asymptotically, any candidate needs to be asked questions at most at two (candidate ability-specific) levels, although, in a reasonably general framework, questions need to be asked only at a single level. Further, and interestingly, the problem structure facilitates endogenous exploration, so there is no need for a separately designed exploration stage in the algorithm. | 翻訳日:2022-12-14 12:42:42 公開日:2020-04-11 |
# KD-MRI:MRIワークフローにおける画像再構成と画像復元のための知識蒸留フレームワーク KD-MRI: A knowledge distillation framework for image reconstruction and image restoration in MRI workflow ( http://arxiv.org/abs/2004.05319v1 ) ライセンス: Link先を確認 | Balamurali Murugesan, Sricharan Vijayarangan, Kaushik Sarveswaran, Keerthi Ram and Mohanasankar Sivaprakasam | (参考訳) ディープラーニングネットワークはMRIワークフローのあらゆる段階で開発されており、最先端の結果を提供している。
しかし、これは計算要求とストレージの増加のコストがかかっている。
したがって、MRIワークフローの様々な段階でネットワークをコンパクトなモデルに置き換えることで、必要なストレージスペースを大幅に削減し、かなりのスピードアップを実現することができる。
コンピュータビジョンでは、知識蒸留はモデル圧縮の一般的な方法である。
本研究では,MRIワークフローにおける画像の問題点を画像化するための知識蒸留(KD)フレームワークを提案する。
注意に基づく特徴蒸留法と模倣損失の組み合わせを提案し,その効果を一般的なMRI再構成アーキテクチャであるDC-CNNで実証する。
Cardiac,Brain,KneeのMRIデータセットを4倍,5倍,8倍の加速度で実験した。
提案するkdフレームワークを用いて教師の助けを借りてトレーニングした学生ネットワークは,すべてのデータセットと加速度因子を介さずにトレーニングされた学生ネットワークを大きく改善した。
具体的には、膝のデータセットの場合、生徒ネットワークは、教師に比べてパラメータの削減が65\%、cpuの実行時間が2倍速く、gpuの実行時間が1.5倍速くなる。
さらに,注意に基づく特徴蒸留法と他の特徴蒸留法との比較を行った。
また,注意に基づく蒸留と模倣損失の意義を理解するために,アブレーション研究を行った。
また、MRIの超高分解能化のためのKDフレームワークを拡張し、励振効果を示す。 Deep learning networks are being developed in every stage of the MRI workflow and have provided state-of-the-art results. However, this has come at the cost of increased computation requirement and storage. Hence, replacing the networks with compact models at various stages in the MRI workflow can significantly reduce the required storage space and provide considerable speedup. In computer vision, knowledge distillation is a commonly used method for model compression. In our work, we propose a knowledge distillation (KD) framework for the image to image problems in the MRI workflow in order to develop compact, low-parameter models without a significant drop in performance. We propose a combination of the attention-based feature distillation method and imitation loss and demonstrate its effectiveness on the popular MRI reconstruction architecture, DC-CNN. We conduct extensive experiments using Cardiac, Brain, and Knee MRI datasets for 4x, 5x and 8x accelerations. We observed that the student network trained with the assistance of the teacher using our proposed KD framework provided significant improvement over the student network trained without assistance across all the datasets and acceleration factors. Specifically, for the Knee dataset, the student network achieves $65\%$ parameter reduction, 2x faster CPU running time, and 1.5x faster GPU running time compared to the teacher. Furthermore, we compare our attention-based feature distillation method with other feature distillation methods. We also conduct an ablative study to understand the significance of attention-based distillation and imitation loss. We also extend our KD framework for MRI super-resolution and show encouraging results. | 翻訳日:2022-12-14 12:41:52 公開日:2020-04-11 |
# 深層学習で胸部x線からcovid-19を披露:小さなデータでハードル競争 Unveiling COVID-19 from Chest X-ray with deep learning: a hurdles race with small data ( http://arxiv.org/abs/2004.05405v1 ) ライセンス: Link先を確認 | Enzo Tartaglione, Carlo Alberto Barbano, Claudio Berzovini, Marco Calandri and Marco Grangetto | (参考訳) 新型コロナウイルス患者の早期スクリーニングに広範かつ単純な胸部X線撮影(CXR)を使用することは、臨床とAIコミュニティの両方から大きな関心を集めている。
本研究では,CXR 画像の COVID 分類に深層学習を適用することで,期待すべきことに対する洞察と警告を提起する。
現在利用可能なデータセットを使用して得られる膨大な統計結果の方法論的ガイドと批判的読み出しを提供する。
特に、現在の小型のCOVIDデータによって引き起こされる課題を取り上げ、より大規模な公開のCXRデータセットを使用したトランスファーラーニングによってもたらされるバイアスがどれほど重要かを示す。
また、新型コロナウイルスのパンデミックのピーク時に、北イタリアで主要な救急病院の1つが収集した中規模のCXRデータセットにも、結果を提供しています。
これらの新しいデータにより,科学コミュニティに循環する予備的結果の一般化能力の検証に貢献できる。
我々の結論は、CXRを使って効果的にウイルスを識別する可能性に光を当てた。 The possibility to use widespread and simple chest X-ray (CXR) imaging for early screening of COVID-19 patients is attracting much interest from both the clinical and the AI community. In this study we provide insights and also raise warnings on what is reasonable to expect by applying deep-learning to COVID classification of CXR images. We provide a methodological guide and critical reading of an extensive set of statistical results that can be obtained using currently available datasets. In particular, we take the challenge posed by current small size COVID data and show how significant can be the bias introduced by transfer-learning using larger public non-COVID CXR datasets. We also contribute by providing results on a medium size COVID CXR dataset, just collected by one of the major emergency hospitals in Northern Italy during the peak of the COVID pandemic. These novel data allow us to contribute to validate the generalization capacity of preliminary results circulating in the scientific community. Our conclusions shed some light into the possibility to effectively discriminate COVID using CXR. | 翻訳日:2022-12-14 12:41:31 公開日:2020-04-11 |
# 人工知能を用いた胸部X線画像からのCovid-19の検出 Detection of Covid-19 From Chest X-ray Images Using Artificial Intelligence: An Early Review ( http://arxiv.org/abs/2004.05436v1 ) ライセンス: Link先を確認 | Muhammad Ilyas, Hina Rehman and Amine Nait-ali | (参考訳) 2019年、新型コロナウイルス(COVID-19)の影響で世界中が健康上の緊急事態に直面している。
米国、イタリア、中国、スペイン、イラン、フランスなど196か国がcovid-19に感染している。
医療・医療部門は新型コロナウイルス(covid-19)検出の遅れに直面している。
いくつかの人工知能ベースのシステムは、胸部X線を用いた新型コロナウイルスの自動検出のために設計されている。
本稿では、COVID-19の検出に使用するさまざまなアプローチと、直面している課題について論じる。
接触によるウイルスの移動を防止するため、自動検出システムの開発が義務付けられている。
resnet、inception、googlenetなど、covid-19の検出には、いくつかのディープラーニングアーキテクチャがデプロイされている。
これらのアプローチはすべて、肺炎に苦しむ患者を検知する一方で、肺炎が新型コロナウイルスによって引き起こされるか、他の細菌や真菌による攻撃によって引き起こされるかを決定することが難しい。 In 2019, the entire world is facing a situation of health emergency due to a newly emerged coronavirus (COVID-19). Almost 196 countries are affected by covid-19, while USA, Italy, China, Spain, Iran, and France have the maximum active cases of COVID-19. The issues, medical and healthcare departments are facing in delay of detecting the COVID-19. Several artificial intelligence based system are designed for the automatic detection of COVID-19 using chest x-rays. In this article we will discuss the different approaches used for the detection of COVID-19 and the challenges we are facing. It is mandatory to develop an automatic detection system to prevent the transfer of the virus through contact. Several deep learning architecture are deployed for the detection of COVID-19 such as ResNet, Inception, Googlenet etc. All these approaches are detecting the subjects suffering with pneumonia while its hard to decide whether the pneumonia is caused by COVID-19 or due to any other bacterial or fungal attack. | 翻訳日:2022-12-14 12:41:13 公開日:2020-04-11 |
# セメム知識を用いた中国語語彙融合認識の終末 End to End Chinese Lexical Fusion Recognition with Sememe Knowledge ( http://arxiv.org/abs/2004.05456v1 ) ライセンス: Link先を確認 | Yijiang Liu, Meishan Zhang, Donghong Ji | (参考訳) 本稿では,1種類のコア参照認識とみなせる新しい課題である,中国の語彙融合認識について述べる。
まず,コリファレンス認識と既存のタスクとの差異の関係を示すため,タスクを詳細に紹介する。
第2に,最先端のbert表現をエンコーダとして活用し,グラフアテンションネットワークによるhownetからのsememe知識によりさらに拡張したタスクのエンド・ツー・エンドのジョイントモデルを提案する。
タスクのベンチマークデータセットを手動でアノテートし、その上で実験を行います。
その結果,ジョイントモデルの有効性と課題に対する競争力が示された。
新しい課題と提案モデルを包括的に理解するための詳細な分析を行う。 In this paper, we present Chinese lexical fusion recognition, a new task which could be regarded as one kind of coreference recognition. First, we introduce the task in detail, showing the relationship with coreference recognition and differences from the existing tasks. Second, we propose an end-to-end joint model for the task, which exploits the state-of-the-art BERT representations as encoder, and is further enhanced with the sememe knowledge from HowNet by graph attention networks. We manually annotate a benchmark dataset for the task and then conduct experiments on it. Results demonstrate that our joint model is effective and competitive for the task. Detailed analysis is offered for comprehensively understanding the new task and our proposed model. | 翻訳日:2022-12-14 12:40:26 公開日:2020-04-11 |
# Combinatorial Decision Dags: 汎用インテリジェンスのための自然な計算モデル Combinatorial Decision Dags: A Natural Computational Model for General Intelligence ( http://arxiv.org/abs/2004.05268v1 ) ライセンス: Link先を確認 | Ben Goertzel | (参考訳) 合成論理を利用して高次決定木を生成する新しい計算モデル(CoDD)を提案する。
パターン認識とパターン形成の形式的理論の観点からの一般知能の理論的分析を概説し、パターンがCODD言語で表現される場合に特に自然な形態をとることを示した。
論理エントロピーとアルゴリズム情報,シャノンエントロピーと実行時複雑性の関係は,このアプローチによって解明されている。
量子コンピューティングのケースの拡張についても簡単に論じられる。 A novel computational model (CoDD) utilizing combinatory logic to create higher-order decision trees is presented. A theoretical analysis of general intelligence in terms of the formal theory of pattern recognition and pattern formation is outlined, and shown to take especially natural form in the case where patterns are expressed in CoDD language. Relationships between logical entropy and algorithmic information, and Shannon entropy and runtime complexity, are shown to be elucidated by this approach. Extension to the quantum computing case is also briefly discussed. | 翻訳日:2022-12-14 12:39:54 公開日:2020-04-11 |
# 生成型adversarial networkの自動エンコーディング Autoencoding Generative Adversarial Networks ( http://arxiv.org/abs/2004.05472v1 ) ライセンス: Link先を確認 | Conor Lazarou | (参考訳) GoodfellowらがGAN(Generative Adversarial Networks)を導入して以来、生成モデル応用の広さと品質が爆発的に上昇してきた。
この取り組みにもかかわらず、gansは、悪名高いトレーニング不安定さによって、主流になるまでにはまだ長い道のりがある。
本稿では,生成した画像と生成した潜伏ベクトルの両方に対して,対向損失と再構成損失を適用して,指定された潜伏空間と所定のサンプル空間との双対写像を学習する4つのネットワークモデルであるオートエンコード生成適応ネットワーク(AEGAN)を提案する。
AEGAN技術は、トレーニング安定化、モード崩壊防止、実際のサンプル間の直接補間など、一般的なGANトレーニングにいくつかの改善を提供する。
本手法の有効性をアニメ顔データセットを用いて示す。 In the years since Goodfellow et al. introduced Generative Adversarial Networks (GANs), there has been an explosion in the breadth and quality of generative model applications. Despite this work, GANs still have a long way to go before they see mainstream adoption, owing largely to their infamous training instability. Here I propose the Autoencoding Generative Adversarial Network (AEGAN), a four-network model which learns a bijective mapping between a specified latent space and a given sample space by applying an adversarial loss and a reconstruction loss to both the generated images and the generated latent vectors. The AEGAN technique offers several improvements to typical GAN training, including training stabilization, mode-collapse prevention, and permitting the direct interpolation between real samples. The effectiveness of the technique is illustrated using an anime face dataset. | 翻訳日:2022-12-14 10:18:22 公開日:2020-04-11 |
# オートエンコーダに基づくディープラーニングモデルによる時系列データのクラスタリング Clustering Time Series Data through Autoencoder-based Deep Learning Models ( http://arxiv.org/abs/2004.07296v1 ) ライセンス: Link先を確認 | Neda Tavakoli, Sima Siami-Namini, Mahdi Adl Khanghah, Fahimeh Mirza Soltani, Akbar Siami Namin | (参考訳) 機械学習と特にディープラーニングアルゴリズムは、データ分析の新たなアプローチだ。
これらの技術は、従来のデータマイニングに基づく分析を、既存のデータセットとクラスタラベル(トレインセット)を学習し、教師付き学習モデルを構築し、未知のデータ(テストセット)のクラスタラベルを予測する学習ベースモデルへと根本的に変えてきた。
特に、ディープラーニング技術は、与えられたデータセットに隠された特徴をキャプチャして学習し、クラスタリングとラベル付けの問題に対するより正確な予測モデルを構築することができる。
しかし、主要な問題は、時系列データがラベルされていないことが多いため、教師付き学習に基づくディープラーニングアルゴリズムは、これらの特別で複雑な種類のデータセットのクラスタリング問題を解決するために直接適用できない。
そこで本稿では,時系列データをクラスタリングする2段階手法を提案する。
まず,与えられた時系列データの特性(ボラティリティなど)を利用してラベルを作成し,教師なし学習から教師なし学習へ変換する手法を提案する。
第二に、自動エンコーダベースのディープラーニングモデルは、時系列データの既知の特徴と隠れた特徴の両方を学習しモデル化し、生成したラベルと合わせて、目に見えない時系列データのラベルを予測する。
本研究は,70株の株価指数の財務・株価時系列データを,導入された2段階の手続きを用いて異なるグループに集約したケーススタディである。
その結果,提案手法はクラスタリングにおいて87.5\%の精度を達成でき,時系列データのラベルを予測できることがわかった。 Machine learning and in particular deep learning algorithms are the emerging approaches to data analysis. These techniques have transformed traditional data mining-based analysis radically into a learning-based model in which existing data sets along with their cluster labels (i.e., train set) are learned to build a supervised learning model and predict the cluster labels of unseen data (i.e., test set). In particular, deep learning techniques are capable of capturing and learning hidden features in a given data sets and thus building a more accurate prediction model for clustering and labeling problem. However, the major problem is that time series data are often unlabeled and thus supervised learning-based deep learning algorithms cannot be directly adapted to solve the clustering problems for these special and complex types of data sets. To address this problem, this paper introduces a two-stage method for clustering time series data. First, a novel technique is introduced to utilize the characteristics (e.g., volatility) of given time series data in order to create labels and thus be able to transform the problem from unsupervised learning into supervised learning. Second, an autoencoder-based deep learning model is built to learn and model both known and hidden features of time series data along with their created labels to predict the labels of unseen time series data. The paper reports a case study in which financial and stock time series data of selected 70 stock indices are clustered into distinct groups using the introduced two-stage procedure. The results show that the proposed procedure is capable of achieving 87.5\% accuracy in clustering and predicting the labels for unseen time series data. | 翻訳日:2022-12-14 10:17:50 公開日:2020-04-11 |
# 多目的自己回帰予測符号化による音声表現の改善 Improved Speech Representations with Multi-Target Autoregressive Predictive Coding ( http://arxiv.org/abs/2004.05274v1 ) ライセンス: Link先を確認 | Yu-An Chung, James Glass | (参考訳) 予測符号化に基づく学習目標は最近、ラベルのない音声から有意義な表現を学ぶのに非常に効果的であることが示されている。
例えばAutoregressive Predictive Coding (Chung et al., 2019)では、自動回帰RNNをトレーニングして、最近のフレームのようなコンテキストが与えられない未来フレームを生成する。
これらの手法の基本的な仮説は、将来のフレームを正確に予測できる隠れ状態は多くの下流タスクに有用な表現であるということである。
本稿では,この仮説を拡張し,モデルを用いてより正確な予測を行うことにより,隠れた状態にエンコードされた情報を強化することを目的とする。
本稿では,将来のフレーム予測タスクの一般化を改善するための正規化としての補助目的を提案する。
音声分類,音声認識,音声翻訳に関する実験結果は,仮説を支持するだけでなく,よりリッチな音声コンテンツを含む学習表現における我々のアプローチの有効性を示す。 Training objectives based on predictive coding have recently been shown to be very effective at learning meaningful representations from unlabeled speech. One example is Autoregressive Predictive Coding (Chung et al., 2019), which trains an autoregressive RNN to generate an unseen future frame given a context such as recent past frames. The basic hypothesis of these approaches is that hidden states that can accurately predict future frames are a useful representation for many downstream tasks. In this paper we extend this hypothesis and aim to enrich the information encoded in the hidden states by training the model to make more accurate future predictions. We propose an auxiliary objective that serves as a regularization to improve generalization of the future frame prediction task. Experimental results on phonetic classification, speech recognition, and speech translation not only support the hypothesis, but also demonstrate the effectiveness of our approach in learning representations that contain richer phonetic content. | 翻訳日:2022-12-14 10:17:23 公開日:2020-04-11 |
# IoT(Internet of Things)のセキュリティのためのマシンラーニングベースのソリューションに関する調査 Machine Learning Based Solutions for Security of Internet of Things (IoT): A Survey ( http://arxiv.org/abs/2004.05289v1 ) ライセンス: Link先を確認 | Syeda Manjia Tahsien, Hadis Karimipour, Petros Spachos | (参考訳) 過去10年間で、IoTプラットフォームはグローバルな巨人へと発展し、その非可算なスマートサービスで人間の生活を前進させることで、私たちの日常生活のあらゆる側面をつかみ取ります。
スマートデバイスやネットワークのアクセシビリティと需要の急増により、IoTはこれまで以上にセキュリティ上の課題に直面している。
IoTを保護するために適用可能なセキュリティ対策は,すでに存在する。
しかし、伝統的な手法は、様々な攻撃タイプや厳しさと同様に、進歩ブームほど効率的ではない。
したがって、次世代IoTシステムには、強力な動的拡張と最新のセキュリティシステムが必要である。
機械学習(ML)では、IoTの現在および将来の課題に対処する多くの研究ウィンドウがオープンされている。
スマートデバイスやネットワークの攻撃を検出し、異常な動作を特定するため、MLはこの目的を達成するために強力な技術として活用されている。
この調査論文では、MLに関する包括的な文献レビューに続いて、IoTのアーキテクチャについて論じ、さまざまなタイプの攻撃の可能性の観点から、IoTのセキュリティの重要性にアプローチする。
さらに、IoTセキュリティのためのMLベースの潜在的なソリューションが紹介され、今後の課題が議論されている。 Over the last decade, IoT platforms have been developed into a global giant that grabs every aspect of our daily lives by advancing human life with its unaccountable smart services. Because of easy accessibility and fast-growing demand for smart devices and network, IoT is now facing more security challenges than ever before. There are existing security measures that can be applied to protect IoT. However, traditional techniques are not as efficient with the advancement booms as well as different attack types and their severeness. Thus, a strong-dynamically enhanced and up to date security system is required for next-generation IoT system. A huge technological advancement has been noticed in Machine Learning (ML) which has opened many possible research windows to address ongoing and future challenges in IoT. In order to detect attacks and identify abnormal behaviors of smart devices and networks, ML is being utilized as a powerful technology to fulfill this purpose. In this survey paper, the architecture of IoT is discussed, following a comprehensive literature review on ML approaches the importance of security of IoT in terms of different types of possible attacks. Moreover, ML-based potential solutions for IoT security has been presented and future challenges are discussed. | 翻訳日:2022-12-14 10:16:25 公開日:2020-04-11 |
# 混合多項ロジットモデルの大規模データセットへのベイズ推定のスケーリング Scaling Bayesian inference of mixed multinomial logit models to very large datasets ( http://arxiv.org/abs/2004.05426v1 ) ライセンス: Link先を確認 | Filipe Rodrigues | (参考訳) 変分推論法は, マルコフ連鎖モンテカルロ法 (MCMC) と比較して, 混合多重項ロジットモデルにおける近似ベイズ推論の計算効率が, 精度を損なうことなく向上することが示されている。
しかし、その効果が実証されたにもかかわらず、既存の手法は依然として非常に大きなデータセットにスケールできない重要な制限に悩まされ、一方で、豊富な事前分布と複雑な後続分布をキャプチャする柔軟性を提供する。
本稿では,多項混合ロジットモデルのベイズ推論を大規模データセットに効果的にスケーリングするために,確率的バックプロパゲーション,自動微分,gpu高速化計算を活用した不定形変分推論手法を提案する。
さらに, 変動後続近似の柔軟性を高めるために, 流れの正規化がいかに用いられるかを示す。
シミュレーション実験により,提案手法は推定精度を損なうことなく,従来のMSLEおよびMCMCによる大規模データセットに対する複数桁の計算高速化を実現することができることを示した。 Variational inference methods have been shown to lead to significant improvements in the computational efficiency of approximate Bayesian inference in mixed multinomial logit models when compared to standard Markov-chain Monte Carlo (MCMC) methods without compromising accuracy. However, despite their demonstrated efficiency gains, existing methods still suffer from important limitations that prevent them to scale to very large datasets, while providing the flexibility to allow for rich prior distributions and to capture complex posterior distributions. In this paper, we propose an Amortized Variational Inference approach that leverages stochastic backpropagation, automatic differentiation and GPU-accelerated computation, for effectively scaling Bayesian inference in Mixed Multinomial Logit models to very large datasets. Moreover, we show how normalizing flows can be used to increase the flexibility of the variational posterior approximations. Through an extensive simulation study, we empirically show that the proposed approach is able to achieve computational speedups of multiple orders of magnitude over traditional MSLE and MCMC approaches for large datasets without compromising estimation accuracy. | 翻訳日:2022-12-14 10:15:45 公開日:2020-04-11 |
# あなたは私を感動させる: 相互パーソナライズによる対話生成 You Impress Me: Dialogue Generation via Mutual Persona Perception ( http://arxiv.org/abs/2004.05388v1 ) ライセンス: Link先を確認 | Qian Liu, Yihong Chen, Bei Chen, Jian-Guang Lou, Zixuan Chen, Bin Zhou, Dongmei Zhang | (参考訳) チットチャット対話システムのエンゲージメントと一貫性の改善を継続する努力にもかかわらず、現在の作業の大部分は単に人間のような反応を模倣することに集中しており、対話者間の理解のモデリングの側面を軽視している。
認知科学の研究は、理解が高品質なチャット会話に不可欠なシグナルであることを示唆している。
そこで我々は,P^2 Botを提案する。このP^2 Botは送信者受信者に基づくフレームワークで,理解を明示的にモデル化することを目的としている。
具体的には、P^2ボットは対人認識を取り入れ、パーソナライズされた対話生成の質を高める。
大規模な公開データセットであるPersona-Chatの実験では、我々のアプローチの有効性が実証され、自動測定と人的評価の両方で最先端のベースラインを大幅に向上した。 Despite the continuing efforts to improve the engagingness and consistency of chit-chat dialogue systems, the majority of current work simply focus on mimicking human-like responses, leaving understudied the aspects of modeling understanding between interlocutors. The research in cognitive science, instead, suggests that understanding is an essential signal for a high-quality chit-chat conversation. Motivated by this, we propose P^2 Bot, a transmitter-receiver based framework with the aim of explicitly modeling understanding. Specifically, P^2 Bot incorporates mutual persona perception to enhance the quality of personalized dialogue generation. Experiments on a large public dataset, Persona-Chat, demonstrate the effectiveness of our approach, with a considerable boost over the state-of-the-art baselines across both automatic metrics and human evaluations. | 翻訳日:2022-12-14 10:10:02 公開日:2020-04-11 |
# LAReQA:多言語プールからの言語に依存しない回答検索 LAReQA: Language-agnostic answer retrieval from a multilingual pool ( http://arxiv.org/abs/2004.05484v1 ) ライセンス: Link先を確認 | Uma Roy, Noah Constant, Rami Al-Rfou, Aditya Barua, Aaron Phillips, Yinfei Yang | (参考訳) LAReQAは多言語候補プールから言語に依存しない回答を検索するための挑戦的な新しいベンチマークである。
従来の言語間タスクとは異なり、LAReQAは言語間アライメントの「強い」テストを行い、意味論的に関連付けられたクロスランゲージペアは非関連な同言語ペアよりも表現空間に近づく必要がある。
マルチリンガルBERT (mBERT) を基盤として, 強いアライメントを実現するための様々な戦略を検討した。
機械翻訳によるトレーニングデータの強化は効果的であり,mBERTのアウト・オブ・ザ・ボックスよりも大幅に改善されている。
興味深いことに、LAReQAで最善を尽くす埋め込みベースラインは、"弱"アライメントのみをターゲットとするタスクのゼロショット変種に対する競合ベースラインに欠ける。
この発見は言語に依存しない検索が言語間評価の実質的な新しい方法であるという我々の主張を裏付けるものである。 We present LAReQA, a challenging new benchmark for language-agnostic answer retrieval from a multilingual candidate pool. Unlike previous cross-lingual tasks, LAReQA tests for "strong" cross-lingual alignment, requiring semantically related cross-language pairs to be closer in representation space than unrelated same-language pairs. Building on multilingual BERT (mBERT), we study different strategies for achieving strong alignment. We find that augmenting training data via machine translation is effective, and improves significantly over using mBERT out-of-the-box. Interestingly, the embedding baseline that performs the best on LAReQA falls short of competing baselines on zero-shot variants of our task that only target "weak" alignment. This finding underscores our claim that languageagnostic retrieval is a substantively new kind of cross-lingual evaluation. | 翻訳日:2022-12-14 10:08:54 公開日:2020-04-11 |
# ivy:因果推論のためのインストゥルメンタル変数合成 Ivy: Instrumental Variable Synthesis for Causal Inference ( http://arxiv.org/abs/2004.05316v1 ) ライセンス: Link先を確認 | Zhaobin Kuang, Frederic Sala, Nimit Sohoni, Sen Wu, Aldo C\'ordova-Palomera, Jared Dunnmon, James Priest, Christopher R\'e | (参考訳) 観測データから y 上の変数 x の因果効果を推定する一般的な方法は、楽器変数 (IV) を使うことである。
z が x に関連づけられるほど、推定の信頼性は高まるが、そのような強い iv を見つけることは困難である。
代わりに、実践者はより一般的に利用可能なiv候補を-------必ずしも強く、あるいは有効なivs------を結合し、ivの代わりに因果効果推定器に差し込む単一の「要約」を挿入する。
遺伝疫学では、このようなアプローチはアリルスコアとして知られている。
alleleスコアは、信頼できる推定値のために、--iv候補の独立性と妥当性--強い仮定を必要とする。
これらの仮定を緩和するために、相関および無効なIV候補をロバストな方法で処理できる新しいIV候補の組み合わせであるIvyを提案する。
理論的には、このロバスト性、その限界、および結果の因果推定への影響を特徴づける。
経験上、ivyは既知の関係の方向性を正確に識別することができ、因果効果のない3つの実世界のデータセット上の偽発見(中間効果サイズ <= 0.025)に対して頑健であり、アリルスコアはより偏りのある推定値(中間効果サイズ >= 0.118)を返す。 A popular way to estimate the causal effect of a variable x on y from observational data is to use an instrumental variable (IV): a third variable z that affects y only through x. The more strongly z is associated with x, the more reliable the estimate is, but such strong IVs are difficult to find. Instead, practitioners combine more commonly available IV candidates---which are not necessarily strong, or even valid, IVs---into a single "summary" that is plugged into causal effect estimators in place of an IV. In genetic epidemiology, such approaches are known as allele scores. Allele scores require strong assumptions---independence and validity of all IV candidates---for the resulting estimate to be reliable. To relax these assumptions, we propose Ivy, a new method to combine IV candidates that can handle correlated and invalid IV candidates in a robust manner. Theoretically, we characterize this robustness, its limits, and its impact on the resulting causal estimates. Empirically, Ivy can correctly identify the directionality of known relationships and is robust against false discovery (median effect size <= 0.025) on three real-world datasets with no causal effects, while allele scores return more biased estimates (median effect size >= 0.118). | 翻訳日:2022-12-14 10:08:25 公開日:2020-04-11 |
# 奥行き離散表現学習 Depthwise Discrete Representation Learning ( http://arxiv.org/abs/2004.05462v1 ) ライセンス: Link先を確認 | Iordanis Fostiropoulos | (参考訳) 近年の離散表現の学習の進歩は, 言語, 音声, 視覚に関わる課題において, 芸術的成果の達成につながっている。
単語、音素、形状といったいくつかの潜在要因は連続ではなく離散的潜在変数で表される方がよい。
ベクトル量子化変分オートエンコーダ(VQVAE)は、複数の領域において顕著な結果をもたらす。
VQVAE は以前の分布 $z_e$ と、離散数の$K$ベクトルへの写像(ベクトル量子化)を学習する。
特徴軸に沿ってVQを適用することを提案する。
我々は、コードブックベクトルと以前の特徴空間の限界分布の間のマッピングを学習していると仮定する。
このアプローチは,先行する離散モデルと比較して33\%改善し,アート自己回帰モデル(例えばpixelsnail)の状況と類似した性能を示す。
我々は,このアプローチを人工玩具データセット(blobs)を用いて静的事前評価する。
CIFAR-10 と ImageNet のベンチマークに対するアプローチをさらに評価する。 Recent advancements in learning Discrete Representations as opposed to continuous ones have led to state of art results in tasks that involve Language, Audio and Vision. Some latent factors such as words, phonemes and shapes are better represented by discrete latent variables as opposed to continuous. Vector Quantized Variational Autoencoders (VQVAE) have produced remarkable results in multiple domains. VQVAE learns a prior distribution $z_e$ along with its mapping to a discrete number of $K$ vectors (Vector Quantization). We propose applying VQ along the feature axis. We hypothesize that by doing so, we are learning a mapping between the codebook vectors and the marginal distribution of the prior feature space. Our approach leads to 33\% improvement as compared to prevous discrete models and has similar performance to state of the art auto-regressive models (e.g. PixelSNAIL). We evaluate our approach on a static prior using an artificial toy dataset (blobs). We further evaluate our approach on benchmarks for CIFAR-10 and ImageNet. | 翻訳日:2022-12-14 10:07:22 公開日:2020-04-11 |
# DeepSentiPers: 強化されたペルシャ感覚コーパスでトレーニングされた新しいディープラーニングモデル DeepSentiPers: Novel Deep Learning Models Trained Over Proposed Augmented Persian Sentiment Corpus ( http://arxiv.org/abs/2004.05328v1 ) ライセンス: Link先を確認 | Javad PourMostafa Roshan Sharami, Parsa Abbasi Sarabestani, Seyed Abolghasem Mirroshandel | (参考訳) 本稿では,ペルシャ語文レベルでの意見の抽出方法に焦点をあてる。
ディープラーニングモデルは、アウトプットの品質を高める新しい方法を提供します。
しかし、これらのアーキテクチャは、正確な設計だけでなく、大きな注釈付きデータを供給する必要がある。
私たちの知る限りでは、私たちは、よく注釈されたペルシャ感情コーパスの欠如に苦しむだけでなく、複数と二分分類の両方の観点からペルシャの意見を分類する斬新なモデルも持っています。
そこで本研究ではまず,双方向LSTMとCNNを組み合わせた2つの新しいディープラーニングアーキテクチャを提案する。
これらは、正確に設計され、両方のケースで文章を分類できる深い階層の一部である。
次に,低リソースペルシャ感情コーパスのためのデータ拡張手法を3つ提案する。
3つのベースラインと2つの異なるニューラルワード埋め込み法を包括的に実験した結果,データ拡張法と目的モデルが研究の目的にうまく対処できることが判明した。 This paper focuses on how to extract opinions over each Persian sentence-level text. Deep learning models provided a new way to boost the quality of the output. However, these architectures need to feed on big annotated data as well as an accurate design. To best of our knowledge, we do not merely suffer from lack of well-annotated Persian sentiment corpus, but also a novel model to classify the Persian opinions in terms of both multiple and binary classification. So in this work, first we propose two novel deep learning architectures comprises of bidirectional LSTM and CNN. They are a part of a deep hierarchy designed precisely and also able to classify sentences in both cases. Second, we suggested three data augmentation techniques for the low-resources Persian sentiment corpus. Our comprehensive experiments on three baselines and two different neural word embedding methods show that our data augmentation methods and intended models successfully address the aims of the research. | 翻訳日:2022-12-14 10:00:43 公開日:2020-04-11 |
# マルチエージェント地雷検出プラットフォームにおける意思決定のための訓練データセットの評価 Training Data Set Assessment for Decision-Making in a Multiagent Landmine Detection Platform ( http://arxiv.org/abs/2004.05380v1 ) ライセンス: Link先を確認 | Johana Florez-Lozano, Fabio Caraffini, Carlos Parra and Mario Gongora | (参考訳) 地雷検出のような現実世界の問題は、意思決定の不確実性を減らすために複数の情報源を必要とする。
これらの問題を解決する新しいアプローチには、ハードウェアおよびソフトウェアマルチエージェントシステムに基づく分散システムが含まれる。
地雷検出の高速化を目的として,トレーニングセットと検証セット間のサンプル分布に対するトレーニングシステムの性能評価を行った。
さらに、即興爆発装置を検出するために開発された協調型多エージェントシステムによって収集されたサンプルを提示するデータセットの一般的な説明を提供する。
その結果、入力サンプルが出力判定の性能に影響を及ぼし、センサノイズに敏感な意思決定システムは、多種多様な組織化されたトレーニングセットから得られるインテリジェントなシステムで得られる。 Real-world problems such as landmine detection require multiple sources of information to reduce the uncertainty of decision-making. A novel approach to solve these problems includes distributed systems, as presented in this work based on hardware and software multi-agent systems. To achieve a high rate of landmine detection, we evaluate the performance of a trained system over the distribution of samples between training and validation sets. Additionally, a general explanation of the data set is provided, presenting the samples gathered by a cooperative multi-agent system developed for detecting improvised explosive devices. The results show that input samples affect the performance of the output decisions, and a decision-making system can be less sensitive to sensor noise with intelligent systems obtained from a diverse and suitably organised training set. | 翻訳日:2022-12-14 10:00:27 公開日:2020-04-11 |
# ヒトIQテストにおけるニューラルモデルの空間推論能力の探索 Exploring The Spatial Reasoning Ability of Neural Models in Human IQ Tests ( http://arxiv.org/abs/2004.05352v1 ) ライセンス: Link先を確認 | Hyunjae Kim, Yookyung Koh, Jinheon Baek, Jaewoo Kang | (参考訳) ニューラルモデルは画像認識や質問応答などの様々なタスクで顕著に機能しているが、その推論能力はわずかに研究されていない。
本研究では,空間的推論に着目し,ニューラルモデルの空間的理解を探究する。
まず, 回転と形状合成の2つの空間推論iqテストについて述べる。
明確に定義されたルールを用いて、さまざまな複雑さレベルからなるデータセットを構築しました。
一般化の観点から様々な実験を考案し,新たに生成されたデータセット上で6種類のベースラインモデルを評価した。
モデルの一般化能力に影響を与える結果と要因の分析を行う。
また、ニューラルモデルが視覚支援を用いて空間推論テストの解決方法も分析する。
私たちの発見は、機械の理解と機械と人間の違いに関する貴重な洞察を与えてくれるでしょう。 Although neural models have performed impressively well on various tasks such as image recognition and question answering, their reasoning ability has been measured in only few studies. In this work, we focus on spatial reasoning and explore the spatial understanding of neural models. First, we describe the following two spatial reasoning IQ tests: rotation and shape composition. Using well-defined rules, we constructed datasets that consist of various complexity levels. We designed a variety of experiments in terms of generalization, and evaluated six different baseline models on the newly generated datasets. We provide an analysis of the results and factors that affect the generalization abilities of models. Also, we analyze how neural models solve spatial reasoning tests with visual aids. Our findings would provide valuable insights into understanding a machine and the difference between a machine and human. | 翻訳日:2022-12-14 09:59:43 公開日:2020-04-11 |
# 屋内環境におけるベイズサプライズ Bayesian Surprise in Indoor Environments ( http://arxiv.org/abs/2004.05381v1 ) ライセンス: Link先を確認 | Sebastian Feld (1), Andreas Sedlmeier (1), Markus Friedrich (1), Jan Franz (1), Lenz Belzner (2) ((1) Mobile and Distributed Systems Group LMU Munich, (2) MaibornWolff Munich) | (参考訳) 本稿では,ベイズ・サプライズの概念を用いた2次元床計画における予期せぬ構造物の同定手法を提案する。
人の期待が空間の知覚の重要な側面であることを考慮すると、ベイズ・サプライズの理論を利用して期待を強固にモデル化し、構造構築の文脈で驚きを与える。
定性的対象属性を定量的な環境情報に変換するために,人気のある宇宙構文手法であるイゾビスト分析を用いた。
アイソビストは位置特異的な可視性パターンであるため、アイソビストの列は空間内の複数の点に沿った運動中の空間的知覚を記述する。
次に、これらのアイソビスト読解からなる特徴空間でベイズサプライズを用いる。
提案手法の適合性を実証するために,エージェントのローカル環境のスナップショットを用いて,2次元屋内環境における走行軌跡を特徴付ける画像の短いリストを提供する。
これらの指紋はツアーの驚くべき地域を表し、横断する地図を特徴づけ、屋内のLBSが重要な地域に集中できるようにする。
この考えを踏まえ、屋内位置情報サービス(LBS)における「サプライズ」を新たな文脈の次元として用いることを提案する。
モバイルロボットやコンピュータゲームにおける非プレイヤーキャラクタといったlbsエージェントは、コンテキストサプライズを使用して、より適切な使用やフロアプランの理解のために、マップの重要な領域に集中することができる。 This paper proposes a novel method to identify unexpected structures in 2D floor plans using the concept of Bayesian Surprise. Taking into account that a person's expectation is an important aspect of the perception of space, we exploit the theory of Bayesian Surprise to robustly model expectation and thus surprise in the context of building structures. We use Isovist Analysis, which is a popular space syntax technique, to turn qualitative object attributes into quantitative environmental information. Since isovists are location-specific patterns of visibility, a sequence of isovists describes the spatial perception during a movement along multiple points in space. We then use Bayesian Surprise in a feature space consisting of these isovist readings. To demonstrate the suitability of our approach, we take "snapshots" of an agent's local environment to provide a short list of images that characterize a traversed trajectory through a 2D indoor environment. Those fingerprints represent surprising regions of a tour, characterize the traversed map and enable indoor LBS to focus more on important regions. Given this idea, we propose to use "surprise" as a new dimension of context in indoor location-based services (LBS). Agents of LBS, such as mobile robots or non-player characters in computer games, may use the context surprise to focus more on important regions of a map for a better use or understanding of the floor plan. | 翻訳日:2022-12-14 09:59:17 公開日:2020-04-11 |
# 空間知覚のシーケンスを用いた軌道アノテーション Trajectory annotation using sequences of spatial perception ( http://arxiv.org/abs/2004.05383v1 ) ライセンス: Link先を確認 | Sebastian Feld (1), Steffen Illium (1), Andreas Sedlmeier (1), Lenz Belzner (2) ((1) Mobile and Distributed Systems Group LMU Munich, (2) MaibornWolff Munich) | (参考訳) 近い将来、より多くのマシンが人間の空間の近くでタスクを実行したり、空間的に拘束された活動で直接支援したりできるようになる。
言語コミュニケーションとロボットユニットと/または人間とのインタラクションを単純化するために、信頼できるロバストなシステム w.r.t. ノイズおよび処理結果が必要である。
この作業は、このタスクに対処するための基盤を構築します。
軌道データから学習した内部空間知覚の連続的表現を用いて、我々のアプローチクラスタは、その空間的文脈に依存する。
時空間軌跡データの意味的に意味のある連続的な符号化を学習するニューラルオートエンコーディングに基づく教師なし学習手法を提案する。
この学習された符号化は、原型表現を形成するために使用できる。
今後の応用への道を切り開く有望な結果を提示する。 In the near future, more and more machines will perform tasks in the vicinity of human spaces or support them directly in their spatially bound activities. In order to simplify the verbal communication and the interaction between robotic units and/or humans, reliable and robust systems w.r.t. noise and processing results are needed. This work builds a foundation to address this task. By using a continuous representation of spatial perception in interiors learned from trajectory data, our approach clusters movement in dependency to its spatial context. We propose an unsupervised learning approach based on a neural autoencoding that learns semantically meaningful continuous encodings of spatio-temporal trajectory data. This learned encoding can be used to form prototypical representations. We present promising results that clear the path for future applications. | 翻訳日:2022-12-14 09:58:55 公開日:2020-04-11 |
# ロバスト一般化二次判別分析 Robust Generalised Quadratic Discriminant Analysis ( http://arxiv.org/abs/2004.06568v1 ) ライセンス: Link先を確認 | Abhik Ghosh, Rita SahaRay, Sayan Chakrabarty, Sayan Bhadra | (参考訳) 二次判別分析(QDA)は多変量正常集団の観察を分類するために広く用いられている統計手法である。
qdaと最小マハラノビス距離(mmd)の分類器を一般化した一般化された二次判別分析(gqda)分類規則/分類器は、下位の楕円対称分布を持つ集団を判別するものであり、qda分類器が最適であればqda分類器と非常に有利に競合し、qdaが非正規基底分布(例えばコーシー分布)下で故障した場合に非常に優れた性能を発揮する。
しかし, GQDAにおける分類規則は, サンプル平均ベクトルとトレーニング試料の試料分散行列に基づいており, データの汚染下では極めて非腐食である。
実世界では、異常値に対して非常に脆弱なデータに直面することは極めて一般的であるため、平均ベクトルと分散行列の古典的推定器のロバスト性の欠如は、gqda分類器の効率を大幅に低下させ、誤分類誤差を増大させる。
本稿では, GQDA分類器の性能について, 平均ベクトルとそれを用いた分散行列の古典的推定器を, 様々な頑健な推定器に置き換えた際の検討を行った。
様々な実データやシミュレーション研究への応用は,提案したGQDA分類器の頑健なバージョンよりもはるかに優れた性能を示す。
データセットの汚染度合いの特定の状況で使用するロバストな推定器の適切な選択を主張するために、比較研究がなされている。 Quadratic discriminant analysis (QDA) is a widely used statistical tool to classify observations from different multivariate Normal populations. The generalized quadratic discriminant analysis (GQDA) classification rule/classifier, which generalizes the QDA and the minimum Mahalanobis distance (MMD) classifiers to discriminate between populations with underlying elliptically symmetric distributions competes quite favorably with the QDA classifier when it is optimal and performs much better when QDA fails under non-Normal underlying distributions, e.g. Cauchy distribution. However, the classification rule in GQDA is based on the sample mean vector and the sample dispersion matrix of a training sample, which are extremely non-robust under data contamination. In real world, since it is quite common to face data highly vulnerable to outliers, the lack of robustness of the classical estimators of the mean vector and the dispersion matrix reduces the efficiency of the GQDA classifier significantly, increasing the misclassification errors. The present paper investigates the performance of the GQDA classifier when the classical estimators of the mean vector and the dispersion matrix used therein are replaced by various robust counterparts. Applications to various real data sets as well as simulation studies reveal far better performance of the proposed robust versions of the GQDA classifier. A Comparative study has been made to advocate the appropriate choice of the robust estimators to be used in a specific situation of the degree of contamination of the data sets. | 翻訳日:2022-12-14 09:58:20 公開日:2020-04-11 |
# 重み付きオートマタの最大化問題に対する遺伝的アルゴリズム Genetic Algorithm for the Weight Maximization Problem on Weighted Automata ( http://arxiv.org/abs/2004.06581v1 ) ライセンス: Link先を確認 | Elena Guti\'errez, Takamasa Okudono, Masaki Waga, Ichiro Hasuo | (参考訳) 重み最大化問題 (WMP) は、重み付き有限状態オートマトン (WFA) 上での最高重みの単語を求める問題である。
オートマトン理論における多くの最適化問題に現れる重要な問題である。
残念なことに、一般的な問題は決定不能であることが示されるが、その有界決定版はNP完全である。
wmpに対する近似解を合理的な時間に生成する効率的なアルゴリズムを設計することは、wfaとして抽象化されたシステムの形式的検証を含む、いくつかの新しい応用につながる魅力的な研究方向である。
特に、リカレントニューラルネットワークを重み付きオートマトンに変換する最近の手順と組み合わせて、wmpのアルゴリズムを使用して、よりシンプルでよりコンパクトなオートマトンモデルを利用してネットワークを分析し検証することができる。
本稿では,WMPの解を近似する遺伝的アルゴリズムに基づくメタヒューリスティックを提案し,実装し,評価する。
文献の例での性能を実験的に評価し,その可能性を示した。 The weight maximization problem (WMP) is the problem of finding the word of highest weight on a weighted finite state automaton (WFA). It is an essential question that emerges in many optimization problems in automata theory. Unfortunately, the general problem can be shown to be undecidable, whereas its bounded decisional version is NP-complete. Designing efficient algorithms that produce approximate solutions to the WMP in reasonable time is an appealing research direction that can lead to several new applications including formal verification of systems abstracted as WFAs. In particular, in combination with a recent procedure that translates a recurrent neural network into a weighted automaton, an algorithm for the WMP can be used to analyze and verify the network by exploiting the simpler and more compact automata model. In this work, we propose, implement and evaluate a metaheuristic based on genetic algorithms to approximate solutions to the WMP. We experimentally evaluate its performance on examples from the literature and show its potential on different applications. | 翻訳日:2022-12-14 09:57:52 公開日:2020-04-11 |