このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20200418となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# ロボット追従壁の制御のための機械学習アルゴリズムの比較研究 A Comparative Study on Machine Learning Algorithms for the Control of a Wall Following Robot ( http://arxiv.org/abs/1912.11856v2 ) ライセンス: Link先を確認 | Issam Hammad, Kamal El-Sankary, and Jason Gu | (参考訳) 本稿では,ロボットに追従する壁の向きを予測するための各種機械学習モデルの性能の比較を行った。
モデルは、24個の超音波センサーとサンプルの対応する方向を含むオープンソースのデータセットを使用してトレーニングされた。
このデータセットは、scitos g5モバイルロボットを使って、ロボットの腰にセンサーを装着して取得した。
データセットは、レコード毎に24のセンサーを備えたフルフォーマットに加えて、4と2の入力センサー読み取りを備えた2つの単純化されたフォーマットを備えている。
3つのデータセットフォーマットすべてを使用して、このデータセットに対していくつかの制御モデルが提案されている。
本稿では,2つの主要な研究成果を紹介する。
まず、3つのフォーマットすべてを使用して、前述したすべてのモデルよりも精度の高い機械学習モデルを提示する。
平均精度100%を達成することで、決定木分類器を用いて、4と2の入力センサフォーマットに対する完璧なソリューションを示す。
一方、グラディエントブースト分類器を用いて24個のセンサー入力を用いて99.82%の平均精度を実現した。
次に、このデータセット上で異なる機械学習およびディープラーニングアルゴリズムのパフォーマンスに関する比較研究を示す。
したがって、同様のセンサー融合問題に対するこれらのアルゴリズムの性能に関する全体的な洞察を提供する。
本論文のモデルはすべてモンテカルロクロスバリデーションを用いて評価した。 A comparison of the performance of various machine learning models to predict the direction of a wall following robot is presented in this paper. The models were trained using an open-source dataset that contains 24 ultrasound sensors readings and the corresponding direction for each sample. This dataset was captured using SCITOS G5 mobile robot by placing the sensors on the robot waist. In addition to the full format with 24 sensors per record, the dataset has two simplified formats with 4 and 2 input sensor readings per record. Several control models were proposed previously for this dataset using all three dataset formats. In this paper, two primary research contributions are presented. First, presenting machine learning models with accuracies higher than all previously proposed models for this dataset using all three formats. A perfect solution for the 4 and 2 inputs sensors formats is presented using Decision Tree Classifier by achieving a mean accuracy of 100%. On the other hand, a mean accuracy of 99.82% was achieves using the 24 sensor inputs by employing the Gradient Boost Classifier. Second, presenting a comparative study on the performance of different machine learning and deep learning algorithms on this dataset. Therefore, providing an overall insight on the performance of these algorithms for similar sensor fusion problems. All the models in this paper were evaluated using Monte-Carlo cross-validation. | 翻訳日:2023-06-10 08:20:14 公開日:2020-04-18 |
# 近似乗算器を用いたディープラーニング学習 Deep Learning Training with Simulated Approximate Multipliers ( http://arxiv.org/abs/2001.00060v2 ) ライセンス: Link先を確認 | Issam Hammad, Kamal El-Sankary, and Jason Gu | (参考訳) 本稿では,畳み込みニューラルネットワーク(cnns)のトレーニング性能を向上させるために,近似乗算器をいかに活用できるかをシミュレーションする。
近似乗算器は、正確な乗算器に比べて、速度、電力、面積の点で著しく優れた性能を持つ。
しかし、近似乗算器は平均相対誤差(MRE)で定義される不正確性を持つ。
CNNトレーニング性能向上における近似乗算器の適用性を評価するため,CNNトレーニングにおける近似乗算器誤差の影響をシミュレーションした。
本稿は,CNNトレーニングに近似乗算器を用いることで,達成した精度に負の影響が小さいコストで,速度,パワー,面積の面で性能を著しく向上できることを実証する。
さらに,本論文では,この精度への影響を緩和するハイブリッドトレーニング手法を提案する。
提案するハイブリッド手法を用いて,近似乗算器を使い始めて,最後の数エポックの正確な乗算器に切り替える。
この手法を用いることで、トレーニング段階の大部分において、速度、電力、面積の観点から近似乗算器の性能上の利点が得られる。
一方,訓練の最後の時間に正確な乗算器を使用することで,精度に対する負の影響は減少する。 This paper presents by simulation how approximate multipliers can be utilized to enhance the training performance of convolutional neural networks (CNNs). Approximate multipliers have significantly better performance in terms of speed, power, and area compared to exact multipliers. However, approximate multipliers have an inaccuracy which is defined in terms of the Mean Relative Error (MRE). To assess the applicability of approximate multipliers in enhancing CNN training performance, a simulation for the impact of approximate multipliers error on CNN training is presented. The paper demonstrates that using approximate multipliers for CNN training can significantly enhance the performance in terms of speed, power, and area at the cost of a small negative impact on the achieved accuracy. Additionally, the paper proposes a hybrid training method which mitigates this negative impact on the accuracy. Using the proposed hybrid method, the training can start using approximate multipliers then switches to exact multipliers for the last few epochs. Using this method, the performance benefits of approximate multipliers in terms of speed, power, and area can be attained for a large portion of the training stage. On the other hand, the negative impact on the accuracy is diminished by using the exact multipliers for the last epochs of training. | 翻訳日:2023-06-10 07:52:25 公開日:2020-04-18 |
# 文脈がメディア選択に与える影響 How context impacts on media choice ( http://arxiv.org/abs/2004.08571v1 ) ライセンス: Link先を確認 | Stefan Stieglitz, Tobias Brockmann, Milad Mirbabaie | (参考訳) モバイル作業の関連性は着実に高まっている。
新たなモバイルデバイス(例えばスマートフォン)とその革新的な機能に基づいて、データ量の増加がユビキタスに行われている。
その結果、スマートフォンの普及は企業にとって新たな可能性をもたらす。
現在のモバイルデバイスと関連するモバイルネットワークは、高度に成熟している。
このように、モバイルワークの組織的側面は、企業だけでなく、学者にとっても焦点となっている。
コンテキストは、モバイル知識労働者のコミュニケーションチャネルの選択にどのように影響しますか?
モバイルナレッジワーカーによって始められた418件のコミュニケーションインシデントの収集と分析に,爆発的な研究手法が用いられている。
その結果,(1)コンテクスト(列車走行など)はコミュニケーションチャネルの利用に影響を与え,(2)スマートフォンは特定のコンテキストにおけるコミュニケーションチャネル(eメールなど)の利用を可能にすることが示された。 The relevance of mobile working is steadily increasing. Based on new mobile devices (e.g. smartphones) and their innovative functionalities, an increasing amount of data is being made available ubiquitously. As a result, the growing diffusion of smartphones offers new potential for enterprises. Current mobile devices and related mobile networks have reached a high level of maturity. Thus, the organizational aspects of mobile work have become a focal point of interest for enterprises as well as for academics. This research article addresses the question: How does context influence the choice of communication channels of mobile knowledge workers? An explorative research approach is used to collect and analyse 418 communication incidents, which were initiated by mobile knowledge workers. The results indicate that (1) the context (e.g. travelling on trains) influences the usage of communication channels and (2) smartphones enable the usage of communication channels (e.g. email) in certain contexts. | 翻訳日:2023-05-23 02:42:59 公開日:2020-04-18 |
# ソーシャルメディア災害コミュニケーションにおけるメディア組織の感性戦略--ハリケーン・ハーベイの事例から Sense-Giving Strategies of Media Organisations in Social Media Disaster Communication: Findings from Hurricane Harvey ( http://arxiv.org/abs/2004.08567v1 ) ライセンス: Link先を確認 | Julian Marx, Milad Mirbabaie, Christian Ehnis | (参考訳) メディア組織は、極端な出来事の間、ソーシャルメディアの災害コミュニケーションにおいて重要なコミュニケーションステークホルダーである。
彼らは、集合的な感覚形成プロセスに不可欠なゲートキーパーと増幅の役割を実行します。
その能力では、ソーシャルメディアを通じて情報を配布し、情報のソースとして利用し、異なるチャンネル間で情報を共有する。
しかし、相互感覚の創造を効果的に支援するために、ソーシャルメディア上でのメディア組織の役割についてはほとんど分かっていない。
本研究では,メディア組織の極端なイベントにおけるコミュニケーション戦略について検討する。
2017年のハリケーン・ハーベイで9,414,463人の投稿からなるtwitterデータセットが収集された。
ソーシャルメディアとコンテンツ分析の手法を用いてメディアコミュニケーションのアプローチを同定した。
3つの異なる感覚提供戦略が特定できる: 地元の社内メディアのリツイート、個人から関連ジャーナリストへのメッセージのバウンド増幅、オープンメッセージ増幅。 Media organisations are essential communication stakeholders in social media disaster communication during extreme events. They perform gatekeeper and amplification roles which are crucial for collective sense-making processes. In that capacity, media organisations distribute information through social media, use it as a source of information, and share such information across different channels. Yet, little is known about the role of media organisations on social media as supposed sense-givers to effectively support the creation of mutual sense. This study investigates the communication strategies of media organisations in extreme events. A Twitter dataset consisting of 9,414,463 postings was collected during Hurricane Harvey in 2017. Social network and content analysis methods were applied to identify media communication approaches. Three different sense-giving strategies could be identified: retweeting of local in-house outlets; bound amplification of messages of individual to the organisation associated journalists; and open message amplification. | 翻訳日:2023-05-23 02:42:47 公開日:2020-04-18 |
# Rydberg原子における新しいタイプの3体F\"オースター共鳴 Three-body F\"orster resonance of a new type in Rydberg atoms ( http://arxiv.org/abs/2004.08534v1 ) ライセンス: Link先を確認 | P.Cheinet, K.-L.Pham, P.Pillet, I.I.Beterov, I.N.Ashkarin, D.B.Tretyakov, E.A.Yakshina, V.M.Entin, I.I.Ryabtsev | (参考訳) 3体F\"orster resonances ${\rm 3}\times nP_{3/2} \to nS_{1/2} +(n+1)S_{1/2} +nP_{3/2}^{*} $ を dc 電場によって制御することは、いくつかのコールドライドバーグ Rb 原子のアンサンブルにおいて著者によってより早く実現された。
3量子ビット量子ゲートにおけるそのような共鳴の潜在的な応用の欠点の1つは、2体 f\"orster resonance ${\rm 2}\times np_{3/2} \to ns_{1/2} +(n+1)s_{1/2}, $ および主量子数 $n\le 38$ の値を持つ状態に対する実装の可能性である。
本稿では,新しいタイプである${\rm 3}\times nP_{3/2} \to nS_{1/2} +(n+1)S_{1/2} +nP_{1/2} の3体共振器を提案し,解析する。
その特異な特徴は、第3原子がスターク構造を持たない異なる全角モーメント$J=1/2$の状態に遷移し、2体共鳴が完全に欠落していることである。
数値計算により、強い相互作用がなければ、電場によって制御される3量子量子ゲートの新しいスキームを開発することに興味を持つ集団状態の集団の3体振動を観測できることが示された。 The three-body F\"orster resonances ${\rm 3}\times nP_{3/2} \to nS_{1/2} +(n+1)S_{1/2} +nP_{3/2}^{*} $ controlled by a dc electric field were realized earlier by the authors in an ensemble of several cold Rydberg Rb atoms. One of the drawbacks of such resonances for potential application in three-qubit quantum gates is the proximity of the two-body F\"orster resonance ${\rm 2}\times nP_{3/2} \to nS_{1/2} +(n+1)S_{1/2}, $ as well as the possibility of their implementation only for states with values of the principal quantum numbers $n\le 38$. In this paper we propose and analyze a three-body resonance of a new type ${\rm 3}\times nP_{3/2} \to nS_{1/2} +(n+1)S_{1/2} +nP_{1/2} , $ which can be realized for arbitrary $n$. Its specific feature is also that the third atom transits into a state with a different total angular moment $J=1/2$, which has no Stark structure, so that the two-body resonance is completely absent. Numerical calculations showed that for not too strong interaction, it is possible to observe coherent three-body oscillation of the populations of collective states, which is of interest for developing new schemes of three-qubit quantum gates controlled by an electric field. | 翻訳日:2023-05-23 02:42:10 公開日:2020-04-18 |
# Web-Schr\"odinger: 時間依存型および定常2次元Schr{\"o}dinger方程式のインタラクティブ解プログラム Web-Schr\"odinger: Program for the interactive solution of the time dependent and stationary two dimensional (2D) Schr{\"o}dinger equation ( http://arxiv.org/abs/2004.10046v1 ) ライセンス: Link先を確認 | G\'eza I. M\'ark | (参考訳) Web-Schr{\"o}dingerは、時間に依存しない(定常的な)Schr{\"o}dinger方程式のソリューションのための対話型クライアントサーバソフトウェアである。
プログラム自体はサーバコンピュータ上で動作し、単純なWebブラウザでインターネット経由で使用することができる。
ユーザのコンピュータには何もありません。
ユーザーは準備済みのサンプルファイルをロード、実行、修正したり、自分の設定を作成したりできる。
複数のユーザが並列にプログラムにアクセスでき、それぞれが独立したセッションを持つことができる。
典型的な実行時間は秒単位または分単位である。 Web-Schr{\"o}dinger is an interactive client-server software for the solution of the time-dependent and time-independent (stationary) Schr{\"o}dinger equation. The program itself runs on a server computer and can be used through the Internet with a simple Web browser. Nothing is installed on the user's computer. The user can load, run, and modify ready-made example files, or prepare her/his own configuration(s), which can be saved on her/his own computer for later use. Several users can access the program parallelly and each can have independent sessions. Typical run times are in the second, or minute range. | 翻訳日:2023-05-23 02:39:15 公開日:2020-04-18 |
# スタックオーバーフローにおけるcovid-19パンデミックに関する知識共有に関する研究 A Study of Knowledge Sharing related to Covid-19 Pandemic in Stack Overflow ( http://arxiv.org/abs/2004.09495v1 ) ライセンス: Link先を確認 | Konstantinos Georgiou, Nikolaos Mittas, Lefteris Angelis, Alexander Chatzigeorgiou | (参考訳) Covid-19の流行は、悲劇的な影響を超えて、世界中の人間の活動のほとんどあらゆる側面に変化した。
同時に、パンデミックは様々な分野の科学者による膨大な研究を刺激し、現象そのもの、その疫学的特徴、そしてその結果に直面する方法を研究しようとしている。
情報技術、特にデータサイエンスは、Covid-19バイオメディカル分野に関連するすべての分野においてイノベーションを推進している。
ソフトウェア開発者は定期的に、Stack Overflowのようなコミュニティに質問を開いて、技術的な問題を解決するためのアドバイスを求めていることを認め、Covid-19関連の投稿の規模、進化、特性を調査するための実証的研究を行った。
特に,2020年2月と3月に主に投稿された464件のスタックオーバーフロー問題とテキストマイニングの力を活用した調査を通じて,新型コロナウイルス関連トピックに対する開発者の関心と,ユーザが情報を求める最もポピュラーな技術的問題に光を当てようとしている。
調査結果によると、この世界的な危機がStack Overflowの活発で活発な活動を引き起こし、ほとんどのトピックは、主にPython技術を使用したCovid-19データ分析に対する強い関心を反映している。 The Covid-19 outbreak, beyond its tragic effects, has changed to an unprecedented extent almost every aspect of human activity throughout the world. At the same time, the pandemic has stimulated enormous amount of research by scientists across various disciplines, seeking to study the phenomenon itself, its epidemiological characteristics and ways to confront its consequences. Information Technology, and particularly Data Science, drive innovation in all related to Covid-19 biomedical fields. Acknowledging that software developers routinely resort to open question and answer communities like Stack Overflow to seek advice on solving technical issues, we have performed an empirical study to investigate the extent, evolution and characteristics of Covid-19 related posts. In particular, through the study of 464 Stack Overflow questions posted mainly in February and March 2020 and leveraging the power of text mining, we attempt to shed light into the interest of developers in Covid-19 related topics and the most popular technological problems for which the users seek information. The findings reveal that indeed this global crisis sparked off an intense and increasing activity in Stack Overflow with most post topics reflecting a strong interest on the analysis of Covid-19 data, primarily using Python technologies. | 翻訳日:2023-05-23 02:38:57 公開日:2020-04-18 |
# クリフォードゲートが生成する4つの量子ビット Four qubits generated by Clifford gates ( http://arxiv.org/abs/2004.08720v1 ) ライセンス: Link先を確認 | Frederic Latour and Oscar Perdomo | (参考訳) クリフォード群は制御された not ゲート、アダマールゲート、p={{1,0},{0,i}} ゲートによって生成されるゲートの集合である。
n-量子ビット状態がクリフォード状態であるとは、クリフォードゲートを使って準備できる場合に言う。
本稿では,全4量子クリフォード状態の集合について検討する。
293760状態が存在し、その絡み合いエントロピーは 0, 2/3, 1, 4/3, 5/3 のいずれかでなければならない。
また、これらの状態の任意の対は、局所ゲートと少なくとも3つのcnotゲートを使って接続できることを示した。
我々は、293760の状態を群内の各対の状態が局所クリフォードゲートと接続できる18のグループに分割することでこれを達成する。
次に、異なるCNOTゲートが18のグループにどのように作用するかを研究する。
また、クリフォード状態は実エントリーを持つクリフォードゲートの部分群 C_R の作用の下で実エントリで研究する。
今回は、実エントリを持つすべてのクリフォード状態が、c_r内の少なくとも5つのcnotゲートとローカルゲートと接続可能であることを示す。
https://youtu.be/42MI6ks2_eU というリンクは、この論文で最も重要な結果を説明するYouTubeビデオに繋がる。 The Clifford group is the set of gates generated by the controlled not gates, the Hadamard gate and the P={{1,0},{0,i}} gate. We will say that a n-qubit state is a Clifford state if it can be prepared using Clifford gates. In this paper we study the set of all 4-qubit Clifford states. We prove that there are 293760 states and their entanglement entropy must be either 0, 2/3, 1, 4/3 and 5/3. We also show that any pair of these states can be connected using local gates and at most 3 CNOT gates. We achieve this by splitting the 293760 states into 18 groups where each pair of states in a group can be connected with a local Clifford gate. We then study how the different CNOT gates act on the 18 groups. We also study the Clifford states with real entries under the action of the subgroup C_R of Clifford gates with real entries. This time we show that every pair of Clifford states with real entries can be connected with at most 5 CNOT gates and local gates in C_R. The link https://youtu.be/42MI6ks2_eU leads to a YouTube video that explains the most important results in this paper. | 翻訳日:2023-05-23 02:38:37 公開日:2020-04-18 |
# 非可換複素空間における対称ゲージ場の相対論的ランダウと振動子レベル Relativistic Landau and oscillator levels in a symmetric gauge field in a non-commutative complex space ( http://arxiv.org/abs/2004.08687v1 ) ライセンス: Link先を確認 | S. Zaim and H. Rezki | (参考訳) 本研究では,非可換複素空間における複素対称ゲージ場における相対論的ランダウ問題と振動ポテンシャルの厳密解を,生成および消滅作用素の代数的手法を用いて求める。
非可換複素空間における複素対称ゲージ場における相対論的ランダウ問題は、可換常空間における対称ゲージ場の存在下でのパウリ方程式と類似した振る舞いである。
エネルギースペクトルの非相対論的限界が得られる一方で、正確な非可換ランダウと振動エネルギー準位を導出する。
エネルギーは縮退せず、ゼーマン効果のように2つのレベルに分けられることを示す。 In this work we obtain the exact solution for relativistic Landau problem plus oscillator potential in a complex symmetric gauge field in a non-commutative complex space, using the algebraic techniques of creation and annihilation operators. It is shown that the relativistic Landau problem in a complex symmetric gauge field in a non-commutative complex space is similar behavior to the Pauli equation in the presence of a symmetric gauge field in a commutative ordinary space. We derive the exact non-commutative Landau and oscillator energy levels, while the non-relativistic limit of the energy spectrum is obtained. We show that the energy is not degenerate and is splitted into two levels, as in the Zeeman effect. | 翻訳日:2023-05-23 02:37:33 公開日:2020-04-18 |
# マヨラナフェルミオン、超対称性、熱磁場ダイナミクス Majorana fermions, supersymmetry and thermofield dynamics ( http://arxiv.org/abs/2004.08647v1 ) ライセンス: Link先を確認 | Marco A. S. Trindade and Sergio Floquet | (参考訳) 本研究では、ハミルトニアンの対称性を呼び出すことなく、任意の数のマヨラナフェルミオン(偶数あるいは奇数)に対する超対称性と縮退の存在を示す。
次に、熱場力学式を用いた有限温度での超対称性の解析を行う。
さらに,ボゴリューボフ変態を通じて熱ブレイディング演算子を導出し,その熱ベル状態に対する作用を見出した。 In this work we show the existence of supersymmetry and degeneracy for an arbitrary number of Majorana fermions (even or odd) without to invoke any symmetry of Hamiltonian. Next, we analyze the supersymmetry at finite temperature using the thermofield dynamics formalism. Furthermore we derive thermal braiding operators through the Bogoliubov transformations and we find its action on a thermal Bell state. | 翻訳日:2023-05-23 02:36:55 公開日:2020-04-18 |
# CryptoCam: プライバシーに配慮したオープンサーキットテレビ CryptoCam: Privacy Conscious Open Circuit Television ( http://arxiv.org/abs/2004.08602v1 ) ライセンス: Link先を確認 | Gerard Wilkinson, Dan Jackson, Andrew Garbett, Reuben Kirkham, Kyle Montague | (参考訳) 現代社会におけるクローズド・サーキット・テレビジョン(CCTV)の普及は、監視者と監視者の間に固有の非対称性をもたらす。
監視不能な観察者(操作者)に関する不安感は、セキュリティカメラが一般的に保護装置として存在するにもかかわらず、しばしばカメラとその目的に対する信頼の欠如につながる。
本稿では,オープンサーキットテレビの概念と,近接する被写体や被写体に対して映像映像を安全に共有するための新しいシステムであるcryptocamのプロトタイプについて詳述する。
映像のポイント・オブ・キャプチャ・暗号化とタイムベースのアクセスキーの無線転送を利用して,情報共有と消費に対するよりオープンなアプローチを促すシステムを開発した。
既存の文献で強調されている懸念を詳述し、オーバーアーキシングの概念をopen circuit television(octv)と呼ばれるフレームワークに形式化します。
CryptoCamを通じて、被験者にデータエクイティ、発見可能性、監視を提供することで、制御の非対称性に対処したいと考えています。 The prevalence of Closed Circuit Television (CCTV) in today's society has given rise to an inherent asymmetry of control between the watchers and the watched. A sense of unease relating to the unobservable observer (operator) often leads to a lack of trust in the camera and its purpose, despite security cameras generally being present as a protective device. In this paper, we detail our concept of Open Circuit Television and prototype CryptoCam, a novel system for secure sharing of video footage to individuals and potential subjects nearby. Utilizing point-of-capture encryption and wireless transfer of time-based access keys for footage, we have developed a system to encourage a more open approach to information sharing and consumption. Detailing concerns highlighted in existing literature we formalize our over-arching concept into a framework called Open Circuit Television (OCTV). Through CryptoCam we hope to address this asymmetry of control by providing subjects with data equity, discoverability and oversight. | 翻訳日:2023-05-23 02:36:23 公開日:2020-04-18 |
# 4H炭化ケイ素中のケイ素空孔量子ビットの温度とひずみ依存性に及ぼすビブロニック状態とその影響 Vibronic states and their effect on the temperature and strain dependence of silicon-vacancy qubits in 4H silicon carbide ( http://arxiv.org/abs/2001.02459v2 ) ライセンス: Link先を確認 | P\'eter Udvarhelyi, Gerg\H{o} Thiering, Naoya Morioka, Charles Babin, Florian Kaiser, Daniil Lukin, Takeshi Ohshima, Jawad Ul-Hassan, Nguyen Tien Son, Jelena Vu\v{c}kovi\'c, J\"org Wrachtrup, and Adam Gali | (参考訳) ケイ素炭化ケイ素(SiC)のシリコン空孔量子ビットは、その優れた光学特性とスピン特性のために量子技術応用の新たなツールである。
本稿では,4H SiC中の2つのシリコン空孔量子ビット,V1,V2に着目し,温度とひずみがこれらの特性に及ぼす影響について検討する。
フォノンによる電子励起状態の温度依存性混合を記述するため,ボルン-オッペンハイマー近似を超えた密度汎関数理論を適用した。
我々は, V1中心とV2中心の5~22~meV付近のポーラロンギャップをそれぞれ取得し, 励起状態の温度依存性の劣化とゼロフィールド分裂に有意な差を生じさせ, 最近の実験結果を説明する。
また、結晶変形がエミッタのゼロフォノン線に与える影響も計算する。
我々の予測はこれらの効果に敏感な量子ビットの量子応用において重要な要素である。 Silicon-vacancy qubits in silicon carbide (SiC) are emerging tools in quantum technology applications due to their excellent optical and spin properties. In this paper, we explore the effect of temperature and strain on these properties by focusing on the two silicon-vacancy qubits, V1 and V2, in 4H SiC. We apply density functional theory beyond the Born-Oppenheimer approximation to describe the temperature dependent mixing of electronic excited states assisted by phonons. We obtain polaronic gap around 5 and 22~meV for V1 and V2 centers, respectively, that results in significant difference in the temperature dependent dephasing and zero-field splitting of the excited states, which explains recent experimental findings. We also compute how crystal deformations affect the zero-phonon-line of these emitters. Our predictions are important ingredients in any quantum applications of these qubits sensitive to these effects. | 翻訳日:2023-01-13 13:15:48 公開日:2020-04-18 |
# 標準パラメータ化を用いたニューラルネットワークの無限幅限界について On the infinite width limit of neural networks with a standard parameterization ( http://arxiv.org/abs/2001.07301v3 ) ライセンス: Link先を確認 | Jascha Sohl-Dickstein, Roman Novak, Samuel S. Schoenholz, Jaehoon Lee | (参考訳) 現在、無限幅のニューラルネットワークに対応する固定カーネル、NTK(Neural Tangent Kernel)パラメタライゼーションとナイーブ標準パラメタライゼーションの2つのパラメータ化が使用されている。
しかし、これら2つのパラメータ化の無限幅への外挿は問題となる。
標準パラメータ化は分散した神経接核を導くが、ntkパラメータ化は有限幅ネットワークの重要な側面である、例えば、相対層幅へのトレーニングダイナミクスの依存、重みとバイアスの相対トレーニングダイナミクス、全体的な学習速度スケールを捉えることができない。
本稿では,これらすべての性質を無限大の幅に保ち,よく定義された神経接核を生成する標準パラメータ化の補間法を提案する。
実験により、結果のカーネルはNTKパラメータ化の結果とよく似ているが、典型的な有限幅ネットワークのパラメータ化によく対応していることがわかった。
さらに、幅パラメータを注意深く調整することで、改良された標準パラメータ化カーネルはNTKパラメータ化から生じるものよりも優れた性能を発揮する。
我々は、この改良された標準パラメータ化を実装するコードをhttps://github.com/google/neural-tangentsでNeural Tangentsライブラリの一部としてリリースする。 There are currently two parameterizations used to derive fixed kernels corresponding to infinite width neural networks, the NTK (Neural Tangent Kernel) parameterization and the naive standard parameterization. However, the extrapolation of both of these parameterizations to infinite width is problematic. The standard parameterization leads to a divergent neural tangent kernel while the NTK parameterization fails to capture crucial aspects of finite width networks such as: the dependence of training dynamics on relative layer widths, the relative training dynamics of weights and biases, and overall learning rate scale. Here we propose an improved extrapolation of the standard parameterization that preserves all of these properties as width is taken to infinity and yields a well-defined neural tangent kernel. We show experimentally that the resulting kernels typically achieve similar accuracy to those resulting from an NTK parameterization, but with better correspondence to the parameterization of typical finite width networks. Additionally, with careful tuning of width parameters, the improved standard parameterization kernels can outperform those stemming from an NTK parameterization. We release code implementing this improved standard parameterization as part of the Neural Tangents library at https://github.com/google/neural-tangents. | 翻訳日:2023-01-07 23:25:21 公開日:2020-04-18 |
# d次元球面層におけるランダム点の線形・フィッシャー分離性 Linear and Fisher Separability of Random Points in the d-dimensional Spherical Layer ( http://arxiv.org/abs/2002.01306v2 ) ライセンス: Link先を確認 | Sergey Sidorov and Nikolai Zolotykh | (参考訳) 確率的分離定理は高次元データ解析と機械学習において重要な役割を果たす。
高次元において、任意の点のランダムな集合の任意の点が、次元の観点から指数関数であっても高い確率を持つ超平面によって他の点から分離できることが判明した。
このような事実は、人工知能システムのための補正器の構築、データ固有の次元の決定、および様々な自然知能現象の説明に利用できる。
本稿では,確率的分離定理における点数および確率の推定を洗練し,より早く得られるいくつかの結果を強化する。
独立に一様かつ$d$次元球面層から無作為に点を描画する場合に線形およびフィッシャー分離性の境界を提案する。
これらの結果は、応用における確率的分離定理の適用可能性の限界をよりよく説明できる。 Stochastic separation theorems play important role in high-dimensional data analysis and machine learning. It turns out that in high dimension any point of a random set of points can be separated from other points by a hyperplane with high probability even if the number of points is exponential in terms of dimension. This and similar facts can be used for constructing correctors for artificial intelligent systems, for determining an intrinsic dimension of data and for explaining various natural intelligence phenomena. In this paper, we refine the estimations for the number of points and for the probability in stochastic separation theorems, thereby strengthening some results obtained earlier. We propose the boundaries for linear and Fisher separability, when the points are drawn randomly, independently and uniformly from a $d$-dimensional spherical layer. These results allow us to better outline the applicability limits of the stochastic separation theorems in applications. | 翻訳日:2023-01-05 01:19:45 公開日:2020-04-18 |
# 構造モチーフを用いた分子グラフの階層生成 Hierarchical Generation of Molecular Graphs using Structural Motifs ( http://arxiv.org/abs/2002.03230v2 ) ライセンス: Link先を確認 | Wengong Jin, Regina Barzilay, Tommi Jaakkola | (参考訳) グラフ生成技術は薬品の発見にますます採用されている。
従来のグラフ生成アプローチでは、原子や単純なサイクルのような比較的小さな分子構築ブロックを使用しており、その効果を小さな分子に制限している。
実際、我々が示すように、その性能はより大きな分子に対して著しく低下する。
本稿では,より大きく柔軟なグラフモチーフを基本構成要素として用いた新しい階層型グラフエンコーダ・デコーダを提案する。
エンコーダは、原子から連結モチーフまで、各分子の細粒度で多分解能表現を生成する。
各レベルは以下の構成要素のエンコーディングと、そのレベルのグラフを統合する。
自己回帰型粗粒デコーダは、1つのモチーフを1つ加え、新しいモチーフを選択する決定と、その新規分子へのアタッチメントの解決の過程をインターリーブする。
我々は, 高分子を含む複数の分子生成タスクにおいて, モデルの評価を行い, 従来のベースラインを大きく上回ることを示した。 Graph generation techniques are increasingly being adopted for drug discovery. Previous graph generation approaches have utilized relatively small molecular building blocks such as atoms or simple cycles, limiting their effectiveness to smaller molecules. Indeed, as we demonstrate, their performance degrades significantly for larger molecules. In this paper, we propose a new hierarchical graph encoder-decoder that employs significantly larger and more flexible graph motifs as basic building blocks. Our encoder produces a multi-resolution representation for each molecule in a fine-to-coarse fashion, from atoms to connected motifs. Each level integrates the encoding of constituents below with the graph at that level. Our autoregressive coarse-to-fine decoder adds one motif at a time, interleaving the decision of selecting a new motif with the process of resolving its attachments to the emerging molecule. We evaluate our model on multiple molecule generation tasks, including polymers, and show that our model significantly outperforms previous state-of-the-art baselines. | 翻訳日:2023-01-02 22:29:02 公開日:2020-04-18 |
# 物理的に一貫性のある対流モデルに向けて Towards Physically-consistent, Data-driven Models of Convection ( http://arxiv.org/abs/2002.08525v2 ) ライセンス: Link先を確認 | Tom Beucler, Michael Pritchard, Pierre Gentine, Stephan Rasp | (参考訳) データ駆動アルゴリズム、特にニューラルネットワークは、高分解能気候シミュレーションで訓練された場合、粗分解能気候モデルにおけるサブグリッドスケールプロセスの影響をエミュレートすることができる。
しかし、それらは重要な物理的制約に反し、トレーニングセットの外で一般化する能力に欠ける可能性がある。
本稿では,ニューラルネットワークにおいて,損失関数の適応によって,あるいはアーキテクチャの適応によって機械精度内で,物理的制約を強制できることを示す。
これらの物理的制約は、一般化性を保証するには不十分であるため、トレーニングと検証データを物理的に再スケールして、ニューラルネットワークが目に見えない気候に一般化する能力を改善することも提案する。 Data-driven algorithms, in particular neural networks, can emulate the effect of sub-grid scale processes in coarse-resolution climate models if trained on high-resolution climate simulations. However, they may violate key physical constraints and lack the ability to generalize outside of their training set. Here, we show that physical constraints can be enforced in neural networks, either approximately by adapting the loss function or to within machine precision by adapting the architecture. As these physical constraints are insufficient to guarantee generalizability, we additionally propose to physically rescale the training and validation data to improve the ability of neural networks to generalize to unseen climates. | 翻訳日:2022-12-30 08:18:21 公開日:2020-04-18 |
# CPR-GCN : 冠動脈の解剖学的自動表示における条件付き部分残留グラフ畳み込みネットワーク CPR-GCN: Conditional Partial-Residual Graph Convolutional Network in Automated Anatomical Labeling of Coronary Arteries ( http://arxiv.org/abs/2003.08560v4 ) ライセンス: Link先を確認 | Han Yang, Xingjian Zhen, Ying Chi, Lei Zhang, and Xian-Sheng Hua | (参考訳) 冠動脈疾患の診断には自動解剖学的ラベリングが重要な役割を担っている。
この問題の主な課題は、ヒト解剖学で受け継がれた大きな個体変動である。
既存の方法は通常、位置情報と冠状動脈木のトポロジーに関する事前知識に依存しており、主枝が混乱している場合、不十分な性能をもたらす可能性がある。
本稿では, グラフニューラルネットワークの構造化データへの広範な適用を動機として, CT画像は枝の大きさや幅方向などの豊富な情報を含むため, 位置とCT像の両方を考慮した条件付き部分残差グラフ畳み込みネットワーク(CPR-GCN)を提案する。
部分残留GCNと条件抽出器の2つの多数部分がCPR-GCNに含まれる。
条件抽出器は、3次元CNNとLSTMを含むハイブリッドモデルであり、枝に沿って3次元空間像の特徴を抽出することができる。
技術面では、部分残留GCNは、各ブランチのラベルを予測するために、3次元空間像の特徴を条件として、枝の位置特徴を抽出する。
数学的側面において、我々のアプローチは偏微分方程式(PDE)をグラフモデリングにツイストする。
511名の被験者からなるデータセットを診療所から収集し、2段階のアノテーション処理を行う2人の専門家によって注釈付けされる。
5倍のクロスバリデーションによると、我々のCPR-GCNは95.8%平均リコール、95.4%平均Precision、0.955平均F1で、最先端のアプローチより優れている。 Automated anatomical labeling plays a vital role in coronary artery disease diagnosing procedure. The main challenge in this problem is the large individual variability inherited in human anatomy. Existing methods usually rely on the position information and the prior knowledge of the topology of the coronary artery tree, which may lead to unsatisfactory performance when the main branches are confusing. Motivated by the wide application of the graph neural network in structured data, in this paper, we propose a conditional partial-residual graph convolutional network (CPR-GCN), which takes both position and CT image into consideration, since CT image contains abundant information such as branch size and spanning direction. Two majority parts, a Partial-Residual GCN and a conditions extractor, are included in CPR-GCN. The conditions extractor is a hybrid model containing the 3D CNN and the LSTM, which can extract 3D spatial image features along the branches. On the technical side, the Partial-Residual GCN takes the position features of the branches, with the 3D spatial image features as conditions, to predict the label for each branches. While on the mathematical side, our approach twists the partial differential equation (PDE) into the graph modeling. A dataset with 511 subjects is collected from the clinic and annotated by two experts with a two-phase annotation process. According to the five-fold cross-validation, our CPR-GCN yields 95.8% meanRecall, 95.4% meanPrecision and 0.955 meanF1, which outperforms state-of-the-art approaches. | 翻訳日:2022-12-22 04:53:52 公開日:2020-04-18 |
# ニューラルiベクトル Neural i-vectors ( http://arxiv.org/abs/2004.01559v2 ) ライセンス: Link先を確認 | Ville Vestman, Kong Aik Lee, Tomi H. Kinnunen | (参考訳) 話者の奥行き埋め込みは、近年の話者照合評価において、生成型のi-vectorsよりも優れていることが示されている。
高い性能と生成的解釈の利点を併せ持つために, 深い埋め込み抽出器とi-vector抽出器の使用について検討する。
深い埋め込み抽出器をi-vector抽出器にバンドルするために,ガウス混合モデル(gmm)に触発されたアグリゲーション層を埋め込み抽出器ネットワークに適用する。
GMMライクな層を組み込むことで、差別的に訓練されたネットワークを、ニューラルiベクターと呼ばれるものを抽出するiベクター抽出器の十分な統計提供者として使用できる。
提案したニューラルネットワークi-vectors on the Speakers in the Wild (SITW) と Speaker Recognition Evaluation (SRE) 2018 と 2019 のデータセットを比較した。
SITWのコアコア条件では, 深層埋め込みは最先端技術と比較して性能が向上する。
ニューラルiベクターは、ディープ埋め込みよりも約50%性能が劣るが、一方、文献で報告されたiベクターのアプローチは明らかなマージンで上回っている。 Deep speaker embeddings have been demonstrated to outperform their generative counterparts, i-vectors, in recent speaker verification evaluations. To combine the benefits of high performance and generative interpretation, we investigate the use of deep embedding extractor and i-vector extractor in succession. To bundle the deep embedding extractor with an i-vector extractor, we adopt aggregation layers inspired by the Gaussian mixture model (GMM) to the embedding extractor networks. The inclusion of GMM-like layer allows the discriminatively trained network to be used as a provider of sufficient statistics for the i-vector extractor to extract what we call neural i-vectors. We compare the deep embeddings to the proposed neural i-vectors on the Speakers in the Wild (SITW) and the Speaker Recognition Evaluation (SRE) 2018 and 2019 datasets. On the core-core condition of SITW, our deep embeddings obtain performance comparative to the state-of-the-art. The neural i-vectors obtain about 50% worse performance than the deep embeddings, but on the other hand outperform the previous i-vector approaches reported in the literature by a clear margin. | 翻訳日:2022-12-17 05:12:49 公開日:2020-04-18 |
# COVID_MTNet:マルチタスク深層学習によるCOVID-19検出 COVID_MTNet: COVID-19 Detection with Multi-Task Deep Learning Approaches ( http://arxiv.org/abs/2004.03747v3 ) ライセンス: Link先を確認 | Md Zahangir Alom, M M Shaifur Rahman, Mst Shamima Nasrin, Tarek M. Taha, and Vijayan K. Asari | (参考訳) 新型コロナウイルス(covid-19)は現在、世界で最も命にかかわる問題の1つだ。
新型コロナウイルス(COVID-19)感染の迅速かつ正確な検出は、彼らの命を救う患者を識別し、より良い判断をし、確実に治療する上で不可欠である。
本稿では,多タスク深層学習(DL)法を用いた新型コロナウイルス患者を迅速かつ効率的に同定する手法を提案する。
提案手法の評価にはX線画像とCT画像の両方が用いられる。
我々は、新型コロナウイルス検出のためのトランスファー・ラーニング(tl)アプローチと、新型コロナウイルスに感染した地域を区分するnabla-nネットワークモデルを用いて、当社のインセプション残流畳み込みニューラルネットワークを用いた。
検出モデルは、X線画像から約84.67%の精度と、CT画像の98.78%の精度を示している。
また, x線およびct画像中の感染領域の比率を決定するために,新しい定量的解析手法を提案する。
定性的かつ定量的な結果は、新型コロナウイルスの検出と感染領域の局在に有望な結果を示す。 COVID-19 is currently one the most life-threatening problems around the world. The fast and accurate detection of the COVID-19 infection is essential to identify, take better decisions and ensure treatment for the patients which will help save their lives. In this paper, we propose a fast and efficient way to identify COVID-19 patients with multi-task deep learning (DL) methods. Both X-ray and CT scan images are considered to evaluate the proposed technique. We employ our Inception Residual Recurrent Convolutional Neural Network with Transfer Learning (TL) approach for COVID-19 detection and our NABLA-N network model for segmenting the regions infected by COVID-19. The detection model shows around 84.67% testing accuracy from X-ray images and 98.78% accuracy in CT-images. A novel quantitative analysis strategy is also proposed in this paper to determine the percentage of infected regions in X-ray and CT images. The qualitative and quantitative results demonstrate promising results for COVID-19 detection and infected region localization. | 翻訳日:2022-12-15 23:41:04 公開日:2020-04-18 |
# 名前付きエンティティ認識のための自己注意型ガゼッタ埋め込み Self-Attention Gazetteer Embeddings for Named-Entity Recognition ( http://arxiv.org/abs/2004.04060v2 ) ライセンス: Link先を確認 | Stanislav Peshterliev, Christophe Dupuy, Imre Kiss | (参考訳) 近年、NER(Nond-entity Recognition)のためのニューラルモデルに外部知識を取り入れようとする試みが混在している。
本稿では,gazselfattnについて述べる。gazselfattnは,セルフアテンションとマッチスパンエンコーディングを用いた,新たなガゼッタ埋め込み手法である。
さらに,オープンソースのWikidataナレッジベースからガゼッタリソースを構築する方法についても紹介する。
CoNLL-03とOntonotes 5データセットの評価では、ベースラインモデルを92.34から92.86に、89.11から89.32に改善し、大きな最先端モデルに匹敵するパフォーマンスを達成した。 Recent attempts to ingest external knowledge into neural models for named-entity recognition (NER) have exhibited mixed results. In this work, we present GazSelfAttn, a novel gazetteer embedding approach that uses self-attention and match span encoding to build enhanced gazetteer embeddings. In addition, we demonstrate how to build gazetteer resources from the open source Wikidata knowledge base. Evaluations on CoNLL-03 and Ontonotes 5 datasets, show F1 improvements over baseline model from 92.34 to 92.86 and 89.11 to 89.32 respectively, achieving performance comparable to large state-of-the-art models. | 翻訳日:2022-12-15 08:55:23 公開日:2020-04-18 |
# 自動車レーダにおける確率的指向物体検出 Probabilistic Oriented Object Detection in Automotive Radar ( http://arxiv.org/abs/2004.05310v2 ) ライセンス: Link先を確認 | Xu Dong, Pengluo Wang, Pengyue Zhang, Langechuan Liu | (参考訳) 自律レーダーは、悪天候や様々な照明条件に対する堅牢性のために、高度な運転支援システムの不可欠な部分であった。
従来の自動車レーダーは、デジタル信号処理(DSP)アルゴリズムを使用して、オブジェクトのサイズや方向に関する情報を提供しないスパースレーダーピンに生データを処理している。
本稿では,レーダー物体検出のためのディープラーニングに基づくアルゴリズムを提案する。
このアルゴリズムはレーダーデータを生のテンソル表現に取り入れ、検出された物体の周囲に確率的指向のバウンディングボックスを配置する。
我々は102544フレームの生レーダと同期LiDARデータを備えた新しいマルチモーダルデータセットを作成しました。
人間のアノテーションの労力を減らすため、我々はLiDARをリファレンスとして、地上の真実を自動的に注釈付けするスケーラブルなパイプラインを開発しました。
このデータセットに基づいて,生のレーダデータのみを入力とした車両検出パイプラインを開発した。
最高性能のレーダ検出モデルは指向iou 0.3で77.28\%apを達成した。
我々の知る限りでは、これは従来のコーナーカーレーダのための生レーダーデータを用いた物体検出の最初の試みである。 Autonomous radar has been an integral part of advanced driver assistance systems due to its robustness to adverse weather and various lighting conditions. Conventional automotive radars use digital signal processing (DSP) algorithms to process raw data into sparse radar pins that do not provide information regarding the size and orientation of the objects. In this paper, we propose a deep-learning based algorithm for radar object detection. The algorithm takes in radar data in its raw tensor representation and places probabilistic oriented bounding boxes around the detected objects in bird's-eye-view space. We created a new multimodal dataset with 102544 frames of raw radar and synchronized LiDAR data. To reduce human annotation effort we developed a scalable pipeline to automatically annotate ground truth using LiDAR as reference. Based on this dataset we developed a vehicle detection pipeline using raw radar data as the only input. Our best performing radar detection model achieves 77.28\% AP under oriented IoU of 0.3. To the best of our knowledge, this is the first attempt to investigate object detection with raw radar data for conventional corner automotive radars. | 翻訳日:2022-12-14 12:58:41 公開日:2020-04-18 |
# 不確実性下における頑健なシステム同定のためのベイズ微分計画法 Bayesian differential programming for robust systems identification under uncertainty ( http://arxiv.org/abs/2004.06843v2 ) ライセンス: Link先を確認 | Yibo Yang, Mohamed Aziz Bhouri, Paris Perdikaris | (参考訳) 本稿では,非線形力学系のノイズ,スパース,不規則な観測からベイズ系を同定する機械学習フレームワークを提案する。
提案手法は、微分可能プログラミングの最近の発展を利用して、通常の微分方程式解法を用いて勾配情報を伝播し、ハミルトンモンテカルロを用いた未知のモデルパラメータに関するベイズ推定を行う。
これにより、不確実性が定量化されうるモデル上での後方分布を効率的に推定することができ、一方、スパーシティ・プロモーティング・プリエントを用いることで、基礎となる潜在力学に対する解釈可能かつ調和的な表現の発見が可能になる。
非線形発振器, 捕食者-餌系, カオス力学, システム生物学など, 提案手法の有効性を示す数値実験を行った。
総合すると、不確実性の下でデータ駆動モデル発見のための新しい、柔軟で堅牢なワークフローが生まれました。 This paper presents a machine learning framework for Bayesian systems identification from noisy, sparse and irregular observations of nonlinear dynamical systems. The proposed method takes advantage of recent developments in differentiable programming to propagate gradient information through ordinary differential equation solvers and perform Bayesian inference with respect to unknown model parameters using Hamiltonian Monte Carlo. This allows us to efficiently infer posterior distributions over plausible models with quantified uncertainty, while the use of sparsity-promoting priors enables the discovery of interpretable and parsimonious representations for the underlying latent dynamics. A series of numerical studies is presented to demonstrate the effectiveness of the proposed methods including nonlinear oscillators, predator-prey systems, chaotic dynamics and systems biology. Taken all together, our findings put forth a novel, flexible and robust workflow for data-driven model discovery under uncertainty. | 翻訳日:2022-12-13 02:45:13 公開日:2020-04-18 |
# 経験的確率による大規模データセットの統計的推論 Statistical inference in massive datasets by empirical likelihood ( http://arxiv.org/abs/2004.08580v1 ) ライセンス: Link先を確認 | Xuejun Ma, Shaochen Wang, Wang Zhou | (参考訳) 本稿では,分割・探索法と経験的確率を組み合わせることで,非常に単純かつ効率的な大規模データセットの統計的推論手法を提案する。
2つの一般的な方法(小さなブートストラップの袋とサブサンプルのダブルブートストラップ)と比較して、データセットをフル活用し、計算負担を軽減する。
大規模数値実験と実データ解析により,提案手法の有効性と柔軟性が実証された。
さらに,本手法の漸近的性質を導出する。 In this paper, we propose a new statistical inference method for massive data sets, which is very simple and efficient by combining divide-and-conquer method and empirical likelihood. Compared with two popular methods (the bag of little bootstrap and the subsampled double bootstrap), we make full use of data sets, and reduce the computation burden. Extensive numerical studies and real data analysis demonstrate the effectiveness and flexibility of our proposed method. Furthermore, the asymptotic property of our method is derived. | 翻訳日:2022-12-12 05:51:19 公開日:2020-04-18 |
# 無置換SGDのタイト収束速度について On Tight Convergence Rates of Without-replacement SGD ( http://arxiv.org/abs/2004.08657v1 ) ライセンス: Link先を確認 | Kwangjun Ahn and Suvrit Sra | (参考訳) 有限サム最適化問題の解法として, 置換サンプリングのないSGDがSGDより優れていることを示す。
コストの成分数$n$とアルゴリズムのエポック数$K$を示す最近のいくつかの研究は、SGDのベースラインレート$O(1/(nK))$よりも$n$と$K$への依存性が優れている無置換SGDの収束率を示している。
しかし、これらの作品には2つの主要な制限がある: レートは$nK$に余分な多変数因子を持ち、問題の条件番号は$\kappa$であり、ある$c>0$に対して$\kappa^c\log(nK)$ epochsである。
本研究では,時代によって異なるステップサイズを分析することで,これらの制限を克服する。 For solving finite-sum optimization problems, SGD without replacement sampling is empirically shown to outperform SGD. Denoting by $n$ the number of components in the cost and $K$ the number of epochs of the algorithm , several recent works have shown convergence rates of without-replacement SGD that have better dependency on $n$ and $K$ than the baseline rate of $O(1/(nK))$ for SGD. However, there are two main limitations shared among those works: the rates have extra poly-logarithmic factors on $nK$, and denoting by $\kappa$ the condition number of the problem, the rates hold after $\kappa^c\log(nK)$ epochs for some $c>0$. In this work, we overcome these limitations by analyzing step sizes that vary across epochs. | 翻訳日:2022-12-12 05:51:11 公開日:2020-04-18 |
# 補足メタラーニングによる寄生的姿勢ループを有する外洋目標の操作のインターセプション Reinforcement Meta-Learning for Interception of Maneuvering Exoatmospheric Targets with Parasitic Attitude Loop ( http://arxiv.org/abs/2004.09978v1 ) ライセンス: Link先を確認 | Brian Gaudet, Roberto Furfaro, Richard Linares, Andrea Scorsoglio | (参考訳) 強化メタラーニングにより,適応型統合誘導,ナビゲーション,制御システムを最適化し,操舵目標の対流圏外迎撃に適したものにする。
このシステムは、ストラップダウンシーカーアングルとレートジャイロの観測結果をスラスタオンオフコマンドに直接マップする。
高忠実度6自由度シミュレータを用いて,要求角度測定ラグ,スラスタ制御ラグ,スケール要因誤差による寄生姿勢ループ,角度および回転速度測定におけるガウスノイズ,燃料消費とスラッシュによる質量中心の時間変化などの寄生効果に最適化されたポリシーが適応できることを実証した。
重要なことに、最適化されたポリシーは、幅広い挑戦的なターゲット操作において優れたパフォーマンスをもたらします。
視線振動を誘導して距離観測性を高める以前の研究とは異なり、本システムはシーカーとレートジャイロから得られる測定値のみを使用するように最適化されている。
ランダム化された外洋圏迎撃シナリオのモンテカルロシミュレーションにより,最適化されたポリシが,完全な関与状態に関する完全な知識を持つ拡張比例航法に近い性能をもたらすことを実証した。
最適化されたシステムは計算効率が高く、メモリも最小限で、現在のフライトプロセッサと互換性があるはずである。 We use Reinforcement Meta-Learning to optimize an adaptive integrated guidance, navigation, and control system suitable for exoatmospheric interception of a maneuvering target. The system maps observations consisting of strapdown seeker angles and rate gyro measurements directly to thruster on-off commands. Using a high fidelity six degree-of-freedom simulator, we demonstrate that the optimized policy can adapt to parasitic effects including seeker angle measurement lag, thruster control lag, the parasitic attitude loop resulting from scale factor errors and Gaussian noise on angle and rotational velocity measurements, and a time varying center of mass caused by fuel consumption and slosh. Importantly, the optimized policy gives good performance over a wide range of challenging target maneuvers. Unlike previous work that enhances range observability by inducing line of sight oscillations, our system is optimized to use only measurements available from the seeker and rate gyros. Through extensive Monte Carlo simulation of randomized exoatmospheric interception scenarios, we demonstrate that the optimized policy gives performance close to that of augmented proportional navigation with perfect knowledge of the full engagement state. The optimized system is computationally efficient and requires minimal memory, and should be compatible with today's flight processors. | 翻訳日:2022-12-12 05:50:20 公開日:2020-04-18 |
# 複雑なレイアウトを持つ歴史文書の大規模データセット A Large Dataset of Historical Japanese Documents with Complex Layouts ( http://arxiv.org/abs/2004.08686v1 ) ライセンス: Link先を確認 | Zejiang Shen, Kaixuan Zhang, Melissa Dell | (参考訳) 深層学習に基づく自動文書レイアウト分析とコンテンツ抽出のアプローチは、歴史的文書に閉じ込められたリッチな情報を大規模に解き放つ可能性を秘めている。
大きなハードルのひとつは、堅牢なモデルをトレーニングするための大きなデータセットがないことだ。
特に、アジア言語に関するトレーニングデータはほとんど存在しない。
この目的のために,複雑なレイアウトを持つ歴史文書の大規模データセットであるHJDatasetを提案する。
7種類のレイアウト要素アノテーションが25万以上含まれている。
コンテンツ領域のバウンディングボックスやマスクに加えて、階層構造やレイアウト要素の読み込み順序も含まれている。
データセットは人間と機械の努力を組み合わせて構築される。
レイアウト要素を抽出するために半ルールに基づく手法を開発し,その結果をインスペクタによって検証する。
得られた大規模データセットは、最先端のディープラーニングモデルを用いたテキスト領域検出のベースラインパフォーマンス解析に使用される。
また,実世界の文書デジタル化タスクにおけるデータセットの有用性を示す。
データセットはhttps://dell-research-harvard.github.io/HJDataset/で公開されている。 Deep learning-based approaches for automatic document layout analysis and content extraction have the potential to unlock rich information trapped in historical documents on a large scale. One major hurdle is the lack of large datasets for training robust models. In particular, little training data exist for Asian languages. To this end, we present HJDataset, a Large Dataset of Historical Japanese Documents with Complex Layouts. It contains over 250,000 layout element annotations of seven types. In addition to bounding boxes and masks of the content regions, it also includes the hierarchical structures and reading orders for layout elements. The dataset is constructed using a combination of human and machine efforts. A semi-rule based method is developed to extract the layout elements, and the results are checked by human inspectors. The resulting large-scale dataset is used to provide baseline performance analyses for text region detection using state-of-the-art deep learning models. And we demonstrate the usefulness of the dataset on real-world document digitization tasks. The dataset is available at https://dell-research-harvard.github.io/HJDataset/. | 翻訳日:2022-12-12 05:46:47 公開日:2020-04-18 |
# Masked Space-Channel Attention and Self-Supervision を用いた任意シーンにおけるサンプルガイド画像合成 Example-Guided Image Synthesis across Arbitrary Scenes using Masked Spatial-Channel Attention and Self-Supervision ( http://arxiv.org/abs/2004.10024v1 ) ライセンス: Link先を確認 | Haitian Zheng, Haofu Liao, Lele Chen, Wei Xiong, Tianlang Chen, Jiebo Luo | (参考訳) 実例誘導画像合成は,最近セマンティックラベルマップと模範画像から画像を合成するために試みられている。
このタスクでは、追加の例示画像は、合成された出力の外観を制御するスタイルガイダンスを提供する。
制御可能性の利点にもかかわらず、既存のモデルは、特定のオブジェクトと概ね整列したオブジェクトを持つデータセットに基づいて設計されている。
本稿では,与えられたラベルマップと意味的に異なる任意のシーンイメージを例示する,より挑戦的で一般的なタスクに取り組む。
そこで,本稿ではまず,任意の2シーン間の対応を効率的にモデル化するマスキング空間チャネルアテンション(msca)モジュールを提案する。
次に,グローバルおよびローカルな特徴アライメントと合成のためのエンドツーエンドネットワークを提案する。
最後に,トレーニングを実現するための新たなセルフスーパービジョンタスクを提案する。
大規模で多様なCOCO-stuffデータセットの実験は、既存の手法よりも大幅に改善されている。
さらに,本手法は解釈可能性を提供し,スタイルや空間補間,外挿などの他のコンテンツ操作タスクにも容易に拡張できる。 Example-guided image synthesis has recently been attempted to synthesize an image from a semantic label map and an exemplary image. In the task, the additional exemplar image provides the style guidance that controls the appearance of the synthesized output. Despite the controllability advantage, the existing models are designed on datasets with specific and roughly aligned objects. In this paper, we tackle a more challenging and general task, where the exemplar is an arbitrary scene image that is semantically different from the given label map. To this end, we first propose a Masked Spatial-Channel Attention (MSCA) module which models the correspondence between two arbitrary scenes via efficient decoupled attention. Next, we propose an end-to-end network for joint global and local feature alignment and synthesis. Finally, we propose a novel self-supervision task to enable training. Experiments on the large-scale and more diverse COCO-stuff dataset show significant improvements over the existing methods. Moreover, our approach provides interpretability and can be readily extended to other content manipulation tasks including style and spatial interpolation or extrapolation. | 翻訳日:2022-12-12 05:46:13 公開日:2020-04-18 |
# driftnet: 3d efficientnet アーキテクチャを用いた積極的な運転行動分類 DriftNet: Aggressive Driving Behavior Classification using 3D EfficientNet Architecture ( http://arxiv.org/abs/2004.11970v1 ) ライセンス: Link先を確認 | Alam Noor, Bilel Benjdira, Adel Ammar, Anis Koubaa | (参考訳) 攻撃的な運転(すなわち自動車の漂流)は、人間の安全と生命を重大な危険に晒す危険な行動である。
この行動は、公共交通機関の定期交通に関する異常と見なされている。
近年のディープラーニング技術では、歩行者監視、ストリートファイト、脅威検出など、さまざまな状況下での異常検出の新しいアプローチが提案されている。
本稿では,攻撃的運転行動の検出に応用した新しい異常検出フレームワークを提案する。
我々の貢献は、ビデオにおけるアグレッシブな駆動検出のための最先端のEfficientNet 2D画像分類器に基づく3Dニューラルネットワークアーキテクチャの開発である。
本稿では,映像解析のための効率的なNet3D CNN特徴抽出器を提案し,既存の特徴抽出器と比較する。
また、サウジアラビアの文脈で車のドリフトのデータセットも作成しました。
v=vLzgye1-d1k。
私たちの知る限りでは、ディープラーニングを用いた積極的運転行動の問題に対処する最初の研究である。 Aggressive driving (i.e., car drifting) is a dangerous behavior that puts human safety and life into a significant risk. This behavior is considered as an anomaly concerning the regular traffic in public transportation roads. Recent techniques in deep learning proposed new approaches for anomaly detection in different contexts such as pedestrian monitoring, street fighting, and threat detection. In this paper, we propose a new anomaly detection framework applied to the detection of aggressive driving behavior. Our contribution consists in the development of a 3D neural network architecture, based on the state-of-the-art EfficientNet 2D image classifier, for the aggressive driving detection in videos. We propose an EfficientNet3D CNN feature extractor for video analysis, and we compare it with existing feature extractors. We also created a dataset of car drifting in Saudi Arabian context https://www.youtube.com/watch?v=vLzgye1-d1k . To the best of our knowledge, this is the first work that addresses the problem of aggressive driving behavior using deep learning. | 翻訳日:2022-12-12 05:45:58 公開日:2020-04-18 |
# 確率拡散探索によるアキュムレータベット選択 Accumulator Bet Selection Through Stochastic Diffusion Search ( http://arxiv.org/abs/2004.08607v1 ) ライセンス: Link先を確認 | Nassim Dehouche | (参考訳) アキュムレータ(アキュムレータ、英: accumulator)は、複数の賭けを、その部分の個々の確率の乗算によって与えられる合計の支払いを生成できる賭け子に組み合わせることで、かなりユニークな支払い構造を示す賭けである。
これらの潜在的に重要なリターンは、損失のリスクが高まる。
実際、この選択に不正な賭けが1つあると、アキュムレータ全体が負けることになる。
組のマッチを選択してアキュムレータに賭けることの複雑さと、勝者の組み合わせを特定する機会の数の両方が劇的に増加し、オンラインやオフラインのブックメーカーへのアクセスが容易になった。
本研究は,スポーツベッティングの比較的未研究の組合せ的側面に対処し,勝率の総和と確率の観点から,最も有望な組み合わせを選択する問題に対する二進最適化モデルを提案し,アキュミュレータベットを形成する。
本研究は,世界4大サッカーリーグに関する実データに対して,本モデルを適用した計算実験を継続して実施し,単一ベット選択法と比較した。 An accumulator is a bet that presents a rather unique payout structure, in that it combines multiple bets into a wager that can generate a total payout given by the multiplication of the individual odds of its parts. These potentially important returns come however at an increased risk of a loss. Indeed, the presence of a single incorrect bet in this selection would make the whole accumulator lose. The complexity of selecting a set of matches to place an accumulator bet on, as well as the number of opportunities to identify winning combinations have both dramatically increased with the easier access to online and offline bookmakers that bettors have nowadays. We address this relatively under-studied combinatorial aspect of sports betting, and propose a binary optimization model for the problem of selecting the most promising combinations of matches, in terms of their total potential payout and probability of a win, to form an accumulator bet. The results of an ongoing computational experiment, in which our model is applied to real data pertaining to the four main football leagues in the world over a complete season, are presented and compared to those of single bet selection methods. | 翻訳日:2022-12-12 05:45:14 公開日:2020-04-18 |
# imagepairs:ビームスプリッターカメラによる超高解像度データセット ImagePairs: Realistic Super Resolution Dataset via Beam Splitter Camera Rig ( http://arxiv.org/abs/2004.08513v1 ) ライセンス: Link先を確認 | Hamid Reza Vaezi Joze, Ilya Zharkov, Karlton Powell, Carl Ringler, Luming Liang, Andy Roulston, Moshe Lutz, Vivek Pradeep | (参考訳) スーパーレゾリューションは、同一シーンの1つまたは複数の低解像度画像から高解像度画像を復元する問題である。
低解像度画像では、シーンの高頻度の視覚的詳細が完全に失われるため、不適切な問題である。
これを解決するために、新しいシーンで失われた詳細を復元するモデルをトレーニングする目的で、多くの機械学習アプローチが提案されている。
このようなアプローチには、超解像問題の解決にディープラーニング技術を活用する取り組みが近年成功している。
証明されたように、データ自体が機械学習プロセスにおいて、特にデータに飢えているディープラーニングアプローチにおいて重要な役割を果たす。
したがって、この問題を解決するために、データの収集と生成のプロセスは、使用する機械学習技術と同等に重要である可能性がある。
本稿では,超高解像度,ノイズキャンセラ,品質向上のための入力として使用できる実画像データセットを収集するための新しいデータ取得手法を提案する。
我々はビームスプリッターを用いて、低解像度カメラと高解像度カメラで同じシーンを撮影する。
生画像もリリースしているので、この大規模なデータセットはISP生成など他のタスクにも使用できる。
これらのタスクに使用される現在の小規模データセットとは異なり、提案データセットは11,421対の解像度の低解像度画像を含む。
私たちの知る限り、これは超解像度、ISP、画質向上のための最も完全なデータセットです。
ベンチマークの結果は、実際の画像の超解像の画質を大幅に向上させるために、新しいデータセットをどのように利用できるかを示している。 Super Resolution is the problem of recovering a high-resolution image from a single or multiple low-resolution images of the same scene. It is an ill-posed problem since high frequency visual details of the scene are completely lost in low-resolution images. To overcome this, many machine learning approaches have been proposed aiming at training a model to recover the lost details in the new scenes. Such approaches include the recent successful effort in utilizing deep learning techniques to solve super resolution problem. As proven, data itself plays a significant role in the machine learning process especially deep learning approaches which are data hungry. Therefore, to solve the problem, the process of gathering data and its formation could be equally as vital as the machine learning technique used. Herein, we are proposing a new data acquisition technique for gathering real image data set which could be used as an input for super resolution, noise cancellation and quality enhancement techniques. We use a beam-splitter to capture the same scene by a low resolution camera and a high resolution camera. Since we also release the raw images, this large-scale dataset could be used for other tasks such as ISP generation. Unlike current small-scale dataset used for these tasks, our proposed dataset includes 11,421 pairs of low-resolution high-resolution images of diverse scenes. To our knowledge this is the most complete dataset for super resolution, ISP and image quality enhancement. The benchmarking result shows how the new dataset can be successfully used to significantly improve the quality of real-world image super resolution. | 翻訳日:2022-12-12 05:44:53 公開日:2020-04-18 |
# 超解像に基づくスネークモデル -空中LiDARデータと光学画像を用いた大規模建物抽出の教師なし手法 Super-Resolution-based Snake Model -- An Unsupervised Method for Large-Scale Building Extraction using Airborne LiDAR Data and Optical Image ( http://arxiv.org/abs/2004.08522v1 ) ライセンス: Link先を確認 | Thanh Huy Nguyen, Sylvie Daniel, Didier Gueriot, Christophe Sintes, Jean-Marc Le Caillec | (参考訳) 都市・住宅空間における建物の自動抽出は,1990年代半ば以降,写真撮影・リモートセンシング分野への関心が高まっている。
スネークモデルとして知られる能動輪郭モデルは、航空画像や衛星画像から建物を抽出するために研究されている。
しかし, 建築規模, 形状, 周囲環境が複雑化しているため, この課題は依然として極めて困難である。
この複雑さは、形状、大きさ、色といった建物に関する事前情報や前提が広い範囲で一般化できないため、信頼性の高い大規模建築物の抽出において大きな障害となる。
本稿では,スーパーリゾリューションベーススネークモデル (SRSM) と呼ばれる,このような課題を克服するための効率的なヘビモデルを提案する。
SRSMは、LiDARデータに適用される超高解像度プロセスによって生成される高解像度のLiDARベースの標高画像(z-images)を運用している。
関連するバルーン力モデルも改良され、蛇を連続的に膨らませるのではなく、適応的に縮小または膨張する。
この方法は、高レベルの自動化を有しながら、都市のシーンから事前の知識や訓練データを必要とせず、都市規模や規模といった大規模に適用できる(監督されていない)。
様々なデータセットでテストした場合、高い全体的な精度を達成する。
例えば、提案されたSRSMは平均領域ベースの品質86.57%、オブジェクトベースの品質81.60%をISPRS Vaihingenベンチマークデータセットで得る。
このベンチマークデータセットを用いた他の手法と比較して、このレベルの精度は教師付き手法であっても非常に望ましい。
同様に、提案されたSRSMをケベック市全体(総面積656 km2)で実施すると、領域ベースの品質は62.37%、オブジェクトベースの品質は63.21%となる。 Automatic extraction of buildings in urban and residential scenes has become a subject of growing interest in the domain of photogrammetry and remote sensing, particularly since mid-1990s. Active contour model, colloquially known as snake model, has been studied to extract buildings from aerial and satellite imagery. However, this task is still very challenging due to the complexity of building size, shape, and its surrounding environment. This complexity leads to a major obstacle for carrying out a reliable large-scale building extraction, since the involved prior information and assumptions on building such as shape, size, and color cannot be generalized over large areas. This paper presents an efficient snake model to overcome such challenge, called Super-Resolution-based Snake Model (SRSM). The SRSM operates on high-resolution LiDAR-based elevation images -- called z-images -- generated by a super-resolution process applied to LiDAR data. The involved balloon force model is also improved to shrink or inflate adaptively, instead of inflating the snake continuously. This method is applicable for a large scale such as city scale and even larger, while having a high level of automation and not requiring any prior knowledge nor training data from the urban scenes (hence unsupervised). It achieves high overall accuracy when tested on various datasets. For instance, the proposed SRSM yields an average area-based Quality of 86.57% and object-based Quality of 81.60% on the ISPRS Vaihingen benchmark datasets. Compared to other methods using this benchmark dataset, this level of accuracy is highly desirable even for a supervised method. Similarly desirable outcomes are obtained when carrying out the proposed SRSM on the whole City of Quebec (total area of 656 km2), yielding an area-based Quality of 62.37% and an object-based Quality of 63.21%. | 翻訳日:2022-12-12 05:44:30 公開日:2020-04-18 |
# BiFNet:道路セグメンテーションのための双方向核融合ネットワーク BiFNet: Bidirectional Fusion Network for Road Segmentation ( http://arxiv.org/abs/2004.08582v1 ) ライセンス: Link先を確認 | Haoran Li, Yaran Chen, Qichao Zhang and Dongbin Zhao | (参考訳) 多センサフュージョンに基づく道路セグメント化は、乾燥可能なエリアを提供するため、インテリジェント駆動システムにおいて重要な役割を果たす。
現行の主流融合法は主に画像空間領域における融合を特徴とし、道路の遠近圧縮を引き起こし、遠方道路の性能を損なうものである。
本稿では,LiDARの鳥眼ビュー(BEV)が水平面の空間構造に留まっていることを考慮し,点雲の画像とBEVを融合させる双方向融合ネットワーク(BiFNet)を提案する。
ネットワークは2つのモジュールで構成される。
1) カメラ画像空間とbev空間の相互変換を解決する高密度空間変換モジュール。
2) コンテキストベースの特徴融合モジュールは,各シーンから異なるセンサ情報を抽出し,KITTIデータセット上での競合的な結果を得た。 Multi-sensor fusion-based road segmentation plays an important role in the intelligent driving system since it provides a drivable area. The existing mainstream fusion method is mainly to feature fusion in the image space domain which causes the perspective compression of the road and damages the performance of the distant road. Considering the bird's eye views(BEV) of the LiDAR remains the space structure in horizontal plane, this paper proposes a bidirectional fusion network(BiFNet) to fuse the image and BEV of the point cloud. The network consists of two modules: 1) Dense space transformation module, which solves the mutual conversion between camera image space and BEV space. 2) Context-based feature fusion module, which fuses the different sensors information based on the scenes from corresponding features.This method has achieved competitive results on KITTI dataset. | 翻訳日:2022-12-12 05:37:41 公開日:2020-04-18 |
# 突発性物体・エッジ・骨格の同時検出のための動的特徴統合 Dynamic Feature Integration for Simultaneous Detection of Salient Object, Edge and Skeleton ( http://arxiv.org/abs/2004.08595v1 ) ライセンス: Link先を確認 | Jiang-Jiang Liu, Qibin Hou, Ming-Ming Cheng | (参考訳) 本稿では,高次物体分割,エッジ検出,スケルトン抽出を含む3つの低レベル画素視問題を統一された枠組みで解決する。
まず、これらのタスクで共有される類似点を示し、次に、エンドツーエンドでトレーニング可能な統一フレームワークの開発にどのように活用できるかを示します。
特に、各タスクがそれぞれの特性に基づいて共有バックボーンから異なるレベルの機能を動的に選択できる選択的統合モジュールを導入する。
さらに,画像内容に応じて異なるタスクの情報をインテリジェントにアロケートすることを目的としたタスク適応型アテンションモジュールを設計した。
これらのタスクにおいて提案するネットワークの性能を評価するために,複数の代表データを用いた徹底的な実験を行った。
これらのタスクは自然とは全く異なるが、我々のネットワークはそれらすべてでうまく機能し、現在の単一目的の最先端手法よりも優れたパフォーマンスを発揮できる。
また,提案フレームワークの設計原理を十分に理解するための適切なアブレーション分析を行う。
将来の研究を容易にするために、ソースコードがリリースされる。 In this paper, we solve three low-level pixel-wise vision problems, including salient object segmentation, edge detection, and skeleton extraction, within a unified framework. We first show some similarities shared by these tasks and then demonstrate how they can be leveraged for developing a unified framework that can be trained end-to-end. In particular, we introduce a selective integration module that allows each task to dynamically choose features at different levels from the shared backbone based on its own characteristics. Furthermore, we design a task-adaptive attention module, aiming at intelligently allocating information for different tasks according to the image content priors. To evaluate the performance of our proposed network on these tasks, we conduct exhaustive experiments on multiple representative datasets. We will show that though these tasks are naturally quite different, our network can work well on all of them and even perform better than current single-purpose state-of-the-art methods. In addition, we also conduct adequate ablation analyses that provide a full understanding of the design principles of the proposed framework. To facilitate future research, source code will be released. | 翻訳日:2022-12-12 05:37:25 公開日:2020-04-18 |
# 細粒度視覚分類のためのフェーサーデータセット Feathers dataset for Fine-Grained Visual Categorization ( http://arxiv.org/abs/2004.08606v1 ) ライセンス: Link先を確認 | Alina Belko, Konstantin Dobratulin and Andrey Kuznetsov | (参考訳) 本稿では,595種に分類される羽毛28,272枚を含むFeatherV1の新たなデータセットを紹介する。
鳥類種を1羽の羽で分類学的に識別するために作られ、アマチュア鳥類学や専門鳥類学に応用できる。
FeatherV1は、機械学習のための最初の一般公開された鳥の羽ばたきデータセットであり、きめ細かい視覚認識領域における新しいタスクへの関心を高めることができる。
最新バージョンはhttps://github.com/feathers-dataset/feathersv1-datasetからダウンロードできる。
羽毛分類タスクの結果も提示する。
提案したデータセットから分類的クロスエントロピー値を比較するために,いくつかのディープラーニングアーキテクチャ(DenseNetベース)を選択した。 This paper introduces a novel dataset FeatherV1, containing 28,272 images of feathers categorized by 595 bird species. It was created to perform taxonomic identification of bird species by a single feather, which can be applied in amateur and professional ornithology. FeatherV1 is the first publicly available bird's plumage dataset for machine learning, and it can raise interest for a new task in fine-grained visual recognition domain. The latest version of the dataset can be downloaded at https://github.com/feathers-dataset/feathersv1-dataset. We also present feathers classification task results. We selected several deep learning architectures (DenseNet based) for categorical crossentropy values comparison on the provided dataset. | 翻訳日:2022-12-12 05:36:41 公開日:2020-04-18 |
# 画像色度測定による水中画像強調 Underwater image enhancement with Image Colorfulness Measure ( http://arxiv.org/abs/2004.08609v1 ) ライセンス: Link先を確認 | Hui Li, Xi Yang, ZhenMing Li, TianLun Zhang | (参考訳) 水の吸収と散乱の影響により、水中の画像は、低コントラスト、グレーアウト色、ぼやけた内容など、多くの深刻な問題に悩まされる傾向にある。
水中画像の視覚的品質を改善するため,トレーニング可能なエンドツーエンドニューラルモデルである新しいエンハンスメントモデルを提案した。
2つの部分が全体モデルを構成する。
第1の層は予備色補正のための非パラメータ層であり、第2の層は自己適応性改善のためのパラメトリック層、すなわちチャネルワイド線形シフトからなる。
より詳細に、コントラストとカラフルネスのために、この拡張ネットワークはピクセルレベルと特性レベルのトレーニング基準によって共同最適化されている。
自然水中での広範囲な実験を通して,提案手法は高品質な向上効果が得られることを示す。 Due to the absorption and scattering effects of the water, underwater images tend to suffer from many severe problems, such as low contrast, grayed out colors and blurring content. To improve the visual quality of underwater images, we proposed a novel enhancement model, which is a trainable end-to-end neural model. Two parts constitute the overall model. The first one is a non-parameter layer for the preliminary color correction, then the second part is consisted of parametric layers for a self-adaptive refinement, namely the channel-wise linear shift. For better details, contrast and colorfulness, this enhancement network is jointly optimized by the pixel-level and characteristiclevel training criteria. Through extensive experiments on natural underwater scenes, we show that the proposed method can get high quality enhancement results. | 翻訳日:2022-12-12 05:36:30 公開日:2020-04-18 |
# 周波数領域トランスフォーマネットワークを用いた動きセグメンテーション Motion Segmentation using Frequency Domain Transformer Networks ( http://arxiv.org/abs/2004.08638v1 ) ライセンス: Link先を確認 | Hafez Farazi and Sven Behnke | (参考訳) 自己教師付き予測は、データの基盤構造を捉える表現を学ぶための強力なメカニズムである。
最近の進歩にもかかわらず、自己監督型ビデオ予測タスクはまだ難しい。
タスクを難しくする重要な要因の1つは、個々のオブジェクトとバックグラウンドをセグメンテーションし、それらの動きを別々に推定するモーションセグメンテーションである。
ビデオ予測では、各オブジェクトの形状、外観、変換は、ピクセル空間における次のフレームを予測することによってのみ理解されるべきである。
そこで本研究では,前景と背景を別々にモデル化し,周波数領域トランスフォーマネットワークを用いた前景動作の予測と予測を同時に行うことで,次のフレームを予測できる新しいエンドツーエンド学習可能なアーキテクチャを提案する。
ビデオラダーネットワークや予測ゲーテッドピラミドなどのビデオ予測手法を合成データ上で上回り,解釈可能な表現が得られることを示す実験結果を得た。 Self-supervised prediction is a powerful mechanism to learn representations that capture the underlying structure of the data. Despite recent progress, the self-supervised video prediction task is still challenging. One of the critical factors that make the task hard is motion segmentation, which is segmenting individual objects and the background and estimating their motion separately. In video prediction, the shape, appearance, and transformation of each object should be understood only by predicting the next frame in pixel space. To address this task, we propose a novel end-to-end learnable architecture that predicts the next frame by modeling foreground and background separately while simultaneously estimating and predicting the foreground motion using Frequency Domain Transformer Networks. Experimental evaluations show that this yields interpretable representations and that our approach can outperform some widely used video prediction methods like Video Ladder Network and Predictive Gated Pyramids on synthetic data. | 翻訳日:2022-12-12 05:36:16 公開日:2020-04-18 |
# 物体収量セグメンテーションへの深層学習アプローチ A Deep Learning Approach to Object Affordance Segmentation ( http://arxiv.org/abs/2004.08644v1 ) ライセンス: Link先を確認 | Spyridon Thermos, Petros Daras, Gerasimos Potamianos | (参考訳) オブジェクトの機能を理解して推測する学習は、堅牢なビジュアルインテリジェンスへの重要なステップである。
重要な研究活動は、最近「オブジェクトアフォーアンス」と呼ばれる、特定のタイプのヒューマン・オブジェクトインタラクションを可能にするオブジェクト部品のセグメント化に重点を置いている。
しかし、ほとんどの研究は静的なセマンティックセグメンテーションの問題として扱い、オブジェクトの外観にのみ焦点をあて、強力な監視とオブジェクト検出に依存している。
本稿では,人間と物体の相互作用の時空間的性質を利用した新たなアプローチを提案する。
特に,シーケンスの最後のフレームのみのグランドトラストラベルを用いてトレーニングを行い,ビデオと静的画像の両方において画素単位のアベイランスラベルを推測できるオートエンコーダを設計する。
本モデルでは,インタラクションホットスポットの暗黙的ローカライズを可能にするソフトアテンション機構を用いて,オブジェクトラベルとバウンディングボックスの必要性を克服する。
評価目的のために,人間とオブジェクトのインタラクションシーケンスで構成されたsor3d-affコーパスを導入し,ツールライクなオブジェクトの典型的な操作をカバーする,ピクセル単位でのアノテーションによる9種類のアフォーアンスをサポートする。
本研究では,SOR3D-AFFの強い教師付き手法と比較して,画像のみの2つのデータセットにおいて,類似の未確認オブジェクトの可視性を予測できることを示す。 Learning to understand and infer object functionalities is an important step towards robust visual intelligence. Significant research efforts have recently focused on segmenting the object parts that enable specific types of human-object interaction, the so-called "object affordances". However, most works treat it as a static semantic segmentation problem, focusing solely on object appearance and relying on strong supervision and object detection. In this paper, we propose a novel approach that exploits the spatio-temporal nature of human-object interaction for affordance segmentation. In particular, we design an autoencoder that is trained using ground-truth labels of only the last frame of the sequence, and is able to infer pixel-wise affordance labels in both videos and static images. Our model surpasses the need for object labels and bounding boxes by using a soft-attention mechanism that enables the implicit localization of the interaction hotspot. For evaluation purposes, we introduce the SOR3D-AFF corpus, which consists of human-object interaction sequences and supports 9 types of affordances in terms of pixel-wise annotation, covering typical manipulations of tool-like objects. We show that our model achieves competitive results compared to strongly supervised methods on SOR3D-AFF, while being able to predict affordances for similar unseen objects in two affordance image-only datasets. | 翻訳日:2022-12-12 05:36:01 公開日:2020-04-18 |
# 車両再識別のためのデュアルエンベディング拡張 Dual Embedding Expansion for Vehicle Re-identification ( http://arxiv.org/abs/2004.08665v1 ) ライセンス: Link先を確認 | Clint Sebastian, Raffaele Imbriaco, Egor Bondarev, Peter H.N. de With | (参考訳) 車両の再識別は交通インフラと交通流の管理において重要な役割を担っている。
しかし, 外観, 環境, インスタンス関連要因が多岐にわたるため, これは困難な課題である。
現代のシステムはcnnをデプロイし、各車両のインスタンスの画像からユニークな表現を生成する。
ほとんどの作業は、新たな損失とネットワークアーキテクチャを活用して、これらの表現の記述性を改善することに重点を置いている。
対照的に、我々の仕事は再分類と埋め込み拡張技術に集中しています。
本稿では,トラックレットと隣接情報を利用して,複数のモデルの出力を様々なスケールで組み合わせる,Dex(Dual Embedding expansion)と呼ばれる効率的な手法を提案する。
さらに、車載リIDの文脈において、複数の共通画像検索技術の比較研究を行った。
当社のシステムは,2020年のNVIDIA AI City Challengeにおいて,有望な成果で競争力を発揮する。
我々はdexを他の再ランキング技術と組み合わせることで、追加の属性ラベルや手作業による監督なしにさらに大きな利益を得られることを実証する。 Vehicle re-identification plays a crucial role in the management of transportation infrastructure and traffic flow. However, this is a challenging task due to the large view-point variations in appearance, environmental and instance-related factors. Modern systems deploy CNNs to produce unique representations from the images of each vehicle instance. Most work focuses on leveraging new losses and network architectures to improve the descriptiveness of these representations. In contrast, our work concentrates on re-ranking and embedding expansion techniques. We propose an efficient approach for combining the outputs of multiple models at various scales while exploiting tracklet and neighbor information, called dual embedding expansion (DEx). Additionally, a comparative study of several common image retrieval techniques is presented in the context of vehicle re-ID. Our system yields competitive performance in the 2020 NVIDIA AI City Challenge with promising results. We demonstrate that DEx when combined with other re-ranking techniques, can produce an even larger gain without any additional attribute labels or manual supervision. | 翻訳日:2022-12-12 05:35:05 公開日:2020-04-18 |
# ディープコンテキスト単語埋め込みと階層的注意を用いたアスペクトベース感情分析のハイブリッドアプローチ A Hybrid Approach for Aspect-Based Sentiment Analysis Using Deep Contextual Word Embeddings and Hierarchical Attention ( http://arxiv.org/abs/2004.08673v1 ) ライセンス: Link先を確認 | Maria Mihaela Trusca, Daan Wassenberg, Flavius Frasincar, Rommert Dekker | (参考訳) Webは、人々が関心の実体とその関連する側面について意見を述べる主要なプラットフォームになっている。
Aspect-Based Sentiment Analysis (ABSA)は、意見テキストからこれらの側面に対する感情を自動的に計算することを目的としている。
本稿では,アスペクトベース感情分析(haabsa)手法の最先端ハイブリッドアプローチを2方向に拡張する。
まず、テキスト中の単語の意味をよりよく扱うために、文脈的でない単語埋め込みを文脈的でない単語埋め込みに置き換える。
次に、HAABSA高レベル表現に付加的な注意層を追加することにより、入力データのモデリングにおけるメソッドの柔軟性を向上させる。
2つの標準データセット(SemEval 2015とSemEval 2016)を使用して、提案された拡張によってABSAのビルドモデルの精度が向上したことを示す。 The Web has become the main platform where people express their opinions about entities of interest and their associated aspects. Aspect-Based Sentiment Analysis (ABSA) aims to automatically compute the sentiment towards these aspects from opinionated text. In this paper we extend the state-of-the-art Hybrid Approach for Aspect-Based Sentiment Analysis (HAABSA) method in two directions. First we replace the non-contextual word embeddings with deep contextual word embeddings in order to better cope with the word semantics in a given text. Second, we use hierarchical attention by adding an extra attention layer to the HAABSA high-level representations in order to increase the method flexibility in modeling the input data. Using two standard datasets (SemEval 2015 and SemEval 2016) we show that the proposed extensions improve the accuracy of the built model for ABSA. | 翻訳日:2022-12-12 05:29:21 公開日:2020-04-18 |
# iCORPP:ロボットのインターリーブ・コモンセンス推論と確率計画 iCORPP: Interleaved Commonsense Reasoning and Probabilistic Planning on Robots ( http://arxiv.org/abs/2004.08672v1 ) ライセンス: Link先を確認 | Shiqi Zhang, Peter Stone | (参考訳) ロボットは、複雑なタスクを遂行するために行動計画しながら、現在の世界の状況とダイナミクスを同時に推論する必要があるため、現実の世界でのシーケンシャルな意思決定は難しい。
一方、宣言型言語と推論アルゴリズムは、常識的知識による表現と推論をうまくサポートしている。
しかし、これらのアルゴリズムは、長期にわたる未定の地平線上で累積報酬を最大化するための行動計画には向いていない。
一方,マルコフ決定プロセス (MDPs) や部分観測可能なMDP (POMDPs) などの確率的計画フレームワークは,不確実性の下で長期的目標を達成するための計画を支援する。
しかし、それらは行動に直接関連しない知識を表現または推論する能力に欠ける。
本稿では,現在の世界状態を推定し,世界ダイナミクスを推論し,タスク指向コントローラを構築するための新しいアルゴリズム icorpp を提案する。
このプロセスでは、ロボットの意思決定問題は、2つの相互依存(より小さい)サブプロブレムに分解され、それぞれ「世界を理解」する推論と「目標を達成する」計画に焦点が当てられる。
コンテキスト知識は推論コンポーネントで表現され、計画コンポーネントが認識され、アクティブな情報収集を可能にする。
開発したアルゴリズムは,屋内ナビゲーションやダイアログ管理,オブジェクト配信といった日常的なサービスタスクを使用して,シミュレーションと実ロボットの両方で実装,評価されている。
その結果,手作りアクションポリシを含む競合ベースラインと比較して,スケーラビリティ,効率,適応性が著しく向上した。 Robot sequential decision-making in the real world is a challenge because it requires the robots to simultaneously reason about the current world state and dynamics, while planning actions to accomplish complex tasks. On the one hand, declarative languages and reasoning algorithms well support representing and reasoning with commonsense knowledge. But these algorithms are not good at planning actions toward maximizing cumulative reward over a long, unspecified horizon. On the other hand, probabilistic planning frameworks, such as Markov decision processes (MDPs) and partially observable MDPs (POMDPs), well support planning to achieve long-term goals under uncertainty. But they are ill-equipped to represent or reason about knowledge that is not directly related to actions. In this article, we present a novel algorithm, called iCORPP, to simultaneously estimate the current world state, reason about world dynamics, and construct task-oriented controllers. In this process, robot decision-making problems are decomposed into two interdependent (smaller) subproblems that focus on reasoning to "understand the world" and planning to "achieve the goal" respectively. Contextual knowledge is represented in the reasoning component, which makes the planning component epistemic and enables active information gathering. The developed algorithm has been implemented and evaluated both in simulation and on real robots using everyday service tasks, such as indoor navigation, dialog management, and object delivery. Results show significant improvements in scalability, efficiency, and adaptiveness, compared to competitive baselines including handcrafted action policies. | 翻訳日:2022-12-12 05:28:47 公開日:2020-04-18 |
# BReG-NeXt: 境界勾配を持つ適応残差ネットワークを用いた顔影響計算 BReG-NeXt: Facial Affect Computing Using Adaptive Residual Networks With Bounded Gradient ( http://arxiv.org/abs/2004.08495v1 ) ライセンス: Link先を確認 | Behzad Hasani, Pooran Singh Negi, Mohammad H. Mahoor | (参考訳) 本稿では,BReG-NeXtについて述べる。BReG-NeXtは,感情のカテゴリーモデルと次元モデルに基づく表情の自動認識のための,単純なショートカットパス(アイデンティティマッピング)の代わりに関数wtih境界微分を用いた残差ネットワークアーキテクチャである。
resnetと比較して,提案する適応型複雑なマッピングは,より少ないトレーニングパラメータと浮動小数点演算(flops)を持つ,より浅いネットワークを実現する。
バイパス機能にトレーニング可能なパラメータを追加することで、ネットワークの適合性とトレーニングがさらに向上し、より高精度で軽蔑などの微妙な表情を認識する。
我々は,AffectNet,FER2013,Affect-in-Wildの難易度データベースに影響を及ぼすカテゴリモデルと次元モデルに関する総合的な実験を行った。
実験結果から,我々の適応的複雑マッピング手法は,顔の表情認識(FER)のための他の最先端手法と同様に,単純なアイデンティティマッピングを含む元のResNetよりも優れていることがわかった。
本手法の総合評価を行うために,両モデルに様々な指標が報告されている。
カテゴリモデルでは、3.1mのトレーニングパラメータと15mflopsのbreg-next-50がそれぞれ68.50%と71.53%の精度を達成している。
次元モデルでは、BReG-NeXtはAffectNetとAffect-in-Wildデータベース上でそれぞれ0.2577と0.2882のRMSE値を達成する。 This paper introduces BReG-NeXt, a residual-based network architecture using a function wtih bounded derivative instead of a simple shortcut path (a.k.a. identity mapping) in the residual units for automatic recognition of facial expressions based on the categorical and dimensional models of affect. Compared to ResNet, our proposed adaptive complex mapping results in a shallower network with less numbers of training parameters and floating point operations per second (FLOPs). Adding trainable parameters to the bypass function further improves fitting and training the network and hence recognizing subtle facial expressions such as contempt with a higher accuracy. We conducted comprehensive experiments on the categorical and dimensional models of affect on the challenging in-the-wild databases of AffectNet, FER2013, and Affect-in-Wild. Our experimental results show that our adaptive complex mapping approach outperforms the original ResNet consisting of a simple identity mapping as well as other state-of-the-art methods for Facial Expression Recognition (FER). Various metrics are reported in both affect models to provide a comprehensive evaluation of our method. In the categorical model, BReG-NeXt-50 with only 3.1M training parameters and 15 MFLOPs, achieves 68.50% and 71.53% accuracy on AffectNet and FER2013 databases, respectively. In the dimensional model, BReG-NeXt achieves 0.2577 and 0.2882 RMSE value on AffectNet and Affect-in-Wild databases, respectively. | 翻訳日:2022-12-12 05:28:19 公開日:2020-04-18 |
# jl-dcf: rgb-dサルエント物体検出のための合同学習と密結合融合フレームワーク JL-DCF: Joint Learning and Densely-Cooperative Fusion Framework for RGB-D Salient Object Detection ( http://arxiv.org/abs/2004.08515v1 ) ライセンス: Link先を確認 | Keren Fu and Deng-Ping Fan and Ge-Peng Ji and Qijun Zhao | (参考訳) 本稿では,RGB-Dサルエント物体検出のための新しい共同学習と密結合型融合(JL-DCF)アーキテクチャを提案する。
既存のモデルはrgbと奥行きを独立した情報として扱い、それぞれの特徴抽出のために別々のネットワークを設計する。
このようなスキームは、限られた量のトレーニングデータや、精巧に設計されたトレーニングプロセスへの過剰依存によって容易に制限できる。
対照的に、我々のJL-DCFは、RGBとSiameseネットワークを介して深度入力の両方から学習する。
そこで本研究では,共同学習 (JL) と密集協調融合 (DCF) の2つの有効成分を提案する。
jlモジュールは堅牢なsaliency feature learningを提供し、後者は補完的な機能発見のために導入されている。
4つの一般的なメトリクスに関する包括的な実験により、設計されたフレームワークは、優れた一般化を持つ堅牢なrgb-dサリエンシー検出器をもたらすことが示された。
その結果、jl-dcfは6つの挑戦的なデータセットで平均1.9% (s-measure) のtop-1 d3netモデルを著しく前進させ、提案フレームワークが現実世界のアプリケーションに対して潜在的なソリューションを提供し、クロスモダリティ相補性タスクに対するさらなる洞察を提供する。
コードはhttps://github.com/kerenfu/jldcf/で入手できる。 This paper proposes a novel joint learning and densely-cooperative fusion (JL-DCF) architecture for RGB-D salient object detection. Existing models usually treat RGB and depth as independent information and design separate networks for feature extraction from each. Such schemes can easily be constrained by a limited amount of training data or over-reliance on an elaborately-designed training process. In contrast, our JL-DCF learns from both RGB and depth inputs through a Siamese network. To this end, we propose two effective components: joint learning (JL), and densely-cooperative fusion (DCF). The JL module provides robust saliency feature learning, while the latter is introduced for complementary feature discovery. Comprehensive experiments on four popular metrics show that the designed framework yields a robust RGB-D saliency detector with good generalization. As a result, JL-DCF significantly advances the top-1 D3Net model by an average of ~1.9% (S-measure) across six challenging datasets, showing that the proposed framework offers a potential solution for real-world applications and could provide more insight into the cross-modality complementarity task. The code will be available at https://github.com/kerenfu/JLDCF/. | 翻訳日:2022-12-12 05:27:15 公開日:2020-04-18 |
# 適応粒子群最適化とファジィC平均を用いたカラー画像分割 Color Image Segmentation using Adaptive Particle Swarm Optimization and Fuzzy C-means ( http://arxiv.org/abs/2004.08547v1 ) ライセンス: Link先を確認 | Narayana Reddy A, Ranjita Das | (参考訳) セグメンテーションは、画像を類似の属性を持つピクセルを含む異なる領域に分割する。
ファジィc-meansクラスタリングアルゴリズム(fcm)の標準的な非文脈的変種は、その単純性を考慮して画像分割に一般的に用いられる。
FCMの使用には、クラスタの数の初期推定に依存し、ノイズに非常に敏感である、という欠点がある。
満足な視覚セグメントはFCMでは得られない。
Particle Swarm Optimization (PSO) は進化アルゴリズムのクラスに属し、遺伝的アルゴリズム(GA)と比較して収束速度が良く、パラメータも少ない。
PSOの最適化版をFCMと組み合わせることで、アルゴリズムの適切な初期化要因として機能し、初期推定に対する感度を低下させることができる。
適応粒子群最適化(apso:adaptive particle swarm optimization)と呼ばれるハイブリッドpsoアルゴリズムは、慣性重み、標準pso上の学習因子などの様々なハイパーパラメータの計算を改善し、swarm動作からの洞察を利用してクラスタ品質を改善することができる。
本稿では,適応粒子群最適化とファジィc-meansクラスタリングアルゴリズム(apsof)と呼ばれる,適応粒子群最適化(apso)とファジィc-meansクラスタリングに基づく新しい画像分割アルゴリズムを提案する。
実験結果から、APSOFアルゴリズムは最適なクラスタ中心を正確に識別する際、FCMよりもエッジを持つことが明らかとなり、画像画素の正確な分類が導かれる。
したがって、APSOFアルゴリズムは、画像セグメンテーションのための古典的な Particle Swarm Optimization (PSO) と Fuzzy C-means Clustering Algorithm (FCM) と比較して優れた性能を有する。 Segmentation partitions an image into different regions containing pixels with similar attributes. A standard non-contextual variant of Fuzzy C-means clustering algorithm (FCM), considering its simplicity is generally used in image segmentation. Using FCM has its disadvantages like it is dependent on the initial guess of the number of clusters and highly sensitive to noise. Satisfactory visual segments cannot be obtained using FCM. Particle Swarm Optimization (PSO) belongs to the class of evolutionary algorithms and has good convergence speed and fewer parameters compared to Genetic Algorithms (GAs). An optimized version of PSO can be combined with FCM to act as a proper initializer for the algorithm thereby reducing its sensitivity to initial guess. A hybrid PSO algorithm named Adaptive Particle Swarm Optimization (APSO) which improves in the calculation of various hyper parameters like inertia weight, learning factors over standard PSO, using insights from swarm behaviour, leading to improvement in cluster quality can be used. This paper presents a new image segmentation algorithm called Adaptive Particle Swarm Optimization and Fuzzy C-means Clustering Algorithm (APSOF), which is based on Adaptive Particle Swarm Optimization (APSO) and Fuzzy C-means clustering. Experimental results show that APSOF algorithm has edge over FCM in correctly identifying the optimum cluster centers, there by leading to accurate classification of the image pixels. Hence, APSOF algorithm has superior performance in comparison with classic Particle Swarm Optimization (PSO) and Fuzzy C-means clustering algorithm (FCM) for image segmentation. | 翻訳日:2022-12-12 05:26:52 公開日:2020-04-18 |
# 深層畳み込みニューラルネットワークによる腫瘍組織領域の高精度検出 Accurate Tumor Tissue Region Detection with Accelerated Deep Convolutional Neural Networks ( http://arxiv.org/abs/2004.08552v1 ) ライセンス: Link先を確認 | Gabriel Tjio, Xulei Yang, Jia Mei Hong, Sum Thai Wong, Vanessa Ding, Andre Choo and Yi Su | (参考訳) がん診断のための手動の病理診断は、退屈で反復的である。
そのため、コンピュータビジョンソリューションの開発に多くの努力が注がれている。
私たちのアプローチ(flash)は、ディープ畳み込みニューラルネットワーク(dcnn)アーキテクチャに基づいています。
計算コストを削減し、一般的なディープラーニングアプローチよりも2桁の高速化を実現し、高いスループット処理が可能となる。
ディープラーニング手法を用いたコンピュータビジョンアプローチでは、入力画像はニューラルネットワークを介して別々に渡されるパッチに分割される。
これらのパッチから抽出された特徴は、対応する領域に注釈をつけるために分類器によって使用される。
我々のアプローチは、抽出した全ての特徴を分類器に渡す前に単一の行列に集約する。
以前は重複パッチから特徴を抽出していた。
機能を集約することで、重複するパッチの処理が不要になり、必要な計算量が削減される。
DCCNとFLASHは高い感度(約0.96)、良好な精度(約0.78)、高いF1スコア(約0.84)を示す。
FLASHとDCNNのサンプル処理にかかる平均時間は96.6秒と9489.20秒である。
提案手法は元のDCNN手法より約100倍高速であり,精度と精度を同時に維持できた。 Manual annotation of pathology slides for cancer diagnosis is laborious and repetitive. Therefore, much effort has been devoted to develop computer vision solutions. Our approach, (FLASH), is based on a Deep Convolutional Neural Network (DCNN) architecture. It reduces computational costs and is faster than typical deep learning approaches by two orders of magnitude, making high throughput processing a possibility. In computer vision approaches using deep learning methods, the input image is subdivided into patches which are separately passed through the neural network. Features extracted from these patches are used by the classifier to annotate the corresponding region. Our approach aggregates all the extracted features into a single matrix before passing them to the classifier. Previously, the features are extracted from overlapping patches. Aggregating the features eliminates the need for processing overlapping patches, which reduces the computations required. DCCN and FLASH demonstrate high sensitivity (~ 0.96), good precision (~0.78) and high F1 scores (~0.84). The average time taken to process each sample for FLASH and DCNN is 96.6 seconds and 9489.20 seconds, respectively. Our approach was approximately 100 times faster than the original DCNN approach while simultaneously preserving high accuracy and precision. | 翻訳日:2022-12-12 05:26:22 公開日:2020-04-18 |
# 平坦度関数を最適化する非エリート的進化的アルゴリズムについて On Non-Elitist Evolutionary Algorithms Optimizing Fitness Functions with a Plateau ( http://arxiv.org/abs/2004.09491v1 ) ライセンス: Link先を確認 | Anton V. Eremeev | (参考訳) 我々は、非楕円進化アルゴリズム(EA)の予測ランタイムを、一意な大域的最適化の周囲にある半径rのハミング球において、第2のベスト適合のプラトーを持つフィットネス関数群に適用した場合に考慮する。
一方、レベルに基づく定理を用いて、不偏変異および特にビットワイズ変異に基づく非楕円型EAのいくつかのモードに対して、期待ランタイム上の多項式上界を得る。
一方, 適合度比例選択のEAは, ビットワイド突然変異が突然変異確率の標準設定で使用される場合, 非効率であることを示す。 We consider the expected runtime of non-elitist evolutionary algorithms (EAs), when they are applied to a family of fitness functions with a plateau of second-best fitness in a Hamming ball of radius r around a unique global optimum. On one hand, using the level-based theorems, we obtain polynomial upper bounds on the expected runtime for some modes of non-elitist EA based on unbiased mutation and the bitwise mutation in particular. On the other hand, we show that the EA with fitness proportionate selection is inefficient if the bitwise mutation is used with the standard settings of mutation probability. | 翻訳日:2022-12-12 05:19:20 公開日:2020-04-18 |
# AIにおける論理学の現代的役割 Three Modern Roles for Logic in AI ( http://arxiv.org/abs/2004.08599v1 ) ライセンス: Link先を確認 | Adnan Darwiche | (参考訳) 人工知能における論理の役割として,(1)計算の基礎としての論理,(2)データと知識の組み合わせから学習するための論理,(3)機械学習システムの振る舞いを推論するための論理,の3つを考察する。 We consider three modern roles for logic in artificial intelligence, which are based on the theory of tractable Boolean circuits: (1) logic as a basis for computation, (2) logic for learning from a combination of data and knowledge, and (3) logic for reasoning about the behavior of machine learning systems. | 翻訳日:2022-12-12 05:19:06 公開日:2020-04-18 |
# 攻撃から分類器を保護する。
ベイズ的アプローチ Protecting Classifiers From Attacks. A Bayesian Approach ( http://arxiv.org/abs/2004.08705v1 ) ライセンス: Link先を確認 | Victor Gallego, Roi Naveiro, Alberto Redondo, David Rios Insua, Fabrizio Ruggeri | (参考訳) セキュリティ設定における分類問題は、通常、敵がインスタンスの共変量を操作する分類器を騙して利益を得ようとする対立としてモデル化される。
このような問題に対するほとんどのアプローチは、セキュリティ領域では現実的ではない強力な共通知識仮定を持つゲーム理論のアイデアに焦点を当てている。
我々は,攻撃者の行動に関する正確な知識の欠如を,敵対的リスク分析を用いて考慮したベイズフレームワークを提案する。
我々のフレームワークが必要とする重要な要素は、攻撃される可能性のある観測例の分布からサンプリングできることである。
そこで本研究では, 近似ベイズ計算に基づくサンプリング手法を提案し, 彼の要素の不確実性を考慮した攻撃者の問題をシミュレートする。
大規模問題に対して、微分可能な分類器を扱う際に使用できる代替のスケーラブルなアプローチを提案する。
その内部では、計算負荷をトレーニングフェーズに移動させ、敵からの攻撃をシミュレートし、フレームワークを適用して攻撃に対して堅牢な分類器を得る。 Classification problems in security settings are usually modeled as confrontations in which an adversary tries to fool a classifier manipulating the covariates of instances to obtain a benefit. Most approaches to such problems have focused on game-theoretic ideas with strong underlying common knowledge assumptions, which are not realistic in the security realm. We provide an alternative Bayesian framework that accounts for the lack of precise knowledge about the attacker's behavior using adversarial risk analysis. A key ingredient required by our framework is the ability to sample from the distribution of originating instances given the possibly attacked observed one. We propose a sampling procedure based on approximate Bayesian computation, in which we simulate the attacker's problem taking into account our uncertainty about his elements. For large scale problems, we propose an alternative, scalable approach that could be used when dealing with differentiable classifiers. Within it, we move the computational load to the training phase, simulating attacks from an adversary, adapting the framework to obtain a classifier robustified against attacks. | 翻訳日:2022-12-12 05:18:30 公開日:2020-04-18 |
# データサイエンスアプローチを用いた意味的重複質問の同定:Quoraケーススタディ Identifying Semantically Duplicate Questions Using Data Science Approach: A Quora Case Study ( http://arxiv.org/abs/2004.11694v1 ) ライセンス: Link先を確認 | Navedanjum Ansari, Rajesh Sharma | (参考訳) Quoraのようなソーシャルメディアプラットフォーム上で、意味的に同一の質問、質問、回答を識別することは、質問の意図に基づいてコンテンツの品質と量がユーザーに提示されることを保証するために非常に重要である。
自然言語は非常に表現力があり、異なる単語、句、文の構造化を使ってユニークな意図を伝えることができるため、重複した質問の検出は難しい問題である。
機械学習とディープラーニングの手法は、類似したテキストを識別する従来の自然言語処理技術よりも優れた結果を得たことが知られている。
本稿では,quoraをケーススタディとして,quoraのデータセット上の重複した質問を識別するタスクに対して,異なる機械学習とディープラーニング技術を適用した。
特徴工学,特徴重要技術,選択した7つの機械学習分類器を用いて実験を行い,これまでの研究を上回った。
xgboostモデル 文字レベルの項頻度と逆項周波数を持つモデルは、ディープラーニングのベースラインモデルのいくつかを上回る最高の機械学習モデルです。
我々は,手袋埋め込み,長期記憶,畳み込み,最大プール,高密度,バッチ正規化,アクティベーション関数,モデルマージという,複数のレイヤからなる4つの異なるディープニューラルネットワークのモデル化にディープラーニング技術を適用した。
私たちのディープラーニングモデルは、機械学習モデルよりも精度が高かった。
提案する4つのアーキテクチャのうち3つは、以前の機械学習とディープラーニングの研究の精度を上回り、4つのモデルのうち2つは、quoraの質問対データセットに関する以前のディープラーニングの研究の精度を上回り、最良のモデルは85.82%の精度を達成しました。 Identifying semantically identical questions on, Question and Answering social media platforms like Quora is exceptionally significant to ensure that the quality and the quantity of content are presented to users, based on the intent of the question and thus enriching overall user experience. Detecting duplicate questions is a challenging problem because natural language is very expressive, and a unique intent can be conveyed using different words, phrases, and sentence structuring. Machine learning and deep learning methods are known to have accomplished superior results over traditional natural language processing techniques in identifying similar texts. In this paper, taking Quora for our case study, we explored and applied different machine learning and deep learning techniques on the task of identifying duplicate questions on Quora's dataset. By using feature engineering, feature importance techniques, and experimenting with seven selected machine learning classifiers, we demonstrated that our models outperformed previous studies on this task. Xgboost model with character level term frequency and inverse term frequency is our best machine learning model that has also outperformed a few of the Deep learning baseline models. We applied deep learning techniques to model four different deep neural networks of multiple layers consisting of Glove embeddings, Long Short Term Memory, Convolution, Max pooling, Dense, Batch Normalization, Activation functions, and model merge. Our deep learning models achieved better accuracy than machine learning models. Three out of four proposed architectures outperformed the accuracy from previous machine learning and deep learning research work, two out of four models outperformed accuracy from previous deep learning study on Quora's question pair dataset, and our best model achieved accuracy of 85.82% which is close to Quora state of the art accuracy. | 翻訳日:2022-12-12 05:18:14 公開日:2020-04-18 |
# 多レベルハイパービジョンネットを用いたモアレ画像復元 Moire Image Restoration using Multi Level Hyper Vision Net ( http://arxiv.org/abs/2004.08541v1 ) ライセンス: Link先を確認 | D.Sabari Nathan and M.Parisa Beham and S. M. Md Mansoor Roomi | (参考訳) 画像中のモアレパターンは、デモ後に現れる画像センサ(カラーフィルタアレイ)によってキャプチャされた高周波パターンから生じる。
これらのモアレパターンは、高頻度のシーンの自然な画像に現れる。
モアレパターンは、カメラの方向/位置が最小限に変化するため、大きく変化することもある。
したがって、モアレパターンは写真の品質を劣化させる。
装飾パターンの重要な問題は、モアレパターンが動的構造を持ち、色や形が異なることである。
これらの課題は、他の多くの画像復元タスクよりも分解を難しくする。
復調におけるこれらの課題に触発されて、画像の品質を改善するためにmoireパターンを取り除くために、マルチレベルハイパービジョンネットが提案されている。
重要な側面として、このネットワークでは、すべての層から階層的特徴を効率的に抽出し、適応的に融合するのに使用できる残チャンネルアテンションブロックが関与した。
提案されたアルゴリズムは NTIRE 2020 チャレンジデータセットでテストされており、信号ノイズ比(PSNR)と構造類似度(SSIM)指数に対してそれぞれ36.85と0.98ピークを達成した。 A moire pattern in the images is resulting from high frequency patterns captured by the image sensor (colour filter array) that appear after demosaicing. These Moire patterns would appear in natural images of scenes with high frequency content. The Moire pattern can also vary intensely due to a minimal change in the camera direction/positioning. Thus the Moire pattern depreciates the quality of photographs. An important issue in demoireing pattern is that the Moireing patterns have dynamic structure with varying colors and forms. These challenges makes the demoireing more difficult than many other image restoration tasks. Inspired by these challenges in demoireing, a multilevel hyper vision net is proposed to remove the Moire pattern to improve the quality of the images. As a key aspect, in this network we involved residual channel attention block that can be used to extract and adaptively fuse hierarchical features from all the layers efficiently. The proposed algorithms has been tested with the NTIRE 2020 challenge dataset and thus achieved 36.85 and 0.98 Peak to Signal Noise Ratio (PSNR) and Structural Similarity (SSIM) Index respectively. | 翻訳日:2022-12-12 05:17:43 公開日:2020-04-18 |
# 画像中の血球の数と種類を分類し計数するための高速半自動的方法 A fast semi-automatic method for classification and counting the number and types of blood cells in an image ( http://arxiv.org/abs/2004.08690v1 ) ライセンス: Link先を確認 | Hamed Sadeghi, Shahram Shirani, David W. Capson | (参考訳) 画像中の血液細胞をセグメンテーション、位置決定、計数するための新しい高速半自動法を提案する。
この方法では、しきい値は核を他の部分から分離するために用いられる。
また、円に対してハフ変換を用いて、白細胞の中心を見つける。
テンプレートマッチングを用いて赤細胞の配置とカウントを行う。
我々は,Hough変換やテンプレートマッチングを適用して得られた領域を,各領域の位置を表す1ピクセルに縮小するために,局所的な最大値,ラベル,平均値計算を求める。
提案手法は非常に高速で,ホワイトセルの数と位置を正確に計算する。
また、小さな誤差で赤い細胞を探索して数えることができる。 A novel and fast semi-automatic method for segmentation, locating and counting blood cells in an image is proposed. In this method, thresholding is used to separate the nucleus from the other parts. We also use Hough transform for circles to locate the center of white cells. Locating and counting of red cells is performed using template matching. We make use of finding local maxima, labeling and mean value computation in order to shrink the areas obtained after applying Hough transform or template matching, to a single pixel as representative of location of each region. The proposed method is very fast and computes the number and location of white cells accurately. It is also capable of locating and counting the red cells with a small error. | 翻訳日:2022-12-12 05:17:26 公開日:2020-04-18 |
# ディープキーフレーズ生成のための排他的階層化復号 Exclusive Hierarchical Decoding for Deep Keyphrase Generation ( http://arxiv.org/abs/2004.08511v1 ) ライセンス: Link先を確認 | Wang Chen, Hou Pong Chan, Piji Li, Irwin King | (参考訳) keyphrase generation (kg) は、文書の主要なアイデアを一連のキーフレーズにまとめることを目的としている。
この問題に最近導入された新しい設定では、ドキュメントが与えられた場合、モデルが一連のキーフレーズを予測し、生成するキーフレーズの数を同時に決定する必要がある。
この設定の以前の作業では、キーフレーズを生成するシーケンシャルなデコードプロセスが使用されている。
しかし、そのような復号法は、文書のキーフレーズ集合に存在する固有の階層的構成性を無視する。
さらに、以前の作業は重複したキーフレーズを生成する傾向があり、時間と計算資源を浪費する。
これらの制限を克服するために,階層的復号化プロセスとソフトまたはハード排他機構を含む排他的階層的復号化フレームワークを提案する。
階層的復号処理は、キーフレーズ集合の階層的構成性を明示的にモデル化することである。
ソフトおよびハード排除機構は、予め予測されたキーフレーズをウィンドウサイズ内に追跡し、生成したキーフレーズの多様性を高める。
複数のKGベンチマークデータセットに対する大規模な実験により、重複の少ないより正確なキーフレーズを生成する方法の有効性が示された。 Keyphrase generation (KG) aims to summarize the main ideas of a document into a set of keyphrases. A new setting is recently introduced into this problem, in which, given a document, the model needs to predict a set of keyphrases and simultaneously determine the appropriate number of keyphrases to produce. Previous work in this setting employs a sequential decoding process to generate keyphrases. However, such a decoding method ignores the intrinsic hierarchical compositionality existing in the keyphrase set of a document. Moreover, previous work tends to generate duplicated keyphrases, which wastes time and computing resources. To overcome these limitations, we propose an exclusive hierarchical decoding framework that includes a hierarchical decoding process and either a soft or a hard exclusion mechanism. The hierarchical decoding process is to explicitly model the hierarchical compositionality of a keyphrase set. Both the soft and the hard exclusion mechanisms keep track of previously-predicted keyphrases within a window size to enhance the diversity of the generated keyphrases. Extensive experiments on multiple KG benchmark datasets demonstrate the effectiveness of our method to generate less duplicated and more accurate keyphrases. | 翻訳日:2022-12-12 05:17:14 公開日:2020-04-18 |
# 機械学習における最適化:分散空間アプローチ Optimization in Machine Learning: A Distribution Space Approach ( http://arxiv.org/abs/2004.08620v1 ) ライセンス: Link先を確認 | Yongqiang Cai, Qianxiao Li, Zuowei Shen | (参考訳) 機械学習で発生する最適化問題は、関数空間上の凸汎関数の最小化として解釈されることが多いが、モデルパラメータ化によって導入された非凸制約集合を用いている。
この観察により、トレーニングパラメーター上の分布の空間における凸最適化問題として適切な緩和を通じてそのような問題を再現することができる。
分布空間問題と元の問題のいくつかの単純な関係を導出する。例えば、分布空間の解は、元の空間の解に匹敵する。
さらに,混合分布に基づく数値アルゴリズムを開発し,分布空間内で直接近似最適化を行う。
この近似の一貫性を確立し,簡単な例で提案アルゴリズムの数値的有効性を示す。
理論と実践の両方において、この定式化は機械学習における大規模最適化の代替アプローチを提供する。 We present the viewpoint that optimization problems encountered in machine learning can often be interpreted as minimizing a convex functional over a function space, but with a non-convex constraint set introduced by model parameterization. This observation allows us to repose such problems via a suitable relaxation as convex optimization problems in the space of distributions over the training parameters. We derive some simple relationships between the distribution-space problem and the original problem, e.g. a distribution-space solution is at least as good as a solution in the original space. Moreover, we develop a numerical algorithm based on mixture distributions to perform approximate optimization directly in distribution space. Consistency of this approximation is established and the numerical efficacy of the proposed algorithm is illustrated on simple examples. In both theory and practice, this formulation provides an alternative approach to large-scale optimization in machine learning. | 翻訳日:2022-12-12 05:10:50 公開日:2020-04-18 |
# スパース多項式最適化によるニューラルネットワークのリプシッツ定数推定 Lipschitz constant estimation of Neural Networks via sparse polynomial optimization ( http://arxiv.org/abs/2004.08688v1 ) ライセンス: Link先を確認 | Fabian Latorre, Paul Rolland, Volkan Cevher | (参考訳) ニューラルネットワークのリプシッツ定数上のより厳密な上限を計算するための多項式最適化フレームワークLiPoptを紹介する。
根底にある最適化問題は、線形 (LP) あるいは半定値 (SDP) プログラミングに端を発する。
計算の複雑さを著しく低減するために,ネットワークの疎結合をどのように利用するかを示す。
これは特に畳み込みニューラルネットワークと同様に畳み込みにも有用である。
ランダムな重みを持つネットワークと、MNISTで訓練されたネットワークで実験を行い、例えば$\ell_\infty$-Lipschitz定数の場合、本手法は文献で利用可能なベースラインよりも優れた推定値が得られることを示した。 We introduce LiPopt, a polynomial optimization framework for computing increasingly tighter upper bounds on the Lipschitz constant of neural networks. The underlying optimization problems boil down to either linear (LP) or semidefinite (SDP) programming. We show how to use the sparse connectivity of a network, to significantly reduce the complexity of computation. This is specially useful for convolutional as well as pruned neural networks. We conduct experiments on networks with random weights as well as networks trained on MNIST, showing that in the particular case of the $\ell_\infty$-Lipschitz constant, our approach yields superior estimates, compared to baselines available in the literature. | 翻訳日:2022-12-12 05:10:19 公開日:2020-04-18 |
# コンパクト深層ニューラルネットワークの効率的な合成 Efficient Synthesis of Compact Deep Neural Networks ( http://arxiv.org/abs/2004.08704v1 ) ライセンス: Link先を確認 | Wenhan Xia, Hongxu Yin, Niraj K. Jha | (参考訳) ディープニューラルネットワーク(DNN)は、無数の機械学習アプリケーションにデプロイされている。
しかし、その精度の進歩は、ますます複雑で深いネットワークアーキテクチャによってしばしば達成される。
これらの大規模で深いモデルは、膨大な計算コスト、高いメモリ帯域幅、長いレイテンシのために、現実世界のアプリケーションには適さないことが多い。
例えば、自律運転には、実行時のエネルギとメモリストレージ制約の下で動作しているIoT(Internet-of-Things)エッジデバイスに基づく高速推論が必要である。
このような場合、コンパクトなDNNは、エネルギー消費の削減、メモリ要求、および推論遅延によるデプロイメントを容易にする。
長期記憶(Long Short-term memory、LSTM)は、逐次データモデリングの文脈で広く使われているリカレントニューラルネットワークの一種である。
また、モデルサイズと精度のトレードオフも直面する。
本稿では,実世界のアプリケーションに適したコンパクトかつ高精度なdnn/lstmモデルの自動合成手法について検討する。
また,探索の課題と今後の課題についても概説する。 Deep neural networks (DNNs) have been deployed in myriad machine learning applications. However, advances in their accuracy are often achieved with increasingly complex and deep network architectures. These large, deep models are often unsuitable for real-world applications, due to their massive computational cost, high memory bandwidth, and long latency. For example, autonomous driving requires fast inference based on Internet-of-Things (IoT) edge devices operating under run-time energy and memory storage constraints. In such cases, compact DNNs can facilitate deployment due to their reduced energy consumption, memory requirement, and inference latency. Long short-term memories (LSTMs) are a type of recurrent neural network that have also found widespread use in the context of sequential data modeling. They also face a model size vs. accuracy trade-off. In this paper, we review major approaches for automatically synthesizing compact, yet accurate, DNN/LSTM models suitable for real-world applications. We also outline some challenges and future areas of exploration. | 翻訳日:2022-12-12 05:09:48 公開日:2020-04-18 |
# ドロップアウトスケジューリングによる単段階逆行訓練 Single-step Adversarial training with Dropout Scheduling ( http://arxiv.org/abs/2004.08628v1 ) ライセンス: Link先を確認 | Vivek B.S. and R. Venkatesh Babu | (参考訳) 深層学習モデルは、医療診断や自律運転を含むコンピュータビジョンの幅広い応用において、素晴らしいパフォーマンスを示している。
これらのモデルが直面する主な懸念の1つは、敵の攻撃に対する感受性である。
この問題の重要性を認識した研究者は、敵の攻撃の影響を受けない堅牢なモデルの開発に取り組んでいる。
対人訓練法はこの方向に有望な結果を示す。
敵の訓練体制では、モデルは敵のサンプルを付加したミニバッチで訓練される。
高速で単純な手法(例:シングルステップ勾配上昇)は、計算複雑性を減らすために対数サンプルを生成するために用いられる。
単段階逆行訓練法(非定位法で逆行サンプルを生成する)を用いて訓練したモデルは擬似ロバストであることが示されている。
さらに、モデルのこの擬似ロバスト性は勾配マスキング効果に起因している。
しかし、既存の研究は、一段階の対向訓練中に勾配マスキング効果がいつ、なぜ起こるのかを説明できない。
この作品では
(i)単段攻撃訓練法を用いて訓練したモデルが単段攻撃を予防するために学習することを示し、これは訓練初期におけるモデルの過剰フィットによるものである。
(ii)この効果を緩和するために,ドロップアウトスケジューリングを用いた単段逆訓練法を提案する。
従来の単段対人訓練法と異なり、提案した単段対人訓練法を用いて訓練されたモデルは、単段対人攻撃と多段対人攻撃の両方に対して堅牢であり、計算コストの高い多段対人訓練法を用いて訓練されたモデルと同等の性能である。 Deep learning models have shown impressive performance across a spectrum of computer vision applications including medical diagnosis and autonomous driving. One of the major concerns that these models face is their susceptibility to adversarial attacks. Realizing the importance of this issue, more researchers are working towards developing robust models that are less affected by adversarial attacks. Adversarial training method shows promising results in this direction. In adversarial training regime, models are trained with mini-batches augmented with adversarial samples. Fast and simple methods (e.g., single-step gradient ascent) are used for generating adversarial samples, in order to reduce computational complexity. It is shown that models trained using single-step adversarial training method (adversarial samples are generated using non-iterative method) are pseudo robust. Further, this pseudo robustness of models is attributed to the gradient masking effect. However, existing works fail to explain when and why gradient masking effect occurs during single-step adversarial training. In this work, (i) we show that models trained using single-step adversarial training method learn to prevent the generation of single-step adversaries, and this is due to over-fitting of the model during the initial stages of training, and (ii) to mitigate this effect, we propose a single-step adversarial training method with dropout scheduling. Unlike models trained using existing single-step adversarial training methods, models trained using the proposed single-step adversarial training method are robust against both single-step and multi-step adversarial attacks, and the performance is on par with models trained using computationally expensive multi-step adversarial training methods, in white-box and black-box settings. | 翻訳日:2022-12-12 05:09:01 公開日:2020-04-18 |
# コンピュータビジョンにおける適応的注意スパン Adaptive Attention Span in Computer Vision ( http://arxiv.org/abs/2004.08708v1 ) ライセンス: Link先を確認 | Jerrod Parker, Shakti Kumar, Joe Roussy | (参考訳) 言語モデリングのためのトランスフォーマーの最近の発展は、コンピュータビジョンにおける新しい研究分野を開拓した。
2019年後半に行われた研究では、コンボリューションをローカルな自己認識カーネルに置き換えた場合、オブジェクトの検出と認識の両方のパフォーマンスが大幅に向上した。
ローカルな自己アテンションカーネルを用いたモデルは、畳み込みのみを使用する等価アーキテクチャと比較してパラメータやFLOPSが少ないことも示されている。
本研究では,局所的な自己注意カーネルサイズを学習するための新しい手法を提案する。
次に、その性能を固定サイズのローカルアテンションと畳み込みカーネルと比較する。
すべての実験とモデルのコードはhttps://github.com/JoeRoussy/adaptive-attention-in-cvで公開されている。 Recent developments in Transformers for language modeling have opened new areas of research in computer vision. Results from late 2019 showed vast performance increases in both object detection and recognition when convolutions are replaced by local self-attention kernels. Models using local self-attention kernels were also shown to have less parameters and FLOPS compared to equivalent architectures that only use convolutions. In this work we propose a novel method for learning the local self-attention kernel size. We then compare its performance to fixed-size local attention and convolution kernels. The code for all our experiments and models is available at https://github.com/JoeRoussy/adaptive-attention-in-cv | 翻訳日:2022-12-12 05:08:31 公開日:2020-04-18 |
# 薬物レビューとソーシャルメディアによる薬物移動の促進 Enhancing Pharmacovigilance with Drug Reviews and Social Media ( http://arxiv.org/abs/2004.08731v1 ) ライセンス: Link先を確認 | Brent Biseda and Katie Mo | (参考訳) 本稿では、薬物レビューとソーシャルメディアの利用が、薬物反応の薬物移動(ADR)の代替として活用できるかどうかを考察する。
バイオメディカルペーパー「BioBERT7」と臨床ノート「クリニカルBERT8」の2種類の変種とともにBERTの性能を検討した。
8種類のBERTモデルは、ADRタスクにおける相対的な性能を評価するために、3つのタスク間で微調整され比較された。
このタスクには、薬物レビューの感情分類、Twitter投稿におけるADRの存在、Twitter投稿におけるADRのエンティティ認識が含まれる。
BERTは3つの薬物移動関連タスクで高いパフォーマンスで柔軟性を示す。 This paper explores whether the use of drug reviews and social media could be leveraged as potential alternative sources for pharmacovigilance of adverse drug reactions (ADRs). We examined the performance of BERT alongside two variants that are trained on biomedical papers, BioBERT7, and clinical notes, Clinical BERT8. A variety of 8 different BERT models were fine-tuned and compared across three different tasks in order to evaluate their relative performance to one another in the ADR tasks. The tasks include sentiment classification of drug reviews, presence of ADR in twitter postings, and named entity recognition of ADRs in twitter postings. BERT demonstrates its flexibility with high performance across all three different pharmacovigilance related tasks. | 翻訳日:2022-12-12 05:08:09 公開日:2020-04-18 |
# 時間適応型強化学習 Time Adaptive Reinforcement Learning ( http://arxiv.org/abs/2004.08600v1 ) ライセンス: Link先を確認 | Chris Reinke | (参考訳) 強化学習(RL)は、Goのような複雑なタスクを、人間よりも強いパフォーマンスで解決することができる。
しかし、学習された振る舞いは通常特定のタスクに固定され、異なるコンテキストに適応できない。
ここでは、あるタスクの実行から次のタスクへ変化する可能性のある所定の時間制限でタスクを完了するような、異なる時間制限にrlエージェントを適用する場合を考える。
このような問題を時間適応マルコフ決定プロセスとして定義し、独立ガンマ・センスブルとnステップアンサンブルという2つのモデルフリー価値ベースのアルゴリズムを導入する。
古典的アプローチと異なり、異なる時間制限間のゼロショット適応が可能である。
提案手法は、時間適応タスクを扱う一般的なメカニズムを示し、既存のRLメソッドやアルゴリズム、シナリオと互換性がある。 Reinforcement learning (RL) allows to solve complex tasks such as Go often with a stronger performance than humans. However, the learned behaviors are usually fixed to specific tasks and unable to adapt to different contexts. Here we consider the case of adapting RL agents to different time restrictions, such as finishing a task with a given time limit that might change from one task execution to the next. We define such problems as Time Adaptive Markov Decision Processes and introduce two model-free, value-based algorithms: the Independent Gamma-Ensemble and the n-Step Ensemble. In difference to classical approaches, they allow a zero-shot adaptation between different time restrictions. The proposed approaches represent general mechanisms to handle time adaptive tasks making them compatible with many existing RL methods, algorithms, and scenarios. | 翻訳日:2022-12-12 05:02:20 公開日:2020-04-18 |
# モデルベース強化学習におけるサバイバルモデル Modeling Survival in model-based Reinforcement Learning ( http://arxiv.org/abs/2004.08648v1 ) ライセンス: Link先を確認 | Saeed Moazami, Peggy Doerschuk | (参考訳) 最近のモデルフリー強化学習アルゴリズムは複雑な意思決定タスクを習得できることが示されているが、これらの手法のサンプル複雑さは多くの実世界のアプリケーションでそれらを利用する上でのハードルとなっている。
この点に関して、モデルに基づく強化学習はいくつかの改善を提案する。
しかし、本質的にモデルベースの手法は計算コストが高く、サブ最適性に影響を受けやすい。
1つの理由は、モデル生成データは常に実際のデータよりも正確ではなく、しばしば不正確な遷移と報酬関数モデルをもたらすことである。
この問題を緩和するために、エージェントの目的が生き残ることや、期待される報酬を最大化するための類似性について議論することで、生存の概念を提示する。
そのため、安全状態からの累積報酬を最大化するのではなく、終端状態を避けるために学習する報酬関数近似器の代替モデルが導入された。
終端状態に注目することは、少数の状態空間として、トレーニングの労力を大幅に削減する。
次に,端末状態近傍の時間的クレジット割り当てに基づく安全マップモデルを用いて,エージェントに危険な状態を避けるためのモデルに基づく強化学習手法(Survive)を提案する。
最後に,提案手法と現在の手法の比較を行い,提案アルゴリズムの性能について検討した。 Although recent model-free reinforcement learning algorithms have been shown to be capable of mastering complicated decision-making tasks, the sample complexity of these methods has remained a hurdle to utilizing them in many real-world applications. In this regard, model-based reinforcement learning proposes some remedies. Yet, inherently, model-based methods are more computationally expensive and susceptible to sub-optimality. One reason is that model-generated data are always less accurate than real data, and this often leads to inaccurate transition and reward function models. With the aim to mitigate this problem, this work presents the notion of survival by discussing cases in which the agent's goal is to survive and its analogy to maximizing the expected rewards. To that end, a substitute model for the reward function approximator is introduced that learns to avoid terminal states rather than to maximize accumulated rewards from safe states. Focusing on terminal states, as a small fraction of state-space, reduces the training effort drastically. Next, a model-based reinforcement learning method is proposed (Survive) to train an agent to avoid dangerous states through a safety map model built upon temporal credit assignment in the vicinity of terminal states. Finally, the performance of the presented algorithm is investigated, along with a comparison between the proposed and current methods. | 翻訳日:2022-12-12 05:02:00 公開日:2020-04-18 |
# テキスト色が単語埋め込みに与える影響 Effect of Text Color on Word Embeddings ( http://arxiv.org/abs/2004.08526v1 ) ライセンス: Link先を確認 | Masaya Ikoma, Brian Kenji Iwana, Seiichi Uchida | (参考訳) 自然の場面や文書では、テキストとその色の間に相関関係を見出すことができる。
例えば「ホット」という言葉は赤で印刷されることが多いが、「コールド」は青で印刷されることが多い。
この相関は、単語間の意味的な違いを表す特徴と考えることができる。
そこで本研究では,単語の埋め込みにテキストカラーを用いることを提案する。
テキストのみの単語埋め込み(例: word2vec)は非常に成功したが、しばしば文で交換可能であるため、同義語を表す。
本稿では,単語の意味を理解する上で,テキストカラーの有用性を検証するために,特に同義語やアンソニムの識別において2つのタスクを試行する。
まず,書籍の表紙画像から単語の色分布を定量化し,単語の色と意味の相関関係を解析する。
第2に,単語の色分布を制約として,単語埋め込みを再学習する。
再学習前後における同義語・異義語の単語埋め込みの変化を観察することで、テキストカラー情報を取り込む際に、単語埋め込みに肯定的または否定的な影響を及ぼす単語の種類を理解することを目的とする。 In natural scenes and documents, we can find the correlation between a text and its color. For instance, the word, "hot", is often printed in red, while "cold" is often in blue. This correlation can be thought of as a feature that represents the semantic difference between the words. Based on this observation, we propose the idea of using text color for word embeddings. While text-only word embeddings (e.g. word2vec) have been extremely successful, they often represent antonyms as similar since they are often interchangeable in sentences. In this paper, we try two tasks to verify the usefulness of text color in understanding the meanings of words, especially in identifying synonyms and antonyms. First, we quantify the color distribution of words from the book cover images and analyze the correlation between the color and meaning of the word. Second, we try to retrain word embeddings with the color distribution of words as a constraint. By observing the changes in the word embeddings of synonyms and antonyms before and after re-training, we aim to understand the kind of words that have positive or negative effects in their word embeddings when incorporating text color information. | 翻訳日:2022-12-12 05:01:39 公開日:2020-04-18 |
# コンボリューションニューラルネットを用いたKellgren-Lawrenceスケールによる膝関節症の自動移植 Automatic Grading of Knee Osteoarthritis on the Kellgren-Lawrence Scale from Radiographs Using Convolutional Neural Networks ( http://arxiv.org/abs/2004.08572v1 ) ライセンス: Link先を確認 | Sudeep Kondal, Viraj Kulkarni, Ashrika Gaikwad, Amit Kharat, Aniruddha Pant | (参考訳) 膝関節炎の重症度は、健常膝を0等級に割り当てる5点のケルグレン・ラーレンス(KL)尺度を用いて評価され、その後のグレード1〜4は、重症度の増加を表す。
近年、所定のラジオグラフからklグレードを自動的に予測できるモデルを開発するためのいくつかの方法が提案されているが、ほとんどのモデルはインドから出ていないデータセットに基づいて開発と評価されている。
これらのモデルは、インドの患者のX線写真でうまく機能しない。
本稿では,畳み込みニューラルネットワークを用いて膝x線をklスケールで自動的に評価する手法を提案する。
第1段階では物体検出モデルが画像の残りの部分から個々の膝を分割し,第2段階では回帰モデルが各膝をKLスケールで別々に評価する。
我々は,OAIデータセットを用いてモデルをトレーニングし,個人病院のデータセットで評価する前にモデルを微調整し,平均絶対誤差を1.09 (95% CI: 1.03-1.15) から 0.28 (95% CI: 0.25-0.32) に著しく改善することを示した。
さらに、同一タスク用に構築された分類モデルと回帰モデルを比較し、回帰が分類より優れていることを示す。 The severity of knee osteoarthritis is graded using the 5-point Kellgren-Lawrence (KL) scale where healthy knees are assigned grade 0, and the subsequent grades 1-4 represent increasing severity of the affliction. Although several methods have been proposed in recent years to develop models that can automatically predict the KL grade from a given radiograph, most models have been developed and evaluated on datasets not sourced from India. These models fail to perform well on the radiographs of Indian patients. In this paper, we propose a novel method using convolutional neural networks to automatically grade knee radiographs on the KL scale. Our method works in two connected stages: in the first stage, an object detection model segments individual knees from the rest of the image; in the second stage, a regression model automatically grades each knee separately on the KL scale. We train our model using the publicly available Osteoarthritis Initiative (OAI) dataset and demonstrate that fine-tuning the model before evaluating it on a dataset from a private hospital significantly improves the mean absolute error from 1.09 (95% CI: 1.03-1.15) to 0.28 (95% CI: 0.25-0.32). Additionally, we compare classification and regression models built for the same task and demonstrate that regression outperforms classification. | 翻訳日:2022-12-12 05:01:21 公開日:2020-04-18 |
# 進化的遺伝的アルゴリズムと最小ラベル付けスタイナーツリー問題への応用 Devolutionary genetic algorithms with application to the minimum labeling Steiner tree problem ( http://arxiv.org/abs/2004.10048v1 ) ライセンス: Link先を確認 | Nassim Dehouche | (参考訳) 本稿では,進化的遺伝的アルゴリズムを特徴付け,議論し,最小ラベリングスタイナー木(mlst)問題を解く際の性能評価を行う。
我々は、超最適解の集団を時間をかけて回転させることによって実現可能な解に到達する過程として、進化的アルゴリズムを定義する。
広く使われている進化的アルゴリズムと区別することは適切であると主張する。
最も重要な違いは、以前のタイプのプロセスでは、値関数が連続した世代の解よりも減少し、計算プロセスに自然停止条件を与えるという事実にある。
われわれは, 交差, 突然変異, 適合性などの古典的進化的概念が, 第一世代の実現可能な解の最適解, 最適解に到達するためにどのように適応できるかを示す。
さらに,mlst問題に対する新しい整数線形計画定式化と,進化過程の高速化に有効な制約を導入する。
最後に,devolutionaryアルゴリズムの性能と,mlst問題のランダム生成問題の解法として用いられる最先端手法との比較実験を行う。
この実験の結果は、mlst問題に対するdevolutionaryアルゴリズムの使用と、他のnp-hard combinatorial optimization問題に対するそれらの開発をサポートする。 This paper characterizes and discusses devolutionary genetic algorithms and evaluates their performances in solving the minimum labeling Steiner tree (MLST) problem. We define devolutionary algorithms as the process of reaching a feasible solution by devolving a population of super-optimal unfeasible solutions over time. We claim that distinguishing them from the widely used evolutionary algorithms is relevant. The most important distinction lies in the fact that in the former type of processes, the value function decreases over successive generation of solutions, thus providing a natural stopping condition for the computation process. We show how classical evolutionary concepts, such as crossing, mutation and fitness can be adapted to aim at reaching an optimal or close-to-optimal solution among the first generations of feasible solutions. We additionally introduce a novel integer linear programming formulation of the MLST problem and a valid constraint used for speeding up the devolutionary process. Finally, we conduct an experiment comparing the performances of devolutionary algorithms to those of state of the art approaches used for solving randomly generated instances of the MLST problem. Results of this experiment support the use of devolutionary algorithms for the MLST problem and their development for other NP-hard combinatorial optimization problems. | 翻訳日:2022-12-12 05:00:23 公開日:2020-04-18 |
# 不規則空間多変量観測による時系列のカーネル Kernels for time series with irregularly-spaced multivariate observations ( http://arxiv.org/abs/2004.08545v1 ) ライセンス: Link先を確認 | Ahmed Guecioueur and Franz J. Kir\'aly | (参考訳) 時系列はカーネルベースの手法にとって興味深いフロンティアであり、それらを表現するために設計されたカーネルが存在しないという単純な理由と、それらの特徴が完全な一般性を持つためである。
既存のシーケンシャルカーネルは時間指標を無視し、列は周期的に空間化されなければならないと仮定することが多い。
本稿では、不規則な空間を持つ多変量時系列を表現するのに十分な「系列カーネル」が、よく知られた「ベクトルカーネル」から構築されることを示す。
また,本手法を用いて構築した全てのシリーズカーネルはpsdであり,広く適用可能であることを示す。
この点を、ガウスのプロセスベースの戦略 - シリーズカーネルを中心に - を定式化し、トレーニングセットが与えられたときのテストシリーズについて予測する。
我々は,複数のデータセット上での一般化誤差を推定し,関連するベースラインと比較することにより,その戦略を実験的に検証する。
また,我々の時系列カーネルは,従来の時系列分類において,その性能が他の手法と概ね一致している場合に適用可能であることを実証した。 Time series are an interesting frontier for kernel-based methods, for the simple reason that there is no kernel designed to represent them and their unique characteristics in full generality. Existing sequential kernels ignore the time indices, with many assuming that the series must be regularly-spaced; some such kernels are not even psd. In this manuscript, we show that a "series kernel" that is general enough to represent irregularly-spaced multivariate time series may be built out of well-known "vector kernels". We also show that all series kernels constructed using our methodology are psd, and are thus widely applicable. We demonstrate this point by formulating a Gaussian process-based strategy - with our series kernel at its heart - to make predictions about test series when given a training set. We validate the strategy experimentally by estimating its generalisation error on multiple datasets and comparing it to relevant baselines. We also demonstrate that our series kernel may be used for the more traditional setting of time series classification, where its performance is broadly in line with alternative methods. | 翻訳日:2022-12-12 04:59:45 公開日:2020-04-18 |
# あなたはリスクテイカーですか?
リスク許容予測のための非対称クロスドメインアライメントの逆学習 Are You A Risk Taker? Adversarial Learning of Asymmetric Cross-Domain Alignment for Risk Tolerance Prediction ( http://arxiv.org/abs/2004.08581v1 ) ライセンス: Link先を確認 | Zhe Liu, Lina Yao, Xianzhi Wang, Lei Bai and Jake An | (参考訳) 調査分析とリスク許容モデリングに関する最近の研究は、専門知識やドメイン固有モデルが欠如している。
クロスドメイン情報における生成逆数学習の有効性を考慮し、ドメインスケールの不等式に対する非対称なクロスドメイン生成逆数ネットワーク(ADGAN)を設計する。
ADGANは情報不足ドメインを利用して情報不足ドメインの表現学習を改善するために追加情報を提供する。
消費者消費情報と調査情報という2つのデータソースにデータ分析とユーザモデルを提供する。
また,ADGANが非対称なドメイン情報を活用することの有効性を実証し,組込み構造を持つ実世界のデータセット上でADGANをさらにテストし,クラス不均衡や不平等なデータ空間に対処できることを示す。 Most current studies on survey analysis and risk tolerance modelling lack professional knowledge and domain-specific models. Given the effectiveness of generative adversarial learning in cross-domain information, we design an Asymmetric cross-Domain Generative Adversarial Network (ADGAN) for domain scale inequality. ADGAN utilizes the information-sufficient domain to provide extra information to improve the representation learning on the information-insufficient domain via domain alignment. We provide data analysis and user model on two data sources: Consumer Consumption Information and Survey Information. We further test ADGAN on a real-world dataset with view embedding structures and show ADGAN can better deal with the class imbalance and unqualified data space than state-of-the-art, demonstrating the effectiveness of leveraging asymmetrical domain information. | 翻訳日:2022-12-12 04:59:25 公開日:2020-04-18 |