このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20200515となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 導波路結合歪局在2次元量子エミッタからの共鳴蛍光 Resonance fluorescence from waveguide-coupled strain-localized two-dimensional quantum emitters ( http://arxiv.org/abs/2002.07657v3 ) ライセンス: Link先を確認 | Carlos Errando-Herranz, Eva Sch\"oll, Rapha\"el Picard, Micaela Laini, Samuel Gyger, Ali W. Elshaari, Art Branny, Ulrika Wennberg, Sebastien Barbat, Thibaut Renaud, Mauro Brotons-Gisbert, Cristian Bonato, Brian D. Gerardot, Val Zwiller, and Klaus D. J\"ons | (参考訳) 単一光子エミッタの効率的なオンチップ集積は、量子技術におけるフォトニック集積回路の応用に大きなボトルネックを課す。
共鳴励起固体エミッタは、現在のデバイスのスケーラビリティの欠如のためでなくても、ほぼ最適の量子光源として出現している。
現在の統合アプローチは、フォトニック集積回路におけるコスト非効率な個々のエミッタ配置に依存しており、アプリケーションは不可能である。
有望なスケーラブルなプラットフォームは2次元(2D)半導体に基づいている。
しかし、導波管に結合した2Dエミッタの共鳴励起と単一光子放出は、解明されている。
本稿では、窒化ケイ素フォトニック導波路を用いて、タングステンジセレニド(wse2)単分子層から単一光子エミッタを同時に歪配置し、それらを導波路モードに結合するスケーラブルな手法を示す。
我々は、g$^{(2)}(0)=0.150\pm0.093$の2次自己相関を測り、g$^{(2)}(0)=0.377\pm0.081$のオンチップ共鳴励起を行うことにより、フォトニック回路における単一光子の導出を示す。
この結果は、量子状態のコヒーレントな制御と、スケーラブルなフォトニック量子回路における高品質な単一光子の多重化を実現するための重要なステップである。 Efficient on-chip integration of single-photon emitters imposes a major bottleneck for applications of photonic integrated circuits in quantum technologies. Resonantly excited solid-state emitters are emerging as near-optimal quantum light sources, if not for the lack of scalability of current devices. Current integration approaches rely on cost-inefficient individual emitter placement in photonic integrated circuits, rendering applications impossible. A promising scalable platform is based on two-dimensional (2D) semiconductors. However, resonant excitation and single-photon emission of waveguide-coupled 2D emitters have proven to be elusive. Here, we show a scalable approach using a silicon nitride photonic waveguide to simultaneously strain-localize single-photon emitters from a tungsten diselenide (WSe2) monolayer and to couple them into a waveguide mode. We demonstrate the guiding of single photons in the photonic circuit by measuring second-order autocorrelation of g$^{(2)}(0)=0.150\pm0.093$ and perform on-chip resonant excitation yielding a g$^{(2)}(0)=0.377\pm0.081$. Our results are an important step to enable coherent control of quantum states and multiplexing of high-quality single photons in a scalable photonic quantum circuit. | 翻訳日:2023-06-03 07:10:33 公開日:2020-05-15 |
# lewis-riesenfeld不変性と量子正準変換の存在に対する位置依存的有効質量と外部ポテンシャルの選択に関する制約 Constraints on the choice of position dependent effective mass and external potential for the existence of Lewis-Riesenfeld invariance and quantum canonical transformation ( http://arxiv.org/abs/2003.13424v2 ) ライセンス: Link先を確認 | Kalpana Biswas, Jyoti Prasad Saha, Pinaki Patra | (参考訳) lewis-riesenfeld -ermakov の時間依存位相空間不変量(英語版)(time-dependent phase-space invariant)構築のための不変量法(lr)は、位置依存実効質量(pdem)ハミルトニアンを持つ一般量子系に対して拡張される。
PDEMの特定のクラスと特定の外部ポテンシャルのクラスだけが、LR不変作用素を閉形式で表すことが判明した。
そして、関連するPDEMおよび外部ポテンシャルに対する一元的時間依存量子正準変換のクラスを決定し、等価な時間依存型PDEMハミルトンが得られるようにした。 Lewis-Riesenfeld -Ermakov's (LR) invariant method for the construction of time-dependent phase-space invariant is extended for the general quantum system with position-dependent effective mass (PDEM) Hamiltonian. It turns out that, only a specific class of PDEM and a particular class of external potentials will exhibit the LR-invariant operator in close form. Then we have determined a class of unitary time-dependent quantum canonical transformation for the concerned PDEM and external potentials so that an equivalent time-independent PDEM Hamiltonian is obtained. | 翻訳日:2023-05-28 19:57:50 公開日:2020-05-15 |
# 半古典的量子マルコフマスター方程式。
ケーススタディ:マルチスピン系の連続波磁気共鳴 Semiclassical Quantum Markovian Master Equations. Case Study: Continuous Wave Magnetic Resonance of Multispin Systems ( http://arxiv.org/abs/2004.10872v2 ) ライセンス: Link先を確認 | Jerryman A. Gyamfi | (参考訳) 環境/貯水池を古典的な記述に割り当てる際に,リンドブラッド型マスター方程式を導出する手法を提案する。
概念実証として、この手法を連続波(cw)磁気共鳴に適用する。
我々は、"affine commutation perturbation"(ACP)と呼ばれる摂動スキームを利用している。
従来の摂動法とは異なり、ACPは摂動の効果をゼロ階近似でも取り入れる利点がある。
実際、我々はここでゼロ階に集中し、最も低い階でも、ACPスキームが非自明で等しく重要な結果をもたらすことを示す。
文学における純粋量子マルコフマスター方程式と対照的に、我々は、摂動の全ての順序において、システム-環境相互作用における線形という用語を明示的に保持する。
ゼロ階数では、この結果が非CP (Completely Positive) 写像となるが、漸近的に CP 写像に $t \to +\infty$ として近づく。
また,この線形項は環境の存在に対する系の線形応答をも考慮し,そのような(半古典的)リンドブラッド様のマスター方程式の域内における線形応答理論 (lrt) のハービンガーであると主張する。
力学の断熱過程の限界も定義されており、CW磁気共鳴の文脈でかなり検討されている。
ここでは、同じ線形項が標準(断熱過程) LRT (Kubo と co. によって定式化された) とリンドブラッドのようなマスター方程式の間の優越的なリンクとして現れる。
そこで本研究では,マルチスピン系のステイスト・プロットcw磁気共鳴スペクトルが,特定の条件下で容易に生成できることを示す。 We propose a method for deriving Lindblad-like master equations when the environment/reservoir is consigned to a classical description. As a proof of concept, we apply the method to continuous wave (CW) magnetic resonance. We make use of a perturbation scheme we have termed "affine commutation perturbation" (ACP). Unlike traditional perturbation methods, ACP has the advantage of incorporating some effects of the perturbation even at the zeroth-order approximation. Indeed, we concentrate here on the zeroth-order, and show how -- even at this lowest order -- the ACP scheme can still yield non-trivial and equally important results. In contradistinction to the purely quantum Markovian master equations in the literature, we explicitly keep the term linear in the system-environment interaction -- at all orders of the perturbation. At the zeroth-order, we show that this results in a dynamics whose map is non-CP (Completely Positive) but approaches asymptotically a CP map as $t \to +\infty$. We also argue that this linear term accounts for the linear response of the system to the presence of the environment -- thus the harbinger for a linear response theory (LRT) within the confines of such (semiclassical) Lindblad-like master equations. The adiabatic process limit of the dynamics is also defined, and considerably explored in the context of CW magnetic resonance. Here, the same linear term emerges as the preeminent link between standard (adiabatic process) LRT (as formulated by Kubo and co.) and Lindblad-like master equations. And with it, we show how simple stick-plot CW magnetic resonance spectra of multispin systems can be easily generated under certain conditions. | 翻訳日:2023-05-22 10:48:09 公開日:2020-05-15 |
# Covid-19パンデミックとポストパンデミック世界における早期アルツハイマー病に対するコンピュータ認知トレーニングの促進 Advancing computerized cognitive training for early Alzheimer's disease in a Covid-19 pandemic and post-pandemic world ( http://arxiv.org/abs/2004.14344v2 ) ライセンス: Link先を確認 | Kaylee A. Bodner, Terry E. Goldberg, D. P. Devanand, P. Murali Doraiswamy | (参考訳) 新型コロナウイルス(COVID-19)のパンデミックは、モバイルの健康アプリケーションや遠隔医療を、ツールを必須の医療インフラに変えた。
この必要性は、感染のリスクが高く、医療施設を避けたり、自己隔離を要求される高齢者にとって特に大きい。
これらはまた、認知的低下のリスクが最も高いグループでもある。
例えば、新型コロナウイルス(COVID-19)のパンデミックの間、人工的にインテリジェントな会話エージェントが病院や政府機関(CDCなど)に使われ、症状や治療に関する患者からの問い合わせに焦点が当てられた。
デジタルヘルスツールはまた、在宅または老人ホームで隔離された人々や老人ホームで神経心理学的および心理的セルフヘルプを提供するのに有用であることが証明された。 The COVID-19 pandemic has transformed mobile health applications and telemedicine from nice to have tools into essential healthcare infrastructure. This need is particularly great for the elderly who, due to their greater risk for infection, may avoid medical facilities or be required to self-isolate. These are also the very groups at highest risk for cognitive decline. For example, during the COVID-19 pandemic artificially intelligent conversational agents were employed by hospitals and government agencies (such as the CDC) to field queries from patients about symptoms and treatments. Digital health tools also proved invaluable to provide neuropsychiatric and psychological self-help to people isolated at home or in retirement centers and nursing homes. | 翻訳日:2023-05-21 19:28:00 公開日:2020-05-15 |
# bluetoothスマートフォンアプリ:新型コロナウイルス(covid-19)の接触追跡に最もプライベートで効果的なソリューションか? Bluetooth Smartphone Apps: Are they the most private and effective solution for COVID-19 contact tracing? ( http://arxiv.org/abs/2005.06621v2 ) ライセンス: Link先を確認 | Scott McLachlan, Peter Lucas, Kudakwashe Dube, Graham A Hitman, Magda Osman, Evangelia Kyrimi, Martin Neil, Norman E Fenton | (参考訳) Bluetooth技術を中心とした多くのデジタルソリューションが、新型コロナウイルスの拡散を減らすためにContact Tracing Apps (CTA)のために提案されている。
プライバシー、同意、特定の人口の獲得、CTAの使用の程度が個人の行動に影響を与えるのではないかという懸念が高まっている。
しかし、全体論的アプローチを採り、組み合わせた解を提示するグループはほとんどない。
コミュニティの最も示唆されるメンバーでさえ、CTAが目に見えない盾として機能し、私たちと私たちの家族が病気に感染しやすく、または免疫できないと仮定できるように、CTAを提示した人はいません。
我々は現在開発中のデジタルソリューションのいくつかを構築することを提案し、従来の症状や接触追跡によって補完される感染の可能性を予測するベイズモデルを追加することにより、人口の90%に達することができる。
効果的なコミュニケーション戦略とソーシャルディスタンシングを組み合わせることで、ここで提案されているようなソリューションが、このパンデミックの広がりを封じ込めることに非常に有益な効果があると考えています。 Many digital solutions mainly involving Bluetooth technology are being proposed for Contact Tracing Apps (CTA) to reduce the spread of COVID-19. Concerns have been raised regarding privacy, consent, uptake required in a given population, and the degree to which use of CTAs can impact individual behaviours. However, very few groups have taken a holistic approach and presented a combined solution. None has presented their CTA in such a way as to ensure that even the most suggestible member of our community does not become complacent and assume that CTA operates as an invisible shield, making us and our families impenetrable or immune to the disease. We propose to build on some of the digital solutions already under development that, with addition of a Bayesian model that predicts likelihood for infection supplemented by traditional symptom and contact tracing, that can enable us to reach 90% of a population. When combined with an effective communication strategy and social distancing, we believe solutions like the one proposed here can have a very beneficial effect on containing the spread of this pandemic. | 翻訳日:2023-05-20 19:59:10 公開日:2020-05-15 |
# 新型コロナウイルス研究の可視化 Visualising COVID-19 Research ( http://arxiv.org/abs/2005.06380v2 ) ライセンス: Link先を確認 | Pierre Le Bras, Azimeh Gharavi, David A. Robb, Ana F. Vidal, Stefano Padilla, Mike J. Chantler | (参考訳) 2020年の世界では、新型コロナウイルス(covid-19)の新型ウイルスであるsars-cov-2が世界中で発生し、私たちの生活や労働環境が劇的に変化した。
多くの科学者は治療とワクチンを見つけるために疲れずに働いています。
さらに、政府や科学機関、企業は、このパンデミックの解決を目的としたイノベーションと発見を加速するために、資金や大量のデータリポジトリの開設など、リソースを利用できるように迅速に行動している。
本稿では,大規模コーパスの高度なデータモデリング,情報マッピング,トレンド分析を組み合わせ,トピックや研究資源を素早く発見するためのトップダウンとボトムアップのブラウジングと検索インターフェースを提供する,新しいテーマベースビジュアライゼーション手法を開発する。
この方法は、最近リリースされた2つの出版データセット(DimensionsのCOVID-19データセットとAllen Institute for AIのCORD-19)に適用する。
その結果,ソーシャルディスタンシング,クロスドメイン・イニシアチブ(メンタルヘルスや教育など),医学的な研究の進展,出版物を通じて異なる領域におけるウイルスの広がりの軌跡など,興味深い情報が明らかになった。
また,大規模コーパスの検索と閲覧を迅速かつ自動的に行う必要性も示した。
われわれの方法では、将来の大規模可視化と発見システムの改善が期待されていますが、現在の可視化インターフェースは、科学者、研究者、一般大衆が新型コロナウイルス(COVID-19)パンデミックとの戦いにおける多くの問題に取り組むのに役立つことを期待しています。 The world has seen in 2020 an unprecedented global outbreak of SARS-CoV-2, a new strain of coronavirus, causing the COVID-19 pandemic, and radically changing our lives and work conditions. Many scientists are working tirelessly to find a treatment and a possible vaccine. Furthermore, governments, scientific institutions and companies are acting quickly to make resources available, including funds and the opening of large-volume data repositories, to accelerate innovation and discovery aimed at solving this pandemic. In this paper, we develop a novel automated theme-based visualisation method, combining advanced data modelling of large corpora, information mapping and trend analysis, to provide a top-down and bottom-up browsing and search interface for quick discovery of topics and research resources. We apply this method on two recently released publications datasets (Dimensions' COVID-19 dataset and the Allen Institute for AI's CORD-19). The results reveal intriguing information including increased efforts in topics such as social distancing; cross-domain initiatives (e.g. mental health and education); evolving research in medical topics; and the unfolding trajectory of the virus in different territories through publications. The results also demonstrate the need to quickly and automatically enable search and browsing of large corpora. We believe our methodology will improve future large volume visualisation and discovery systems but also hope our visualisation interfaces will currently aid scientists, researchers, and the general public to tackle the numerous issues in the fight against the COVID-19 pandemic. | 翻訳日:2023-05-20 07:51:43 公開日:2020-05-15 |
# 周期配置したニオブ酸リチウム導波路における低温第2高調波発生 Cryogenic second harmonic generation in periodically-poled lithium niobate waveguides ( http://arxiv.org/abs/2005.07500v1 ) ライセンス: Link先を確認 | Moritz Bartnick, Matteo Santandrea, Jan Philipp Hoepker, Frederik Thiele, Raimund Ricken, Viktor Quiring, Christof Eigner, Harald Herrmann, Christine Silberhorn and Tim J. Bartley | (参考訳) 将来的な集積量子光学技術は、低温を必要とする非線形光学とコンポーネントを組み合わせる。
例えば量子状態の生成や周波数変換に使用される量子光学のための$\chi^{(2)}$非線形性を利用した統合プラットフォームが普及しているにもかかわらず、低温での材料特性はほとんど研究されていない。
ここでは,4.4k以下の温度で,繊維結合型ニオブ酸リチウム導波路における第1次高調波発生を実証する。
温度サイクリング中の過渡的不連続に加えて,通信帯域内の位相整合ポンプ波長の再現可能なシフトを観測した。
本研究は, 低温量子技術に適合する多目的非線形フォトニック集積プラットフォームとしてニオブ酸リチウムを確立した。 Prospective integrated quantum optical technologies will combine nonlinear optics and components requiring cryogenic operating temperatures. Despite the prevalence of integrated platforms exploiting $\chi^{(2)}$-nonlinearities for quantum optics, for example used for quantum state generation and frequency conversion, their material properties at low temperatures are largely unstudied. Here, we demonstrate the first second harmonic generation in a fiber-coupled lithium niobate waveguide at temperatures down to 4.4K. We observe a reproducible shift in the phase-matched pump wavelength within the telecom band, in addition to transient discontinuities while temperature cycling. Our results establish lithium niobate as a versatile nonlinear photonic integration platform compatible with cryogenic quantum technologies. | 翻訳日:2023-05-20 03:25:51 公開日:2020-05-15 |
# 生涯学習者のための労働市場情報・個人化・OER推薦システム Labour Market Information Driven, Personalized, OER Recommendation System for Lifelong Learners ( http://arxiv.org/abs/2005.07465v1 ) ライセンス: Link先を確認 | Mohammadreza Tavakoli, Stefan T. Mol, and G\'abor Kismih\'ok | (参考訳) 本稿では、生涯学習者が関連するOERベースの学習コンテンツにアクセスし、労働市場に要求されるマスタースキルにアクセスできる新しい方法を提案する。
私たちのソフトウェアプロトタイプは
1) 職種分類とテキストマイニングを空白告知に適用し、生涯学習者が対象とする有意義なスキル構成要素にジョブを分解する。
2) OERレコメンダシステムを作成し,学習者が自身のスキル目標に向かって進むための個別学習コンテンツを提案する。
このプロトタイプの最初の評価では、データサイエンティストとメカニカルエンジニアという2つの仕事領域に注目しました。
我々は,スキル抽出手法を適用し,これらの仕事をターゲットにした学習者にOERレコメンデーションを提供した。
提案するプロトタイプの目的,論理,学習への貢献という観点から,12の主題の専門家を対象に,詳細な半構造化インタビューを行った。
150以上のレコメンデーションが作成され、76.9%のレコメンデーションが面接者によって有用として扱われた。
インタビューの結果,労働市場の要求するスキルに基づいて,個人化されたOERレコメンデーションシステムは,生涯学習者の学習体験を改善する可能性があることがわかった。 In this paper, we suggest a novel method to aid lifelong learners to access relevant OER based learning content to master skills demanded on the labour market. Our software prototype 1) applies Text Classification and Text Mining methods on vacancy announcements to decompose jobs into meaningful skills components, which lifelong learners should target; and 2) creates a hybrid OER Recommender System to suggest personalized learning content for learners to progress towards their skill targets. For the first evaluation of this prototype we focused on two job areas: Data Scientist, and Mechanical Engineer. We applied our skill extractor approach and provided OER recommendations for learners targeting these jobs. We conducted in-depth, semi-structured interviews with 12 subject matter experts to learn how our prototype performs in terms of its objectives, logic, and contribution to learning. More than 150 recommendations were generated, and 76.9% of these recommendations were treated as useful by the interviewees. Interviews revealed that a personalized OER recommender system, based on skills demanded by labour market, has the potential to improve the learning experience of lifelong learners. | 翻訳日:2023-05-20 03:25:40 公開日:2020-05-15 |
# 分散台帳上のトークン資産の可搬性に関する要因 Factors in the Portability of Tokenized Assets on Distributed Ledgers ( http://arxiv.org/abs/2005.07461v1 ) ライセンス: Link先を確認 | Richard Barnes | (参考訳) 分散台帳技術に展開される資産のトークン化は、伝統的に流動性のない資産を1次および2次市場で売買することを可能にし、資産流動性、透明性、取引完了時間を短縮することで金融サービスを革新させるためにますます引用されている。
これらの利点を実現するために、トークンは、すなわち、ある分散台帳から別の台帳へ移植可能であることが重要である。
本稿では,現在の相互運用アーキテクチャとスマートコントラクト言語を調査し,トークン資産の可搬性に影響を与える要因を明らかにする。
本稿では,現在の技術状況の評価と市場インフラ支援に役立つポータビリティ成熟度モデルを提案する。 The tokenization of assets deployed to distributed ledger technology is increasingly cited to revolutionize financial services by allowing traditionally illiquid assets to be bought and sold on primary and secondary markets increasing asset liquidity, transparency and reducing transaction completion time. To realize these benefits it is important the token is transferrable, that is, portable from one distributed ledger to another. In this paper we survey current interoperability architectures and smart contract languages, identifying factors affecting the portability of tokenized assets. We propose a portability maturity model that can be used to help assess the current state of technology and supporting market infrastructure. | 翻訳日:2023-05-20 03:25:19 公開日:2020-05-15 |
# ナノ導波路とのカップリングによるナノ粒子特性の光学的検出 Optical detection of nano-particle characteristics using coupling to a nano-waveguide ( http://arxiv.org/abs/2005.07369v1 ) ライセンス: Link先を確認 | Masakazu Sugawara, Yasuyoshi Mitsumori, Keiichi Edamatsu, and Mark Sadgrove | (参考訳) 近年,ナノスケール導波路とナノ結晶およびその他のナノ粒子の組み合わせに関する多くの研究が報告されている。
このようなシステムの性質を検証する最も有用で便利な方法は光検出である。
しかし, 回折限界のため, 粒子の種類, 粒子位置などの光学的特徴の同定は困難あるいは不可能である。
しかし、そのような粒子を導波路上に配置すると、散乱光と導波路モードとのカップリングによって粒子に関する情報が明らかになる。
ここでは、任意の偏光の光による照明が、光学ナノファイバーの表面に置かれた等方性ナノ粒子と非等方性ナノ粒子の違いを明らかにする方法について考察する。
具体的には、光ナノファイバー表面における金ナノロッド(GNR)の偏光応答関数を測定し、金ナノ球(GNS)と質的に異なることを示す。
この実験手法は、ハイブリッドナノ光学デバイスの光学的キャラクタリゼーションのための単純な新しいツールを提供する。 Recently, much research concerning the combination of nano-scale waveguides with nano-crystals and other nano-particles has been reported, because of possible applications in the field of quantum information and communication. The most useful and convenient method to verify the nature of such systems is optical detection. However, due to the diffraction limit, optical identification of characteristics such as particle type, particle position, etc is difficult or impossible. However, if such particles are placed on a waveguide, the coupling of scattered light to the waveguide guided modes can reveal the information about the particles. Here we consider how illumination with light of arbitrary polarization can reveal the difference between isotropic and non-isotropic nano-particles placed on the surface of an optical nanofiber. Specifically, we measure the polarization response function of gold nano-rods (GNRs) on an optical nanofiber surface and show that it is qualitatively different to that for gold nano-spheres (GNSs). This experimental technique provides a simple new tool for the optical characterization of hybrid nano-optical devices. | 翻訳日:2023-05-20 03:24:47 公開日:2020-05-15 |
# 周期的に駆動されるRydberg鎖における真空状態のダイナミクス Dynamics of the vacuum state in a periodically driven Rydberg chain ( http://arxiv.org/abs/2005.07715v1 ) ライセンス: Link先を確認 | Bhaskar Mukherjee, Arnab Sen, Diptiman Sen, K. Sengupta | (参考訳) 高駆動振幅限界における2乗パルスプロトコルを用いて、リドベルク励起ゼロの状態から始まる周期的に駆動されるリドベルク連鎖のダイナミクス($|0\rangle$で表される真空状態)を研究する。
有限系サイズに対する厳密な対角化(l\le 26$)を用いて、我々がチャートアウトするドライブ周波数の範囲内で、システムのフロッケハミルトニアンが、$|0\rangle$状態と大きな重なりを持つ量子スカーをホストしていることを示す。
これらの傷痕は、最大Rydberg励起状態(|\mathbb{Z}_2\rangle$)と高い重なり合いを持つものとは違い、後者の傷痕のクラスと共存し、|0\rangle$状態から始まる密度密度相関子の持続的コヒーレント振動を引き起こす。
また、システムが完全に動的凍結する特別な駆動周波数を特定し、この現象を解析的に説明する。
最後に, 広帯域の駆動周波数に対して, 密度-密度相関器のサブサーマル値を持つ定常状態に達することを実証する。
そのような準熱的定常状態の存在は、$|\mathbb{Z}_2\rangle$状態から始まる力学には欠落しており、これは、以前に報告された傷痕誘起持続振動により異なる有限サイズのリドベルク鎖における固有状態熱化仮説の弱い違反を意味する。
熱力学的極限において、そのような状態は不均一に緩やかな緩和を示す予熱定常状態として存在すると推測する。
高振幅限界におけるフロケ摂動理論を用いてフロケ・ハミルトニアンの解析式を導出し, 任意の駆動周波数でこれらの現象を解析的かつ定性的に理解することで, 計算結果を補足する。
理論を検証できる実験について論じる。 We study the dynamics of the periodically driven Rydberg chain starting from the state with zero Rydberg excitations (vacuum state denoted by $|0\rangle$) using a square pulse protocol in the high drive amplitude limit. We show, using exact diagonalization for finite system sizes ($L\le 26$), that the Floquet Hamiltonian of the system, within a range of drive frequencies which we chart out, hosts a set of quantum scars which have large overlap with the $|0\rangle$ state. These scars are distinct from their counterparts having high overlap with the maximal Rydberg excitation state ($|\mathbb{Z}_2\rangle$); they coexist with the latter class of scars and lead to persistent coherent oscillations of the density-density correlator starting from the $|0\rangle$ state. We also identify special drive frequencies at which the system undergoes perfect dynamic freezing and provide an analytic explanation for this phenomenon. Finally, we demonstrate that for a wide range of drive frequencies, the system reaches a steady state with sub-thermal values of the density-density correlator. The presence of such sub-thermal steady states, which are absent for dynamics starting from the $|\mathbb{Z}_2\rangle$ state, imply a weak violation of the eigenstate thermalization hypothesis in finite sized Rydberg chains distinct from that due to the scar-induced persistent oscillations reported earlier. We conjecture that in the thermodynamic limit such states may exist as pre-thermal steady states that show anomalously slow relaxation. We supplement our numerical results by deriving an analytic expression for the Floquet Hamiltonian using a Floquet perturbation theory in the high amplitude limit which provides an analytic, albeit qualitative, understanding of these phenomena at arbitrary drive frequencies. We discuss experiments which can test our theory. | 翻訳日:2023-05-20 03:16:43 公開日:2020-05-15 |
# 量子カオス運動への古典的経路 Classical route to quantum chaotic motions ( http://arxiv.org/abs/2005.07714v1 ) ライセンス: Link先を確認 | Nan Yang, Xuedong Hu, Yong-Chun Liu, Ting Yu, and Franco Nori | (参考訳) 量子運動の情報を抽出し、1つの測定可能な量によってある軌道に復号する。
量子カオス系はカオス的誘引子として再構成できる。
この軌道を再構成するための2つの構成を図示し、確率論的性質と不確実性原理の観点から量子カオス運動を解釈する。
さらに,古典的カオスを量子系にインポートする手法を提案し,古典的カオスと量子世界との関係を明らかにする。 We extract the information of a quantum motion and decode it into a certain orbit via a single measurable quantity. Such that a quantum chaotic system can be reconstructed as a chaotic attractor. Two configurations for reconstructing this certain orbit are illustrated, which interpret quantum chaotic motions from the perspectives of probabilistic nature and the uncertainty principle, respectively. We further present a strategy to import classical chaos to a quantum system, revealing a connection between the classical and quantum worlds. | 翻訳日:2023-05-20 03:16:04 公開日:2020-05-15 |
# 量子振幅推定のための効率的な状態準備 Efficient State Preparation for Quantum Amplitude Estimation ( http://arxiv.org/abs/2005.07711v1 ) ライセンス: Link先を確認 | Almudena Carrera Vazquez, Stefan Woerner | (参考訳) 量子振幅推定(QAE)はモンテカルロシミュレーションによって古典的に解決されたアプリケーションに対して二次的なスピードアップを達成することができる。
この利点を実現するための重要な要件は、効率的な状態準備である。
状態の準備が高価すぎると、量子的優位性が低下する可能性がある。
任意の量子状態を作成することは、量子ビットの数に関して指数関数的複雑性を持つため、適用できない。
現在知られている効率的な手法は、対数凹面確率分布に基づく問題、経験的データから未知の分布を学ぶこと、あるいは量子算術に完全に依存することを必要とする。
本稿では,QAE状態作成における回路の複雑さを著しく低減する回路最適化手法とともに,状態準備を簡略化する手法を提案する。
本稿では,実量子ハードウェア上での数値積分の例と,確率的ボラティリティプロセスに基づくヘストンモデルに基づくオプション価格について,シミュレーションを用いて紹介する。 Quantum Amplitude Estimation (QAE) can achieve a quadratic speed-up for applications classically solved by Monte Carlo simulation. A key requirement to realize this advantage is efficient state preparation. If state preparation is too expensive, it can diminish the quantum advantage. Preparing arbitrary quantum states has exponential complexity with respect to the number of qubits, thus, is not applicable. Currently known efficient techniques require problems based on log-concave probability distributions, involve learning an unknown distribution from empirical data, or fully rely on quantum arithmetic. In this paper, we introduce an approach to simplify state preparation, together with a circuit optimization technique, both of which can help reduce the circuit complexity for QAE state preparation significantly. We demonstrate the introduced techniques for a numerical integration example on real quantum hardware, as well as for option pricing under the Heston model, i.e., based on a stochastic volatility process, using simulation. | 翻訳日:2023-05-20 03:15:56 公開日:2020-05-15 |
# 等方性炭化ケイ素における単一量子メモリの絡み合いと制御 Entanglement and control of single quantum memories in isotopically engineered silicon carbide ( http://arxiv.org/abs/2005.07602v1 ) ライセンス: Link先を確認 | Alexandre Bourassa, Christopher P. Anderson, Kevin C. Miao, Mykyta Onizhuk, He Ma, Alexander L. Crook, Hiroshi Abe, Jawad Ul-Hassan, Takeshi Ohshima, Nguyen T. Son, Giulia Galli, David D. Awschalom | (参考訳) 固体状態の核スピンはデコヒーレンスの原因であり、スピン量子ビットにとって貴重な資源である。
本研究では,炭化ケイ素(SiC)中の29Si核スピンの分離制御を実証し,光学活性希薄スピンと強結合核レジスタとの絡み合った状態を生成する。
次に,sicの同位体工学が単一弱結合核スピンの制御をいかに解くかを示し,使用済み核記憶数を最大化する最適同位体分画を予測するab initio法を提案する。
これらの結果は, 高忠実度電子スピン制御(F=99.984(1)%), 拡張コヒーレンス時間(T2=2.3ms, T2DD>14.5ms) と, 同位体浄化による脱落時間(T2*)の40倍増加を報告することによって促進される。
全体として、この研究は固体システムにおける核環境の制御の重要性を強調し、単一光子エミッターと核記憶を工業的にスケーラブルな材料で結びつける画期的な実証を提供する。 Nuclear spins in the solid state are both a cause of decoherence and a valuable resource for spin qubits. In this work, we demonstrate control of isolated 29Si nuclear spins in silicon carbide (SiC) to create an entangled state between an optically active divacancy spin and a strongly coupled nuclear register. We then show how isotopic engineering of SiC unlocks control of single weakly coupled nuclear spins and present an ab initio method to predict the optimal isotopic fraction which maximizes the number of usable nuclear memories. We bolster these results by reporting high-fidelity electron spin control (F=99.984(1)%), alongside extended coherence times (T2=2.3 ms, T2DD>14.5 ms), and a >40 fold increase in dephasing time (T2*) from isotopic purification. Overall, this work underlines the importance of controlling the nuclear environment in solid-state systems and provides milestone demonstrations that link single photon emitters with nuclear memories in an industrially scalable material. | 翻訳日:2023-05-20 03:15:22 公開日:2020-05-15 |
# 価値に基づくヘルスケアの触媒としての機械学習 Machine Learning as a Catalyst for Value-Based Health Care ( http://arxiv.org/abs/2005.07534v1 ) ライセンス: Link先を確認 | Matthew G. Crowson and Timothy C.Y. Chan | (参考訳) 本稿では,人工知能のサブフィールドである機械学習が,臨床的意思決定の誤りを減らし,価値に基づく医療を改善することができるという主張を述べる。
以前に医学で機械学習に発表されたものの多くは、単一使用または概念実証のケースであり、機械学習の利点と限界に関する広範なレビューである。
医療における人工知能導入の幅広い戦略を考察し、機械学習がいかに価値に基づくケアにポジティブに影響を及ぼすかを強調するのは時期尚早である。 In this manuscript, we present an argument that machine learning, a subfield of artificial intelligence, can drive improvement in value-based health care through reducing error in clinical decision making. Much of what has been previously published on machine learning in medicine represent single-use or proof-of-concept cases, as well as broad reviews of the advantages and limitations of machine learning. It is timely to look at the broader strategy for artificial intelligence implementation in medicine and emphasize how machine learning can positively influence value-based care. | 翻訳日:2023-05-20 03:14:15 公開日:2020-05-15 |
# 価格変更によるマイクログリッドのサイバー攻撃 Cyberattack on the Microgrids Through Price Modification ( http://arxiv.org/abs/2005.08757v1 ) ライセンス: Link先を確認 | Subhankar Mishra | (参考訳) 電力網の最近の大規模な失敗は、すべてのユーティリティーと消費者の覚醒を呼び起こした。
これにより、よりインテリジェントなグリッドを積極的に追求し、信頼性、効率性、セキュリティ、品質、そしてエネルギー消費者と生産者の持続可能性に関する懸念に対処する。
スマートグリッドの多くの特徴の1つは、マイクログリッドとして知られるメイングリッドから独立して動作可能な分散エネルギー源からなる離散エネルギーシステムである。
マイクログリッドの主な焦点は、信頼性と安価なエネルギーセキュリティを確保することである。
しかし、サイバー攻撃の影響を受けやすい可能性があり、マイクログリッドに対する電力攻撃の価格変更が、メイングリッドとは独立に動作可能であることを考慮し、その影響について検討する。
この攻撃は2段階からなる。
1)メイングリッド(陸地)からマイクログリッドを分離し,
2) マイクログリッド内部のノードの障害。
IEEE Busデータに関する実証結果は、グリッドパラメータのさまざまな設定下でのアプローチの評価に役立ちます。 Recent massive failures in the power grid acted as a wake up call for all utilities and consumers. This leads to aggressive pursue a more intelligent grid which addresses the concerns of reliability, efficiency, security, quality and sustainability for the energy consumers and producers alike. One of the many features of the smart grid is a discrete energy system consisting of distributed energy sources capable of operating independently from the main grid known as the microgrid. The main focus of the microgrid is to ensure a reliable and affordable energy security. However, it also can be vulnerable to cyber attack and we study the effect of price modification of electricity attack on the microgrid, given that they are able to operate independently from the main grid. This attack consists of two stages, 1) Separate the microgrids from the main grid (islanding) and 2) Failing the nodes inside the microgrid. Empirical results on IEEE Bus data help us evaluate our approach under various settings of grid parameters. | 翻訳日:2023-05-20 03:07:35 公開日:2020-05-15 |
# 概念変数、量子理論、統計的推論理論 Conceptual variables, quantum theory, and statistical inference theory ( http://arxiv.org/abs/2005.08683v1 ) ライセンス: Link先を確認 | Inge S. Helland | (参考訳) 本稿では,量子論に対する別のアプローチを提案する。
基礎は概念変数であり、アクセス可能またはアクセス不能な物理変数、すなわち数値をそれらに割り当てることは可能または不可能である。
認識過程において、アクセス可能な変数は、アクターまたは一部の通信アクターによって観察される理想的な観察である。
群作用はこれらの変数上で定義され、群表現論を用いてヒルベルト空間形式論を展開する基礎となる。
アクセス可能な概念変数に対応する演算子は形式化の結果として導出され、離散の場合、可能な物理値はそれらの演算子の固有値であると主張する。
ボルン公式は特定の仮定に基づいて導出される。
ここでの議論は、著者の本 [1] の補足である。
このアプローチによって示唆される量子状態(あるいは固有ベクトル空間)の解釈は、自然に焦点を絞った質問であり、これらの質問に対する鋭い答えである。
同一性が質問自身と結び付いていれば解決するが、これはボーアが定義した意味で相補的であるかもしれない。
この解釈は、量子論の一般的なエピステミック解釈と呼ばれることもある。
これはZwirnの最近のConvival SolipsismやQBismと類似しており、より一般的にはRovelliのRelational Quantum Mechanicsの具体的な実装と見なすことができる。
しかし,本論文の焦点は,解釈よりも基礎を重視している。
しかし、いわゆる量子パラドックスに対する認識論的解釈の単純な結果について論じる。
統計推論理論とのつながりは、例と量子測定理論の簡単な議論の両方を通して、予備的な方法で議論される。 A different approach towards quantum theory is proposed in this paper. The basis is taken to be conceptual variables, physical variables that may be accessible or inaccessible, i.e., it may be possible or impossible to assign numerical values to them. In an epistemic process, the accessible variables are just ideal observations as observed by an actor or by some communicating actors. Group actions are defined on these variables, and using group representation theory this is the basis for developing the Hilbert space formalism here. Operators corresponding to accessible conceptual variables are derived as a result of the formalism, and in the discrete case it is argued that the possible physical values are the eigenvalues of these operators. The Born formula is derived under specific assumptions. The whole discussion here is a supplement to the author's book [1]. The interpretation of quantum states (or eigenvector spaces) implied by this approach is as focused questions to nature together with sharp answers to those questions. Resolutions if the identity are then connected to the questions themselves; these may be complementary in the sense defined by Bohr. This interpretation may be called a general epistemic interpretation of quantum theory. It is similar to Zwirn's recent Convival Solipsism, and also to QBism, and more generally, can be seen as a concrete implementation of Rovelli's Relational Quantum Mechanics. The focus in the present paper is, however, as much on foundation as on interpretation. But the simple consequences of an epistemic interpretation for some so called quantum paradoxes are discussed. Connections to statistical inference theory are discussed in a preliminary way, both through an example and through a brief discussion of quantum measurement theory. | 翻訳日:2023-05-20 03:07:04 公開日:2020-05-15 |
# 量子速度限界における$XX$スピン鎖の制御量子状態伝達 Controlled quantum state transfer in $XX$ spin chains at the Quantum Speed Limit ( http://arxiv.org/abs/2005.07819v1 ) ライセンス: Link先を確認 | Diego S. Acosta Coden, Sergio S. G\'omez, Alejandro Ferr\'on and Omar Osenda | (参考訳) 量子速度限界は、多くの異なる状況、特に量子スピンチェーンによる情報の伝播において見ることができる。
等質鎖では、鎖の1つの極端からもう1つの極端への情報を取り込むには、O(N/2)$を要し、N$は鎖長である。
最適制御理論を用いて, 伝達過程の特徴が研究される場合に応じて, 連鎖の極端部間におけるほぼ完全な人口移動を達成する制御パルスをn/2$またはより大きい順に設計する。
その結果,長さの異なるチェーンの動的挙動を制御する制御パルスは密接な関係にあり,制御時間が大きくなると,n/2$の順に現れるものよりも複雑な制御パルスとなり,駆動エネルギーも大きくなることがわかった。
パルスは、静的な障害のない交換結合を持つ鎖内の1つまたは2つのアクチュエータを含む制御スキームのために構築された。
また, この2つのアクチュエータ方式は, 単独のアクチュエータ方式に比べ, 静的障害の存在に対してかなり頑健であることを示した。 The Quantum Speed Limit can be found in many different situations, in particular in the propagation of information through quantum spin chains. In homogeneous chains it implies that taking information from one extreme of the chain to the other will take a time $O(N/2)$, where $N$ is the chain length. Using Optimal Control Theory we design control pulses that achieve near perfect population transfer between the extremes of the chain at times on the order of $N/2$, or larger, depending on which features of the transfer process are to be studied. Our results show that the control pulses that govern the dynamical behaviour of chains with different lengths are closely related, that larger control times imply more complicated control pulses than those found at times on the order of $N/2$ and also larger driving energies. The pulses were constructed for control schemes involving one or two actuators in chains with exchange couplings without static disorder. Our results also show that the two actuator scheme is considerably more robust against the presence of static disorder than the scheme that uses just a single one. | 翻訳日:2023-05-20 03:06:39 公開日:2020-05-15 |
# 648 双光子周波数コムにおけるヒルベルト空間次元 648 Hilbert space dimensionality in a biphoton frequency comb ( http://arxiv.org/abs/2005.07759v1 ) ライセンス: Link先を確認 | K.-C. Chang (1), X. Cheng (1,2), M. C. Sarihan (1), A. Kumar (1), Y. S. Lee (1), T. Zhong (3), Y.-X. Gong (4), Z. Xie (5), J. H. Shapiro (6), F. N. C. Wong (6), and C. W. Wong (1) ((1) Fang Lu Mesoscopic Optics and Quantum Electronics Laboratory, Department of Electrical Engineering, University of California, Los Angeles, CA, USA) ((2) State Key Laboratory of Information Photonics and Optical Communications, Beijing University of Posts and Telecommunications, Beijing, PR China) ((3) Institute for Molecular Engineering, University of Chicago, Chicago, Illinois, USA) ((4) National Laboratory of Solid State Microstructures and School of Physics, Nanjing University, Nanjing, PR China) ((5) National Laboratory of Solid State Microstructures and School of Electronic Science and Engineering, Nanjing University, Nanjing, PR China) ((6) Research Laboratory of Electronics, Massachusetts Institute of Technology, Cambridge, MA, USA) | (参考訳) 量子ビットの絡み合いは量子情報処理の貴重な資源であり、量子通信、クラスタ計算、量子位相測定において、その次元性の増加はより高い容量への経路とエラーレジリエンスの増大をもたらす。
連続変数部分空間である時間周波数の絡み合いは、スペクトル相関帯域と読み出しタイミングジッタのみに制限される粒子毎の複数の量子ビットの高次元符号化を可能にする。
離散偏極変数における 2 の次元から拡張し、超エンタングル、モードロック、双光子周波数コムを少なくとも 648 の時間周波数ヒルベルト空間次元で示す。
双光子量子ビットのホン・ウー・マンデル復調は、61のタイムビン反復、19の周波数ビン上の二光子合同スペクトル相関、98.4%までの高次元量子ビットの全体的な干渉可視性で観察される。
本稿では, 高次元エンタングルメントのシュミットモード分解解析について, 時間と周波数の2つの部分空間で記述し, エンタングルメント次元の検証だけでなく, 時間周波数のスケーリングについても検討する。
高次元量子ビットのベル違反を18.5の標準偏差まで観測し、相関-フリンジグルージャ-ホーン-シモニー-ホルト s パラメータを 2.771 まで繰り返し測定した。
我々のbiphoton周波数コムは、高密度量子情報処理と高次元量子鍵分布のプラットフォームとして機能する。 Qubit entanglement is a valuable resource for quantum information processing, where increasing its dimensionality provides a pathway towards higher capacity and increased error resilience in quantum communications, cluster computation and quantum phase measurements. Time-frequency entanglement, a continuous variable subspace, enables the high-dimensional encoding of multiple qubits per particle, bounded only by the spectral correlation bandwidth and readout timing jitter. Extending from a dimensionality of two in discrete polarization variables, here we demonstrate a hyperentangled, mode-locked, biphoton frequency comb with a time-frequency Hilbert space dimensionality of at least 648. Hong-Ou-Mandel revivals of the biphoton qubits are observed with 61 time-bin recurrences, biphoton joint spectral correlations over 19 frequency-bins, and an overall interference visibility of the high-dimensional qubits up to 98.4%. We describe the Schmidt mode decomposition analysis of the high-dimensional entanglement, in both time- and frequency-bin subspaces, not only verifying the entanglement dimensionality but also examining the time-frequency scaling. We observe a Bell violation of the high-dimensional qubits up to 18.5 standard deviations, with recurrent correlation-fringe Clauser-Horne-Shimony-Holt S-parameter up to 2.771. Our biphoton frequency comb serves as a platform for dense quantum information processing and high-dimensional quantum key distribution. | 翻訳日:2023-05-20 03:05:29 公開日:2020-05-15 |
# ブレーキスケールのディープラーニング:振動検出,キャラクタリゼーション,予測 Deep learning for brake squeal: vibration detection, characterization and prediction ( http://arxiv.org/abs/2001.01596v2 ) ライセンス: Link先を確認 | Merten Stender, Merten Tiedemann, David Spieler, Daniel Schoepflin, Norbert Hofffmann, Sebastian Oberst | (参考訳) 摩擦による振動とブレーキのスカルのモデリングが大幅に進歩したにもかかわらず、スカルの多くの側面とその機構がまだ不明であるため、産業研究と設計の大部分は実験的に行われている。
本報告では, 摩擦ブレーキ系振動と騒音発生機構に関する知見を得るため, データ集約振動試験を取り扱う新しい手法について, 初めて報告する。
従来の機械工学的課題に対するデータサイエンス技術の潜在能力を学際的アプローチがいかに活用できるかを説明するために, 振動を検出し, 特徴付けし, 感性を理解し, ブレーキスクイールを予測する機械学習手法を適用した。
第一部では、典型的な摩擦ノイズ記録のいくつかのクラスを特定するために、深層学習ブレーキスカル検出器を開発した。
この検出方法は、畳み込みニューラルネットワークに基づく物体検出のための最近のコンピュータビジョン技術に根ざしている。
これは記録された雑音の瞬時スペクトル特性のみに依存する古典的アプローチの限界を克服することができる。
その結果, 最先端のブレーキスケール検出器と比較して, 検出性能, キャラクタリゼーション品質が良好であった。
第2部では、動作ブレーキシステムの動的安定性を決定するパラメトリックパターンを学習するために、リカレントニューラルネットワークを用いる。
多変量負荷条件が与えられた場合、RNNは構造体の騒音発生を予測することを学ぶ。
検証されたRNNは、特定のブレーキシステムのスケジュール動作のための仮想ツインモデルを表す。
このモデルにより, ブレーキスケールの発生と発生を高精度に予測でき, 動的構造を不安定な状態に導く負荷条件における複雑なパターンと時間依存性を同定できることがわかった。 Despite significant advances in modeling of friction-induced vibrations and brake squeal, the majority of industrial research and design is still conducted experimentally, since many aspects of squeal and its mechanisms involved remain unknown. We report here for the first time on novel strategies for handling data-intensive vibration testings to gain better insights into friction brake system vibrations and noise generation mechanisms. Machine learning-based methods to detect and characterize vibrations, to understand sensitivities and to predict brake squeal are applied with the aim to illustrate how interdisciplinary approaches can leverage the potential of data science techniques for classical mechanical engineering challenges. In the first part, a deep learning brake squeal detector is developed to identify several classes of typical friction noise recordings. The detection method is rooted in recent computer vision techniques for object detection based on convolutional neural networks. It allows to overcome limitations of classical approaches that solely rely on instantaneous spectral properties of the recorded noise. Results indicate superior detection and characterization quality when compared to a state-of-the-art brake squeal detector. In the second part, a recurrent neural network is employed to learn the parametric patterns that determine the dynamic stability of an operating brake system. Given a set of multivariate loading conditions, the RNN learns to predict the noise generation of the structure. The validated RNN represents a virtual twin model for the squeal behavior of a specific brake system. It is found that this model can predict the occurrence and the onset of brake squeal with high accuracy and that it can identify the complicated patterns and temporal dependencies in the loading conditions that drive the dynamical structure into regimes of instability. | 翻訳日:2023-01-16 04:39:34 公開日:2020-05-15 |
# 抽象地図を用いた無人空間でのロボットナビゲーション Robot Navigation in Unseen Spaces using an Abstract Map ( http://arxiv.org/abs/2001.11684v2 ) ライセンス: Link先を確認 | Ben Talbot, Feras Dayoub, Peter Corke, Gordon Wyeth | (参考訳) 構築された環境における人間のナビゲーションは、ロボットのナビゲーション能力を向上する未実現の可能性を秘めている象徴的な空間情報に依存する。
ラベル、標識、地図、プランナー、話し手の指示、ナビゲーションのジェスチャーといった情報ソースは、構築された環境のナビゲーターに豊富な空間情報を伝える。
本稿では,人間に匹敵する性能を有する非知覚環境において,人間と同じ象徴的空間情報を用いて故意にナビゲートするロボットナビゲーションシステムを提案する。
ナビゲーションシステムは抽象地図と呼ばれる新しいデータ構造を用いて、空間記号から見えない空間に対する可換空間モデルを想像する。
ロボットからの知覚は、見えない環境における象徴的な目標位置への目的のナビゲーションを提供するために使用される。
本稿では,動的システムを用いて抽象地図の縮尺可能な空間モデルを作成する方法を示し,シンボルナビゲーションの領域における将来的な作業を促進するためのオープンソース実装を提供する。
実環境において,人間とロボットの記号的ナビゲーション性能を評価する。
本稿は,人間のナビゲーション戦略を質的に分析し,目立たない環境におけるロボットの象徴的なナビゲーション能力が今後どのように改善されるかについて,さらなる知見を提供する。 Human navigation in built environments depends on symbolic spatial information which has unrealised potential to enhance robot navigation capabilities. Information sources such as labels, signs, maps, planners, spoken directions, and navigational gestures communicate a wealth of spatial information to the navigators of built environments; a wealth of information that robots typically ignore. We present a robot navigation system that uses the same symbolic spatial information employed by humans to purposefully navigate in unseen built environments with a level of performance comparable to humans. The navigation system uses a novel data structure called the abstract map to imagine malleable spatial models for unseen spaces from spatial symbols. Sensorimotor perceptions from a robot are then employed to provide purposeful navigation to symbolic goal locations in the unseen environment. We show how a dynamic system can be used to create malleable spatial models for the abstract map, and provide an open source implementation to encourage future work in the area of symbolic navigation. Symbolic navigation performance of humans and a robot is evaluated in a real-world built environment. The paper concludes with a qualitative analysis of human navigation strategies, providing further insights into how the symbolic navigation capabilities of robots in unseen built environments can be improved in the future. | 翻訳日:2023-01-05 06:57:58 公開日:2020-05-15 |
# 自然言語理解のためのマルチタスク深層ニューラルネットワークのmicrosoftツールキット The Microsoft Toolkit of Multi-Task Deep Neural Networks for Natural Language Understanding ( http://arxiv.org/abs/2002.07972v2 ) ライセンス: Link先を確認 | Xiaodong Liu, Yu Wang, Jianshu Ji, Hao Cheng, Xueyun Zhu, Emmanuel Awa, Pengcheng He, Weizhu Chen, Hoifung Poon, Guihong Cao and Jianfeng Gao | (参考訳) MT-DNNはオープンソースの自然言語理解(NLU)ツールキットであり、研究者や開発者がカスタマイズされたディープラーニングモデルを訓練しやすくする。
PyTorchとTransformersをベースに開発されたMT-DNNは、様々な目的(分類、回帰、構造化予測)とテキストエンコーダ(例えばRNN、BERT、RoBERTa、UniLM)を用いて、幅広いNLUタスクの迅速なカスタマイズを容易にするように設計されている。
MT-DNNのユニークな特徴は、対戦型マルチタスク学習パラダイムを用いた堅牢で移動可能な学習のサポートである。
効率的な生産展開を実現するため、MT-DNNはマルチタスクの知識蒸留をサポートしており、大きな性能低下なしにディープニューラルネットワークモデルを実質的に圧縮することができる。
MT-DNNが一般および生物医学領域にまたがる幅広いNLU応用に有効であることを示す。
ソフトウェアと事前訓練されたモデルはhttps://github.com/namisan/mt-dnn.comで公開される。 We present MT-DNN, an open-source natural language understanding (NLU) toolkit that makes it easy for researchers and developers to train customized deep learning models. Built upon PyTorch and Transformers, MT-DNN is designed to facilitate rapid customization for a broad spectrum of NLU tasks, using a variety of objectives (classification, regression, structured prediction) and text encoders (e.g., RNNs, BERT, RoBERTa, UniLM). A unique feature of MT-DNN is its built-in support for robust and transferable learning using the adversarial multi-task learning paradigm. To enable efficient production deployment, MT-DNN supports multi-task knowledge distillation, which can substantially compress a deep neural model without significant performance drop. We demonstrate the effectiveness of MT-DNN on a wide range of NLU applications across general and biomedical domains. The software and pre-trained models will be publicly available at https://github.com/namisan/mt-dnn. | 翻訳日:2022-12-30 13:52:45 公開日:2020-05-15 |
# 自己指導型学習の多視点的展望 A Multi-view Perspective of Self-supervised Learning ( http://arxiv.org/abs/2003.00877v2 ) ライセンス: Link先を確認 | Chuanxing Geng, Zhenghao Tan, Songcan Chen | (参考訳) 新たな非教師付き学習パラダイムとして、セルフ教師付き学習(SSL)が近年注目を集めており、通常は手動によるデータアノテーションを使わずにプリテキストタスクを導入している。
その助けによりSSLは、下流タスクに有益な機能表現を効果的に学習する。
したがって、プリテキストタスクが重要な役割を果たす。
しかし、その設計、特に現在の本質の研究は依然としてオープンである。
本稿では、一般的なプレテキストタスクのクラスをビューデータ拡張(VDA)とビューラベル分類(VLC)の組み合わせに分離するために、マルチビューの視点を借りて、そのようなプレテキストタスクの本質を探求し、その設計についていくつかの洞察を提供しながら検討する。
具体的には、単純なマルチビュー学習フレームワークを特別に設計し(SSL-MV)、拡張ビュー上の同じタスクを通して下流タスク(元ビュー)の機能学習を支援する。
SSL-MV は VLC を放棄しながら VDA に焦点を当てており、SSL のパフォーマンスを左右する VLC ではなく VDA であることを実証的に明らかにしている。
さらに、VLCをVDAタスクに置き換えることで、SSL-MVは、拡張ビューからの予測を組み合わせた統合推論を可能にし、パフォーマンスをさらに向上する。
いくつかのベンチマークデータセットの実験は、その利点を示している。 As a newly emerging unsupervised learning paradigm, self-supervised learning (SSL) recently gained widespread attention, which usually introduces a pretext task without manual annotation of data. With its help, SSL effectively learns the feature representation beneficial for downstream tasks. Thus the pretext task plays a key role. However, the study of its design, especially its essence currently is still open. In this paper, we borrow a multi-view perspective to decouple a class of popular pretext tasks into a combination of view data augmentation (VDA) and view label classification (VLC), where we attempt to explore the essence of such pretext task while providing some insights into its design. Specifically, a simple multi-view learning framework is specially designed (SSL-MV), which assists the feature learning of downstream tasks (original view) through the same tasks on the augmented views. SSL-MV focuses on VDA while abandons VLC, empirically uncovering that it is VDA rather than generally considered VLC that dominates the performance of such SSL. Additionally, thanks to replacing VLC with VDA tasks, SSL-MV also enables an integrated inference combining the predictions from the augmented views, further improving the performance. Experiments on several benchmark datasets demonstrate its advantages. | 翻訳日:2022-12-29 18:44:48 公開日:2020-05-15 |
# CATA++: 科学論文を引用するための協調的デュアルアテンタティブオートエンコーダ手法 CATA++: A Collaborative Dual Attentive Autoencoder Method for Recommending Scientific Articles ( http://arxiv.org/abs/2002.12277v2 ) ライセンス: Link先を確認 | Meshal Alfarhood and Jianlin Cheng | (参考訳) 今日、レコメンダシステムはあらゆる商用ウェブサイトの重要なコンポーネントとなっている。
協調フィルタリング手法、特にマトリックスファクトリゼーション(MF)技術は推奨システムで広く用いられている。
しかし、自然なデータスパーシティ問題は、ユーザがシステム内の非常に少ない項目と相互作用するパフォーマンスを制限します。
その結果、学習プロセスに追加の文脈情報を導入することで、MF性能を最適化する複数のハイブリッドモデルが提案されている。
これらのモデルは推奨品質を向上するが、次の2つの改善点がある:(1)複数のモデルは利用可能な文脈情報の一部にのみ焦点をあて、他の部分を無視し、(2)側面の文脈情報の特徴空間の学習をさらに強化する必要がある。
本稿では,科学論文を推薦するコラボレーティブ・アテンティブ・オートエンコーダ(cata++)を提案する。
CATA++は記事の内容を利用し、2つの並列オートエンコーダを通してその潜在空間を学習する。
我々は,より関連性の高いレコメンデーションを行うために,情報の最も関連性の高い部分を取り込むアテンション機構を採用している。
3つの実世界のデータセットに対する大規模な実験により、我々の双方向学習戦略は、様々な実験評価を用いた他の最先端のMFベースモデルと比較して、MF性能を著しく改善したことが示された。
私たちのメソッドのソースコードは以下の通りである。 Recommender systems today have become an essential component of any commercial website. Collaborative filtering approaches, and Matrix Factorization (MF) techniques in particular, are widely used in recommender systems. However, the natural data sparsity problem limits their performance where users generally interact with very few items in the system. Consequently, multiple hybrid models were proposed recently to optimize MF performance by incorporating additional contextual information in its learning process. Although these models improve the recommendation quality, there are two primary aspects for further improvements: (1) multiple models focus only on some portion of the available contextual information and neglect other portions; (2) learning the feature space of the side contextual information needs to be further enhanced. In this paper, we introduce a Collaborative Dual Attentive Autoencoder (CATA++) for recommending scientific articles. CATA++ utilizes an article's content and learns its latent space via two parallel autoencoders. We employ the attention mechanism to capture the most related parts of information in order to make more relevant recommendations. Extensive experiments on three real-world datasets have shown that our dual-way learning strategy has significantly improved the MF performance in comparison with other state-of-the-art MF-based models using various experimental evaluations. The source code of our methods is available at: https://github.com/jianlin-cheng/CATA. | 翻訳日:2022-12-28 08:15:57 公開日:2020-05-15 |
# 個人物語における感情キャリアの注釈 Annotation of Emotion Carriers in Personal Narratives ( http://arxiv.org/abs/2002.12196v3 ) ライセンス: Link先を確認 | Aniruddha Tammewar, Alessandra Cervone, Eva-Maria Messner, Giuseppe Riccardi | (参考訳) 我々は、事実、出来事、思考の記憶を振り返る、個人的物語(PN)の発端や書き言葉を理解する問題に興味を持っている。
PNでは、感情担体(英: emotion carriers)は、ユーザの感情状態を説明する音声またはテキストセグメントである。
このようなセグメントは、エンティティ、動詞または名詞句を含むことができる。
PNの高度な自動理解は、ユーザの感情状態の予測だけでなく、どのイベント(例えば「親戚の喪失」や「おじいちゃんの訪問」など)や人々(例えば「高校の仲間の古いグループ」)が、個人の反省中に現れる感情を持つかを識別する必要がある。
本研究は,音声対話における感情担体識別のためのアノテーションモデルを提案し,評価する。
ニュースやマイクロブログなどの他のテキストジャンルと比較すると、物語は通常非構造化であり、複数のサブイベントやキャラクター、ナレーターが認識する思考や関連する感情を含むため、音声PNは特に困難である。
本研究では,ドイツ語PNのデータセットであるUlm State-of-Mind in Speech(USoMS)コーパスの音声書き起こしから感情キャリアに注釈を付ける実験を行った。
このリソースは、物語理解のさらなる進歩を提供するタスクであるPNから感情キャリアを自動的に抽出する実験に使用できると我々は考えている。 We are interested in the problem of understanding personal narratives (PN) - spoken or written - recollections of facts, events, and thoughts. In PN, emotion carriers are the speech or text segments that best explain the emotional state of the user. Such segments may include entities, verb or noun phrases. Advanced automatic understanding of PNs requires not only the prediction of the user emotional state but also to identify which events (e.g. "the loss of relative" or "the visit of grandpa") or people ( e.g. "the old group of high school mates") carry the emotion manifested during the personal recollection. This work proposes and evaluates an annotation model for identifying emotion carriers in spoken personal narratives. Compared to other text genres such as news and microblogs, spoken PNs are particularly challenging because a narrative is usually unstructured, involving multiple sub-events and characters as well as thoughts and associated emotions perceived by the narrator. In this work, we experiment with annotating emotion carriers from speech transcriptions in the Ulm State-of-Mind in Speech (USoMS) corpus, a dataset of German PNs. We believe this resource could be used for experiments in the automatic extraction of emotion carriers from PN, a task that could provide further advancements in narrative understanding. | 翻訳日:2022-12-28 07:30:47 公開日:2020-05-15 |
# 弾性グラフの形状解析のための表現、メトリクス、統計 Representations, Metrics and Statistics For Shape Analysis of Elastic Graphs ( http://arxiv.org/abs/2003.00287v2 ) ライセンス: Link先を確認 | Xiaoyang Guo, Anuj Srivastava | (参考訳) 対象の統計的形状解析に対する過去のアプローチは、主に同じ位相クラス内の対象(スカラー関数、ユークリッド曲線、曲面など)に焦点を当てている。
より複雑な方法で異なる対象に対して、現在の文献は位相的手法のみを提供する。
本稿では,道路網や血管,脳線維路などのグラフィカルな物体の形状を解析するための遠距離幾何学的手法を提案する。
これはそのような対象を表し、幾何学と位相の両方において、任意の形状(エッジ)と任意の接合点(ノード)で連結された曲線からなるグラフとの違いを示す。
統計解析を行うには、数学的表現、計量、および測地学、手段、共変性といった幾何学的ツールが必要である。
本稿では,これらの量を計算するための効率的なアルゴリズムを開発するための商構造を用いて,主成分分析や解析統計テスト,図形形状のモデル化など,有用な統計ツールを提供する。
このフレームワークの有効性は、様々なシミュレーションと、ニューロンや脳動脈ネットワークからの実際のデータを用いて実証される。 Past approaches for statistical shape analysis of objects have focused mainly on objects within the same topological classes, e.g., scalar functions, Euclidean curves, or surfaces, etc. For objects that differ in more complex ways, the current literature offers only topological methods. This paper introduces a far-reaching geometric approach for analyzing shapes of graphical objects, such as road networks, blood vessels, brain fiber tracts, etc. It represents such objects, exhibiting differences in both geometries and topologies, as graphs made of curves with arbitrary shapes (edges) and connected at arbitrary junctions (nodes). To perform statistical analyses, one needs mathematical representations, metrics and other geometrical tools, such as geodesics, means, and covariances. This paper utilizes a quotient structure to develop efficient algorithms for computing these quantities, leading to useful statistical tools, including principal component analysis and analytical statistical testing and modeling of graphical shapes. The efficacy of this framework is demonstrated using various simulated as well as the real data from neurons and brain arterial networks. | 翻訳日:2022-12-27 21:00:27 公開日:2020-05-15 |
# 知識グラフからの実証論理則の学習に向けて Towards Learning Instantiated Logical Rules from Knowledge Graphs ( http://arxiv.org/abs/2003.06071v2 ) ライセンス: Link先を確認 | Yulong Gu, Yu Guan, Paolo Missier | (参考訳) 知識グラフ(KGs)から高レベルの解釈可能な正則性を効果的に誘導することは、多くの下流アプリケーションに利益をもたらす必要不可欠なタスクである。
本研究では,一階述語論理規則のインスタンス化に最適化された確率的ルール学習器gpflを提案する。
確立された規則は、KGsから抽出された定数を含む。
定数を含まない抽象ルールと比較すると、インスタンス化されたルールは概念を詳細に説明し表現することができる。
GPFLは、抽出されたパスを一定のテンプレート飽和が達成されるまで非循環的な抽象規則であるテンプレートに一般化し、生成したテンプレートをインスタンス化されたルールに特殊化する、新しい2段階ルール生成機構を利用する。
全ての採掘されたインスタンス化ルールを評価対象とする既存の研究とは異なり、GPFLは集合評価のための構造的に類似したルール間の基盤を共有する。
さらに,オーバーフィッティングルールの存在,その予測性能への影響,およびオーバーフィッティングルールをフィルタリングする簡単な検証手法の有効性を明らかにする。
公開ベンチマークデータセットに関する広範囲な実験を通じて、gpflが
1.)インスタンス化されたルールを評価するランタイムを大幅に削減する。
2.) 既存の作業よりも品質の高いインスタンス化ルールを発見する。
3 検証により過度に適合する規則を取り除き、学習規則の予測性能を向上させること。
4.) 知識グラフ補完タスクは最先端のベースラインと比較して競争力がある。 Efficiently inducing high-level interpretable regularities from knowledge graphs (KGs) is an essential yet challenging task that benefits many downstream applications. In this work, we present GPFL, a probabilistic rule learner optimized to mine instantiated first-order logic rules from KGs. Instantiated rules contain constants extracted from KGs. Compared to abstract rules that contain no constants, instantiated rules are capable of explaining and expressing concepts in more details. GPFL utilizes a novel two-stage rule generation mechanism that first generalizes extracted paths into templates that are acyclic abstract rules until a certain degree of template saturation is achieved, then specializes the generated templates into instantiated rules. Unlike existing works that ground every mined instantiated rule for evaluation, GPFL shares groundings between structurally similar rules for collective evaluation. Moreover, we reveal the presence of overfitting rules, their impact on the predictive performance, and the effectiveness of a simple validation method filtering out overfitting rules. Through extensive experiments on public benchmark datasets, we show that GPFL 1.) significantly reduces the runtime on evaluating instantiated rules; 2.) discovers much more quality instantiated rules than existing works; 3.) improves the predictive performance of learned rules by removing overfitting rules via validation; 4.) is competitive on knowledge graph completion task compared to state-of-the-art baselines. | 翻訳日:2022-12-24 00:56:30 公開日:2020-05-15 |
# 副次的摂動フールディープフェイク検出器 Adversarial Perturbations Fool Deepfake Detectors ( http://arxiv.org/abs/2003.10596v2 ) ライセンス: Link先を確認 | Apurva Gandhi and Shomik Jain | (参考訳) この研究は、逆方向の摂動を利用してディープフェイク画像を強化し、一般的なディープフェイク検出器を騙す。
我々は,Fast Gradient Sign Method と Carlini と Wagner L2 の標準攻撃をブラックボックスとホワイトボックスの設定の両方で用いた逆方向摂動を作成した。
検出器は、摂動しないディープフェイクでは95%以上の精度を達成したが、摂動したディープフェイクでは27%未満の精度であった。
ディープフェイク検出器の2つの改良点も検討しています。
(i)リプシッツ正則化、及び
(ii)深部画像先行(dip)
リプシッツ正則化は、入力摂動に対するロバスト性を高めるために、入力に対する検出器の勾配を制約する。
DIPディフェンスは、生成的畳み込みニューラルネットワークを用いた摂動を教師なしの方法で除去する。
規則化により、ブラックボックスケースの10%の精度向上を含む、平均して摂動型ディープフェイクの検出が改善された。
DIPディフェンスは、オリジナルの検出器を騙した歪んだディープフェイクに対して95%の精度を達成し、他の100枚のサブサンプルでは98%の精度を維持した。 This work uses adversarial perturbations to enhance deepfake images and fool common deepfake detectors. We created adversarial perturbations using the Fast Gradient Sign Method and the Carlini and Wagner L2 norm attack in both blackbox and whitebox settings. Detectors achieved over 95% accuracy on unperturbed deepfakes, but less than 27% accuracy on perturbed deepfakes. We also explore two improvements to deepfake detectors: (i) Lipschitz regularization, and (ii) Deep Image Prior (DIP). Lipschitz regularization constrains the gradient of the detector with respect to the input in order to increase robustness to input perturbations. The DIP defense removes perturbations using generative convolutional neural networks in an unsupervised manner. Regularization improved the detection of perturbed deepfakes on average, including a 10% accuracy boost in the blackbox case. The DIP defense achieved 95% accuracy on perturbed deepfakes that fooled the original detector, while retaining 98% accuracy in other cases on a 100 image subsample. | 翻訳日:2022-12-20 08:06:36 公開日:2020-05-15 |
# 『none of the above』:対話応答検索における不確実性の測定 "None of the Above":Measure Uncertainty in Dialog Response Retrieval ( http://arxiv.org/abs/2004.01926v2 ) ライセンス: Link先を確認 | Yulan Feng, Shikib Mehri, Maxine Eskenazi, Tiancheng Zhao | (参考訳) 本稿では、エンドツーエンドのダイアログタスクにおける不確実性を明らかにすることの重要性について論じ、Ubuntuダイアログコーパスにおける不確実性分類に関する実験結果を示す。
この特定の目的のためにモデルを再訓練する代わりに、元の検索モデルの最良の予測に対する信頼度を、簡単な計算で捉えることができることを示す。 This paper discusses the importance of uncovering uncertainty in end-to-end dialog tasks, and presents our experimental results on uncertainty classification on the Ubuntu Dialog Corpus. We show that, instead of retraining models for this specific purpose, the original retrieval model's underlying confidence concerning the best prediction can be captured with trivial additional computation. | 翻訳日:2022-12-16 23:00:30 公開日:2020-05-15 |
# ストリーミングシーケンス対シーケンスASRのための最小レイテンシトレーニング戦略 Minimum Latency Training Strategies for Streaming Sequence-to-Sequence ASR ( http://arxiv.org/abs/2004.05009v2 ) ライセンス: Link先を確認 | Hirofumi Inaguma, Yashesh Gaur, Liang Lu, Jinyu Li, Yifan Gong | (参考訳) 近年,線形時間復号の複雑さを伴うオンライン音声認識を実現するために,s2s(streaming attention-based sequence-to-sequence)モデルが提案されている。
しかし、これらのモデルでは、一方向エンコーダには将来的な情報がないため、実際の音響境界よりもトークンを生成する決定が遅れる。
これにより、推論中に避けられないレイテンシが発生する。
この問題を緩和し、レイテンシを削減するため、ハイブリッドモデルから抽出した外部のハードアライメントを活用し、トレーニング中のいくつかの戦略を提案する。
エンコーダとデコーダの両方のアライメントを利用する。
エンコーダ側では,(1)マルチタスク学習と(2)フレームワイド分類タスクによる事前学習について検討した。
デコーダ側では、(3)アライメントの限界化時に許容される遅延を超える不適切なアライメントパスを除去し、(4)予測される遅延損失を直接最小化する。
Cortana音声検索タスクの実験により,提案手法は遅延を著しく低減し,デコーダ側の特定の場合の認識精度も向上することを示した。
また,ストリーミングS2Sモデルの動作を理解するための分析を行った。 Recently, a few novel streaming attention-based sequence-to-sequence (S2S) models have been proposed to perform online speech recognition with linear-time decoding complexity. However, in these models, the decisions to generate tokens are delayed compared to the actual acoustic boundaries since their unidirectional encoders lack future information. This leads to an inevitable latency during inference. To alleviate this issue and reduce latency, we propose several strategies during training by leveraging external hard alignments extracted from the hybrid model. We investigate to utilize the alignments in both the encoder and the decoder. On the encoder side, (1) multi-task learning and (2) pre-training with the framewise classification task are studied. On the decoder side, we (3) remove inappropriate alignment paths beyond an acceptable latency during the alignment marginalization, and (4) directly minimize the differentiable expected latency loss. Experiments on the Cortana voice search task demonstrate that our proposed methods can significantly reduce the latency, and even improve the recognition accuracy in certain cases on the decoder side. We also present some analysis to understand the behaviors of streaming S2S models. | 翻訳日:2022-12-14 20:53:26 公開日:2020-05-15 |
# ラベル付き例を一般化するルールから学ぶ Learning from Rules Generalizing Labeled Exemplars ( http://arxiv.org/abs/2004.06025v2 ) ライセンス: Link先を確認 | Abhijeet Awasthi, Sabyasachi Ghosh, Rasna Goyal, Sunita Sarawagi | (参考訳) 多くのアプリケーションではラベル付きデータは簡単には利用できず、苦痛を伴う人間の監督によって収集する必要がある。
本稿では,ルールの効率と事例ラベルの品質を組み合わせ,人間の監督を収集するルール実証手法を提案する。
監督は人間にとって自然であり、学習にとって相乗効果であるように結合される。
本稿では,潜在カバレッジ変数によるルールを協調的に認知する学習アルゴリズムを提案し,カバー変数やラベル変数に対するソフトな含意損失を通じてモデルを訓練する。
確率化された規則と訓練されたモデルは推論に併用される。
5つの異なるタスクに対する経験的評価から,(1)クリーンとノイズの混合による学習方法よりもアルゴリズムの精度が向上し,(2)規則と実例の組み合わせによる指導がルールの定式化に有効であることが示された。 In many applications labeled data is not readily available, and needs to be collected via pain-staking human supervision. We propose a rule-exemplar method for collecting human supervision to combine the efficiency of rules with the quality of instance labels. The supervision is coupled such that it is both natural for humans and synergistic for learning. We propose a training algorithm that jointly denoises rules via latent coverage variables, and trains the model through a soft implication loss over the coverage and label variables. The denoised rules and trained model are used jointly for inference. Empirical evaluation on five different tasks shows that (1) our algorithm is more accurate than several existing methods of learning from a mix of clean and noisy supervision, and (2) the coupled rule-exemplar supervision is effective in denoising rules. | 翻訳日:2022-12-13 22:57:52 公開日:2020-05-15 |
# VOC-ReID:車オリエンテーションカメラによる車両再識別 VOC-ReID: Vehicle Re-identification based on Vehicle-Orientation-Camera ( http://arxiv.org/abs/2004.09164v2 ) ライセンス: Link先を確認 | Xiangyu Zhu, Zhenbo Luo, Pei Fu, Xiang Ji | (参考訳) 車両の再識別は、高いクラス内分散と小さなクラス間分散のために難しい課題である。
本研究は、類似の背景と形状に起因する障害事例に焦点を当てる。
それらは類似性にバイアスを与え、きめ細かい情報を無視しやすくする。
偏りを減らすため,我々はvoc-reidというアプローチを提案し,トリプルト・カーオリエンテーションカメラ全体を取り上げ,カメラ/オリエンテーション再識別と背景・形状の類似性を改良した。
まず、車両、方向、カメラの再識別のためのモデルをそれぞれトレーニングします。
そして、配向とカメラの類似性をペナルティとして使い、最終的な類似性を得る。
さらに,トリックの袋と弱教師付きデータ拡張によって強化された高性能なベースラインを提案する。
当社のアルゴリズムは、nvidia ai city challenge 2020で、車両再識別の第2位を達成した。 Vehicle re-identification is a challenging task due to high intra-class variances and small inter-class variances. In this work, we focus on the failure cases caused by similar background and shape. They pose serve bias on similarity, making it easier to neglect fine-grained information. To reduce the bias, we propose an approach named VOC-ReID, taking the triplet vehicle-orientation-camera as a whole and reforming background/shape similarity as camera/orientation re-identification. At first, we train models for vehicle, orientation and camera re-identification respectively. Then we use orientation and camera similarity as penalty to get final similarity. Besides, we propose a high performance baseline boosted by bag of tricks and weakly supervised data augmentation. Our algorithm achieves the second place in vehicle re-identification at the NVIDIA AI City Challenge 2020. | 翻訳日:2022-12-11 18:47:00 公開日:2020-05-15 |
# マルチリレーション非教師グラフ埋め込みによる薬理効果のモデル化 Modeling Pharmacological Effects with Multi-Relation Unsupervised Graph Embedding ( http://arxiv.org/abs/2004.14842v2 ) ライセンス: Link先を確認 | Dehua Chen, Amir Jalilifard, Adriano Veloso, Nivio Ziviani | (参考訳) 細胞、臓器、システムに対する薬物の薬理学的効果は、薬物が産生する特定の生化学的相互作用であり、その作用のメカニズムと呼ばれる。
薬物再配置(または薬物再導入)は、既に承認または失敗した薬物を使用する新しい機会を特定するための根本的な問題である。
本稿では,薬物や疾患の潜在表現を学習し,それらの表現間の距離が再配置の機会を示すマルチリレーショナル非教師付きグラフ埋め込みモデルに基づく手法を提案する。
薬物と疾患の表現が得られれば、薬物と疾患の間の新しいつながり(つまり、新しい兆候)の可能性を学習する。
薬物の表示は、潜在的な表示を予測するモデルを学ぶために用いられる。
既存の非教師なしグラフ埋め込み法と比較して,本手法はROC曲線下の領域において優れた予測性能を示し,本手法により予測された最近の生物医学文献にみられる再配置機会の例を示す。 A pharmacological effect of a drug on cells, organs and systems refers to the specific biochemical interaction produced by a drug substance, which is called its mechanism of action. Drug repositioning (or drug repurposing) is a fundamental problem for the identification of new opportunities for the use of already approved or failed drugs. In this paper, we present a method based on a multi-relation unsupervised graph embedding model that learns latent representations for drugs and diseases so that the distance between these representations reveals repositioning opportunities. Once representations for drugs and diseases are obtained we learn the likelihood of new links (that is, new indications) between drugs and diseases. Known drug indications are used for learning a model that predicts potential indications. Compared with existing unsupervised graph embedding methods our method shows superior prediction performance in terms of area under the ROC curve, and we present examples of repositioning opportunities found on recent biomedical literature that were also predicted by our method. | 翻訳日:2022-12-08 03:39:32 公開日:2020-05-15 |
# 野生のアラビア語方言の識別 Arabic Dialect Identification in the Wild ( http://arxiv.org/abs/2005.06557v2 ) ライセンス: Link先を確認 | Ahmed Abdelali, Hamdy Mubarak, Younes Samih, Sabit Hassan, Kareem Darwish | (参考訳) QADIは、中東と北アフリカの18カ国をカバーし、様々な国レベルのアラビア語方言に属するツイートを自動的に収集するデータセットである。
このデータセットを構築するには、アカウント記述に基づいて異なる国に属するユーザを特定するために複数のフィルタを適用し、モダン標準アラビア語で書かれたツイートや不適切な言語を含むツイートを除去する。
その結果得られたデータセットには、18のアラブ諸国に均等に分布する2,525人のユーザーの540万ツイートが含まれている。
固有評価を用いて、ランダムに選択されたツイートのラベルが91.5%正確であることを示す。
外部評価では、18のクラスで平均60.6%のF1スコアで、ツイート上で有効な国レベルの方言識別を構築することができる。 We present QADI, an automatically collected dataset of tweets belonging to a wide range of country-level Arabic dialects -covering 18 different countries in the Middle East and North Africa region. Our method for building this dataset relies on applying multiple filters to identify users who belong to different countries based on their account descriptions and to eliminate tweets that are either written in Modern Standard Arabic or contain inappropriate language. The resultant dataset contains 540k tweets from 2,525 users who are evenly distributed across 18 Arab countries. Using intrinsic evaluation, we show that the labels of a set of randomly selected tweets are 91.5% accurate. For extrinsic evaluation, we are able to build effective country-level dialect identification on tweets with a macro-averaged F1-score of 60.6% across 18 classes. | 翻訳日:2022-12-03 13:07:03 公開日:2020-05-15 |
# Proxy Experience Replay: 分散強化学習のためのフェデレート蒸留 Proxy Experience Replay: Federated Distillation for Distributed Reinforcement Learning ( http://arxiv.org/abs/2005.06105v2 ) ライセンス: Link先を確認 | Han Cha, Jihong Park, Hyesung Kim, Mehdi Bennis, Seong-Lyun Kim | (参考訳) 従来の分散強化学習(RL)は、一般的に各エージェントの体験記憶(RM)の交換に依存している。
RMにはすべての状態観測と行動ポリシー履歴が含まれているため、各エージェントのプライバシーを侵害しながら大きな通信オーバーヘッドを発生させる可能性がある。
また, 通信効率とプライバシ保護を両立した分散RLフレームワークであるフェデレート強化蒸留(FRD)について述べる。
frdでは、それぞれのエージェントがプロキシエクスペリエンスリプレイメモリ(proxrm)を交換し、実際の状態をクラスタリングするプロキシ状態に関してポリシーをローカルに平均化する。
frd設計の知見を提供するため,我々はproxrm構造,ニューラルネットワークアーキテクチャ,通信間隔の影響についてアブレーション研究を行う。
さらに, この混合データ拡張アルゴリズムを用いて, ProxRMを補間する混合拡張FRD (MixFRD) を作成した改良型FRDを提案する。
カルトポール環境におけるシミュレーションは, ミッション完了時間と通信コストのばらつきを低減させるMixFRDの有効性を, ベンチマークスキーム, バニラFRD, フェデレーション強化学習(FRL), 政策蒸留(PD)と比較した。 Traditional distributed deep reinforcement learning (RL) commonly relies on exchanging the experience replay memory (RM) of each agent. Since the RM contains all state observations and action policy history, it may incur huge communication overhead while violating the privacy of each agent. Alternatively, this article presents a communication-efficient and privacy-preserving distributed RL framework, coined federated reinforcement distillation (FRD). In FRD, each agent exchanges its proxy experience replay memory (ProxRM), in which policies are locally averaged with respect to proxy states clustering actual states. To provide FRD design insights, we present ablation studies on the impact of ProxRM structures, neural network architectures, and communication intervals. Furthermore, we propose an improved version of FRD, coined mixup augmented FRD (MixFRD), in which ProxRM is interpolated using the mixup data augmentation algorithm. Simulations in a Cartpole environment validate the effectiveness of MixFRD in reducing the variance of mission completion time and communication cost, compared to the benchmark schemes, vanilla FRD, federated reinforcement learning (FRL), and policy distillation (PD). | 翻訳日:2022-12-03 10:17:26 公開日:2020-05-15 |
# PDE整列化のための構成可能エネルギーサロゲートの学習 Learning Composable Energy Surrogates for PDE Order Reduction ( http://arxiv.org/abs/2005.06549v2 ) ライセンス: Link先を確認 | Alex Beatson, Jordan T. Ash, Geoffrey Roeder, Tianju Xue, Ryan P. Adams | (参考訳) メタマテリアルは、モジュラーな部分構造から電磁的、熱的、機械的に、複雑なマクロな挙動を持つ重要な工学的材料である。
これらの物質のシミュレーションと最適化は計算的に困難であり、リッチなサブ構造は支配的PDEを解決するために高忠実度有限要素メッシュを必要とする。
これを解決するために、パラメトリックなモジュラ構造を利用してコンポーネントレベルのサロゲートを学習し、より安価な高忠実度シミュレーションを実現する。
ニューラルネットワークを用いて、与えられた境界条件のコンポーネントに蓄積されたポテンシャルエネルギーをモデル化する。
マクロな振る舞いはシステムの全ポテンシャルエネルギーの最小化によって決定され、これらのサロゲートモデルを構成することで近似することができる。
構成可能なエネルギーサロゲートは、コンポーネント境界の縮小に基づくシミュレーションを可能にする。
個々の成分で有限要素解析を行うことでトレーニングデータを生成するため、構造全体のコストのかかる地中シミュレーションを回避する。
トレーニング境界条件の選択にデータセットアグリゲーションを用いることで,パラメータメタマテリアルのシミュレーションを高速化し,合成時に正確なマクロな振る舞いをもたらすエネルギー代理を学習することができる。 Meta-materials are an important emerging class of engineered materials in which complex macroscopic behaviour--whether electromagnetic, thermal, or mechanical--arises from modular substructure. Simulation and optimization of these materials are computationally challenging, as rich substructures necessitate high-fidelity finite element meshes to solve the governing PDEs. To address this, we leverage parametric modular structure to learn component-level surrogates, enabling cheaper high-fidelity simulation. We use a neural network to model the stored potential energy in a component given boundary conditions. This yields a structured prediction task: macroscopic behavior is determined by the minimizer of the system's total potential energy, which can be approximated by composing these surrogate models. Composable energy surrogates thus permit simulation in the reduced basis of component boundaries. Costly ground-truth simulation of the full structure is avoided, as training data are generated by performing finite element analysis with individual components. Using dataset aggregation to choose training boundary conditions allows us to learn energy surrogates which produce accurate macroscopic behavior when composed, accelerating simulation of parametric meta-materials. | 翻訳日:2022-12-03 10:14:32 公開日:2020-05-15 |
# 進化的検索によるMobileNetのバイナリ化 Binarizing MobileNet via Evolution-based Searching ( http://arxiv.org/abs/2005.06305v2 ) ライセンス: Link先を確認 | Hai Phan, Zechun Liu, Dang Huynh, Marios Savvides, Kwang-Ting Cheng, Zhiqiang Shen | (参考訳) 効果的にコンパクトなネットワークアーキテクチャの1つであるバイナリニューラルネットワーク(BNN)は、視覚的なタスクにおいて大きな成果を上げている。
効率的なバイナリアーキテクチャを設計するのは、ネットワークのバイナリ性のため簡単ではない。
本稿では,分離可能な奥行き畳み込みを持つコンパクトネットワークであるmobilenetのバイナリ化において,構築とトレーニングを容易にするための進化的探索手法を提案する。
一発のアーキテクチャ検索フレームワークに触発されて、効率的な1ビット畳み込みニューラルネットワーク(cnns)を設計するためにグループ畳み込みのアイデアを操り、計算コストとモデルの精度のほぼ最適なトレードオフを仮定する。
我々の目標は、複雑性とレイテンシの観点からモデルパフォーマンスを最適化しながら、グループ畳み込みの最適な候補を探索することで、小さなが効率的なバイナリニューラルアーキテクチャを作ることです。
アプローチは3倍です。
まず,各畳み込み層において,多種多様なランダム群の組み合わせを持つ強ベースライン二元ネットワークを訓練する。
このセットアップにより、バイナリニューラルネットワークはレイヤを通じて必須情報を保存できる。
次に、グループ畳み込みのための適切なハイパーパラメータを見つけるために、効率的な1ビットモデルの探索を利用する進化的探索を利用する。
最後に、これらのバイナリモデルは、最終的なバイナリモデルを達成するために通常の方法でスクラッチからトレーニングされます。
imagenet の様々な実験により, 設計ガイドラインに従い, 最終モデルが 60.09% のtop-1 精度を達成し, 同じ計算コストで最先端の ci-bcnn を上回ることを示した。 Binary Neural Networks (BNNs), known to be one among the effectively compact network architectures, have achieved great outcomes in the visual tasks. Designing efficient binary architectures is not trivial due to the binary nature of the network. In this paper, we propose a use of evolutionary search to facilitate the construction and training scheme when binarizing MobileNet, a compact network with separable depth-wise convolution. Inspired by one-shot architecture search frameworks, we manipulate the idea of group convolution to design efficient 1-Bit Convolutional Neural Networks (CNNs), assuming an approximately optimal trade-off between computational cost and model accuracy. Our objective is to come up with a tiny yet efficient binary neural architecture by exploring the best candidates of the group convolution while optimizing the model performance in terms of complexity and latency. The approach is threefold. First, we train strong baseline binary networks with a wide range of random group combinations at each convolutional layer. This set-up gives the binary neural networks a capability of preserving essential information through layers. Second, to find a good set of hyperparameters for group convolutions we make use of the evolutionary search which leverages the exploration of efficient 1-bit models. Lastly, these binary models are trained from scratch in a usual manner to achieve the final binary model. Various experiments on ImageNet are conducted to show that following our construction guideline, the final model achieves 60.09% Top-1 accuracy and outperforms the state-of-the-art CI-BCNN with the same computational cost. | 翻訳日:2022-12-03 09:57:53 公開日:2020-05-15 |
# テキストからの時間情報抽出のための時間的推論に関する研究(拡張抽象) A Survey on Temporal Reasoning for Temporal Information Extraction from Text (Extended Abstract) ( http://arxiv.org/abs/2005.06527v2 ) ライセンス: Link先を確認 | Artuur Leeuwenberg, Marie-Francine Moens | (参考訳) 時間は人々がどのように知覚し、世界についてコミュニケーションするかに深く織り込まれている。
ほぼ無意識で、動詞の時制のように、私たちの言語発話に時間的手がかりを与え、そのような手がかりなしでは文を生成できない。
テキストから時間的手がかりを抽出し、記述された事象の順序に関するグローバルな時間的視点を構築することは、自動自然言語理解の大きな課題である。
時間的推論は、異なる時間的手がかりをコヒーレントな時間的視点に組み合わせるプロセスであり、時間的情報抽出において中心的な役割を果たす。
本稿では,テキストから自動時間情報抽出のための時間的推論に関する過去数十年の研究の包括的調査を行い,記号的推論と機械学習に基づく情報抽出システムの統合を事例として述べる。 Time is deeply woven into how people perceive, and communicate about the world. Almost unconsciously, we provide our language utterances with temporal cues, like verb tenses, and we can hardly produce sentences without such cues. Extracting temporal cues from text, and constructing a global temporal view about the order of described events is a major challenge of automatic natural language understanding. Temporal reasoning, the process of combining different temporal cues into a coherent temporal view, plays a central role in temporal information extraction. This article presents a comprehensive survey of the research from the past decades on temporal reasoning for automatic temporal information extraction from text, providing a case study on the integration of symbolic reasoning with machine learning-based information extraction systems. | 翻訳日:2022-12-03 09:57:08 公開日:2020-05-15 |
# オーディオドルフィン通信のためのオートエンコーダ An Auto Encoder For Audio Dolphin Communication ( http://arxiv.org/abs/2005.07623v1 ) ライセンス: Link先を確認 | Daniel Kohlsdorf, Denise Herzing, Thad Starner | (参考訳) イルカのコミュニケーションと認知の研究には、可聴性イルカ信号の詳細な検査が必要である。
これらの信号の手動解析は煩雑で時間を要する。
現代的深層学習手法を用いて分析の一部を自動化することを目指す。
非教師なしの方法で訓練された畳み込み層と再帰層からなるオートエンコーダを学習することを提案する。
結果として得られるモデルは、可聴イルカのコミュニケーションにパターンを埋め込む。
いくつかの実験で、埋め込みが信号検出や信号タイプの分類だけでなく、クラスタリングにも利用できることを示した。 Research in dolphin communication and cognition requires detailed inspection of audible dolphin signals. The manual analysis of these signals is cumbersome and time-consuming. We seek to automate parts of the analysis using modern deep learning methods. We propose to learn an autoencoder constructed from convolutional and recurrent layers trained in an unsupervised fashion. The resulting model embeds patterns in audible dolphin communication. In several experiments, we show that the embeddings can be used for clustering as well as signal detection and signal type classification. | 翻訳日:2022-12-02 23:53:55 公開日:2020-05-15 |
# 宮崎早雄風漫画への写真制作のためのジェネレーティブ・アドバイサル・ネットワーク Generative Adversarial Networks for photo to Hayao Miyazaki style cartoons ( http://arxiv.org/abs/2005.07702v1 ) ライセンス: Link先を確認 | Filip Andersson, Simon Arvidsson | (参考訳) 本稿では,CartoonGAN による以前の作業により,漫画のスタイルを実写写真に変換する問題について考察する。
そこで我々は,Studio Ghibliの宮崎早夫の作品から60万枚以上の画像を用いてGAN(Generative Adversial Network)を訓練した。
その結果を2つの最先端手法と比較した定性的な調査を行った。
117 人の調査結果から,我々のモデルはマンガ的な手法を平均上回っていることがわかった。 This paper takes on the problem of transferring the style of cartoon images to real-life photographic images by implementing previous work done by CartoonGAN. We trained a Generative Adversial Network(GAN) on over 60 000 images from works by Hayao Miyazaki at Studio Ghibli. To evaluate our results, we conducted a qualitative survey comparing our results with two state-of-the-art methods. 117 survey results indicated that our model on average outranked state-of-the-art methods on cartoon-likeness. | 翻訳日:2022-12-02 23:53:49 公開日:2020-05-15 |
# i have vxxx bxx connexxxn!」: 深い音声感情認識におけるパケットロスに直面する "I have vxxx bxx connexxxn!": Facing Packet Loss in Deep Speech Emotion Recognition ( http://arxiv.org/abs/2005.07757v1 ) ライセンス: Link先を確認 | Mostafa M. Mohamed and Bj\"orn W. Schuller | (参考訳) 音声による感情認識を使用するアプリケーションでは、帯域幅の低さなどさまざまな理由から、オーディオストリームがいくつかのデータフレームを失うため、フレームロスが深刻な問題となる可能性がある。
本研究では,フレームロスが音声による感情認識性能に与える影響を初めて検討する。
再現可能な広範な実験は、畳み込みブロックとリカレント層で構成される最先端のエンドツーエンドディープニューラルネットワークを使用して、ポピュラーなrecolaコーパスで報告されている。
マルコフ連鎖モデルに基づく単純な環境を用いて、2つの主パラメータに基づく損失機構をモデル化する。
マッチング、ミスマッチ、マルチ条件トレーニングの設定を調査します。
予想通り、マッチした設定は最高のパフォーマンスを得るが、ミスマッチした設定は最低となる。
さらに,データ拡張手法としてのフレームロスは,フレームロスの効果を克服するための汎用戦略として導入された。
トレーニング中に使用することができ、ランタイム環境でフレームロスに対してより堅牢なモデルを作成するために観察した。 In applications that use emotion recognition via speech, frame-loss can be a severe issue given manifold applications, where the audio stream loses some data frames, for a variety of reasons like low bandwidth. In this contribution, we investigate for the first time the effects of frame-loss on the performance of emotion recognition via speech. Reproducible extensive experiments are reported on the popular RECOLA corpus using a state-of-the-art end-to-end deep neural network, which mainly consists of convolution blocks and recurrent layers. A simple environment based on a Markov Chain model is used to model the loss mechanism based on two main parameters. We explore matched, mismatched, and multi-condition training settings. As one expects, the matched setting yields the best performance, while the mismatched yields the lowest. Furthermore, frame-loss as a data augmentation technique is introduced as a general-purpose strategy to overcome the effects of frame-loss. It can be used during training, and we observed it to produce models that are more robust against frame-loss in run-time environments. | 翻訳日:2022-12-02 23:53:40 公開日:2020-05-15 |
# ConcealNet: ディープ音声感情認識におけるパケット損失認識のためのエンドツーエンドニューラルネットワーク ConcealNet: An End-to-end Neural Network for Packet Loss Concealment in Deep Speech Emotion Recognition ( http://arxiv.org/abs/2005.07777v1 ) ライセンス: Link先を確認 | Mostafa M. Mohamed and Bj\"orn W. Schuller | (参考訳) パケット損失は、音声データ伝送を含むデータ伝送において一般的な問題である。
これは、ストリーミングアプリケーションや音声感情認識(SER)など、オーディオデータをストリーミングする幅広いアプリケーションに影響を与える可能性がある。
Packet Loss Concealment (PLC) はパケットロスに直面する技術である。
単純なPLCベースラインは0置換または線形補間である。
本稿では,重畳されたリカレント・ニューラルセルで使用可能な隠蔽ラッパーを提案する。
隠蔽セルは、推論時にリアルタイムのステップワイズエンドツーエンドplcを実行するリカレントニューラルネットワーク(concealnet)を提供することができる。
さらに、これをエンドツーエンドの感情予測ニューラルネットワークで拡張することで、失われたフレームとエンドツーエンドでオーディオからSERを実行するネットワークを提供する。
提案モデルは, 前述したベースラインと比較する。
さらに、パフォーマンスが向上した双方向の変種が利用される。
評価のために,連続感情ラベル付き長いオーディオトラックから,公開recolaデータセットを選択した。
ConcealNetは、音声の再構成とその後に予測される対応する感情の質を評価する。
提案手法は,音声再構成とそれに対応する感情予測の両方において,長時間の損失を伴わない環境において,損失が頻発しても相当な改善がみられた。 Packet loss is a common problem in data transmission, including speech data transmission. This may affect a wide range of applications that stream audio data, like streaming applications or speech emotion recognition (SER). Packet Loss Concealment (PLC) is any technique of facing packet loss. Simple PLC baselines are 0-substitution or linear interpolation. In this paper, we present a concealment wrapper, which can be used with stacked recurrent neural cells. The concealment cell can provide a recurrent neural network (ConcealNet), that performs real-time step-wise end-to-end PLC at inference time. Additionally, extending this with an end-to-end emotion prediction neural network provides a network that performs SER from audio with lost frames, end-to-end. The proposed model is compared against the fore-mentioned baselines. Additionally, a bidirectional variant with better performance is utilised. For evaluation, we chose the public RECOLA dataset given its long audio tracks with continuous emotion labels. ConcealNet is evaluated on the reconstruction of the audio and the quality of corresponding emotions predicted after that. The proposed ConcealNet model has shown considerable improvement, for both audio reconstruction and the corresponding emotion prediction, in environments that do not have losses with long duration, even when the losses occur frequently. | 翻訳日:2022-12-02 23:53:20 公開日:2020-05-15 |
# 深部音声パケット損失隠蔽について:ミニサーベイ On Deep Speech Packet Loss Concealment: A Mini-Survey ( http://arxiv.org/abs/2005.07794v1 ) ライセンス: Link先を確認 | Mostafa M. Mohamed, Mina A. Nessiem, and Bj\"orn W. Schuller | (参考訳) packet-lossは音声 over ip を用いたデータ伝送における一般的な問題である。
問題は古い問題であり、この問題を克服するために様々な古典的アプローチが開発されてきた。
しかし、ジェネレーティブ・アドバーサリアル・ネットワークやオートエンコーダといったディープラーニングモデルや生成モデルの台頭に伴い、失われたパケットの置換を生成することによって、ディープラーニングを使ってパケットロスを解決する新たな方法が登場した。
このミニサーベイでは,これまでに見いだしたすべての文献をレビューし,深層学習手法を用いて音声におけるパケットロスの解消を試みた。
さらに,現実的な環境でパケットロスの問題はどのようにモデル化されているのか,またパケットロス・コンセンサメント技術の評価方法についても概観した。
さらに,有望な結果が得られた関連分野における現代的深層学習手法について概説する。
これらの技術はplcの将来のより良いソリューションと、パケットロスと同時に考慮する必要がある追加の課題に光を当てた。 Packet-loss is a common problem in data transmission, using Voice over IP. The problem is an old problem, and there has been a variety of classical approaches that were developed to overcome this problem. However, with the rise of deep learning and generative models like Generative Adversarial Networks and Autoencoders, a new avenue has emerged for attempting to solve packet-loss using deep learning, by generating replacements for lost packets. In this mini-survey, we review all the literature we found to date, that attempt to solve the packet-loss in speech using deep learning methods. Additionally, we briefly review how the problem of packet-loss in a realistic setting is modelled, and how to evaluate Packet Loss Concealment techniques. Moreover, we review a few modern deep learning techniques in related domains that have shown promising results. These techniques shed light on future potentially better solutions for PLC and additional challenges that need to be considered simultaneously with packet-loss. | 翻訳日:2022-12-02 23:53:02 公開日:2020-05-15 |
# 室内IoT環境のためのLight Bulb Networksを用いたDevLocによるシームレスデバイスアソシエーションの実現 Enabling Seamless Device Association with DevLoc using Light Bulb Networks for Indoor IoT Environments ( http://arxiv.org/abs/2005.07731v1 ) ライセンス: Link先を確認 | Michael Haus, J\"org Ott, Aaron Yi Ding | (参考訳) 屋内IoT環境におけるセレンディピティーなインタラクションを可能にするために、ユーザがアドホックな方法で接続を設定するために、自発的なデバイスアソシエーションが特に関心がある。
私たちのシステムDevLocは、光信号の類似性に基づいて、ユビキタスな光源を利用して、連続的でシームレスなデバイスグループ化を行います。
照明インフラをカスタマイズした可視光通信により管理することにより、ユーザの近接の空間的粒度を制御するための構成フレームワークを提供する。
近接ベースサービスと位置ベースサービスの両方を実現するため,デバイス・ツー・デバイスとデバイス・ツー・エリアという,異なるエンティティ間のデバイス関連性をサポートする。
デバイスグルーピングの最良の動作方法としては、距離や相関指標と比較して、機械学習に基づく信号類似性が一般的である。
さらに,個人のデバイスや見知らぬデバイスなどの意味的デバイスグループを認識し,データ共有ポリシの自動化を可能にすることで,データプライバシ向上のためのデバイス関連パターンの解析を行う。 To enable serendipitous interaction for indoor IoT environments, spontaneous device associations are of particular interest so that users set up a connection in an ad-hoc manner. Based on the similarity of light signals, our system named DevLoc takes advantage of ubiquitous light sources around us to perform continuous and seamless device grouping. We provide a configuration framework to control the spatial granularity of user's proximity by managing the lighting infrastructure through customized visible light communication. To realize either proximity-based or location-based services, we support two modes of device associations between different entities: device-to-device and device-to-area. Regarding the best performing method for device grouping, machine learning-based signal similarity performs in general best compared to distance and correlation metrics. Furthermore, we analyze patterns of device associations to improve the data privacy by recognizing semantic device groups, such as personal and stranger's devices, allowing automated data sharing policies. | 翻訳日:2022-12-02 23:47:53 公開日:2020-05-15 |
# 他者から学ぶ方法:セールス予測を改善するための追加回帰モデルを用いたトランスファー機械学習 How to Learn from Others: Transfer Machine Learning with Additive Regression Models to Improve Sales Forecasting ( http://arxiv.org/abs/2005.10698v1 ) ライセンス: Link先を確認 | Robin Hirt, Niklas K\"uhl, Yusuf Peker, Gerhard Satzger | (参考訳) さまざまなビジネス状況において、機械学習アプローチの導入や改善は、既存の分析モデルでは描けないため、損なわれている。
しかし、多くの場合、同様の問題が既に他の場所で解決された可能性があるが、蓄積された分析知識は、例えばプライバシー障壁のために新しい問題を解決するために利用できない。
類似エンティティの販売予測の特別な目的のために,既存のエンティティのモデルから新たなエンティティが恩恵を受けるように,付加回帰モデルに基づくトランスファー機械学習アプローチを提案する。
複数のレストランの支店の多年連続データセットに対するアプローチを評価する。
モデルをひとつのブランチから別のブランチ(“ゼロショット”)に転送するか、あるいはそれを転送して適用するかの選択肢を区別します。
我々は複数の予測ベンチマークに対して実現可能性と性能を分析する。
その結果,総合的に利用可能な分析知識を活用するアプローチの可能性を示した。
そこで,我々は,販売予測,特に特定のユースケースを超えて一般化可能なアプローチを提案する。
また,典型的なユースケースの実現可能性や,予測品質の向上の可能性も示す。
これらの結果は、様々なエンティティにわたる知識の活用を支援し、産業に即時的な応用をもたらすため、学界に知らせるべきである。 In a variety of business situations, the introduction or improvement of machine learning approaches is impaired as these cannot draw on existing analytical models. However, in many cases similar problems may have already been solved elsewhere-but the accumulated analytical knowledge cannot be tapped to solve a new problem, e.g., because of privacy barriers. For the particular purpose of sales forecasting for similar entities, we propose a transfer machine learning approach based on additive regression models that lets new entities benefit from models of existing entities. We evaluate the approach on a rich, multi-year dataset of multiple restaurant branches. We differentiate the options to simply transfer models from one branch to another ("zero shot") or to transfer and adapt them. We analyze feasibility and performance against several forecasting benchmarks. The results show the potential of the approach to exploit the collectively available analytical knowledge. Thus, we contribute an approach that is generalizable beyond sales forecasting and the specific use case in particular. In addition, we demonstrate its feasibility for a typical use case as well as the potential for improving forecasting quality. These results should inform academia, as they help to leverage knowledge across various entities, and have immediate practical application in industry. | 翻訳日:2022-12-02 23:47:06 公開日:2020-05-15 |
# 時間的・知覚的視覚構造と論理推論に基づくマッチングを併用した近重複映像検出 Near-duplicate video detection featuring coupled temporal and perceptual visual structures and logical inference based matching ( http://arxiv.org/abs/2005.07356v1 ) ライセンス: Link先を確認 | B. Tahayna, M. Belkhatir | (参考訳) 本稿では, ほぼ重複した映像検出のためのアーキテクチャを提案する。
一 時間的・知覚的視覚的特徴を統合した索引及び問合せ署名に基づく構造
(2)インデックスとクエリドキュメント間の論理的推論を計算したマッチングフレームワーク。
インデクシングに関しては、次元や冗長性の問題を呪う高次元空間に低レベルの視覚特徴を結合するのではなく、色やテクスチャの概念に基づいた知覚的象徴表現を採用する。
そこで本研究では,n-gramスライディングウインドウプロセスと理論的に音の格子構造を結合して,論理推論に基づく検索モデルをインスタンス化する。
私たちがカバーしている技術は、一般的なビデオ編集や劣化に敏感で、再放送されたビデオ検索に最適です。
TRECVID 02,03および04のコレクションから収集された大量のビデオデータと、2つのドイツのテレビ局から記録された実世界のビデオ放送について実験を行った。
2つの最先端動的プログラミング技術に対する実証的な比較は,本手法の利点と実現可能性を示すものである。 We propose in this paper an architecture for near-duplicate video detection based on: (i) index and query signature based structures integrating temporal and perceptual visual features and (ii) a matching framework computing the logical inference between index and query documents. As far as indexing is concerned, instead of concatenating low-level visual features in high-dimensional spaces which results in curse of dimensionality and redundancy issues, we adopt a perceptual symbolic representation based on color and texture concepts. For matching, we propose to instantiate a retrieval model based on logical inference through the coupling of an N-gram sliding window process and theoretically-sound lattice-based structures. The techniques we cover are robust and insensitive to general video editing and/or degradation, making it ideal for re-broadcasted video search. Experiments are carried out on large quantities of video data collected from the TRECVID 02, 03 and 04 collections and real-world video broadcasts recorded from two German TV stations. An empirical comparison over two state-of-the-art dynamic programming techniques is encouraging and demonstrates the advantage and feasibility of our method. | 翻訳日:2022-12-02 23:46:47 公開日:2020-05-15 |
# 小脳ニューラルネットワークは渦フーリエエンコーダによる逆問題を高速に解く Small-brain neural networks rapidly solve inverse problems with vortex Fourier encoders ( http://arxiv.org/abs/2005.07682v1 ) ライセンス: Link先を確認 | Baurzhan Muminov and Luat T. Vuong | (参考訳) 本稿では, レンズレットアレイを用いた渦位相変換を導入し, 高速・低照度撮像のための「小脳」ニューラルネットワークを提案する。
本手法はフーリエ変換したスパイラル位相勾配のコヒーレント回折,コンパクト表現,エッジ強調を利用する。
渦空間符号化(vortex spatial encoding)では、小さな脳はランダム符号化方式で達成された画像よりも5~20倍高速で画像をデコンボレーションするように訓練される。
トレーニングが完了すると、小さな脳は、強度のみのデータからオブジェクトを再構成し、各画像の反復を行わず、ディープラーニングのスキームも行わずに逆マッピングを解く。
このハイブリッド・光デジタル・ボルテックス・フーリエ符号化・小型ブレイン方式により、15W中央処理ユニットで毎秒数千フレームの低光束(5nJ/cm$^2$)で照らされたMNISTファッションオブジェクトを再構成する。 We introduce a vortex phase transform with a lenslet-array to accompany shallow, dense, ``small-brain'' neural networks for high-speed and low-light imaging. Our single-shot ptychographic approach exploits the coherent diffraction, compact representation, and edge enhancement of Fourier-tranformed spiral-phase gradients. With vortex spatial encoding, a small brain is trained to deconvolve images at rates 5-20 times faster than those achieved with random encoding schemes, where greater advantages are gained in the presence of noise. Once trained, the small brain reconstructs an object from intensity-only data, solving an inverse mapping without performing iterations on each image and without deep-learning schemes. With this hybrid, optical-digital, vortex Fourier encoded, small-brain scheme, we reconstruct MNIST Fashion objects illuminated with low-light flux (5 nJ/cm$^2$) at a rate of several thousand frames per second on a 15 W central processing unit, two orders of magnitude faster than convolutional neural networks. | 翻訳日:2022-12-02 23:46:29 公開日:2020-05-15 |
# siameseニューラルネットワークによるクラスアクティビティ検出 Siamese Neural Networks for Class Activity Detection ( http://arxiv.org/abs/2005.07549v1 ) ライセンス: Link先を確認 | Hang Li, Zhiwei Wang, Jiliang Tang, Wenbiao Ding, Zitao Liu | (参考訳) 教室活動検出(cad)は、教室における話者の役割を正確に認識することを目的としている。
CADソリューションは、教師が教育指導の即時フィードバックを得るのに役立つ。
しかし,(1)教室での会話には教師と生徒の会話が重なり合っていること,(2)異なる教師と生徒に十分な一般化が必要であること,(3)教室での録音は非常に騒がしく,質が低いことなどから,cadは非常に困難である。
本稿では,教室録音から教師と生徒の発話を自動的に識別する,シャム語ニューラルフレームワークを構築することで,上記の課題を解決する。
提案モデルは実世界の教育データセット上で評価される。
その結果,(1)オンラインとオフラインの両方の教室環境における予測タスクにおいて,アプローチが優れていること,(2)新しい教師に堅牢性や一般化能力を示すこと,(2)教師はトレーニングデータに現れない)。 Classroom activity detection (CAD) aims at accurately recognizing speaker roles (either teacher or student) in classrooms. A CAD solution helps teachers get instant feedback on their pedagogical instructions. However, CAD is very challenging because (1) classroom conversations contain many conversational turn-taking overlaps between teachers and students; (2) the CAD model needs to be generalized well enough for different teachers and students; and (3) classroom recordings may be very noisy and low-quality. In this work, we address the above challenges by building a Siamese neural framework to automatically identify teacher and student utterances from classroom recordings. The proposed model is evaluated on real-world educational datasets. The results demonstrate that (1) our approach is superior on the prediction tasks for both online and offline classroom environments; and (2) our framework exhibits robustness and generalization ability on new teachers (i.e., teachers never appear in training data). | 翻訳日:2022-12-02 23:45:15 公開日:2020-05-15 |
# PrimiTect: プリミティブ検出のための高速連続Hough投票 PrimiTect: Fast Continuous Hough Voting for Primitive Detection ( http://arxiv.org/abs/2005.07457v1 ) ライセンス: Link先を確認 | Christiane Sommer and Yumin Sun and Erik Bylow and Daniel Cremers | (参考訳) 本稿では3次元点集合の文脈におけるデータ抽象化の問題に取り組む。
本手法は点を平面や円錐などの異なる幾何学的プリミティブに分類し,データのコンパクトな表現へと導く。
半グローバルなハフ投票方式に基づいており、初期化は必要とせず、堅牢で正確で効率的である。
我々はプリミティブの局所的低次元パラメータ化を用いて、ある点が属する対象のタイプ、形状、ポーズを決定する。
これにより、ロボットアプリケーションでしばしば必要とされる計算能力の低いデバイス上での動作に適している。
評価の結果,本手法は精度とロバスト性の両方において最先端手法よりも優れていることがわかった。 This paper tackles the problem of data abstraction in the context of 3D point sets. Our method classifies points into different geometric primitives, such as planes and cones, leading to a compact representation of the data. Being based on a semi-global Hough voting scheme, the method does not need initialization and is robust, accurate, and efficient. We use a local, low-dimensional parameterization of primitives to determine type, shape and pose of the object that a point belongs to. This makes our algorithm suitable to run on devices with low computational power, as often required in robotics applications. The evaluation shows that our method outperforms state-of-the-art methods both in terms of accuracy and robustness. | 翻訳日:2022-12-02 23:38:17 公開日:2020-05-15 |
# 超解像に対する対立特徴マッチングによる知覚損失の増大 Enhancing Perceptual Loss with Adversarial Feature Matching for Super-Resolution ( http://arxiv.org/abs/2005.07502v1 ) ライセンス: Link先を確認 | Akella Ravi Tej, Shirsendu Sukanta Halder, Arunav Pratap Shandeelya, Vinod Pankajakshan | (参考訳) 単一画像超解法 (SISR) は不確定な数の有効解を持つ不確定問題である。
ニューラルネットワークでこの問題を解決するには、自然画像上の大きなトレーニングセットや、別の事前学習されたネットワークからの凝縮表現として提示される、広範なエクスペリエンスへのアクセスが必要になる。
後者のカテゴリに属する知覚損失関数は、SISRや他のコンピュータビジョンタスクにおいて画期的な成功を収めている。
知覚損失はフォトリアリスティック画像の生成において中心的な役割を果たすが、超解像出力における望ましくないパターンアーティファクトも生成する。
本稿では,これらのパターンアーティファクトの根本原因を,知覚的損失の事前学習目標と超解像目標とのミスマッチに遡ることができることを示す。
この問題に対処するために,既存の知覚損失定式化を,識別器ネットワークの潜伏特徴を用いて,不必要なアーティファクトをいくつかの相似性レベルにわたってフィルタリングする新しいコンテンツ損失関数で強化する。
さらに, 本修正は, 対向訓練における非凸最適化に対する安定化効果を有する。
提案手法は, 客観的評価指標を用いて, 広範囲な人間評価研究と有能な再構築忠実性に基づいて, 知覚的品質の顕著な向上をもたらす。 Single image super-resolution (SISR) is an ill-posed problem with an indeterminate number of valid solutions. Solving this problem with neural networks would require access to extensive experience, either presented as a large training set over natural images or a condensed representation from another pre-trained network. Perceptual loss functions, which belong to the latter category, have achieved breakthrough success in SISR and several other computer vision tasks. While perceptual loss plays a central role in the generation of photo-realistic images, it also produces undesired pattern artifacts in the super-resolved outputs. In this paper, we show that the root cause of these pattern artifacts can be traced back to a mismatch between the pre-training objective of perceptual loss and the super-resolution objective. To address this issue, we propose to augment the existing perceptual loss formulation with a novel content loss function that uses the latent features of a discriminator network to filter the unwanted artifacts across several levels of adversarial similarity. Further, our modification has a stabilizing effect on non-convex optimization in adversarial training. The proposed approach offers notable gains in perceptual quality based on an extensive human evaluation study and a competent reconstruction fidelity when tested on objective evaluation metrics. | 翻訳日:2022-12-02 23:38:05 公開日:2020-05-15 |
# 教師なし深層学習を用いた縦骨盤CT画像の3次元変形可能登録 3D deformable registration of longitudinal abdominopelvic CT images using unsupervised deep learning ( http://arxiv.org/abs/2005.07545v1 ) ライセンス: Link先を確認 | Maureen van Eijnatten, Leonardo Rundo, K. Joost Batenburg, Felix Lucka, Emma Beddowes, Carlos Caldas, Ferdia A. Gallagher, Evis Sala, Carola-Bibiane Sch\"onlieb, Ramona Woitek | (参考訳) 本研究は, 乳癌の骨転移患者に得られた縦骨盤CT画像の変形性登録に, 教師なしディープラーニングフレームワークであるVoxelMorphを用いて検討した。
CT画像は、CTテーブルやその他の体外成分を自動的に除去することにより、登録前に精査された。
限られたトレーニングデータしか入手できない場合のVoxelMorphの学習能力を向上させるために,連続したCT画像のシミュレーション変形に基づいて,新たなインクリメンタルトレーニング戦略を提案する。
4倍のクロスバリデーション・スキームでは、インクリメンタルなトレーニング戦略は、1ボリュームでのトレーニングよりも登録パフォーマンスが大幅に向上した。
画像登録方式は,niftyreg (ベンチマークとして考慮) による反復登録を登録品質で上回らなかったが,約300倍高速であった。
本研究は, 模擬変形に基づく新たな漸進的訓練手法により, 縦骨盤CT画像の変形可能な登録が可能であった。 This study investigates the use of the unsupervised deep learning framework VoxelMorph for deformable registration of longitudinal abdominopelvic CT images acquired in patients with bone metastases from breast cancer. The CT images were refined prior to registration by automatically removing the CT table and all other extra-corporeal components. To improve the learning capabilities of VoxelMorph when only a limited amount of training data is available, a novel incremental training strategy is proposed based on simulated deformations of consecutive CT images. In a 4-fold cross-validation scheme, the incremental training strategy achieved significantly better registration performance compared to training on a single volume. Although our deformable image registration method did not outperform iterative registration using NiftyReg (considered as a benchmark) in terms of registration quality, the registrations were approximately 300 times faster. This study showed the feasibility of deep learning based deformable registration of longitudinal abdominopelvic CT images via a novel incremental training strategy based on simulated deformations. | 翻訳日:2022-12-02 23:37:45 公開日:2020-05-15 |
# 変換に基づく天文画像の深部異常検出 Transformation Based Deep Anomaly Detection in Astronomical Images ( http://arxiv.org/abs/2005.07779v1 ) ライセンス: Link先を確認 | Esteban Reyes, Pablo A. Est\'evez | (参考訳) 本研究では,画像の異常検出のための幾何変換に基づくモデル(geotranform)のいくつかの拡張を提案する。
このモデルは、異常クラスが未知であり、異常なサンプルのみがトレーニングに利用できると仮定している。
本稿では,アーティファクト特性に着目し,実物体との識別性を高めるために,天文画像の異常検出に有用な新しいフィルタベースの変換を提案する。
さらに,変換の識別不能な対を見つけるための変換選択戦略を提案する。
その結果, 受信器動作特性曲線(AUROC)に基づく領域の改善と精度向上, 次元性低減を実現した。
モデルは、hits(high cadence transient survey)とzwicky transient facility(ztf)のデータセットから得られた天文画像でテストされた。
ベストモデルでは平均aurocが99.20%、ztfが91.39%であった。
従来のGeoTransformアルゴリズムとOne-Class Support Vector Machineのようなベースライン手法と深層学習に基づく手法の改善は、統計的にも現実的にも有意である。 In this work, we propose several enhancements to a geometric transformation based model for anomaly detection in images (GeoTranform). The model assumes that the anomaly class is unknown and that only inlier samples are available for training. We introduce new filter based transformations useful for detecting anomalies in astronomical images, that highlight artifact properties to make them more easily distinguishable from real objects. In addition, we propose a transformation selection strategy that allows us to find indistinguishable pairs of transformations. This results in an improvement of the area under the Receiver Operating Characteristic curve (AUROC) and accuracy performance, as well as in a dimensionality reduction. The models were tested on astronomical images from the High Cadence Transient Survey (HiTS) and Zwicky Transient Facility (ZTF) datasets. The best models obtained an average AUROC of 99.20% for HiTS and 91.39% for ZTF. The improvement over the original GeoTransform algorithm and baseline methods such as One-Class Support Vector Machine, and deep learning based methods is significant both statistically and in practice. | 翻訳日:2022-12-02 23:37:20 公開日:2020-05-15 |
# 人工知能(AI)とITアイデンティティ:AIアプリケーションによる個人識別 Artificial Intelligence (AI) and IT identity: Antecedents Identifying with AI Applications ( http://arxiv.org/abs/2005.12196v1 ) ライセンス: Link先を確認 | Rasha Alahmad, Lionel Robert | (参考訳) 人工知能と自動化の時代、機械は多くの重要な管理タスクを引き継いだ。
マネージャをaiシステムに置き換えることは、労働者の成果に悪影響を及ぼす可能性がある。
労働者がaiシステムとの関係から同じ利益を得られるかどうかは不明であり、aiシステムと労働者の関係は労働者の成果にどの程度影響するかという疑問を提起している。
私たちは、AIシステムとの識別が仕事のパフォーマンスに与える影響を理解するために、ITアイデンティティーを描きます。
この理論的な観点から研究モデルを提案し,97mの作業員を対象に実験を行った。
この結果は、仕事の役割のアイデンティティと組織的アイデンティティが、AIシステムとの識別の重要な決定要因であることを示している。
さらに,aiシステムによる識別は仕事のパフォーマンスを増加させることが示唆された。 In the age of Artificial Intelligence and automation, machines have taken over many key managerial tasks. Replacing managers with AI systems may have a negative impact on workers outcomes. It is unclear if workers receive the same benefits from their relationships with AI systems, raising the question: What degree does the relationship between AI systems and workers impact worker outcomes? We draw on IT identity to understand the influence of identification with AI systems on job performance. From this theoretical perspective, we propose a research model and conduct a survey of 97 MTurk workers to test the model. The findings reveal that work role identity and organizational identity are key determinants of identification with AI systems. Furthermore, the findings show that identification with AI systems does increase job performance. | 翻訳日:2022-12-02 23:36:41 公開日:2020-05-15 |
# 経験的知識の表現のための対象モデル An Object Model for the Representation of Empirical Knowledge ( http://arxiv.org/abs/2005.07464v1 ) ライセンス: Link先を確認 | Jo\"el Colloc (IDEES), Danielle Boulanger | (参考訳) 現在我々は、diff{\'e}rentドメインにおける静的および動的知識を記述するオブジェクト指向モデルを設計している。
双対の概念レベルを提供する。
内部レベルは、サブオブジェクト階層からなるオブジェクト構造、動的関数による構造進化、評価関数との比較である。
サブオブジェクトプロパティからObjectへの複数の上層継承を使用する。
オブジェクト環境は、オブジェクトの型を強制し、型からサブタイプへの外部の単純な継承を使用する。 We are currently designing an object oriented model which describes static and dynamical knowledge in diff{\'e}rent domains. It provides a twin conceptual level. The internal level proposes: the object structure composed of sub-objects hierarchy, structure evolution with dynamical functions, same type objects comparison with evaluation functions. It uses multiple upward inheritance from sub-objects properties to the Object. The external level describes: object environment, it enforces object types and uses external simple inheritance from the type to the sub-types. | 翻訳日:2022-12-02 23:28:21 公開日:2020-05-15 |
# ハイブリッドポインタネットワーク言語モデルを用いたASR格子の文脈化 Contextualizing ASR Lattice Rescoring with Hybrid Pointer Network Language Model ( http://arxiv.org/abs/2005.07394v1 ) ライセンス: Link先を確認 | Da-Rong Liu, Chunxi Liu, Frank Zhang, Gabriel Synnaeve, Yatharth Saraf, Geoffrey Zweig | (参考訳) ソーシャルメディアにアップロードされたビデオは、しばしばテキストによる記述を伴う。
ビデオの自動音声認識(asr)システムを構築する際に,映像メタデータによって提供される文脈情報を利用することができる。
本稿では,ビデオ記述への選択的参加によるASR格子再構成について検討する。
まず,注意に基づく手法を用いて映像メタデータの文脈ベクトル表現を抽出し,これらの表現を格子解析中のニューラルネットワークモデルへの入力の一部として用いる。
次に,メタデータ中の単語の発生確率を明示的に補間する,ハイブリッドポインターネットワーク手法を提案する。
我々は,言語モデリングとasrタスクの両方について実験的評価を行い,提案手法がビデオメタデータを選択的に活用することにより,性能を向上させることを実証する。 Videos uploaded on social media are often accompanied with textual descriptions. In building automatic speech recognition (ASR) systems for videos, we can exploit the contextual information provided by such video metadata. In this paper, we explore ASR lattice rescoring by selectively attending to the video descriptions. We first use an attention based method to extract contextual vector representations of video metadata, and use these representations as part of the inputs to a neural language model during lattice rescoring. Secondly, we propose a hybrid pointer network approach to explicitly interpolate the word probabilities of the word occurrences in metadata. We perform experimental evaluations on both language modeling and ASR tasks, and demonstrate that both proposed methods provide performance improvements by selectively leveraging the video metadata. | 翻訳日:2022-12-02 23:27:59 公開日:2020-05-15 |
# 高速かつ適応的な低光画像強調のための視覚知覚モデル Visual Perception Model for Rapid and Adaptive Low-light Image Enhancement ( http://arxiv.org/abs/2005.07343v1 ) ライセンス: Link先を確認 | Xiaoxiao Li, Xiaopeng Guo, Liye Mei, Mingyu Shang, Jie Gao, Maojing Shu, and Xiang Wang | (参考訳) 低照度画像強調は、低照度環境における情報知覚のための人間の視覚システム(HVS)の感度が不十分な問題に対処するための有望な解決策である。
以前のRetinexベースの作品は、常に光強度を推定することによって強化タスクを達成する。
残念なことに、単一光強度モデリングは視覚情報の正確なシミュレートが難しいため、不均衡な視覚光感度と弱い適応性の問題がある。
これらの問題を解決するために,光源と視覚知覚の正確な関係を探索し,視覚知覚(vp)モデルを提案し,視覚知覚の正確な数学的記述を得る。
VPモデルのコアは、光源を光強度と光空間分布に分解して、HVSの知覚過程を記述することであり、照明と反射率の洗練された推定を提供する。
推定プロセスの複雑さを軽減するために,照明と反射率推定スキームを構築するために,迅速かつ適応的な$\mathbf{\beta}$と$\mathbf{\gamma}$関数を導入する。
最後に, \emph{cycle operation} と \emph{comparator} からなる最適決定戦略を提案する。
特に、 \emph{comparator} は \emph{cycle operation} を実装して複数の強化結果から最適な拡張結果を決定する責任がある。
提案するvpモデル,照明・反射率推定手法,最適決定戦略の調整により,低光度画像強調のための迅速かつ適応的な枠組みを提案する。
広範な実験結果から,提案手法は現在の最新技術と比較して,視覚的比較,定量的評価,計算効率の面で優れた性能が得られることがわかった。 Low-light image enhancement is a promising solution to tackle the problem of insufficient sensitivity of human vision system (HVS) to perceive information in low light environments. Previous Retinex-based works always accomplish enhancement task by estimating light intensity. Unfortunately, single light intensity modelling is hard to accurately simulate visual perception information, leading to the problems of imbalanced visual photosensitivity and weak adaptivity. To solve these problems, we explore the precise relationship between light source and visual perception and then propose the visual perception (VP) model to acquire a precise mathematical description of visual perception. The core of VP model is to decompose the light source into light intensity and light spatial distribution to describe the perception process of HVS, offering refinement estimation of illumination and reflectance. To reduce complexity of the estimation process, we introduce the rapid and adaptive $\mathbf{\beta}$ and $\mathbf{\gamma}$ functions to build an illumination and reflectance estimation scheme. Finally, we present a optimal determination strategy, consisting of a \emph{cycle operation} and a \emph{comparator}. Specifically, the \emph{comparator} is responsible for determining the optimal enhancement results from multiple enhanced results through implementing the \emph{cycle operation}. By coordinating the proposed VP model, illumination and reflectance estimation scheme, and the optimal determination strategy, we propose a rapid and adaptive framework for low-light image enhancement. Extensive experiment results demenstrate that the proposed method achieves better performance in terms of visual comparison, quantitative assessment, and computational efficiency, compared with the currently state-of-the-arts. | 翻訳日:2022-12-02 23:26:53 公開日:2020-05-15 |
# 3次元単眼物体検出の能力と限界を探る -シミュレーションと実世界データに関する研究- Exploring the Capabilities and Limits of 3D Monocular Object Detection -- A Study on Simulation and Real World Data ( http://arxiv.org/abs/2005.07424v1 ) ライセンス: Link先を確認 | Felix Nobis, Fabian Brunhuber, Simon Janssen, Johannes Betz and Markus Lienkamp | (参考訳) 単眼カメラデータに基づく3次元物体検出は、自動運転の重要な実現手段である。
しかし,2次元画像の深度情報がないため,この課題は不十分である。
近年の深層学習手法は,環境に関する事前学習により,単一の画像から深部情報を復元する有望な結果を示す。
いくつかの競合戦略がこの問題に対処している。
ネットワーク設計に加えて、これらの競合するアプローチの大きな違いは、異なるデータと基底真理情報を必要とする教師付きまたは自己監督型の最適化損失関数を使用することである。
本稿では,深度推定構成の異なるパラメータ化可能な3次元物体検出パイプラインの性能評価を行う。
カメラ内在性と2次元境界ボックスサイズ,自己教師あり,奥行き推定のための教師付き学習手法に基づく簡易な距離計算手法を実装した。
地上の真理深度情報は、現実のシナリオでは記録できない。
これはトレーニングの焦点をシミュレーションデータにシフトさせます。
シミュレーションでは、ラベル付けと基底真理生成を自動化できる。
シミュレーションデータによる検出パイプラインと、レーストラック上の自律走行車からの実世界シーケンスを評価する。
実世界応用へのシミュレーショントレーニングの利点について検討した。
異なる深さ推定手法の利点と欠点について論じる。 3D object detection based on monocular camera data is a key enabler for autonomous driving. The task however, is ill-posed due to lack of depth information in 2D images. Recent deep learning methods show promising results to recover depth information from single images by learning priors about the environment. Several competing strategies tackle this problem. In addition to the network design, the major difference of these competing approaches lies in using a supervised or self-supervised optimization loss function, which require different data and ground truth information. In this paper, we evaluate the performance of a 3D object detection pipeline which is parameterizable with different depth estimation configurations. We implement a simple distance calculation approach based on camera intrinsics and 2D bounding box size, a self-supervised, and a supervised learning approach for depth estimation. Ground truth depth information cannot be recorded reliable in real world scenarios. This shifts our training focus to simulation data. In simulation, labeling and ground truth generation can be automatized. We evaluate the detection pipeline on simulator data and a real world sequence from an autonomous vehicle on a race track. The benefit of simulation training to real world application is investigated. Advantages and drawbacks of the different depth estimation strategies are discussed. | 翻訳日:2022-12-02 23:26:25 公開日:2020-05-15 |
# 関係駆動型自己感覚モデルを用いた半教師付き医用画像分類 Semi-supervised Medical Image Classification with Relation-driven Self-ensembling Model ( http://arxiv.org/abs/2005.07377v1 ) ライセンス: Link先を確認 | Quande Liu, Lequan Yu, Luyang Luo, Qi Dou, Pheng Ann Heng | (参考訳) ディープニューラルネットワークのトレーニングは通常、優れたパフォーマンスを得るために大量のラベル付きデータを必要とする。
しかし, 医用画像解析では, 医用画像の正確な注釈付けが臨床医の専門知識を必要とするため, 高品質なラベルの取得は困難で費用がかかる。
本稿では,医療画像分類のための関係駆動半教師付きフレームワークを提案する。
摂動下での入力の予測整合性を促進することにより、ラベルなしデータを利用する一貫性ベースの手法であり、ラベルなしデータの高品質な整合性目標を生成する自己認識モデルを活用する。
人間の診断は、しばしば過去の類似事例に言及して信頼性の高い意思決定を行うことを考えると、異なるサンプル間の関係情報をモデル化することで、ラベルのないデータを効果的に活用する新しいサンプル関係整合(SRC)パラダイムを導入する。
個々の予測の一貫性を単純に強制する既存の一貫性に基づく手法よりも、摂動下で異なるサンプル間の意味関係の一貫性を明示的に強制し、ラベルのないデータから余分な意味情報を探索するようモデルに促す。
我々は,ISIC 2018チャレンジによる皮膚病変の診断とChestX-ray14による胸部疾患の分類という,2つの公開ベンチマーク医用画像分類データセットを用いて,本手法の評価を行った。
本手法は,単一ラベルと複数ラベル画像の分類シナリオにおいて,最先端の半教師付き学習手法を上回っている。 Training deep neural networks usually requires a large amount of labeled data to obtain good performance. However, in medical image analysis, obtaining high-quality labels for the data is laborious and expensive, as accurately annotating medical images demands expertise knowledge of the clinicians. In this paper, we present a novel relation-driven semi-supervised framework for medical image classification. It is a consistency-based method which exploits the unlabeled data by encouraging the prediction consistency of given input under perturbations, and leverages a self-ensembling model to produce high-quality consistency targets for the unlabeled data. Considering that human diagnosis often refers to previous analogous cases to make reliable decisions, we introduce a novel sample relation consistency (SRC) paradigm to effectively exploit unlabeled data by modeling the relationship information among different samples. Superior to existing consistency-based methods which simply enforce consistency of individual predictions, our framework explicitly enforces the consistency of semantic relation among different samples under perturbations, encouraging the model to explore extra semantic information from unlabeled data. We have conducted extensive experiments to evaluate our method on two public benchmark medical image classification datasets, i.e.,skin lesion diagnosis with ISIC 2018 challenge and thorax disease classification with ChestX-ray14. Our method outperforms many state-of-the-art semi-supervised learning methods on both single-label and multi-label image classification scenarios. | 翻訳日:2022-12-02 23:19:56 公開日:2020-05-15 |
# 自律走行車両の視覚定位のための永続的地図保存--orb-slam拡張 Persistent Map Saving for Visual Localization for Autonomous Vehicles: An ORB-SLAM Extension ( http://arxiv.org/abs/2005.07429v1 ) ライセンス: Link先を確認 | Felix Nobis, Odysseas Papanikolaou, Johannes Betz and Markus Lienkamp | (参考訳) 電気自動車と自動運転は、自動車分野における現在の研究活動で支配的だ。
この2つのトピックは、より安全で環境に優しい運転を可能にするという点で密接に関連している。
自動運転車の基本的なビルディングブロックの1つは、環境の地図を構築し、そのような地図上で自分自身をローカライズする能力である。
本稿では,ステレオカメラセンサを用いて環境を把握し,地図を作成する。
live concurrent localization and mapping (slam) では、基底真理マップを参照として使用せず、時間とともにエラーが蓄積されるため、誤った局所化のリスクがある。
そこで我々はorb-slam\,2パッケージの拡張により,まず環境の視覚的特徴のマップを低駆動速度で構築し保存する。
2度目の実行では、マップをリロードして、以前構築したマップにローカライズします。
以前に構築された地図上でのローディングとローカライズは、完全なSLAMと比較して、自動運転車の継続的なローカライズ精度を向上させることができる。
このマップ保存機能はオリジナルのORB-SLAM\,2実装に欠けている。
構築したSLAMマップに対して,KITTIデータセットのシーンのローカライズ精度を評価する。
さらに, 小型電動車を用いて記録したデータの局所化を検証した。
特徴量の多い環境で平均走行速度36m/sで走行する車両において, 局所化の相対翻訳誤差が1\%以下であることを示す。
ローカライズモードは、フルSLAMに比べてローカライズ精度と計算負荷の低減に寄与する。
ORB-SLAM2への私たちの貢献のソースコードは、https://github.com/TUMFTM/orbslam-map-saving-extensionで公開されます。 Electric vhicles and autonomous driving dominate current research efforts in the automotive sector. The two topics go hand in hand in terms of enabling safer and more environmentally friendly driving. One fundamental building block of an autonomous vehicle is the ability to build a map of the environment and localize itself on such a map. In this paper, we make use of a stereo camera sensor in order to perceive the environment and create the map. With live Simultaneous Localization and Mapping (SLAM), there is a risk of mislocalization, since no ground truth map is used as a reference and errors accumulate over time. Therefore, we first build up and save a map of visual features of the environment at low driving speeds with our extension to the ORB-SLAM\,2 package. In a second run, we reload the map and then localize on the previously built-up map. Loading and localizing on a previously built map can improve the continuous localization accuracy for autonomous vehicles in comparison to a full SLAM. This map saving feature is missing in the original ORB-SLAM\,2 implementation. We evaluate the localization accuracy for scenes of the KITTI dataset against the built up SLAM map. Furthermore, we test the localization on data recorded with our own small scale electric model car. We show that the relative translation error of the localization stays under 1\% for a vehicle travelling at an average longitudinal speed of 36 m/s in a feature-rich environment. The localization mode contributes to a better localization accuracy and lower computational load compared to a full SLAM. The source code of our contribution to the ORB-SLAM2 will be made public at: https://github.com/TUMFTM/orbslam-map-saving-extension. | 翻訳日:2022-12-02 23:19:29 公開日:2020-05-15 |
# 物体検出のための深層学習型レーダ・カメラセンサ融合アーキテクチャ A Deep Learning-based Radar and Camera Sensor Fusion Architecture for Object Detection ( http://arxiv.org/abs/2005.07431v1 ) ライセンス: Link先を確認 | Felix Nobis, Maximilian Geisslinger, Markus Weber, Johannes Betz and Markus Lienkamp | (参考訳) 近年,ディープラーニングを用いたカメラ画像の物体検出が成功している。
検知率の上昇と計算効率のよいネットワーク構造は、この技術を量産車への適用に向けて推進している。
それでも、カメラのセンサー品質は、厳しい気象条件や、薄暗い場所や夜間のセンサーノイズの増加によって制限される。
本手法は,ネットワーク層にカメラデータとスパースレーダデータを投影することにより,現在の2次元物体検出ネットワークを強化する。
提案するCameraRadarFusionNet(CRF-Net)は,センサデータの融合が検出結果に最も有用であるレベルを自動的に学習する。
さらに,特定のセンサタイプに学習を集中した,ドロップアウトに触発されたトレーニング戦略であるblackinを紹介する。
融合ネットワークは、2つの異なるデータセットに対して最先端の画像専用ネットワークより優れていることを示す。
この研究のコードは、https://github.com/TUMFTM/CameraRadarFusionNet.comで公開される。 Object detection in camera images, using deep learning has been proven successfully in recent years. Rising detection rates and computationally efficient network structures are pushing this technique towards application in production vehicles. Nevertheless, the sensor quality of the camera is limited in severe weather conditions and through increased sensor noise in sparsely lit areas and at night. Our approach enhances current 2D object detection networks by fusing camera data and projected sparse radar data in the network layers. The proposed CameraRadarFusionNet (CRF-Net) automatically learns at which level the fusion of the sensor data is most beneficial for the detection result. Additionally, we introduce BlackIn, a training strategy inspired by Dropout, which focuses the learning on a specific sensor type. We show that the fusion network is able to outperform a state-of-the-art image-only network for two different datasets. The code for this research will be made available to the public at: https://github.com/TUMFTM/CameraRadarFusionNet. | 翻訳日:2022-12-02 23:19:07 公開日:2020-05-15 |
# 深部神経畳み込みネットワークを用いた眼底画像分割のための凸形状 Convex Shape Prior for Deep Neural Convolution Network based Eye Fundus Images Segmentation ( http://arxiv.org/abs/2005.07476v1 ) ライセンス: Link先を確認 | Jun Liu, Xue-Cheng Tai, and Shousheng Luo | (参考訳) Convex Shapes (CS) は眼底画像における光学ディスクとカップセグメンテーションの一般的な先駆体である。
凸形状を表す適切な技法を設計することが重要である。
これまでのところ、ディープニューラル畳み込みネットワーク(dcnn)からの出力オブジェクトが凸形状であることを保証することは依然として問題である。
本研究では,画像分割のためによく使用されるDCNNに容易に統合でき,出力が凸形状であることを保証できる手法を提案する。
この方法は柔軟で、複数のオブジェクトを処理でき、いくつかのオブジェクトを凸にすることができる。
本手法は,DCNNにおけるシグモイド活性化関数の二重表現に基づく。
双対空間において、先行する凸形状は、形状の双対表現に対する単純な二次制約によって保証される。
さらに,本手法は,ソフトしきい値解析法(STD)を用いて,空間正規化や他の形状を予め組み込むこともできる。
正規化は、セグメンテーション対象の境界曲線を同時に滑らかかつ凸にすることができる。
我々は,我々のモデルを数値的に解くために,非常に安定なアクティブセットプロジェクションアルゴリズムを設計する。
このアルゴリズムはCS-STDと呼ばれる新しいDCNN層を形成し、その出力は凸オブジェクトのほぼ二分分割でなければならない。
CS-STDブロックでは、凸情報が伝播して、トレーニングおよび予測プロセス中に、DCNNを前方および後方の伝播を誘導することができる。
例えば、一般的なdeeplabv3+をバックボーンネットワークとして使用することにより、網膜基底像のセグメンテーションに凸優先層を適用する。
複数の公開データセットに対する実験結果から,本手法は従来のDCNNセグメンテーション法よりも効率的で優れていた。 Convex Shapes (CS) are common priors for optic disc and cup segmentation in eye fundus images. It is important to design proper techniques to represent convex shapes. So far, it is still a problem to guarantee that the output objects from a Deep Neural Convolution Networks (DCNN) are convex shapes. In this work, we propose a technique which can be easily integrated into the commonly used DCNNs for image segmentation and guarantee that outputs are convex shapes. This method is flexible and it can handle multiple objects and allow some of the objects to be convex. Our method is based on the dual representation of the sigmoid activation function in DCNNs. In the dual space, the convex shape prior can be guaranteed by a simple quadratic constraint on a binary representation of the shapes. Moreover, our method can also integrate spatial regularization and some other shape prior using a soft thresholding dynamics (STD) method. The regularization can make the boundary curves of the segmentation objects to be simultaneously smooth and convex. We design a very stable active set projection algorithm to numerically solve our model. This algorithm can form a new plug-and-play DCNN layer called CS-STD whose outputs must be a nearly binary segmentation of convex objects. In the CS-STD block, the convexity information can be propagated to guide the DCNN in both forward and backward propagation during training and prediction process. As an application example, we apply the convexity prior layer to the retinal fundus images segmentation by taking the popular DeepLabV3+ as a backbone network. Experimental results on several public datasets show that our method is efficient and outperforms the classical DCNN segmentation methods. | 翻訳日:2022-12-02 23:18:50 公開日:2020-05-15 |
# 若者のレジリエンスを促進するチャットボットアーキテクチャ A chatbot architecture for promoting youth resilience ( http://arxiv.org/abs/2005.07355v1 ) ライセンス: Link先を確認 | Chester Holt-Quick, Jim Warren, Karolina Stasiak, Ruth Williams, Grant Christie, Sarah Hetrick, Sarah Hopkins, Tania Cargo, Sally Merry | (参考訳) Eヘルス技術は、若者のメンタルヘルスにスケーラブルでアクセスしやすい介入を提供する可能性がある。
ニュージーランドの若者向けのe-screening and e-therapyツールのエコシステム開発の一環として、対話エージェントであるHeadstrongは認知行動療法とポジティブ心理学に基づく手法でレジリエンスを促進するように設計されている。
本稿ではチャットボットの基盤となるアーキテクチャについて述べる。
このアーキテクチャは、relatable personasによって4週間のプログラムで提供される20以上のアクティビティをサポートする。
このアーキテクチャは、コンテンツ管理システムに視覚的なオーサリングインターフェースを提供する。
当初の青少年のレジリエンス・チャットボットのサポートに加えて、このアーキテクチャは、学部生のための3週間の「ストレス・デトックス」介入を作成するために再利用され、その後、新型コロナウイルスのパンデミックの影響で若者を支援するチャットボットとして、フィールドトライアルで3つのシステムが使用されている。
Headstrongアーキテクチャは、非技術専門家の入力と迅速なデプロイメントをサポートするe-therapyのコンテキストにおいて、ドメイン中心のオーサリング環境を構築する可能性を示している。 E-health technologies have the potential to provide scalable and accessible interventions for youth mental health. As part of a developing an ecosystem of e-screening and e-therapy tools for New Zealand young people, a dialog agent, Headstrong, has been designed to promote resilience with methods grounded in cognitive behavioral therapy and positive psychology. This paper describes the architecture underlying the chatbot. The architecture supports a range of over 20 activities delivered in a 4-week program by relatable personas. The architecture provides a visual authoring interface to its content management system. In addition to supporting the original adolescent resilience chatbot, the architecture has been reused to create a 3-week 'stress-detox' intervention for undergraduates, and subsequently for a chatbot to support young people with the impacts of the COVID-19 pandemic, with all three systems having been used in field trials. The Headstrong architecture illustrates the feasibility of creating a domain-focused authoring environment in the context of e-therapy that supports non-technical expert input and rapid deployment. | 翻訳日:2022-12-02 23:10:55 公開日:2020-05-15 |
# 感情のスタイル移行における課題:語彙置換パイプラインによる探索 Challenges in Emotion Style Transfer: An Exploration with a Lexical Substitution Pipeline ( http://arxiv.org/abs/2005.07617v1 ) ライセンス: Link先を確認 | David Helbig and Enrica Troiano and Roman Klinger | (参考訳) 感情(怒り、嫌悪感、恐怖、喜び、悲しみ、驚き)は、コンテンツとスタイルの間のフェンス上にあるため、特に難しい感情のスタイル移行のタスクを提案する。
To understand the particular difficulties of this task, we design a transparent emotion style transfer pipeline based on three steps: (1) select the words that are promising to be substituted to change the emotion (with a brute-force approach and selection based on the attention mechanism of an emotion classifier), (2) find sets of words as candidates for substituting the words (based on lexical and distributional semantics), and (3) select the most promising combination of substitutions with an objective function which consists of components for content (based on BERT sentence embeddings), emotion (based on an emotion classifier), and fluency (based on a neural language model).
このコンパチブル・ストレート・フォワード・セットアップにより、テキストの感情的負荷の変化、コンテンツやスタイルの変化の相互作用、不規則な場合などについて、タスクを探索し理解することができる。
我々は、ツイートに基づく自動的および注釈研究において、パイプラインを定量的に評価し、実際に、内容と感情の同時調整が目的と矛盾していることを見出した: シェラーの感情成分モデルによって動機付けられた質的分析で示されているように、これは特に認知的評価や身体反応の記述に基づく暗黙的な感情表現のケースである。 We propose the task of emotion style transfer, which is particularly challenging, as emotions (here: anger, disgust, fear, joy, sadness, surprise) are on the fence between content and style. To understand the particular difficulties of this task, we design a transparent emotion style transfer pipeline based on three steps: (1) select the words that are promising to be substituted to change the emotion (with a brute-force approach and selection based on the attention mechanism of an emotion classifier), (2) find sets of words as candidates for substituting the words (based on lexical and distributional semantics), and (3) select the most promising combination of substitutions with an objective function which consists of components for content (based on BERT sentence embeddings), emotion (based on an emotion classifier), and fluency (based on a neural language model). This comparably straight-forward setup enables us to explore the task and understand in what cases lexical substitution can vary the emotional load of texts, how changes in content and style interact and if they are at odds. We further evaluate our pipeline quantitatively in an automated and an annotation study based on Tweets and find, indeed, that simultaneous adjustments of content and emotion are conflicting objectives: as we show in a qualitative analysis motivated by Scherer's emotion component model, this is particularly the case for implicit emotion expressions based on cognitive appraisal or descriptions of bodily reactions. | 翻訳日:2022-12-02 23:10:06 公開日:2020-05-15 |
# 機械学習による政治者のメディアカバレッジにおけるジェンダーバイアスの発見 Uncovering Gender Bias in Media Coverage of Politicians with Machine Learning ( http://arxiv.org/abs/2005.07734v1 ) ライセンス: Link先を確認 | Susan Leavy | (参考訳) 本稿では,人工知能を用いたメディアにおける政治指導者の体系的ジェンダーバイアスを明らかにする。
15年間にわたるアイルランドの大臣の新聞報道が収集され、自然言語処理技術と機械学習で分析された。
分析の結果,女性政治家の描写におけるジェンダーバイアスの証拠,関連する政策の種類,政治指導者としての業績の観点で評価された方法などが示された。
また,ジェンダー理論とフェミニスト言語学を基盤とした理論的枠組みの中で,メディアコンテンツが人工知能の技術を大規模に活用する手法も提案する。 This paper presents research uncovering systematic gender bias in the representation of political leaders in the media, using artificial intelligence. Newspaper coverage of Irish ministers over a fifteen year period was gathered and analysed with natural language processing techniques and machine learning. Findings demonstrate evidence of gender bias in the portrayal of female politicians, the kind of policies they were associated with and how they were evaluated in terms of their performance as political leaders. This paper also sets out a methodology whereby media content may be analysed on a large scale utilising techniques from artificial intelligence within a theoretical framework founded in gender theory and feminist linguistics. | 翻訳日:2022-12-02 23:09:44 公開日:2020-05-15 |
# 脳波信号を用いた記憶統合のための無意識評価 Assessment of Unconsciousness for Memory Consolidation Using EEG Signals ( http://arxiv.org/abs/2005.08620v1 ) ライセンス: Link先を確認 | Gi-Hwan Shin, Minji Lee, Seong-Whan Lee | (参考訳) 意識と無意識の評価は現代の神経科学において難しい問題である。
意識は記憶の統合と密接に関連しており、記憶は意識経験の重要な要素である。
これまでのところ、意識中の記憶統合に関する研究は数多く報告されているが、無意識時の記憶統合に関する研究はほとんどない。
そこで本研究では,脳波信号を用いた記憶統合の観点から無意識性を評価することを目的とする。
特に、昼寝中に無意識状態を使い、睡眠は正常な生理的条件下で意識が消失する唯一の状態である。
睡眠前後の2つの記憶タスク(ワードペアとビスオ空間)を行い,無意識下での記憶統合を評価する。
その結果,無意識時の中心,頭頂,後頭葉領域のスピンドルパワーと位置記憶性能は正の相関を示した。
メモリ性能では、デルタ接続とワードペアメモリ、アルファ接続とロケーションメモリ、スピンドル接続とワードペアメモリの間に負の相関関係があった。
また,睡眠前後の記憶記憶における無意識と脳変化の有意な関係を観察した。
これらの知見は、記憶統合との関係を探求することによって、無意識の評価に関する新たな洞察を与えるのに役立つ。 The assessment of consciousness and unconsciousness is a challenging issue in modern neuroscience. Consciousness is closely related to memory consolidation in that memory is a critical component of conscious experience. So far, many studies have been reported on memory consolidation during consciousness, but there is little research on memory consolidation during unconsciousness. Therefore, we aim to assess the unconsciousness in terms of memory consolidation using electroencephalogram signals. In particular, we used unconscious state during a nap; because sleep is the only state in which consciousness disappears under normal physiological conditions. Seven participants performed two memory tasks (word-pairs and visuo-spatial) before and after the nap to assess the memory consolidation during unconsciousness. As a result, spindle power in central, parietal, occipital regions during unconsciousness was positively correlated with the performance of location memory. With the memory performance, there was also a negative correlation between delta connectivity and word-pairs memory, alpha connectivity and location memory, and spindle connectivity and word-pairs memory. We additionally observed the significant relationship between unconsciousness and brain changes during memory recall before and after the nap. These findings could help present new insights into the assessment of unconsciousness by exploring the relationship with memory consolidation. | 翻訳日:2022-12-02 23:09:04 公開日:2020-05-15 |
# 3d-bciトレーニング環境における畳み込みニューラルネットワークを用いた直感的映像のデコード Decoding of Intuitive Visual Motion Imagery Using Convolutional Neural Network under 3D-BCI Training Environment ( http://arxiv.org/abs/2005.08879v1 ) ライセンス: Link先を確認 | Byoung-Hee Kwon, Ji-Hoon Jeong, Jeong-Hyun Cho, and Seong-Whan Lee | (参考訳) 本研究では,より直感的なbci(brain-computer interface)パラダイムである視覚運動画像を用いて,直感的なユーザの意図をデコードする。
本研究では,3次元bciトレーニングプラットフォームを開発し,視覚運動画像実験におけるより直感的な想像力向上を支援する。
実験タスクは、携帯電話を拾い、ドアを開け、食べ物を食べ、水を注ぐなど、日常生活でよく使われる動きに基づいて選択されました。
9名の被験者が実験に参加した。
眼球運動像は前頭前葉と後頭葉との相関が高いことが統計的に示唆された。
また,視覚動画像復号のための機能接続アプローチを用いて,最も適切な脳波チャネルを選択し,分類のための畳み込みニューラルネットワークアーキテクチャを提案した。
その結果、16のチャンネルから4つのクラスで提案するアーキテクチャの平均分類性能は67.50%であった。
この結果は,神経補綴やロボットアームなどの実用化のためのBCIベースのデバイス制御システムの開発の可能性を示すものである。 In this study, we adopted visual motion imagery, which is a more intuitive brain-computer interface (BCI) paradigm, for decoding the intuitive user intention. We developed a 3-dimensional BCI training platform and applied it to assist the user in performing more intuitive imagination in the visual motion imagery experiment. The experimental tasks were selected based on the movements that we commonly used in daily life, such as picking up a phone, opening a door, eating food, and pouring water. Nine subjects participated in our experiment. We presented statistical evidence that visual motion imagery has a high correlation from the prefrontal and occipital lobes. In addition, we selected the most appropriate electroencephalography channels using a functional connectivity approach for visual motion imagery decoding and proposed a convolutional neural network architecture for classification. As a result, the averaged classification performance of the proposed architecture for 4 classes from 16 channels was 67.50 % across all subjects. This result is encouraging, and it shows the possibility of developing a BCI-based device control system for practical applications such as neuroprosthesis and a robotic arm. | 翻訳日:2022-12-02 23:08:45 公開日:2020-05-15 |
# 超高エネルギーニュートリノ検出用進化アンテナ Evolving Antennas for Ultra-High Energy Neutrino Detection ( http://arxiv.org/abs/2005.07772v1 ) ライセンス: Link先を確認 | Julie Rolla, Amy Connolly, Kai Staats, Stephanie Wissel, Dean Arakaki, Ian Best, Adam Blenk, Brian Clark, Maximillian Clowdus, Suren Gourapura, Corey Harris, Hannah Hasan, Luke Letwin, David Liu, Carl Pfendner, Jordan Potter, Cade Sbrocco, Tom Sinha and Jacob Trevithick | (参考訳) 進化的アルゴリズムは、既知の問題の最適解を進化させるために、突然変異と選択の概念を生物学から借用する。
genetisコラボレーションは、現在の設計よりも超高エネルギーニュートリノ誘導電波パルスに敏感なアンテナを設計する遺伝的アルゴリズムを開発している。
この調査には3つの側面がある。
1つ目は、単純なワイヤアンテナを進化させ、コンセプトと異なるアルゴリズムをテストすることである。
第2に、所定の配列幾何に対して最適化されたアンテナ応答パターンが進化する。
最後に、アンテナ自体がニュートリノ感度をフィットネスの指標として進化している。
これはXFdtd有限差分時間領域モデリングプログラムとニュートリノ実験のシミュレーションを統合することで達成される。 Evolutionary algorithms borrow from biology the concepts of mutation and selection in order to evolve optimized solutions to known problems. The GENETIS collaboration is developing genetic algorithms for designing antennas that are more sensitive to ultra-high energy neutrino induced radio pulses than current designs. There are three aspects of this investigation. The first is to evolve simple wire antennas to test the concept and different algorithms. Second, optimized antenna response patterns are evolved for a given array geometry. Finally, antennas themselves are evolved using neutrino sensitivity as a measure of fitness. This is achieved by integrating the XFdtd finite-difference time-domain modeling program with simulations of neutrino experiments. | 翻訳日:2022-12-02 23:08:28 公開日:2020-05-15 |
# 動脈内スピンラベリング(asl)灌流画像の脱ノイズ化のための拡張広帯域アクティベーションネットワーク A Learning-from-noise Dilated Wide Activation Network for denoising Arterial Spin Labeling (ASL) Perfusion Images ( http://arxiv.org/abs/2005.07784v1 ) ライセンス: Link先を確認 | Danfeng Xie, Yiran Li, Hanlu Yang, Li Bai, Lei Zhang, Ze Wang | (参考訳) 動脈スピンラベリング(ASL)灌流MRIは非侵襲的脳血流定量法(CBF)を提供するが、それでも低信号-雑音比(SNR)に悩まされている。
深層機械学習(DL)を用いて、いくつかのグループがより奨励的な評価結果を示している。
興味深いことに、高画質asl cbf画像の欠如により、ノイズ汚染サーロゲート参照を用いたディープニューラルネットワークの訓練により、改善が得られた。
さらに、これらのDL ASLネットワーク(ASLDN)の出力は、サロゲート参照よりも高いSNRを示した。
この現象は, ASL CBF画像デノナイズのためのディープネットワークの学習学習能力を示し, ネットワーク最適化によりさらに拡張可能である。
本研究では,asl cbf画像品質が高騒音トレーニング基準で達成可能かどうかをテストするための新しいasldnを提案する。
雑音からの学習仮説を検証するために異なる実験を行った。
その結果, 比較的高いSNR基準で学習したASLDNよりも, 高い出力品質が得られることがわかった。 Arterial spin labeling (ASL) perfusion MRI provides a non-invasive way to quantify cerebral blood flow (CBF) but it still suffers from a low signal-to-noise-ratio (SNR). Using deep machine learning (DL), several groups have shown encouraging denoising results. Interestingly, the improvement was obtained when the deep neural network was trained using noise-contaminated surrogate reference because of the lack of golden standard high quality ASL CBF images. More strikingly, the output of these DL ASL networks (ASLDN) showed even higher SNR than the surrogate reference. This phenomenon indicates a learning-from-noise capability of deep networks for ASL CBF image denoising, which can be further enhanced by network optimization. In this study, we proposed a new ASLDN to test whether similar or even better ASL CBF image quality can be achieved in the case of highly noisy training reference. Different experiments were performed to validate the learning-from-noise hypothesis. The results showed that the learning-from-noise strategy produced better output quality than ASLDN trained with relatively high SNR reference. | 翻訳日:2022-12-02 23:02:25 公開日:2020-05-15 |
# WW-Nets:オブジェクト検出のためのデュアルニューラルネットワーク WW-Nets: Dual Neural Networks for Object Detection ( http://arxiv.org/abs/2005.07787v1 ) ライセンス: Link先を確認 | Mohammad K. Ebrahimpour, J. Ben Falandays, Samuel Spevack, Ming-Hsuan Yang, and David C. Noelle | (参考訳) ネットワーク接続重みの暗黙的なオブジェクト位置知識を用いて、オブジェクト検出タスクにおける選択的注意を導く、新しいディープ畳み込みニューラルネットワークフレームワークを提案する。
我々のアプローチはWhat-Where Nets (WW-Nets)と呼ばれ、人間の視覚経路の構造にインスパイアされている。
脳では、視覚には側頭葉と頭頂葉の2つの別々の流れ、それぞれ腹側の流れと背側の流れが組み込まれている。
一次視覚野からの腹側経路は"what"情報で支配され、背側経路は"where"情報で支配される。
この構造にインスパイアされた我々は、"What Network"と"Where Network"を統合したオブジェクト検出フレームワークを提案しました。
whatネットワークの目的は、入力画像の関連部分に選択的に注意を向けることである。
Where Networkは、この情報を使って関心のあるオブジェクトを特定し分類する。
本稿では,本手法をpascal voc 2007および2012およびcoco object detection challengeデータセットにおける最先端アルゴリズムと比較する。
また,人間の「地道」に対するアプローチの比較を行った。
PASCAL VOC 2007の画像を用いた視線追跡実験の結果を報告するとともに,我々のWW-Netsにおける人間の注意と情報処理の興味深い関係について述べる。
最後に,提案手法が他の物体検出手法と比較して,大きなマージンで良好に動作することを示す。
コードと視線追跡地上データデータセットは、https://github.com/mkebrahimpour.com/で確認できる。 We propose a new deep convolutional neural network framework that uses object location knowledge implicit in network connection weights to guide selective attention in object detection tasks. Our approach is called What-Where Nets (WW-Nets), and it is inspired by the structure of human visual pathways. In the brain, vision incorporates two separate streams, one in the temporal lobe and the other in the parietal lobe, called the ventral stream and the dorsal stream, respectively. The ventral pathway from primary visual cortex is dominated by "what" information, while the dorsal pathway is dominated by "where" information. Inspired by this structure, we have proposed an object detection framework involving the integration of a "What Network" and a "Where Network". The aim of the What Network is to provide selective attention to the relevant parts of the input image. The Where Network uses this information to locate and classify objects of interest. In this paper, we compare this approach to state-of-the-art algorithms on the PASCAL VOC 2007 and 2012 and COCO object detection challenge datasets. Also, we compare out approach to human "ground-truth" attention. We report the results of an eye-tracking experiment on human subjects using images from PASCAL VOC 2007, and we demonstrate interesting relationships between human overt attention and information processing in our WW-Nets. Finally, we provide evidence that our proposed method performs favorably in comparison to other object detection approaches, often by a large margin. The code and the eye-tracking ground-truth dataset can be found at: https://github.com/mkebrahimpour. | 翻訳日:2022-12-02 23:02:04 公開日:2020-05-15 |
# FuSSI-Net:意図予測ネットワークのための時空間骨格の融合 FuSSI-Net: Fusion of Spatio-temporal Skeletons for Intention Prediction Network ( http://arxiv.org/abs/2005.07796v1 ) ライセンス: Link先を確認 | Francesco Piccoli, Rajarathnam Balakrishnan, Maria Jesus Perez, Moraldeepsingh Sachdeo, Carlos Nunez, Matthew Tang, Kajsa Andreasson, Kalle Bjurek, Ria Dass Raj, Ebba Davidsson, Colin Eriksson, Victor Hagman, Jonas Sjoberg, Ying Li, L. Srikar Muppirisetty, Sohini Roychowdhury | (参考訳) 歩行者の意図認識は、堅牢で安全な自動運転(AD)と高度な運転支援システム(ADAS)を開発する上で非常に重要である。
本研究では,昼夜のシナリオでよく機能するエンドツーエンドの歩行者意図フレームワークを開発する。
我々のフレームワークは、人間のポーズの骨格的特徴と組み合わせた対物検出境界ボックスに依存している。
骨の特徴を生かして偽陽性を低減し,意図予測性能を向上させるため,早期,後期,後期の融合機構(早期および後期)を検討した。
初期の核融合機構はAPが0.89、精度/リコールが0.79/0.89である。
さらに,歩行意図システムを適切に評価するための3つの指標を提案する。
意図予測のためのこれらの新しい評価指標に基づき、提案されたエンドツーエンドネットワークは、実際の危険操作よりも半秒前まで正確な歩行者意図を提供する。 Pedestrian intention recognition is very important to develop robust and safe autonomous driving (AD) and advanced driver assistance systems (ADAS) functionalities for urban driving. In this work, we develop an end-to-end pedestrian intention framework that performs well on day- and night- time scenarios. Our framework relies on objection detection bounding boxes combined with skeletal features of human pose. We study early, late, and combined (early and late) fusion mechanisms to exploit the skeletal features and reduce false positives as well to improve the intention prediction performance. The early fusion mechanism results in AP of 0.89 and precision/recall of 0.79/0.89 for pedestrian intention classification. Furthermore, we propose three new metrics to properly evaluate the pedestrian intention systems. Under these new evaluation metrics for the intention prediction, the proposed end-to-end network offers accurate pedestrian intention up to half a second ahead of the actual risky maneuver. | 翻訳日:2022-12-02 23:01:37 公開日:2020-05-15 |
# 垂直方向ニューラルネットワーク:選択的注意による物体検出 Ventral-Dorsal Neural Networks: Object Detection via Selective Attention ( http://arxiv.org/abs/2005.09727v1 ) ライセンス: Link先を確認 | Mohammad K. Ebrahimpour, Jiayun Li, Yen-Yun Yu, Jackson L. Reese, Azadeh Moghtaderi, Ming-Hsuan Yang, David C. Noelle | (参考訳) 深層畳み込みニューラルネットワーク(CNN)は、画像分類タスクでよく機能することが繰り返し証明されている。
しかし、オブジェクト検出方法はまだ大幅に改善される必要がある。
本稿では,人間の視覚システムの構造に触発されたVDNet(Ventral-Dorsal Networks)と呼ばれる新しいフレームワークを提案する。
概して、視覚入力信号は、側頭葉と頭頂葉の2つの別々の神経ストリームに沿って分析される。
これらのストリーム間の粗い機能的区別は、信号の「何」である物体認識と、信号の「どこで」である位置関連情報を抽出することである。
側頭葉に入る一次視覚野からの腹側路は"what"情報で支配され、後頭葉に入る背側経路は"where"情報で支配される。
この構造に着想を得て,補完的な "Ventral Network" と "Dorsal Network" の統合を提案する。
オブジェクトのアイデンティティに関する情報はローカライゼーションのガイドとなり、位置情報は関連する画像領域への注意を誘導し、オブジェクト認識を改善する。
この新しいデュアルネットワークフレームワークは、オブジェクト検出の焦点を絞る。
実験の結果,提案手法はPASCAL VOC 2007における最先端物体検出手法を8%(mAP),PASCAL VOC 2012では3%(mAP)より優れていた。
さらに、年鑑画像の比較では、VDNetの質的かつ定量的な利点が示される。 Deep Convolutional Neural Networks (CNNs) have been repeatedly proven to perform well on image classification tasks. Object detection methods, however, are still in need of significant improvements. In this paper, we propose a new framework called Ventral-Dorsal Networks (VDNets) which is inspired by the structure of the human visual system. Roughly, the visual input signal is analyzed along two separate neural streams, one in the temporal lobe and the other in the parietal lobe. The coarse functional distinction between these streams is between object recognition -- the "what" of the signal -- and extracting location related information -- the "where" of the signal. The ventral pathway from primary visual cortex, entering the temporal lobe, is dominated by "what" information, while the dorsal pathway, into the parietal lobe, is dominated by "where" information. Inspired by this structure, we propose the integration of a "Ventral Network" and a "Dorsal Network", which are complementary. Information about object identity can guide localization, and location information can guide attention to relevant image regions, improving object recognition. This new dual network framework sharpens the focus of object detection. Our experimental results reveal that the proposed method outperforms state-of-the-art object detection approaches on PASCAL VOC 2007 by 8% (mAP) and PASCAL VOC 2012 by 3% (mAP). Moreover, a comparison of techniques on Yearbook images displays substantial qualitative and quantitative benefits of VDNet. | 翻訳日:2022-12-02 23:01:24 公開日:2020-05-15 |
# 限界予算下における制約付きベイズ最適化の抽出探索 Excursion Search for Constrained Bayesian Optimization under a Limited Budget of Failures ( http://arxiv.org/abs/2005.07443v1 ) ライセンス: Link先を確認 | Alonso Marco, Alexander von Rohr, Dominik Baumann, Jos\'e Miguel Hern\'andez-Lobato and Sebastian Trimpe | (参考訳) 自転車に乗ることを学ぶと、子供は最初の成功を達成する前に何度も倒れる。
転倒は通常穏やかな結果にしかならないため、望ましくない振る舞いに関する豊富な情報を提供するため、より高速な学習プロセスと引き換えに、耐え難い失敗と見なすことができる。
未知制約(boc)下でのベイズ最適化の文脈では、セーフラーニングの典型的な戦略は保守的に探求し、あらゆる方法で失敗を避ける。
スペクトルの反対側では、フェールを許容する非保守的BOCアルゴリズムは最適点に達する前に無拘束で何度も失敗することがある。
本研究では,与えられた障害予算の関数として探索において許容されるリスク量を制御する制御理論に基づく新たな意思決定者を提案する。
実証的検証により,本アルゴリズムは様々な最適化実験において,故障予算をより効率的に使用し,一般的には最先端手法よりも少ない後悔を達成できることを示した。
さらに,確率過程における探索集合の概念にインスパイアされた非拘束ベイズ最適化のためのアルゴリズムを提案し,そのアルゴリズムが構築される。 When learning to ride a bike, a child falls down a number of times before achieving the first success. As falling down usually has only mild consequences, it can be seen as a tolerable failure in exchange for a faster learning process, as it provides rich information about an undesired behavior. In the context of Bayesian optimization under unknown constraints (BOC), typical strategies for safe learning explore conservatively and avoid failures by all means. On the other side of the spectrum, non conservative BOC algorithms that allow failing may fail an unbounded number of times before reaching the optimum. In this work, we propose a novel decision maker grounded in control theory that controls the amount of risk we allow in the search as a function of a given budget of failures. Empirical validation shows that our algorithm uses the failures budget more efficiently in a variety of optimization experiments, and generally achieves lower regret, than state-of-the-art methods. In addition, we propose an original algorithm for unconstrained Bayesian optimization inspired by the notion of excursion sets in stochastic processes, upon which the failures-aware algorithm is built. | 翻訳日:2022-12-02 23:00:58 公開日:2020-05-15 |
# 関数接続の極端理論:パラメトリック微分方程式を解く物理インフォームドニューラルネットワーク法 Extreme Theory of Functional Connections: A Physics-Informed Neural Network Method for Solving Parametric Differential Equations ( http://arxiv.org/abs/2005.10632v1 ) ライセンス: Link先を確認 | Enrico Schiassi, Carl Leake, Mario De Florio, Hunter Johnston, Roberto Furfaro, Daniele Mortari | (参考訳) 本研究では,関数接続の極限理論 (Extreme Theory of Functional Connections, X-TFC) と呼ばれるパラメトリック微分方程式 (DE) を含む問題を解くための,新しい,正確かつ堅牢な物理インフォームド手法を提案する。
提案手法は, パラメトリックDES, 1) 機能接続理論, TFC, および物理インフォームドニューラルネットワーク(PINN) に関わる問題を解くための, 最近開発された2つのフレームワークの相乗効果である。
本稿では、既知のパラメータによるパラメトリックDES(モデリングエラーが無視される問題)に関する正確な問題の解に焦点をあてるが、X-TFCはデータ駆動の解やパラメトリックDESの発見にも利用できる。
提案手法では, ニューラルネットワーク(NN)を自由関数とするTFC制約式を用いて, パラメトリックDESの潜伏解を近似する。
この近似解形式は常にDeの制約を解析的に満たし、Deep-TFC法のような制約のないパラメータを持つNNを維持している。
X-TFCはPINNとDeep-TFCとは異なるが、PINNとDeep-TFCはディープNNを使用し、X-TFCはシングルレイヤーNNまたはより正確にはExtreme Learning Machine, ELMを使用する。
この選択は、EMMアルゴリズムの特性に基づいている。
この手法を数値的に検証するために、線形および非線形の通常のDES(ODE)、ODEのシステム(SODE)、部分Des(PDE)に対する解の近似を含む様々な問題に対して試験を行った。
さらに、これらの問題のいくつかは、古典的なエンデン・フォウラー方程式、放射移動(RT)方程式、熱移動(HT)方程式など、物理学や工学に関心がある。
その結果,X-TFCは計算時間が少なく,他の最先端手法に匹敵する精度が得られた。 In this work we present a novel, accurate, and robust physics-informed method for solving problems involving parametric differential equations (DEs) called the Extreme Theory of Functional Connections, or X-TFC. The proposed method is a synergy of two recently developed frameworks for solving problems involving parametric DEs, 1) the Theory of Functional Connections, TFC, and the Physics-Informed Neural Networks, PINN. Although this paper focuses on the solution of exact problems involving parametric DEs (i.e. problems where the modeling error is negligible) with known parameters, X-TFC can also be used for data-driven solutions and data-driven discovery of parametric DEs. In the proposed method, the latent solution of the parametric DEs is approximated by a TFC constrained expression that uses a Neural Network (NN) as the free-function. This approximate solution form always analytically satisfies the constraints of the DE, while maintaining a NN with unconstrained parameters, like the Deep-TFC method. X-TFC differs from PINN and Deep-TFC; whereas PINN and Deep-TFC use a deep-NN, X-TFC uses a single-layer NN, or more precisely, an Extreme Learning Machine, ELM. This choice is based on the properties of the ELM algorithm. In order to numerically validate the method, it was tested over a range of problems including the approximation of solutions to linear and non-linear ordinary DEs (ODEs), systems of ODEs (SODEs), and partial DEs (PDEs). Furthermore, a few of these problems are of interest in physics and engineering such as the Classic Emden-Fowler equation, the Radiative Transfer (RT) equation, and the Heat-Transfer (HT) equation. The results show that X-TFC achieves high accuracy with low computational time and thus it is comparable with the other state-of-the-art methods. | 翻訳日:2022-12-02 23:00:11 公開日:2020-05-15 |
# 5G通信を"見えない"ものにする方法: ワイヤレスプライバシのための敵対的機械学習 How to Make 5G Communications "Invisible": Adversarial Machine Learning for Wireless Privacy ( http://arxiv.org/abs/2005.07675v1 ) ライセンス: Link先を確認 | Brian Kim and Yalin E. Sagduyu and Kemal Davaslioglu and Tugba Erpek and Sennur Ulukus | (参考訳) 我々は,興味の伝達の有無を検出するために,深層学習(dl)分類器を用いた盗聴者からの無線通信を隠蔽する問題について検討する。
盗聴器の存在下で受信機に送信する送信機が1つ存在し、一方、協調ジャマ(CJ)は、盗聴器を騙して受信した信号の重ね合わせをノイズとして分類するために、慎重に製造された対向的摂動を空気中に送信する。
cjは、受信機のビット誤り率(ber)への影響を制限するために摂動信号の強度を上限とする。
この逆摂動により、受信した信号をノイズとして分類し、berをわずかに増加させながら高い確率でノイズとして分類する。
一方、cjは、従来のジャミングのようにガウスノイズを送信するだけでは盗聴者を騙すことはできない。
その結果,DL分類器を内蔵して送信を検知しても,異なる変調型と最終的に5G通信を行う信号は盗聴器から効果的に隠蔽できることがわかった。 We consider the problem of hiding wireless communications from an eavesdropper that employs a deep learning (DL) classifier to detect whether any transmission of interest is present or not. There exists one transmitter that transmits to its receiver in the presence of an eavesdropper, while a cooperative jammer (CJ) transmits carefully crafted adversarial perturbations over the air to fool the eavesdropper into classifying the received superposition of signals as noise. The CJ puts an upper bound on the strength of perturbation signal to limit its impact on the bit error rate (BER) at the receiver. We show that this adversarial perturbation causes the eavesdropper to misclassify the received signals as noise with high probability while increasing the BER only slightly. On the other hand, the CJ cannot fool the eavesdropper by simply transmitting Gaussian noise as in conventional jamming and instead needs to craft perturbation signals built by adversarial machine learning to enable covert communications. Our results show that signals with different modulation types and eventually 5G communications can be effectively hidden from an eavesdropper even if it is equipped with a DL classifier to detect transmissions. | 翻訳日:2022-12-02 22:54:04 公開日:2020-05-15 |
# 非凸合成最適化のための分散低減モーメント Momentum with Variance Reduction for Nonconvex Composition Optimization ( http://arxiv.org/abs/2005.07755v1 ) ライセンス: Link先を確認 | Ziyi Chen, Yi Zhou | (参考訳) 合成最適化は非凸機械学習に広く応用されている。
合成最適化のために,モーメントと分散低減手法を取り入れた様々な高度な確率的アルゴリズムを開発した。
しかし、これらのアルゴリズムは収束を加速するために両方の手法を十分に活用しておらず、非凸最適化における収束保証が欠如している。
本稿では,非凸合成最適化のためのSPIDERに基づく分散化手法を考案し,既存の文献を補完する。
特に,我々の運動量設計では,既存の河東社運動量よりも,定位当たりの近位写像評価を少なくする必要がある。
さらに, このアルゴリズムは, 非凸有限サムとオンライン合成最適化の両方において, ほぼ最適サンプル複雑性を達成し, 勾配支配条件下での線形収束率を達成する。
数値実験により,本アルゴリズムは非凸合成最適化において既存のアルゴリズムよりもはるかに高速に収束することを示す。 Composition optimization is widely-applied in nonconvex machine learning. Various advanced stochastic algorithms that adopt momentum and variance reduction techniques have been developed for composition optimization. However, these algorithms do not fully exploit both techniques to accelerate the convergence and are lack of convergence guarantee in nonconvex optimization. This paper complements the existing literature by developing various momentum schemes with SPIDER-based variance reduction for non-convex composition optimization. In particular, our momentum design requires less number of proximal mapping evaluations per-iteration than that required by the existing Katyusha momentum. Furthermore, our algorithm achieves near-optimal sample complexity results in both non-convex finite-sum and online composition optimization and achieves a linear convergence rate under the gradient dominant condition. Numerical experiments demonstrate that our algorithm converges significantly faster than existing algorithms in nonconvex composition optimization. | 翻訳日:2022-12-02 22:53:42 公開日:2020-05-15 |
# 機械聴取における信頼性のある局所説明 Reliable Local Explanations for Machine Listening ( http://arxiv.org/abs/2005.07788v1 ) ライセンス: Link先を確認 | Saumitra Mishra, Emmanouil Benetos, Bob L. Sturm, Simon Dixon | (参考訳) 機械学習モデルの振る舞いを分析する一つの方法は、モデル予測に最大影響を与える入力特徴を強調する局所的な説明である。
入力摂動がモデル予測に与える影響を分析する感度解析は、局所的な説明を生成する方法の1つである。
有意義な入力摂動は信頼できる説明を生成するのに不可欠であるが、そのような摂動と実行方法に関する限られた研究が存在する。
本研究は,音声分析を行うマシンリスニングモデルを用いて,これらの質問について検討する。
具体的には,現在最先端の深層歌唱音声検出(SVD)モデルを用いて,SoundLIME(局所的説明法)による説明がモデル入力の摂動にどう影響するかを解析する。
その結果,オクルードされた入力領域の内容に音素の説明が敏感であることが判明した。
さらに,機械聴取モデルの入力を確実に排除するための,適切なコンテンツタイプを定量的に同定する手法を提案する。
SVDモデルの結果から,入力メル-スペクトログラムビンの平均等級が時間的説明に最も適した内容型であることが示唆された。 One way to analyse the behaviour of machine learning models is through local explanations that highlight input features that maximally influence model predictions. Sensitivity analysis, which involves analysing the effect of input perturbations on model predictions, is one of the methods to generate local explanations. Meaningful input perturbations are essential for generating reliable explanations, but there exists limited work on what such perturbations are and how to perform them. This work investigates these questions in the context of machine listening models that analyse audio. Specifically, we use a state-of-the-art deep singing voice detection (SVD) model to analyse whether explanations from SoundLIME (a local explanation method) are sensitive to how the method perturbs model inputs. The results demonstrate that SoundLIME explanations are sensitive to the content in the occluded input regions. We further propose and demonstrate a novel method for quantitatively identifying suitable content type(s) for reliably occluding inputs of machine listening models. The results for the SVD model suggest that the average magnitude of input mel-spectrogram bins is the most suitable content type for temporal explanations. | 翻訳日:2022-12-02 22:53:13 公開日:2020-05-15 |
# 埋め込み生成モデルによるパーソナライズド心臓モデルパラメータの高次元ベイズ最適化 High-dimensional Bayesian Optimization of Personalized Cardiac Model Parameters via an Embedded Generative Model ( http://arxiv.org/abs/2005.07804v1 ) ライセンス: Link先を確認 | Jwala Dhamala, Sandesh Ghimire, John L. Sapp, B. Milan Hor\'acek, Linwei Wang | (参考訳) モデルパラメータの形での患者固有の組織特性の推定は、パーソナライズされた生理モデルにとって重要である。
しかし,これらの組織特性は解剖学的モデルによって空間的に変化しており,限られた測定データの存在下での高次元(HD)最適化の意義が示唆された。
パラメータ空間の次元を減らす一般的な解決策は、解剖学的メッシュを固定された少数のセグメントまたは複数スケールの階層に明示的に分割することである。
この解剖学的に基づくパラメータ空間の縮小は、パラメータ推定の基本的なボトルネックを示し、その結果、組織の不均一性を反映するには解像度が低すぎるか、あるいは、計算可能な範囲内で確実に推定できる次元が高すぎる。
本稿では, ベイズ最適化の目的関数に生成的変分オートエンコーダ(VAE)を組み込んで, 空間的に変化する組織特性の生成コードを表す暗黙の低次元(LD)探索空間を提供する。
さらに、生成コードに関するvaeエンコードされた知識は、探索空間の探索のガイドとして用いられる。
心臓電気生理学的モデルにおける組織興奮性の推定に本法を適用した。
合成および実データ実験は、10倍以上の効率でパラメータ推定の精度を向上させる能力を示す。 The estimation of patient-specific tissue properties in the form of model parameters is important for personalized physiological models. However, these tissue properties are spatially varying across the underlying anatomical model, presenting a significance challenge of high-dimensional (HD) optimization at the presence of limited measurement data. A common solution to reduce the dimension of the parameter space is to explicitly partition the anatomical mesh, either into a fixed small number of segments or a multi-scale hierarchy. This anatomy-based reduction of parameter space presents a fundamental bottleneck to parameter estimation, resulting in solutions that are either too low in resolution to reflect tissue heterogeneity, or too high in dimension to be reliably estimated within feasible computation. In this paper, we present a novel concept that embeds a generative variational auto-encoder (VAE) into the objective function of Bayesian optimization, providing an implicit low-dimensional (LD) search space that represents the generative code of the HD spatially-varying tissue properties. In addition, the VAE-encoded knowledge about the generative code is further used to guide the exploration of the search space. The presented method is applied to estimating tissue excitability in a cardiac electrophysiological model. Synthetic and real-data experiments demonstrate its ability to improve the accuracy of parameter estimation with more than 10x gain in efficiency. | 翻訳日:2022-12-02 22:52:33 公開日:2020-05-15 |
# ハイブリッドテンソルネットワークによる量子古典機械学習 Quantum-Classical Machine learning by Hybrid Tensor Networks ( http://arxiv.org/abs/2005.09428v1 ) ライセンス: Link先を確認 | Ding Liu, Zekun Yao, Quan Zhang | (参考訳) テンソルネットワーク(TN)は機械学習に広く使われており、特にTNとディープラーニングは大きな類似点を持っている。
本研究では,機械学習における通常のテンソルネットワークの限界を克服するため,量子古典的ハイブリッドテンソルネットワーク(HTN)と古典的ニューラルネットワークを組み合わせた一様ディープラーニングフレームワークを提案する。
まず、表現力とアーキテクチャのスケーラビリティを含む機械学習の応用における通常のテンソルネットワークの限界を分析する。
実際、通常のテンソルネットワークはディープラーニングの基本的な構成要素には適していないと結論付けている。
そこで,機械学習における通常のテンソルネットワークの欠如を克服するHTNの性能について検討する。
この意味では、Back PropagationやStochastic Gradient Descentといったアルゴリズムの標準的な組み合わせであるディープラーニング方式でHTNを訓練することができる。
最後に、量子状態分類と量子古典オートエンコーダを含む、htnの潜在的な応用を示す2つの応用事例を提案する。
これらのケースはまた、様々なHTNをディープラーニングで設計する大きな可能性を示している。 Tensor networks (TN) have found a wide use in machine learning, and in particular, TN and deep learning bear striking similarities. In this work, we propose the quantum-classical hybrid tensor networks (HTN) which combine tensor networks with classical neural networks in a uniform deep learning framework to overcome the limitations of regular tensor networks in machine learning. We first analyze the limitations of regular tensor networks in the applications of machine learning involving the representation power and architecture scalability. We conclude that in fact the regular tensor networks are not competent to be the basic building blocks of deep learning. Then, we discuss the performance of HTN which overcome all the deficiency of regular tensor networks for machine learning. In this sense, we are able to train HTN in the deep learning way which is the standard combination of algorithms such as Back Propagation and Stochastic Gradient Descent. We finally provide two applicable cases to show the potential applications of HTN, including quantum states classification and quantum-classical autoencoder. These cases also demonstrate the great potentiality to design various HTN in deep learning way. | 翻訳日:2022-12-02 22:51:34 公開日:2020-05-15 |
# 重力力の法則と他の解析関数の学習 Learning the gravitational force law and other analytic functions ( http://arxiv.org/abs/2005.07724v1 ) ライセンス: Link先を確認 | Atish Agarwala, Abhimanyu Das, Rina Panigrahy, Qiuyi Zhang | (参考訳) 大規模なニューラルネットワークモデルは、物理学、化学、生物学を含む科学の多くの分野において重要な機能を学ぶことに成功している。
最近の理論研究では、関数の単純なクラス上のネットワークやカーネルメソッドに対する明示的な学習境界が示されているが、実際にはより複雑な関数には適用されていない。
これらの手法を拡張して,任意のカーネル法や等価な無限大ネットワークに対する球上の解析関数の学習境界を,対応するsgdで訓練されたアクティベーション関数で提供する。
広帯域で1階層のreluネットワークは,関連する関数の導関数に比例する多数のサンプルを用いて解析関数を学習できることを示す。
したがって、科学において重要な多くの機能は効率的に学習可能である。
例えば、ニュートンの重力の法則によって与えられる多体重力関数の学習における明示的な境界を証明する。
我々の理論的境界は、非常に広いReLUネットワーク(および対応するNTKカーネル)がガウスカーネルによるカーネル学習と比較して解析関数の学習に優れていることを示唆している。
本稿では,多体重力関数が指数的アクティベーションを持つネットワークと比較して,ReLUネットワークで学習しやすいことを示す。 Large neural network models have been successful in learning functions of importance in many branches of science, including physics, chemistry and biology. Recent theoretical work has shown explicit learning bounds for wide networks and kernel methods on some simple classes of functions, but not on more complex functions which arise in practice. We extend these techniques to provide learning bounds for analytic functions on the sphere for any kernel method or equivalent infinitely-wide network with the corresponding activation function trained with SGD. We show that a wide, one-hidden layer ReLU network can learn analytic functions with a number of samples proportional to the derivative of a related function. Many functions important in the sciences are therefore efficiently learnable. As an example, we prove explicit bounds on learning the many-body gravitational force function given by Newton's law of gravitation. Our theoretical bounds suggest that very wide ReLU networks (and the corresponding NTK kernel) are better at learning analytic functions as compared to kernel learning with Gaussian kernels. We present experimental evidence that the many-body gravitational force function is easier to learn with ReLU networks as compared to networks with exponential activations. | 翻訳日:2022-12-02 22:44:45 公開日:2020-05-15 |
# COVID-Twitter-BERT:Twitter上のCOVID-19コンテンツを分析する自然言語処理モデル COVID-Twitter-BERT: A Natural Language Processing Model to Analyse COVID-19 Content on Twitter ( http://arxiv.org/abs/2005.07503v1 ) ライセンス: Link先を確認 | Martin M\"uller, Marcel Salath\'e, Per E Kummervold | (参考訳) 本研究では、COVID-19のトピックに関するTwitterメッセージの大規模なコーパスを事前トレーニングしたトランスフォーマーベースのモデルである、COVID-Twitter-BERT(CT-BERT)をリリースする。
本モデルでは,5つの分類データセットにおいて,ベースモデルであるBERT-Largeと比較して10~30%の限界改善を示した。
最大の改善点は、ターゲットドメインにある。
CT-BERTのような事前訓練されたトランスフォーマーモデルは、特定のターゲットドメインでトレーニングされており、分類、質問応答、チャットボットなど、さまざまな自然言語処理タスクに使用できる。
CT-BERTは、新型コロナウイルスのコンテンツ、特にTwitterのソーシャルメディア投稿に使用されるように最適化されている。 In this work, we release COVID-Twitter-BERT (CT-BERT), a transformer-based model, pretrained on a large corpus of Twitter messages on the topic of COVID-19. Our model shows a 10-30% marginal improvement compared to its base model, BERT-Large, on five different classification datasets. The largest improvements are on the target domain. Pretrained transformer models, such as CT-BERT, are trained on a specific target domain and can be used for a wide variety of natural language processing tasks, including classification, question-answering and chatbots. CT-BERT is optimised to be used on COVID-19 content, in particular social media posts from Twitter. | 翻訳日:2022-12-02 22:44:27 公開日:2020-05-15 |
# 1次元スペクトルデータの分類と回帰解析のための畳み込みニューラルネットワーク Convolutional neural networks for classification and regression analysis of one-dimensional spectral data ( http://arxiv.org/abs/2005.07530v1 ) ライセンス: Link先を確認 | Ine L. Jernelv, Dag Roar Hjelme, Yuji Matsuura, Astrid Aksnes | (参考訳) 畳み込みニューラルネットワーク(CNN)は画像認識やテキスト解析に広く使われており、前処理ステップの必要性を減らす手段として1次元データに適用することが提案されている。
前処理は多変量解析の不可欠な部分であるが、最適な前処理方法の決定には多くの利用可能な方法があるため時間がかかる。
本研究では,スペクトルデータの分類と回帰分析のためにCNNの性能を検討した。
cnnは分類のためのサポートベクターマシン (svms) や回帰分析のための部分最小二乗回帰 (plsr) など、他の様々なケモメトリック法と比較された。
比較は、生のデータと、前処理および/または特徴選択方法を経て行われたデータの両方に基づいて行われた。
これらのモデルは近赤外、中赤外、ラマン分光法に基づく手法で得られたスペクトルデータに用いられた。
分類データセットについては, 正しく分類された観測のパーセンテージに基づいてモデルを評価し, 回帰分析では決定係数(r$^2$)に基づいてモデルを評価した。
以上の結果から,cnnは標準的なケモメトリック法,特に前処理を用いない分類タスクよりも優れていた。
しかし、cnnと標準ケモメトリック法の両方は、適切な前処理と特徴選択法を使用すると、パフォーマンスが向上する。
これらの結果は1次元データに使用されるCNNの機能と限界を示している。 Convolutional neural networks (CNNs) are widely used for image recognition and text analysis, and have been suggested for application on one-dimensional data as a way to reduce the need for pre-processing steps. Pre-processing is an integral part of multivariate analysis, but determination of the optimal pre-processing methods can be time-consuming due to the large number of available methods. In this work, the performance of a CNN was investigated for classification and regression analysis of spectral data. The CNN was compared with various other chemometric methods, including support vector machines (SVMs) for classification and partial least squares regression (PLSR) for regression analysis. The comparisons were made both on raw data, and on data that had gone through pre-processing and/or feature selection methods. The models were used on spectral data acquired with methods based on near-infrared, mid-infrared, and Raman spectroscopy. For the classification datasets the models were evaluated based on the percentage of correctly classified observations, while for regression analysis the models were assessed based on the coefficient of determination (R$^2$). Our results show that CNNs can outperform standard chemometric methods, especially for classification tasks where no pre-processing is used. However, both CNN and the standard chemometric methods see improved performance when proper pre-processing and feature selection methods are used. These results demonstrate some of the capabilities and limitations of CNNs used on one-dimensional data. | 翻訳日:2022-12-02 22:43:13 公開日:2020-05-15 |
# マルチストリームconv-tasnetによる非線形残響抑圧 Nonlinear Residual Echo Suppression Based on Multi-stream Conv-TasNet ( http://arxiv.org/abs/2005.07631v1 ) ライセンス: Link先を確認 | Hongsheng Chen, Teng Xiang, Kai Chen, Jing Lu | (参考訳) エコーと遠端信号の非線形関係により、線形適応フィルタにより音響エコーを完全に除去することはできない。
通常、後処理モジュールはエコーをさらに抑制するために必要となる。
本稿では,完全畳み込み型時間領域音声分離ネットワーク(conv-tasnet)の修正に基づく残響抑圧手法を提案する。
線形音響エコーキャンセラシステムの残差信号と適応フィルタの出力を併用して、Conv-TasNetの複数のストリームを形成することにより、システム全体の低レイテンシを維持しながら、より効率的なエコー抑圧を実現する。
シミュレーションにより,単発と二重発の両方において提案手法の有効性が検証された。 Acoustic echo cannot be entirely removed by linear adaptive filters due to the nonlinear relationship between the echo and far-end signal. Usually a post processing module is required to further suppress the echo. In this paper, we propose a residual echo suppression method based on the modification of fully convolutional time-domain audio separation network (Conv-TasNet). Both the residual signal of the linear acoustic echo cancellation system, and the output of the adaptive filter are adopted to form multiple streams for the Conv-TasNet, resulting in more effective echo suppression while keeping a lower latency of the whole system. Simulation results validate the efficacy of the proposed method in both single-talk and double-talk situations. | 翻訳日:2022-12-02 22:42:35 公開日:2020-05-15 |
# 雑音を考慮した逆ロバスト半空間の学習 Efficiently Learning Adversarially Robust Halfspaces with Noise ( http://arxiv.org/abs/2005.07652v1 ) ライセンス: Link先を確認 | Omar Montasser, Surbhi Goel, Ilias Diakonikolas, Nathan Srebro | (参考訳) 本研究では,分布非依存環境における逆強半空間の学習問題について検討する。
実現可能な設定では、ハーフ空間が効果的に学習可能な対向摂動集合に対して必要かつ十分な条件を提供する。
ランダムラベルノイズの存在下では、$\ell_p$-perturbationに対して、この問題に対して単純な計算効率のよいアルゴリズムを与える。 We study the problem of learning adversarially robust halfspaces in the distribution-independent setting. In the realizable setting, we provide necessary and sufficient conditions on the adversarial perturbation sets under which halfspaces are efficiently robustly learnable. In the presence of random label noise, we give a simple computationally efficient algorithm for this problem with respect to any $\ell_p$-perturbation. | 翻訳日:2022-12-02 22:42:25 公開日:2020-05-15 |
# Covid-19パンデミック政府行動の最適化のための新しい手法に基づく深層Q-ラーニング/遺伝的アルゴリズム A Deep Q-learning/genetic Algorithms Based Novel Methodology For Optimizing Covid-19 Pandemic Government Actions ( http://arxiv.org/abs/2005.07656v1 ) ライセンス: Link先を確認 | Luis Miralles-Pechu\'an, Fernando Jim\'enez, Hiram Ponce, Lourdes Mart\'inez-Villase\~nor | (参考訳) 新型コロナウイルス(covid-19)がパンデミック(パンデミック)の脅威にさらされている国はいつでも、国民の健康を守り、経済への悪影響を緩和するための適切な措置を講じるべきだ。
この点に関して、政府がとれるアプローチは、自粛のような劇的な措置が経済に深刻な打撃を与えるという制限的な方法と、より緩和された制限が人口の高率に危険を及ぼす可能性がある自由主義的な方法の2つである。
最適なアプローチは、中間にある可能性があり、正しい判断を行うためには、一つまたは他の手段を取ることの将来の効果を正確に見積もる必要がある。
本報告では, ウイルスウイルスの集団内での進化を示すために, SEIR 疫学モデル (Susceptible Exposed - Infected - Recovered) を用いた。
政府が取り得る行動の最良のシーケンスを最適化するために、深層q学習に基づく方法と遺伝的アルゴリズムに基づく方法の2つの手法を提案する。
第1に、病院が重篤な患者に圧倒されないよう、感染者数が少ないこと、第2に、重篤な措置を長すぎることを回避し、経済に深刻な被害をもたらす可能性があること、という2つの目的を満たすことに焦点を当てた報奨制度により、行動の順序(拘束、自己隔離、2メートル距離、制限を取らないこと)を評価する。
今回の実験は、パンデミックの悪影響を両感覚で減らすために政府が対応できる行動を見つけるための有効な手段であることを実証する。
また、深層q学習に基づくアプローチは、行動のシーケンスを最適化するための遺伝的アルゴリズムに基づくアプローチを克服することを証明する。 Whenever countries are threatened by a pandemic, as is the case with the COVID-19 virus, governments should take the right actions to safeguard public health as well as to mitigate the negative effects on the economy. In this regard, there are two completely different approaches governments can take: a restrictive one, in which drastic measures such as self-isolation can seriously damage the economy, and a more liberal one, where more relaxed restrictions may put at risk a high percentage of the population. The optimal approach could be somewhere in between, and, in order to make the right decisions, it is necessary to accurately estimate the future effects of taking one or other measures. In this paper, we use the SEIR epidemiological model (Susceptible - Exposed - Infected - Recovered) for infectious diseases to represent the evolution of the virus COVID-19 over time in the population. To optimize the best sequences of actions governments can take, we propose a methodology with two approaches, one based on Deep Q-Learning and another one based on Genetic Algorithms. The sequences of actions (confinement, self-isolation, two-meter distance or not taking restrictions) are evaluated according to a reward system focused on meeting two objectives: firstly, getting few people infected so that hospitals are not overwhelmed with critical patients, and secondly, avoiding taking drastic measures for too long which can potentially cause serious damage to the economy. The conducted experiments prove that our methodology is a valid tool to discover actions governments can take to reduce the negative effects of a pandemic in both senses. We also prove that the approach based on Deep Q-Learning overcomes the one based on Genetic Algorithms for optimizing the sequences of actions. | 翻訳日:2022-12-02 22:42:20 公開日:2020-05-15 |
# KEIS@JUST - SemEval-2020 Task 12: Identifying Multilingual Offensive Tweets using Weighted Ensemble and Fine-Tuned BERT (英語) KEIS@JUST at SemEval-2020 Task 12: Identifying Multilingual Offensive Tweets Using Weighted Ensemble and Fine-Tuned BERT ( http://arxiv.org/abs/2005.07820v1 ) ライセンス: Link先を確認 | Saja Khaled Tawalbeh, Mahmoud Hammad and Mohammad AL-Smadi | (参考訳) 本稿では,多言語攻撃言語における共通タスクを表現するsemeval-2020タスク12におけるチームkeis@just参加について述べる。
我々は,英語のサブタスクAを除くすべてのサブタスクに対して提供されるすべての言語に参加した。
2つの主要なアプローチが開発され、最初はアラビア語と英語の両言語に取り組み、重み付けされたアンサンブルはBi-GRUとCNNで構成され、続いてガウスノイズとグローバルプール層が重みに乗じて全体の性能を向上させる。
2つ目は、Bi-LSTMやBi-GRUといったリカレントニューラルネットワークの傍でBERTから転送学習を行い、続いてグローバル平均プーリング層を実行する。
単語の埋め込みと文脈の埋め込みは特徴として使われ、さらにアラビア語でのみデータ拡張が使われている。 This research presents our team KEIS@JUST participation at SemEval-2020 Task 12 which represents shared task on multilingual offensive language. We participated in all the provided languages for all subtasks except sub-task-A for the English language. Two main approaches have been developed the first is performed to tackle both languages Arabic and English, a weighted ensemble consists of Bi-GRU and CNN followed by Gaussian noise and global pooling layer multiplied by weights to improve the overall performance. The second is performed for other languages, a transfer learning from BERT beside the recurrent neural networks such as Bi-LSTM and Bi-GRU followed by a global average pooling layer. Word embedding and contextual embedding have been used as features, moreover, data augmentation has been used only for the Arabic language. | 翻訳日:2022-12-02 22:35:35 公開日:2020-05-15 |
# 早すぎるか遅すぎるか - 計画と強化学習の間の計算上のトレードオフ Think Too Fast Nor Too Slow: The Computational Trade-off Between Planning And Reinforcement Learning ( http://arxiv.org/abs/2005.07404v1 ) ライセンス: Link先を確認 | Thomas M. Moerland, Anna Deichler, Simone Baldi, Joost Broekens and Catholijn M. Jonker | (参考訳) 計画と強化学習は、シーケンシャルな意思決定に対する2つの重要なアプローチである。
マルチステップ近似リアルタイム動的プログラミング(multi-step approximation real-time dynamic programming)は、alphazero[silver et al., 2018]を例に挙げた、最近成功したアルゴリズムクラスである。
しかし、計画と学習の組み合わせは、新しい疑問をもたらす: 計画、学習、行動に費やす時間をどうやってバランスさせるべきか?
このトレードオフの重要性は、これまで明確に研究されていなかった。
計算結果から、計画が長すぎることも短すぎることもないことが示されている。
概念的には,徹底的な探索(長期計画)からモデルフリーなrl(計画なし)まで,最適な性能を実現する新しい計画学習アルゴリズムのスペクトルを同定する。 Planning and reinforcement learning are two key approaches to sequential decision making. Multi-step approximate real-time dynamic programming, a recently successful algorithm class of which AlphaZero [Silver et al., 2018] is an example, combines both by nesting planning within a learning loop. However, the combination of planning and learning introduces a new question: how should we balance time spend on planning, learning and acting? The importance of this trade-off has not been explicitly studied before. We show that it is actually of key importance, with computational results indicating that we should neither plan too long nor too short. Conceptually, we identify a new spectrum of planning-learning algorithms which ranges from exhaustive search (long planning) to model-free RL (no planning), with optimal performance achieved midway. | 翻訳日:2022-12-02 22:35:17 公開日:2020-05-15 |
# 人間行動認識のためのセンサデータ:特徴表現とベンチマーク Sensor Data for Human Activity Recognition: Feature Representation and Benchmarking ( http://arxiv.org/abs/2005.07308v1 ) ライセンス: Link先を確認 | Fl\'avia Alves, Martin Gairing, Frans A. Oliehoek and Thanh-Toan Do | (参考訳) HAR(Human Activity Recognition)は、監視装置(センサなど)から取得したデータを取得し分析することに焦点を当てている。
この分野には、生活支援、セキュリティ監視、インテリジェントな輸送など、幅広い応用がある。
harでは、アクティビティ認識モデルの開発は、これらのデバイスが取得したデータとそれらの分析に使用される方法に依存しており、パフォーマンスメトリクスに直接影響を及ぼす。
本研究では,機械学習(ML)技術を用いて人間の活動を正確に認識する問題に対処する。
本稿では,連続観測に基づく新しい特徴表現を提案し,その特徴表現と従来使用されていた特徴表現を,幅広い分類法を用いて比較する。
実験の結果,提案した表現に基づく手法はベースラインよりも優れており,高頻度かつ低頻度な動作においても精度が向上した。
また,人間の行動認識データセットにおいて,さらなる機能の追加とその前処理技術がパフォーマンスに与える影響について検討した。 The field of Human Activity Recognition (HAR) focuses on obtaining and analysing data captured from monitoring devices (e.g. sensors). There is a wide range of applications within the field; for instance, assisted living, security surveillance, and intelligent transportation. In HAR, the development of Activity Recognition models is dependent upon the data captured by these devices and the methods used to analyse them, which directly affect performance metrics. In this work, we address the issue of accurately recognising human activities using different Machine Learning (ML) techniques. We propose a new feature representation based on consecutive occurring observations and compare it against previously used feature representations using a wide range of classification methods. Experimental results demonstrate that techniques based on the proposed representation outperform the baselines and a better accuracy was achieved for both highly and less frequent actions. We also investigate how the addition of further features and their pre-processing techniques affect performance results leading to state-of-the-art accuracy on a Human Activity Recognition dataset. | 翻訳日:2022-12-02 22:34:04 公開日:2020-05-15 |
# データストリームの進化のための適応型XGBoost Adaptive XGBoost for Evolving Data Streams ( http://arxiv.org/abs/2005.07353v1 ) ライセンス: Link先を確認 | Jacob Montiel, Rory Mitchell, Eibe Frank, Bernhard Pfahringer, Talel Abdessalem, Albert Bifet | (参考訳) boostingは、ベースモデルを逐次的に組み合わせ、高い予測精度を達成するアンサンブル手法である。
このアンサンブル法に基づく一般的な学習アルゴリズムはeXtreme Gradient Boosting (XGB)である。
進化するデータストリームの分類におけるXGBの適応について述べる。
この設定では、新しいデータが時間とともに到着し、クラスと機能の関係がプロセス内で変わる可能性があるため、コンセプトドリフトが現れる。
提案手法は,新たなデータが利用可能になると,ミニバッチからアンサンブルの新たなメンバーを生成する。
最大アンサンブルサイズは固定されているが、現在の概念との一貫性を確保するために新しいデータでアンサンブルが更新されるため、このサイズに達すると学習は停止しない。
また,アンサンブルを更新する機構を起動するためのコンセプトドリフト検出の活用についても検討する。
提案手法は実データと合成データを用いて,データストリームのバッチインクリメンタルおよびインスタンスインクリメンタルな分類法と比較する。 Boosting is an ensemble method that combines base models in a sequential manner to achieve high predictive accuracy. A popular learning algorithm based on this ensemble method is eXtreme Gradient Boosting (XGB). We present an adaptation of XGB for classification of evolving data streams. In this setting, new data arrives over time and the relationship between the class and the features may change in the process, thus exhibiting concept drift. The proposed method creates new members of the ensemble from mini-batches of data as new data becomes available. The maximum ensemble size is fixed, but learning does not stop when this size is reached because the ensemble is updated on new data to ensure consistency with the current concept. We also explore the use of concept drift detection to trigger a mechanism to update the ensemble. We test our method on real and synthetic data with concept drift and compare it against batch-incremental and instance-incremental classification methods for data streams. | 翻訳日:2022-12-02 22:33:48 公開日:2020-05-15 |
# 決定論的一般化境界に基づくアクティブラーニングの停止基準 Stopping criterion for active learning based on deterministic generalization bounds ( http://arxiv.org/abs/2005.07402v1 ) ライセンス: Link先を確認 | Hideaki Ishibashi and Hideitsu Hino | (参考訳) アクティブラーニング(active learning)は、学習マシンがトレーニングに使用するサンプルを選択できるフレームワークである。
この技術は、特にデータ取得とラベル付けのコストが高い場合に有望である。
アクティブな学習では、学習を止めるタイミングを決定することが重要な問題である。
本研究では,アクティブラーニングを自動停止する基準を提案する。
提案する停止基準は, 期待一般化誤差と仮説検定の違いに基づいている。
PAC-Bayesian理論に基づく新たなトレーニングダタムの獲得前後の予測一般化誤差の差に対する新たな上限を導出する。
しかし、通常のPAC-ベイズ境界とは異なり、提案された境界は決定論的であり、したがって不等式の信頼性と厳密性の間には制御不能なトレードオフはない。
我々は,上界と統計的テストを組み合わせることで,アクティブラーニングの停止基準を導出する。
人工データセットと実データの両方を用いた実験により,提案手法の有効性を実証する。 Active learning is a framework in which the learning machine can select the samples to be used for training. This technique is promising, particularly when the cost of data acquisition and labeling is high. In active learning, determining the timing at which learning should be stopped is a critical issue. In this study, we propose a criterion for automatically stopping active learning. The proposed stopping criterion is based on the difference in the expected generalization errors and hypothesis testing. We derive a novel upper bound for the difference in expected generalization errors before and after obtaining a new training datum based on PAC-Bayesian theory. Unlike ordinary PAC-Bayesian bounds, though, the proposed bound is deterministic; hence, there is no uncontrollable trade-off between the confidence and tightness of the inequality. We combine the upper bound with a statistical test to derive a stopping criterion for active learning. We demonstrate the effectiveness of the proposed method via experiments with both artificial and real datasets. | 翻訳日:2022-12-02 22:33:32 公開日:2020-05-15 |
# 探索用簡易センサインテンション Simple Sensor Intentions for Exploration ( http://arxiv.org/abs/2005.07541v1 ) ライセンス: Link先を確認 | Tim Hertweck, Martin Riedmiller, Michael Bloesch, Jost Tobias Springenberg, Noah Siegel, Markus Wulfmeier, Roland Hafner, Nicolas Heess | (参考訳) 現代の強化学習アルゴリズムは、アプリケーションに必要な事前知識の量を削減しながら、ますます難しい制御問題の解を学習することができる。
残る課題の1つは、望ましくない方法でソリューションをバイアスすることなく、探検を適切に促進し、高価な計測なしで実際のロボットシステムに実装できる報酬スキームの定義である。
本稿では,単純なスパース報酬によってゴールタスクが定義され,エージェント内補助タスクによる探索が容易になるような設定に焦点を当てる。
補助タスクを定義する汎用的な方法として,簡易センサインテンション(ssis)の概念を紹介する。
SSIは、適切な報酬を定義するのに必要な事前知識の量を削減します。
さらに、生のセンサーストリームから直接計算することができ、実システム上で高価で不安定な状態推定は不要である。
これらの報酬に基づく学習システムは,シミュレーションや実環境において複雑なロボット課題を解決できることを実証する。
特に、実際のロボットアームは、コントローラ入力と補助報酬定義の両方に生のセンサストリームのみを使用する場合、スクラッチからBall-in-a-Cupタスクを把握、持ち上げ、解決することができることを示す。 Modern reinforcement learning algorithms can learn solutions to increasingly difficult control problems while at the same time reduce the amount of prior knowledge needed for their application. One of the remaining challenges is the definition of reward schemes that appropriately facilitate exploration without biasing the solution in undesirable ways, and that can be implemented on real robotic systems without expensive instrumentation. In this paper we focus on a setting in which goal tasks are defined via simple sparse rewards, and exploration is facilitated via agent-internal auxiliary tasks. We introduce the idea of simple sensor intentions (SSIs) as a generic way to define auxiliary tasks. SSIs reduce the amount of prior knowledge that is required to define suitable rewards. They can further be computed directly from raw sensor streams and thus do not require expensive and possibly brittle state estimation on real systems. We demonstrate that a learning system based on these rewards can solve complex robotic tasks in simulation and in real world settings. In particular, we show that a real robotic arm can learn to grasp and lift and solve a Ball-in-a-Cup task from scratch, when only raw sensor streams are used for both controller input and in the auxiliary reward definition. | 翻訳日:2022-12-02 22:26:49 公開日:2020-05-15 |
# 島の絶滅と再繁殖による神経進化の改善 Improving Neuroevolution Using Island Extinction and Repopulation ( http://arxiv.org/abs/2005.07376v1 ) ライセンス: Link先を確認 | Zimeng Lyu, Joshua Karns, AbdElRahman ElSaid, Travis Desell | (参考訳) neuroevolutionは一般に種分化戦略を使用して、ニューラルネットワークアーキテクチャの検索空間をより深く探求する。
そのような種分化戦略の1つは、分散進化アルゴリズムの性能と収束性を改善するのに人気がある島の利用である。
しかし、このアプローチでは、いくつかの島は停滞し、新しい最良の解決策が見つからない。
本稿では,絶滅現象と島再分布を利用して早期収束を回避することを提案する。
進化的eXploration of Augmenting Memory Models (EXAMM) neuro-evolution algorithmを用いてこれを探索する。
この戦略では、最もパフォーマンスの悪い島の全てのメンバーは定期的に死亡し、世界最高のゲノムの変異したバージョンで再分布する。
この島を基盤とした戦略はNEAT(NeuroEvolution of Augmenting Topologies)の種分化戦略と比較される。
2つの異なる実時間時系列データセット(石炭火力発電所と航空飛行データ)を用いて実験を行った。
以上の結果から,この島の絶滅と再分布戦略は,testmのもともとの島に基づく戦略とcallyの種分化戦略よりも優れた世界的最良ゲノムを進化させることが示唆された。 Neuroevolution commonly uses speciation strategies to better explore the search space of neural network architectures. One such speciation strategy is through the use of islands, which are also popular in improving performance and convergence of distributed evolutionary algorithms. However, in this approach some islands can become stagnant and not find new best solutions. In this paper, we propose utilizing extinction events and island repopulation to avoid premature convergence. We explore this with the Evolutionary eXploration of Augmenting Memory Models (EXAMM) neuro-evolution algorithm. In this strategy, all members of the worst performing island are killed of periodically and repopulated with mutated versions of the global best genome. This island based strategy is additionally compared to NEAT's (NeuroEvolution of Augmenting Topologies) speciation strategy. Experiments were performed using two different real world time series datasets (coal-fired power plant and aviation flight data). The results show that with statistical significance, this island extinction and repopulation strategy evolves better global best genomes than both EXAMM's original island based strategy and NEAT's speciation strategy. | 翻訳日:2022-12-02 22:26:31 公開日:2020-05-15 |
# 目標指向のダイアログモデルのパフォーマンスは本当に良好か?
システム評価の実証分析 Is Your Goal-Oriented Dialog Model Performing Really Well? Empirical Analysis of System-wise Evaluation ( http://arxiv.org/abs/2005.07362v1 ) ライセンス: Link先を確認 | Ryuichi Takanobu, Qi Zhu, Jinchao Li, Baolin Peng, Jianfeng Gao, Minlie Huang | (参考訳) マルチターン会話を通じて複雑なタスクをユーザに提供する,目標指向対話システムの開発への関心が高まっている。
個々のダイアログコンポーネントの性能を評価・改善するために多くの手法が考案されているが、ダイアログシステム全体のパフォーマンスにどのように異なるコンポーネントが貢献するかに関する包括的な実証研究は乏しい。
本稿では,異なる設定で異なるモジュールから構成される異なるタイプのダイアログシステムについて,システムワイドな評価を行い,実証的な分析を行う。
Our results show that (1) a pipeline dialog system trained using fine-grained supervision signals at different component levels often obtains better performance than the systems that use joint or end-to-end models trained on coarse-grained labels, (2) component-wise, single-turn evaluation results are not always consistent with the overall performance of a dialog system, and (3) despite the discrepancy between simulators and human users, simulated evaluation is still a valid alternative to the costly human evaluation especially in the early stage of development. There is a growing interest in developing goal-oriented dialog systems which serve users in accomplishing complex tasks through multi-turn conversations. Although many methods are devised to evaluate and improve the performance of individual dialog components, there is a lack of comprehensive empirical study on how different components contribute to the overall performance of a dialog system. In this paper, we perform a system-wise evaluation and present an empirical analysis on different types of dialog systems which are composed of different modules in different settings. Our results show that (1) a pipeline dialog system trained using fine-grained supervision signals at different component levels often obtains better performance than the systems that use joint or end-to-end models trained on coarse-grained labels, (2) component-wise, single-turn evaluation results are not always consistent with the overall performance of a dialog system, and (3) despite the discrepancy between simulators and human users, simulated evaluation is still a valid alternative to the costly human evaluation especially in the early stage of development. | 翻訳日:2022-12-02 22:25:38 公開日:2020-05-15 |
# ソフトマスクBERTによるスペル誤り補正 Spelling Error Correction with Soft-Masked BERT ( http://arxiv.org/abs/2005.07421v1 ) ライセンス: Link先を確認 | Shaohua Zhang, Haoran Huang, Jicong Liu and Hang Li | (参考訳) 綴り誤りの修正は、人間レベルの言語理解能力を必要とするため、重要かつ困難なタスクである。
本論文では, 一般性を欠くことなく中国語スペル誤り訂正(CSC)を考察する。
タスクの最先端方法は、言語表現モデルであるBERTに基づいて、文の各位置における修正候補のリスト(非補正を含む)から文字を選択する。
しかし、BERTはマスク言語モデリングを用いて事前学習する方法により、各位置にエラーがあるかどうかを検知する十分な能力を持っていないため、この手法の精度は準最適である。
本研究では,エラー検出のためのネットワークとBERTに基づくエラー訂正のためのネットワークから構成される,上記の問題に対処するニューラルアーキテクチャを提案する。
本手法は,「ソフトメイクBERT」を用いる方法が一般的であり,他の言語検出補正問題にも適用できる。
2つのデータセットに対する実験結果から,提案手法の性能はBERTのみに基づくものを含め,ベースラインよりも有意に優れていることが示された。 Spelling error correction is an important yet challenging task because a satisfactory solution of it essentially needs human-level language understanding ability. Without loss of generality we consider Chinese spelling error correction (CSC) in this paper. A state-of-the-art method for the task selects a character from a list of candidates for correction (including non-correction) at each position of the sentence on the basis of BERT, the language representation model. The accuracy of the method can be sub-optimal, however, because BERT does not have sufficient capability to detect whether there is an error at each position, apparently due to the way of pre-training it using mask language modeling. In this work, we propose a novel neural architecture to address the aforementioned issue, which consists of a network for error detection and a network for error correction based on BERT, with the former being connected to the latter with what we call soft-masking technique. Our method of using `Soft-Masked BERT' is general, and it may be employed in other language detection-correction problems. Experimental results on two datasets demonstrate that the performance of our proposed method is significantly better than the baselines including the one solely based on BERT. | 翻訳日:2022-12-02 22:25:02 公開日:2020-05-15 |
# 凸問題でも学習率アニーリングは一般化に役立つ Learning Rate Annealing Can Provably Help Generalization, Even for Convex Problems ( http://arxiv.org/abs/2005.07360v1 ) ライセンス: Link先を確認 | Preetum Nakkiran | (参考訳) 学習率のスケジュールは、現代のニューラルネットワークの一般化性能に大きく影響するが、その理由はまだ分かっていない。
Li-Wei-Ma (2019) は、この振舞いが単純化された非凸神経ネットワーク環境に存在することを最近証明した。
本稿では,この現象が凸学習問題,特に2次元の線形回帰に対しても存在することを示す。
学習速度のアニーリング(学習速度が大きくなると、学習速度が小さくなる)が、学習速度の小さいものよりも、最小値への勾配降下を許容できるような、おもちゃの凸問題を与える。
私たちの場合、これはテストと列車の損失状況のミスマッチと早期停止の組み合わせによって起こります。 Learning rate schedule can significantly affect generalization performance in modern neural networks, but the reasons for this are not yet understood. Li-Wei-Ma (2019) recently proved this behavior can exist in a simplified non-convex neural-network setting. In this note, we show that this phenomenon can exist even for convex learning problems -- in particular, linear regression in 2 dimensions. We give a toy convex problem where learning rate annealing (large initial learning rate, followed by small learning rate) can lead gradient descent to minima with provably better generalization than using a small learning rate throughout. In our case, this occurs due to a combination of the mismatch between the test and train loss landscapes, and early-stopping. | 翻訳日:2022-12-02 22:17:59 公開日:2020-05-15 |
# LCアルゴリズムに基づくモデル圧縮のための柔軟な拡張可能なソフトウェアフレームワーク A flexible, extensible software framework for model compression based on the LC algorithm ( http://arxiv.org/abs/2005.07786v1 ) ライセンス: Link先を確認 | Yerlan Idelbayev and Miguel \'A. Carreira-Perpi\~n\'an | (参考訳) 本稿では,ニューラルネットワークや他の機械学習モデルを最小限の労力で圧縮できる学習圧縮(LC)アルゴリズムのアイデアに基づくソフトウェアフレームワークを提案する。
現在サポートされている圧縮には、プルーニング、量子化、低ランクメソッド(レイヤーランクの自動学習を含む)、それらの組み合わせが含まれており、ユーザーはニューラルネットワークのさまざまな部分に対して異なる圧縮タイプを選択することができる。
LCアルゴリズムは、データセット上のモデルを訓練する学習(L)ステップ(SGDのようなアルゴリズムを使用する)と、モデルパラメータを圧縮する圧縮(C)ステップ(低ランクや量子化のような圧縮スキームを使用する)の2つのステップを収束するまで交換する。
この「機械学習」側面と「信号圧縮」側面の分離は、モデルまたは圧縮タイプの変更が、それぞれlステップまたはcステップで対応するサブルーチンを呼び出すことに等しいことを意味する。
ライブラリはこれを完全に設計でサポートしており、柔軟性と拡張性がある。
モデル圧縮に必要なランタイムは、第一にモデルをトレーニングするランタイムに匹敵するものであり、圧縮されたモデルは、他のアルゴリズム(しばしば特定のモデルや圧縮スキームに特化している)と予測精度と圧縮比の点で競合する。
ライブラリはPythonとPyTorchで書かれており、Githubで入手できる。 We propose a software framework based on the ideas of the Learning-Compression (LC) algorithm, that allows a user to compress a neural network or other machine learning model using different compression schemes with minimal effort. Currently, the supported compressions include pruning, quantization, low-rank methods (including automatically learning the layer ranks), and combinations of those, and the user can choose different compression types for different parts of a neural network. The LC algorithm alternates two types of steps until convergence: a learning (L) step, which trains a model on a dataset (using an algorithm such as SGD); and a compression (C) step, which compresses the model parameters (using a compression scheme such as low-rank or quantization). This decoupling of the "machine learning" aspect from the "signal compression" aspect means that changing the model or the compression type amounts to calling the corresponding subroutine in the L or C step, respectively. The library fully supports this by design, which makes it flexible and extensible. This does not come at the expense of performance: the runtime needed to compress a model is comparable to that of training the model in the first place; and the compressed model is competitive in terms of prediction accuracy and compression ratio with other algorithms (which are often specialized for specific models or compression schemes). The library is written in Python and PyTorch and available in Github. | 翻訳日:2022-12-02 22:17:45 公開日:2020-05-15 |
# 動的検索空間における限定GPU時間を用いたニューラルアーキテクチャ探索の最適化:遺伝子発現プログラミングアプローチ Optimizing Neural Architecture Search using Limited GPU Time in a Dynamic Search Space: A Gene Expression Programming Approach ( http://arxiv.org/abs/2005.07669v1 ) ライセンス: Link先を確認 | Jeovane Honorio Alves, Lucas Ferrari de Oliveira | (参考訳) 近年,画像,テキスト,音声,ビデオの関心領域の分節化,関心領域の抽出など,人や物体の効率的な識別や対象物の同定が盛んに行われており,近年の深層学習手法と計算資源の改善が相まって,その成果に大きく貢献している。
優れたポテンシャルはあるものの、効率的なアーキテクチャとモジュールの開発には専門家の知識と利用可能なリソース時間が必要である。
本稿では,24gpu時間以内の動的探索空間における畳み込みモデルの効率的な発見のための進化型ニューラルネットワーク探索手法を提案する。
効率的な検索環境と表現型表現により、遺伝子発現プログラミングはネットワークのセル生成に適応する。
GPUリソース時間と広い検索スペースの制限にもかかわらず、我々の提案は手作業で設計された畳み込みネットワークとNAS生成ネットワークに類似した最先端技術を実現した。
CIFAR-10データセットの平均誤差は2.82%(最良のモデルでは2.67%)、CIFAR-100では18.83%(ベストモデルでは18.16%)であった。
モバイル環境ではimagenetがトップ1とトップ5のエラーをそれぞれ29.51%と10.37%で達成しました。
進化型NASはアーキテクチャ探索に相当なGPU時間を要すると報告されているが,本手法は少ない時間で有望な結果を得られ,進化型NASのさらなる実験を奨励し,探索とネットワーク表現の改善を図った。 Efficient identification of people and objects, segmentation of regions of interest and extraction of relevant data in images, texts, audios and videos are evolving considerably in these past years, which deep learning methods, combined with recent improvements in computational resources, contributed greatly for this achievement. Although its outstanding potential, development of efficient architectures and modules requires expert knowledge and amount of resource time available. In this paper, we propose an evolutionary-based neural architecture search approach for efficient discovery of convolutional models in a dynamic search space, within only 24 GPU hours. With its efficient search environment and phenotype representation, Gene Expression Programming is adapted for network's cell generation. Despite having limited GPU resource time and broad search space, our proposal achieved similar state-of-the-art to manually-designed convolutional networks and also NAS-generated ones, even beating similar constrained evolutionary-based NAS works. The best cells in different runs achieved stable results, with a mean error of 2.82% in CIFAR-10 dataset (which the best model achieved an error of 2.67%) and 18.83% for CIFAR-100 (best model with 18.16%). For ImageNet in the mobile setting, our best model achieved top-1 and top-5 errors of 29.51% and 10.37%, respectively. Although evolutionary-based NAS works were reported to require a considerable amount of GPU time for architecture search, our approach obtained promising results in little time, encouraging further experiments in evolutionary-based NAS, for search and network representation improvements. | 翻訳日:2022-12-02 22:17:20 公開日:2020-05-15 |
# 変圧器モデルのエキスパートを見つける Finding Experts in Transformer Models ( http://arxiv.org/abs/2005.07647v1 ) ライセンス: Link先を確認 | Xavier Suau, Luca Zappella, Nicholas Apostoloff | (参考訳) 本研究では,事前学習されたトランスフォーマーモデル(tm)におけるエキスパートユニットの存在と,モデルの性能に与える影響について検討する。
我々は、概念を所定の平均精度で分類できるニューロンと定義し、概念は概念(またはそうでない)を含む二項集合によって表現される。
OneSecデータセット(Scarlini et al., 2019)を活用して、1641のコンセプトのデータセットをコンパイルし、TMのさまざまな専門家ユニットを発見できるようにします。
1) エキスパートユニットの存在とtmの一般化能力との相関関係(r^2=0.833$)は, ダウンストリームタスクスイートの微調整を必要とせず, tmのランク付けを可能にする。
さらに,そのような専門家がどの程度の精度で一般化を評価するべきかを決定するための実証的手法を提案する。
2)概念間のトップエキスパートの重複は、未知の概念の説明可能性に使用できる概念コラーニングの定量化に有効な方法を提供する。
(3) モデルの再訓練や追加パラメータの使用を必要とせず,トップエキスパートに積極的になるように強制することで,事前訓練済み言語モデルからテキストを生成する方法を示す。 In this work we study the presence of expert units in pre-trained Transformer Models (TM), and how they impact a model's performance. We define expert units to be neurons that are able to classify a concept with a given average precision, where a concept is represented by a binary set of sentences containing the concept (or not). Leveraging the OneSec dataset (Scarlini et al., 2019), we compile a dataset of 1641 concepts that allows diverse expert units in TM to be discovered. We show that expert units are important in several ways: (1) The presence of expert units is correlated ($r^2=0.833$) with the generalization power of TM, which allows ranking TM without requiring fine-tuning on suites of downstream tasks. We further propose an empirical method to decide how accurate such experts should be to evaluate generalization. (2) The overlap of top experts between concepts provides a sensible way to quantify concept co-learning, which can be used for explainability of unknown concepts. (3) We show how to self-condition off-the-shelf pre-trained language models to generate text with a given concept by forcing the top experts to be active, without requiring re-training the model or using additional parameters. | 翻訳日:2022-12-02 22:15:44 公開日:2020-05-15 |
# sqlクエリ生成の最近の進歩:調査 Recent Advances in SQL Query Generation: A Survey ( http://arxiv.org/abs/2005.07667v1 ) ライセンス: Link先を確認 | Jovan Kalajdjieski, Martina Toshevska, Frosina Stojanovska | (参考訳) 自然言語は多くのドメインにとって最高のユーザーインターフェースである。
しかし、自然言語と他のドメインとのインターフェイスを提供する一般的なモデルはまだ存在しない。
リレーショナルデータベースへの自然言語インターフェースの提供は、クエリ言語に精通している、あるいは熟していないユーザの大部分を惹きつける可能性がある。
ディープラーニング技術の普及に伴い、リレーショナルデータベースに適した自然言語インターフェースの設計に関する広範な研究が進行中である。
この調査は、自然言語からsqlクエリ生成の領域で提案されている最新の方法とモデルを概観することを目的としている。
本稿では,畳み込みニューラルネットワーク,リカレントニューラルネットワーク,ポインタネットワーク,強化学習など,さまざまなアーキテクチャを持つモデルについて述べる。
SQLクエリ生成の問題を解決するために、いくつかのデータセットが解釈され、簡単に概説される。
最後に、フィールドで利用される評価指標を、主に実行精度と論理形式精度の組み合わせとして提示する。 Natural language is hypothetically the best user interface for many domains. However, general models that provide an interface between natural language and any other domain still do not exist. Providing natural language interface to relational databases could possibly attract a vast majority of users that are or are not proficient with query languages. With the rise of deep learning techniques, there is extensive ongoing research in designing a suitable natural language interface to relational databases. This survey aims to overview some of the latest methods and models proposed in the area of SQL query generation from natural language. We describe models with various architectures such as convolutional neural networks, recurrent neural networks, pointer networks, reinforcement learning, etc. Several datasets intended to address the problem of SQL query generation are interpreted and briefly overviewed. In the end, evaluation metrics utilized in the field are presented mainly as a combination of execution accuracy and logical form accuracy. | 翻訳日:2022-12-02 22:15:22 公開日:2020-05-15 |
# 多目的政策最適化に関する分布論 A Distributional View on Multi-Objective Policy Optimization ( http://arxiv.org/abs/2005.07513v1 ) ライセンス: Link先を確認 | Abbas Abdolmaleki, Sandy H. Huang, Leonard Hasenclever, Michael Neunert, H. Francis Song, Martina Zambelli, Murilo F. Martins, Nicolas Heess, Raia Hadsell, Martin Riedmiller | (参考訳) 現実世界の問題の多くは、複数の競合目標のトレードオフを必要とする。
しかし、これらの目的はしばしば異なる単位やスケールであり、故意の単位において目的よりも数値的な好みを表現することが困難になる。
本稿では,目的の好みをスケール不変な方法で設定可能な,多目的強化学習のための新しいアルゴリズムを提案する。
目的ごとの行動分布を学習することを提案し,これらの分布の組み合わせにパラメトリックなポリシーを適合させるために教師付き学習を用いる。
我々は,高次元実・模擬ロボットの課題に対するアプローチの有効性を実証し,フレームワーク内で異なる好みを設定することで,非支配的なソリューションの空間を追跡できることを示す。 Many real-world problems require trading off multiple competing objectives. However, these objectives are often in different units and/or scales, which can make it challenging for practitioners to express numerical preferences over objectives in their native units. In this paper we propose a novel algorithm for multi-objective reinforcement learning that enables setting desired preferences for objectives in a scale-invariant way. We propose to learn an action distribution for each objective, and we use supervised learning to fit a parametric policy to a combination of these distributions. We demonstrate the effectiveness of our approach on challenging high-dimensional real and simulated robotics tasks, and show that setting different preferences in our framework allows us to trace out the space of nondominated solutions. | 翻訳日:2022-12-02 22:14:51 公開日:2020-05-15 |