このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200519となっている論文です。

PDF登録状況(公開日: 20200519)

TitleAuthorsAbstract論文公表日・翻訳日
# マヨラナの恒星表現を用いた非エルミート多バンド系の位相的特徴付け

Topological characterization of non-Hermitian multiband systems using Majorana's Stellar Representation ( http://arxiv.org/abs/2002.07490v2 )

ライセンス: Link先を確認
Wei Xin Teo, Linhu Li, Xizheng Zhang, Jiangbin Gong(参考訳) 非エルミート多バンド系のトポロジカルな特徴づけのために、マヨラナの恒星表現(MSR)は非対称近傍ホッピングと想像上の現場ポテンシャルからなる1次元多バンドモデルに適用される。 複素エネルギー平面内の連続バルクバンドから分離されたエッジ状態の数は、msrから構築された位相不変量とうまく結びつけられる。 具体的には、孤立エッジ状態の数はマヨラナ星に定義された巻数から得ることができ、孤立エッジモードに関連する位相を幾何学的に視覚化することができる。 この手法の顕著な成功は、ハミルトニアンが非対角化可能となり、したがってzak位相やチャーン数のような従来の位相不変量では適切に定義できない連続バルクバンドの例外点が存在する場合でも、巻数特性が有効であることである。 さらに,いわゆる非エルミート皮膚効果の症例についても検討し,定義した巻線数と孤立エッジ状態とのバルク境界対応を復元できることを示した。 特に興味深いのは、奇数個の孤立したエッジ状態を持つ4バンドの例で、zak位相のアプローチは必ずしも皮膚効果を除去しても失敗するが、msrベースの特性は等しく機能する。 これらの理由から,本研究は非エルミート多バンド系のトポロジー研究において,皮膚効果や非エルミート系における例外点の有無にかかわらず広く有用であることが期待される。

For topological characterization of non-Hermitian multiband systems, Majorana's stellar representation (MSR) is applied to 1D multiband models consisting of asymmetric nearest-neighbor hopping and imaginary on-site potentials. The number of edge states isolated from the continuous bulk bands in the complex energy plane is successfully linked with a topological invariant constructed from MSR. Specifically, the number of isolated edge states can be obtained from a winding number defined for the Majorana stars, which also allows for a geometric visualization of the topology related to the isolated edge modes. A remarkable success of our approach is that our winding number characterization remains valid even in the presence of exceptional points of the continuous bulk bands, where the Hamiltonian becomes non-diagonalizable and hence conventional topological invariants such as the Zak phase and the Chern number cannot be properly defined. Furthermore, cases with the so-called non-Hermitian skin effect are also studied, showing that the bulk-boundary correspondence between our defined winding numbers and isolated edge states can be restored. Of particular interest is a four-band example with an odd number of isolated edge states, where the Zak phase approach necessarily fails upon removing the skin effect, but our MSR-based characterization works equally well. For these reasons, our study is expected to be widely useful in topological studies of non-Hermitian multiband systems, regardless of the skin effect or the presence of the exceptional points in non-Hermitian systems.
翻訳日:2023-06-03 07:21:44 公開日:2020-05-19
# 超小型モード付音響ダイヤモンド共振器

Acoustic diamond resonators with ultra-small mode volumes ( http://arxiv.org/abs/2003.01834v2 )

ライセンス: Link先を確認
Miko{\l}aj K. Schmidt, Christopher G. Poulton, Michael J. Steel(参考訳) 量子音響力学(quantum acoustodynamics、QAD)は急速に発展している研究分野であり、新しい周波数域におけるマクロ量子力学系の実現と研究の可能性を提供し、ハイブリット量子デバイスのためのトランスデューサと新しい種類の記憶を実装している。 本稿では,GHz帯で動作する多目的ダイヤモンドQADキャビティの設計を提案し,有効モードボリュームが約10^{-4}\lambda^3$であることを示す。 本発明のフォノニック結晶導波路キャビティは、光稲妻効果の非共鳴アナログを実装し、音響モードのエネルギーを深いサブ波長のボリュームに局在させる。 この閉じ込めにより,nv中心とnv中心との軌道-ひずみ相互作用を高共振性状態へ容易に促進でき,単一のnvを用いて音波振動を地上に向けて効率的に共振冷却できることを実証する。 このアーキテクチャは、1次元または2次元のフォノン結晶における複数の空洞のセットアップに容易に変換でき、基礎となる非共鳴局在化機構は、フォクソニック結晶の空洞における光音響カップリングをさらに強化する道を開く。

Quantum acoustodynamics (QAD) is a rapidly developing field of research, offering possibilities to realize and study macroscopic quantum-mechanical systems in a new range of frequencies, and implement transducers and new types of memories for hybrid quantum devices. Here we propose a novel design for a versatile diamond QAD cavity operating at GHz frequencies, exhibiting effective mode volumes of about $10^{-4}\lambda^3$. Our phononic crystal waveguide cavity implements a non-resonant analogue of the optical lightning-rod effect to localize the energy of an acoustic mode into a deeply-subwavelength volume. We demonstrate that this confinement can readily enhance the orbit-strain interaction with embedded nitrogen-vacancy (NV) centres towards the high-cooperativity regime, and enable efficient resonant cooling of the acoustic vibrations towards the ground state using a single NV. This architecture can be readily translated towards setup with multiple cavities in one- or two-dimensional phononic crystals, and the underlying non-resonant localization mechanism will pave the way to further enhance optoacoustic coupling in phoxonic crystal cavities.
翻訳日:2023-05-31 07:20:26 公開日:2020-05-19
# 線形関数推定のための量子センシングネットワーク

Quantum sensing networks for the estimation of linear functions ( http://arxiv.org/abs/2003.04867v2 )

ライセンス: Link先を確認
Jes\'us Rubio, Paul A Knott, Timothy J Proctor, Jacob A Dunningham(参考訳) ネットワーク型量子センシングの理論的枠組みは、ここ数年でかなり発展してきたが、まだ多くの疑問が残されている。 これらのうち、基本的かつ効率的なセンシングネットワークの構築において重要な問題は、複数の線形関数の同時推定におけるセンサー間相関の役割である。 この研究では、各ノードがキュービットであり、ネットワークの状態がセンサ対称である場合、この問題に対する解決策を提供する。 まず、感覚間相関の量と、漸近誤差が最適であるような関数に関連するベクトルの幾何学をリンクする一般表現を導出する。 これを用いることで、ベクトルが2つの特別な部分空間の周りに集合するならば、相関強度が極値に近づくと最適となるが、他の幾何学ではそのような極値の間には単調な遷移がある。 さらに, 絡み合いは非自明な大域的性質を推定するのに有害であり, 時には無関係であることを示した。 最後にベイジアンアプローチを用いて,これらの結果の非漸近解析を行い,精度向上に必要な相関関係の量は測定データ数に大きく依存することを示した。 我々の結果は、漸近的な状態の中と外の両方で動作する量子センサーのネットワークの相関性を利用するための基礎となる。

The theoretical framework for networked quantum sensing has been developed to a great extent in the past few years, but there are still a number of open questions. Among these, a problem of great significance, both fundamentally and for constructing efficient sensing networks, is that of the role of inter-sensor correlations in the simultaneous estimation of multiple linear functions, where the latter are taken over a collection local parameters and can thus be seen as global properties. In this work we provide a solution to this when each node is a qubit and the state of the network is sensor-symmetric. First we derive a general expression linking the amount of inter-sensor correlations and the geometry of the vectors associated with the functions, such that the asymptotic error is optimal. Using this we show that if the vectors are clustered around two special subspaces, then the optimum is achieved when the correlation strength approaches its extreme values, while there is a monotonic transition between such extremes for any other geometry. Furthermore, we demonstrate that entanglement can be detrimental for estimating non-trivial global properties, and that sometimes it is in fact irrelevant. Finally, we perform a non-asymptotic analysis of these results using a Bayesian approach, finding that the amount of correlations needed to enhance the precision crucially depends on the number of measurement data. Our results will serve as a basis to investigate how to harness correlations in networks of quantum sensors operating both in and out of the asymptotic regime.
翻訳日:2023-05-30 00:54:37 公開日:2020-05-19
# 変分量子固有解器のユニタリ作用素の構成における順序問題について

On the order problem in construction of unitary operators for the Variational Quantum Eigensolver ( http://arxiv.org/abs/2003.07351v3 )

ライセンス: Link先を確認
Artur F. Izmaylov, Manuel D\'iaz-Tinoco, and Robert A. Lang(参考訳) 変分量子固有解法(VQE)フレームワークの主な課題の1つは、ユニタリ変換の構成である。 N$ qubits の単位回転空間の次元は 4^N-1$ であり、生成子の多項式部分集合の選択は指数関数的に困難である。 さらに、発電機の非可換性のため、使用される順序は結果に強く影響する。 ジェネレータの特定のサブセットで最適な順序を選択するには、組み合わせの因子数をテストする必要がある。 本稿では,リー代数-リー群接続とそれに対応する閉包関係に基づいて順序問題を体系的に排除する手法を提案する。

One of the main challenges in the Variational Quantum Eigensolver (VQE) framework is construction of the unitary transformation. The dimensionality of the space for unitary rotations of $N$ qubits is $4^N-1$, which makes the choice of a polynomial subset of generators exponentially difficult process. Moreover, due to non-commutativity of generators, the order in which they are used strongly affects results. Choosing the optimal order in a particular subset of generators requires testing the factorial number of combinations. We propose an approach based on the Lie algebra - Lie group connection and corresponding closure relations that systematically eliminates the order problem.
翻訳日:2023-05-29 00:13:32 公開日:2020-05-19
# 絡み合い支援連続変数測定における情報容量

The information capacity of entanglement-assisted continuous variable measurement ( http://arxiv.org/abs/2004.05331v3 )

ライセンス: Link先を確認
A. S. Holevo, A. A. Kuznetsova(参考訳) 本稿では,連続可変量子測定におけるエントロピー低減とエンタングルメント支援古典的容量(情報ゲイン)について検討する。 これらの量は多モードガウス測度チャネルに対して明示的に計算される。 これにより、測定のエントロピー低減の基本特性が確立される: 入力状態の第2モーメントの制限の下では、ガウス状態(最大値の解析式を与える)によって最大化される。 一つのモードの場合、絡み合い支援の利得を詳細に検討する。

The present paper is devoted to investigation of the entropy reduction and entanglement-assisted classical capacity (information gain) of continuous variable quantum measurements. These quantities are computed explicitly for multimode Gaussian measurement channels. For this we establish a fundamental property of the entropy reduction of a measurement: under a restriction on the second moments of the input state it is maximized by a Gaussian state (providing an analytical expression for the maximum). In the case of one mode, the gain of entanglement assistance is investigated in detail.
翻訳日:2023-05-25 04:19:18 公開日:2020-05-19
# スマートフォンによる新型コロナウイルスのロックダウンと経済危機対策

A Smartphone enabled Approach to Manage COVID-19 Lockdown and Economic Crisis ( http://arxiv.org/abs/2004.12240v2 )

ライセンス: Link先を確認
Halgurd S. Maghdid, Kayhan Zrar Ghafoor(参考訳) 新型コロナウイルス(COVID-19)の出現は、医療システムに過負荷をもたらし、死亡率が高い。 主な優先事項は、感染を抑え、感染率を抑えることである。 この文脈では、多くの国が人口の過度な社会的距離を保ち、疫病の流行を遅らせるため、ある種のロックダウン状態にある。 さらに、当局は新型コロナウイルスを封じ込めるために、ケース隔離戦略と手動の2/3の接触追跡を使用する。 しかし、手動接触追跡は時間と労働集約的な作業であり、公衆衛生システムを大幅に過負荷する。 本稿では,新型コロナウイルス感染者の接触を自動的かつ広範囲に追跡するスマートフォンベースのアプローチを開発した。 特に、接触者追跡のアプローチは、近隣の個人のリストを作成し、確認された新型コロナウイルス患者の連絡先や職員に通知する。 このアプローチは、感染地域に近い個人に意識を与えるだけでなく、covid-19キャリアが思い出せない可能性のある、偶然の接触を追跡する。 その後,我々は,ロックダウン/集団隔離を安全に解除し,経済危機に対処するための計画を提供するためのダッシュボードを開発した。 ダッシュボードは、近隣の登録ユーザの位置と距離測定に基づいて、ロックダウンエリアのレベルを予測するために使用された。 予測モデルは、ロックダウン管理のための教師なし機械学習手法としてK平均アルゴリズムを使用する。

The emergence of novel COVID-19 causing an overload in health system and high mortality rate. The key priority is to contain the epidemic and prevent the infection rate. In this context, many countries are now in some degree of lockdown to ensure extreme social distancing of entire population and hence slowing down the epidemic spread. Further, authorities use case quarantine strategy and manual second/third contact-tracing to contain the COVID-19 disease. However, manual contact tracing is time consuming and labor-intensive task which tremendously overload public health systems. In this paper, we developed a smartphone-based approach to automatically and widely trace the contacts for confirmed COVID-19 cases. Particularly, contact-tracing approach creates a list of individuals in the vicinity and notifying contacts or officials of confirmed COVID-19 cases. This approach is not only providing awareness to individuals they are in the proximity to the infected area, but also tracks the incidental contacts that the COVID-19 carrier might not recall. Thereafter, we developed a dashboard to provide a plan for government officials on how lockdown/mass quarantine can be safely lifted, and hence tackling the economic crisis. The dashboard used to predict the level of lockdown area based on collected positions and distance measurements of the registered users in the vicinity. The prediction model uses K-means algorithm as an unsupervised machine learning technique for lockdown management.
翻訳日:2023-05-22 04:02:06 公開日:2020-05-19
# 自然勾配最適化器を用いた変分量子固有解法における局所最小値の回避

Avoiding local minima in variational quantum eigensolvers with the natural gradient optimizer ( http://arxiv.org/abs/2004.14666v2 )

ライセンス: Link先を確認
David Wierichs, Christian Gogolin, Michael Kastoryano(参考訳) 変分量子固有解法(VQE)の文脈において,BFGSオプティマイザ,ADAM,Natural Gradient Descent(NatGrad)を比較した。 我々は, 横フィールドイジングモデル(TFIM)のQAOAアンサッツと, ハミルトニアンの対称性を破ることのできる過パラメータ回路の性能を系統的に解析する。 BFGSアルゴリズムは、およそ20スピンを超えるシステムにおいて、グローバルな最小値を見つけることができず、ADAMはローカルなミニマに簡単に閉じ込められる。 一方、NatGradは、エポックあたりのコストが著しく高いにもかかわらず、すべての考慮されたシステムサイズで安定したパフォーマンスを示す。 多くの古典的な勾配に基づく学習とは対照的に、全ての最適化器の性能は、アンザッツクラスの過度な過度なパラメータ化によって低下し、BFGSとADAMはNatGradよりも頻繁に、より深刻に失敗する。 ハイゼンベルク XXZ モデルのさらなるテストは、高次元における BFGS の精度問題と相関するが、NatGrad の欠点も明らかにしている。 以上の結果から,VQEの勾配に基づくオプティマイザの選択とパラメトリゼーションに注意が必要であることが示唆された。

We compare the BFGS optimizer, ADAM and Natural Gradient Descent (NatGrad) in the context of Variational Quantum Eigensolvers (VQEs). We systematically analyze their performance on the QAOA ansatz for the Transverse Field Ising Model (TFIM) as well as on overparametrized circuits with the ability to break the symmetry of the Hamiltonian. The BFGS algorithm is frequently unable to find a global minimum for systems beyond about 20 spins and ADAM easily gets trapped in local minima. On the other hand, NatGrad shows stable performance on all considered system sizes, albeit at a significantly higher cost per epoch. In sharp contrast to most classical gradient based learning, the performance of all optimizers is found to decrease upon seemingly benign overparametrization of the ansatz class, with BFGS and ADAM failing more often and more severely than NatGrad. Additional tests for the Heisenberg XXZ model corroborate the accuracy problems of BFGS in high dimensions, but they reveal some shortcomings of NatGrad as well. Our results suggest that great care needs to be taken in the choice of gradient based optimizers and the parametrization for VQEs.
翻訳日:2023-05-21 17:24:21 公開日:2020-05-19
# 内在的な観点からの具体的観測は量子力学を伴い得る

Embodied observations from an intrinsic perspective can entail quantum dynamics ( http://arxiv.org/abs/2005.03653v2 )

ライセンス: Link先を確認
John Realpe-Gomez(参考訳) 数世紀にわたる研究の後、主観的な経験が物理的現象とどのように関連しているかはいまだ不明である。 最近の戦略は、経験の物理的相関を識別しようとするものである。 あまり研究されていないのは、科学者が主観的な経験の「純粋」な側面を取り除き、「目的的な」科学を確立する方法である。 ここでは科学者をモデリングします。 これは、正式に量子力学に類似したダイナミクスを含む。 プランク定数の類似性は観測過程と関連している。 この科学のリバースエンジニアリングは、内在的な視点から観察できるエンボディメントと単なる能力という「不純な」経験の側面が残っていることを示唆している。 すべての経験は物理的な相関を持ち、すべての現象は「誰か」の体験である。 これは説明的ギャップの橋渡しとなり、非現実的な経験方法へのヒントとなるかもしれない。

After centuries of research, how subjective experience relates to physical phenomena remains unclear. Recent strategies attempt to identify the physical correlates of experience. Less studied is how scientists eliminate the "spurious" aspects of their subjective experience to establish an "objective" science. Here we model scientists doing science. This entails a dynamics formally analogous to quantum dynamics. The analogue of Planck's constant is related to the process of observation. This reverse-engineering of science suggests that some "non-spurious" aspects of experience remain: embodiment and the mere capacity to observe from an intrinsic perspective. A relational view emerges: every experience has a physical correlate and every physical phenomenon is an experience for "someone". This may help bridge the explanatory gap and hints at non-dual modes of experience.
翻訳日:2023-05-20 22:27:29 公開日:2020-05-19
# DHPフレームワーク:ブロックチェーンを使ったデジタルヘルスパスポート -- 新型コロナウイルスパンデミック時の国際観光のユースケース

DHP Framework: Digital Health Passports Using Blockchain -- Use case on international tourism during the COVID-19 pandemic ( http://arxiv.org/abs/2005.08922v2 )

ライセンス: Link先を確認
Constantinos Marios Angelopoulos, Amalia Damianou, Vasilios Katos(参考訳) 新型コロナウイルスのパンデミックを封じ込めるため、複数の国が数週間にわたり社会距離を拡大し、経済活動の大半を効果的に緩和した。 経済活動を安全に再開するために、いくつかのデジタルコンタクトトラクションアプリケーションやプロトコルが導入され、成功している。 しかし、DCTは、集団における既存の疾患伝達の連鎖を断ち切ることを目的として、反応性のある方法である。 そのため、DCTは、個人が国境を越えて旅行する国際観光などの特定のユースケースに関連するアプローチとして、病気の拡散を積極的に防止するには適していない。 本稿では、まず、プライバシー問題に関連するDCTの特徴、プライバシー上の懸念によるDCTモバイルアプリの使用の嫌悪、異なるDCTアプリケーションとプロトコル間の相互運用性の欠如、人口に限定されたローカルモビリティが存在するという仮定について述べる。 次に, 健康パスポートの概念について, 個人が病気のリスクを伴わないことの検証と, 国際観光業の再開にどのように役立つか, について論じる。 次に、プライベートブロックチェーンとProof of Authorityを使用してデジタルヘルスパスポートを発行するDHPフレームワークを紹介する。 このフレームワークは、外国の健康システムによるdhpの発行と、航空会社や国境管理当局などの関連利害関係者による検証をサポートする分散インフラストラクチャを提供する。 ユーザビリティ,パフォーマンス,セキュリティ,プライバシの観点から,システムの特性について議論する。 最後に、適切なセキュリティプロトコルを通じて厳格に保証する必要がある、フォーマルなセキュリティとプライバシプロパティに関する私たちの作業の今後の拡張を特定します。

In order to contain the COVID-19 pandemic, several countries enforced extended social distancing measures for several weeks, effectively pausing the majority of economic activities. In an effort to resume economic activity safely, several Digital Contact Tracing applications and protocols have been introduced with success. However, DCT is a reactive method, as it aims to break existing chains of disease transmission in a population. Therefore DCT is not suitable for proactively preventing the spread of a disease; an approach that relevant to certain use cases, such as international tourism, where individuals travel across borders. In this work, we first identify the limitations characterising DCT related to privacy issues, unwillingness of the public to use DCT mobile apps due to privacy concerns, lack of interoperability among different DCT applications and protocols, and the assumption that there is limited, local mobility in the population. We then discuss the concept of a Health Passport as a means of verifying that individuals are disease risk-free and how it could be used to resume the international tourism sector. Following, we present the DHP Framework that uses a private blockchain and Proof of Authority for issuing Digital Health Passports. The framework provides a distributed infrastructure supporting the issuance of DHPs by foreign health systems and their verification by relevant stakeholders, such as airline companies and border control authorities. We discuss the attributes of the system in terms of its usability and performance, security and privacy. Finally, we conclude by identifying future extensions of our work on formal security and privacy properties that need to be rigorously guaranteed via appropriate security protocols.
翻訳日:2023-05-19 11:15:38 公開日:2020-05-19
# 量子誤差補正プロトコル研究のための二重円柱位相空間上のウィグナー分布

Wigner distribution on a double cylinder phase space for studying quantum error correction protocol ( http://arxiv.org/abs/2005.09328v1 )

ライセンス: Link先を確認
N. Fabre, A. Keller and P. Milman(参考訳) 2対の方位角座標を持つ準確率位相空間分布を導入する。 この表現は離散対称性を持つ量子系を記述するのに適している。 変換不変状態を用いた連続変数に符号化された状態の量子誤差補正を応用例として検討する。 また,そのような新しい分布を測定するための実験手法を提案する。

We introduce a quasi-probability phase space distribution with two pairs of azimuthal-angular coordinates. This representation is well adapted to describe quantum systems with discrete symmetry. Quantum error correction of states encoded in continuous variables using translationally invariant states is studied as an example of application. We also propose an experimental scheme for measuring such new distribution.
翻訳日:2023-05-19 08:24:29 公開日:2020-05-19
# エンタングル表面音響フォノンを用いた量子消去

Quantum erasure using entangled surface acoustic phonons ( http://arxiv.org/abs/2005.09311v1 )

ライセンス: Link先を確認
Audrey Bienfait, Youpeng Zhong, Hung-Shen Chang, Ming-Han Chou, Christopher R. Conner, \'Etienne Dumur, Joel Grebel, Gregory A. Peairs, Rhys G. Povey, Kevin J. Satzinger and Andrew N. Cleland(参考訳) 2つの絡み合ったフォノンをオンデマンドで生成する決定論的手法を用いて、干渉過程中にどの経路情報が記憶されるフォノニック干渉計における量子消去プロトコルを実証する。 シーディングステップを省略すると、干渉するハーフクアンタ経路における明確な干渉パターンが得られ、シーディングステップを含むシーディングステップはこのパターンを抑圧する。 干渉が測定された後にヘラルド情報を消去すると、干渉パターンが回復し、遅延量子消去を実現する。 この試験は、1つの超伝導量子ビットが同じまたは2番目の量子ビットが後に再捕獲できるイテナントフォノンを放出できる閉表面音響波通信チャネルを用いて実施される。 第1量子ビットがフォノンの半分しか放出しない場合、系はフォノンの伝播中に経路の重畳をたどる: 繰り返しフォノンがチャネル内にあるか、または第1量子ビットがその励起状態のままである。 これら2つの経路は、2つの中間状態の相対位相を変化させて構成的または破壊的に干渉し、その結果、ハーフフォノンとの相互作用により、第1量子ビットの最終状態の位相依存的な変調が生じる。 この構造にはヘラルド機構が付加され、ヘラルドフォノンとシグナルフォノンが絡み合っている。 第1のクビットは、クビットが励起状態にあり、信号フォノンが存在しないフォノンヘラルドを放出し、第2のクビットはこのヘラルドフォノンをキャッチし、読み出すことができるパス情報を格納し、信号フォノンの自己干渉を破壊し、消去する。

Using the deterministic, on-demand generation of two entangled phonons, we demonstrate a quantum eraser protocol in a phononic interferometer where the which-path information can be heralded during the interference process. Omitting the heralding step yields a clear interference pattern in the interfering half-quanta pathways; including the heralding step suppresses this pattern. If we erase the heralded information after the interference has been measured, the interference pattern is recovered, thereby implementing a delayed-choice quantum erasure. The test is implemented using a closed surface-acoustic-wave communication channel into which one superconducting qubit can emit itinerant phonons that the same or a second qubit can later re-capture. If the first qubit releases only half of a phonon, the system follows a superposition of paths during the phonon propagation: either an itinerant phonon is in the channel, or the first qubit remains in its excited state. These two paths are made to constructively or destructively interfere by changing the relative phase of the two intermediate states, resulting in a phase-dependent modulation of the first qubit's final state, following interaction with the half-phonon. A heralding mechanism is added to this construct, entangling a heralding phonon with the signalling phonon. The first qubit emits a phonon herald conditioned on the qubit being in its excited state, with no signaling phonon, and the second qubit catches this heralding phonon, storing which-path information which can either be read out, destroying the signaling phonon's self-interference, or erased.
翻訳日:2023-05-19 08:24:24 公開日:2020-05-19
# 公共施設における顔認識センサの適用性の検討

An examination of applicability of face recognition sensors in public facilities ( http://arxiv.org/abs/2005.09285v1 )

ライセンス: Link先を確認
Takuji Takemoto, Takashi Ota, Hiroko Oe(参考訳) 本研究の目的は、公共空間における顔認識センサーのユーザビリティと適用性を調べ、顧客の足場データを収集し、施設設計と計画のために分析・評価することであった。 プロジェクトのために9つのOMRONセンサーが提供され、公共施設の5箇所に3ヶ月間設置された。 このプロジェクトは地元のコンソーシアムによって実施され、地元技術拠点の中小企業、ビジネス組織、地元の大学が協力した。 収集したデータを分析して,ダイアグラムを用いたレポートを作成し,将来的な実用化に向けた課題と可能性を明らかにする。

This study aimed to explore the usability and applicability of face recognition sensors in public spaces to collect customer footfall data, which could then be analysed and evaluated for facility design and planning. Nine OMRON sensors were provided for the project and installed at five locations in a public facility for three months. The project was carried out by a local consortium with the cooperation of local technology-based Small Medium-sized Enterprises (SMEs), business organisations, and a local university. Collected data were analysed to develop a report with diagrams, and reveal issues and potential for practical application in the future.
翻訳日:2023-05-19 08:23:43 公開日:2020-05-19
# 100ms以上の電子スピンにおける量子マイクロ波場のマルチモード記憶

Multimode storage of quantum microwave fields in electron spins over 100 ms ( http://arxiv.org/abs/2005.09275v1 )

ライセンス: Link先を確認
V. Ranjan, J. O'Sullivan, E. Albertinale, B. Albanese, T. Chaneli\`ere, T. Schenkel, D. Vion, D. Esteve, E. Flurin, J. J. L. Morton and P. Bertet(参考訳) 長期間のマルチモードキュービットレジスタはモジュラー量子コンピューティングアーキテクチャの実現技術である。 超伝導量子ビットと相互作用するためには、そのような量子メモリは、入ってくる量子マイクロ波を1光子レベルに長期間保存し、オンデマンドで取り出すことができる。 そこで本研究では,シリコン中のビスマスドナーのスピン,100ミリ秒の保存,ハーンエコーのようなプロトコルによる検索において,弱電子場列の部分吸収を実証する。 長い記憶時間は、時計遷移時にビスマスドナーをバイアスして得られる。 位相コヒーレンスと量子統計は記憶に保存される。

A long-lived multi-mode qubit register is an enabling technology for modular quantum computing architectures. For interfacing with superconducting qubits, such a quantum memory should be able to store incoming quantum microwave fields at the single-photon level for long periods of time, and retrieve them on-demand. Here, we demonstrate the partial absorption of a train of weak microwave fields in an ensemble of bismuth donor spins in silicon, their storage for 100 ms, and their retrieval, using a Hahn-echo-like protocol. The long storage time is obtained by biasing the bismuth donors at a clock transition. Phase coherence and quantum statistics are preserved in the storage.
翻訳日:2023-05-19 08:23:33 公開日:2020-05-19
# 超伝導量子ビットによるマグノンの散逸に基づく量子センシング

Dissipation-based Quantum Sensing of Magnons with a Superconducting Qubit ( http://arxiv.org/abs/2005.09250v1 )

ライセンス: Link先を確認
Samuel Piotr Wolski, Dany Lachance-Quirion, Yutaka Tabuchi, Shingo Kono, Atsushi Noguchi, Koji Usami, Yasunobu Nakamura(参考訳) ハイブリッド量子デバイスは、様々な分野における量子センシングのツールと技術を拡張する。 ここでは、磁性結晶の静磁場モードにおける定常マグノンの量子センシングを実験的に実証する。 超伝導量子ビットに磁気モードを分散的に結合することで、ラムゼー干渉計を用いてマグノンを10-3}$$\text{magnons}/\sqrt{\text{Hz}}$の感度で検出することができる。 このプロトコルは,マグノン数に比例してクビットコヒーレンスを減少させる磁歪モードのゆらぎによる偏差として,散逸に基づいている。

Hybrid quantum devices expand the tools and techniques available for quantum sensing in various fields. Here, we experimentally demonstrate quantum sensing of the steady-state magnon population in a magnetostatic mode of a ferrimagnetic crystal. Dispersively coupling the magnetostatic mode to a superconducting qubit allows the detection of magnons using Ramsey interferometry with a sensitivity on the order of $10^{-3}$ $\text{magnons}/\sqrt{\text{Hz}}$. The protocol is based on dissipation as dephasing via fluctuations in the magnetostatic mode reduces the qubit coherence proportionally to the number of magnons.
翻訳日:2023-05-19 08:23:22 公開日:2020-05-19
# 分離状態をもつ超高感度量子メトロロジー

Super-Sensitive Quantum Metrology with Separable States ( http://arxiv.org/abs/2005.09247v1 )

ライセンス: Link先を確認
Mayukh Lahiri and Manuel Erhard(参考訳) 圧縮状態または多粒子絡み合った状態を用いることなく,ハイゼンベルク限界を生じる超感度位相測定手法を導入する。 代わりに、多粒子分離可能な量子状態を用いて位相を調べ、単粒子干渉によって位相を取り出す。 物理的に位相を調べる粒子は検出されない。 我々の手法は偶然の測定や多粒子干渉を伴わず、相超解像を示す。 また,検出粒子の損失が測定感度にどのように影響するかを詳細に分析し,多粒子の絡み合いの発生と測定感度の低下につながることを確認した。 損失が最大となると、システムは多粒子グリーンベルガー・ホーネ・ザイリンガー状態(GHZ)を生成し、非常に高い位相不確実性のために位相測定が不可能となる。 2つ以上の粒子の絡み合いを鍵資源とする超感度位相測定技術とは対照的に, 多数の粒子の絡み合いは量子力学では非生産的であることを示す。

We introduce a super-sensitive phase measurement technique that yields the Heisenberg limit without using either a squeezed state or a many-particle entangled state. Instead, we use a many-particle separable quantum state to probe the phase and we then retrieve the phase through single-particle interference. The particles that physically probe the phase are never detected. Our scheme involves no coincidence measurement or many-particle interference and yet exhibits phase super-resolution. We also analyze in detail how the loss of probing particles affects the measurement sensitivity and find that the loss results in the generation of many-particle entanglement and the reduction of measurement sensitivity. When the loss is maximum, the system produces a many-particle Greenberger-Horne-Zeilinger (GHZ) state, and the phase measurement becomes impossible due to very high phase uncertainty. In striking contrast to the super-sensitive phase measurement techniques that use entanglement involving two or more particles as a key resource, our method shows that having many-particle entanglement can be counterproductive in quantum metrology.
翻訳日:2023-05-19 08:23:09 公開日:2020-05-19
# ガウス摂動の存在下での調和振動子の2つの最低固有値

The two lowest eigenvalues of the harmonic oscillator in the presence of a Gaussian perturbation ( http://arxiv.org/abs/2005.09245v1 )

ライセンス: Link先を確認
Silvestro Fassari, Luis M. Nieto and Fabio Rinaldi(参考訳) ここでは、ガウスポテンシャルによって摂動される放物的井戸によって制約された1次元量子力学的粒子を考える。 関連するバーマン=シュウィンガー作用素はトレースクラスであるため、フレドホルム行列式はガウス摂動の存在により調和振動子とは異なる修正された固有エネルギーを計算するために利用することができる。 調和振動子の4つの固有関数のスカラー積に対するワンの結果を利用することで、結合定数 $\lambda$ の関数として2つの最低階固有値を正確に評価することができる。

In this note we consider a one-dimensional quantum mechanical particle constrained by a parabolic well perturbed by a Gaussian potential. As the related Birman-Schwinger operator is trace class, the Fredholm determinant can be exploited in order to compute the modified eigenenergies which differ from those of the harmonic oscillator due to the presence of the Gaussian perturbation. By taking advantage of Wang's results on scalar products of four eigenfunctions of the harmonic oscillator, it is possible to evaluate quite accurately the two lowest-lying eigenvalues as functions of the coupling constant $\lambda$.
翻訳日:2023-05-19 08:22:51 公開日:2020-05-19
# FrameProv: エンド・ツー・エンドのビデオ体験を目指す

FrameProv: Towards End-To-End Video Provenance ( http://arxiv.org/abs/2005.09199v1 )

ライセンス: Link先を確認
Mansoor Ahmed-Rengers(参考訳) ビデオフィードは、CCTVの映像のように、しばしば故意に証拠として使用されるが、多くの場合、想定される出来事の映像の存在は、一般大衆の目には事実の証拠として認識される。 この信頼性は、使いやすい編集ツールが存在することによる社会的な脆弱性であり、機械学習を使ってビデオフィード全体を構築する手段である。 そして、最近のフェイクニュースやフェイクポルノビデオの騒動が示すように、これは単なる学術的な問題ではないため、積極的に悪用されている。 私はこの搾取が益々不愉快になるだけだと仮定する。 本稿では,映像伝送チェーンに信頼性の高いコンポーネントを埋め込むことにより,操作の最も過酷な形態を緩和することを目的とした長期プロジェクトを紹介する。 以前の作品とは異なり、私はターンパー検出や他の形態の法医学 -- 必要な編集と圧縮の現実に直面して失敗しなくてはならないアプローチ -- を目標とせず、代わりに、ビデオパブリッシャがビデオフィードの完全性を証明し、実行したであろう編集を明確にする手段を提供することを目標としている。 そこで本稿では,カメラセンサからビューアまで,新たなデータ構造,ビデオ編集仕様言語,およびエンドツーエンドのビデオプロファイナンスを提供するインフラストラクチャについて紹介する。 私はこのシステムのプロトタイプを実践し、このアイデアを主流に導入する最善の方法について議論するため、ジャーナリストやビデオ編集者と協議中です。

Video feeds are often deliberately used as evidence, as in the case of CCTV footage; but more often than not, the existence of footage of a supposed event is perceived as proof of fact in the eyes of the public at large. This reliance represents a societal vulnerability given the existence of easy-to-use editing tools and means to fabricate entire video feeds using machine learning. And, as the recent barrage of fake news and fake porn videos have shown, this isn't merely an academic concern, it is actively been exploited. I posit that this exploitation is only going to get more insidious. In this position paper, I introduce a long term project that aims to mitigate some of the most egregious forms of manipulation by embedding trustworthy components in the video transmission chain. Unlike earlier works, I am not aiming to do tamper detection or other forms of forensics -- approaches I think are bound to fail in the face of the reality of necessary editing and compression -- instead, the aim here is to provide a way for the video publisher to prove the integrity of the video feed as well as make explicit any edits they may have performed. To do this, I present a novel data structure, a video-edit specification language and supporting infrastructure that provides end-to-end video provenance, from the camera sensor to the viewer. I have implemented a prototype of this system and am in talks with journalists and video editors to discuss the best ways forward with introducing this idea to the mainstream.
翻訳日:2023-05-19 08:22:41 公開日:2020-05-19
# 空はいかにガウス的か? 量子情報からの原始非ガウス性

How Gaussian can the Sky be? Primordial Non-Gaussianity from Quantum Information ( http://arxiv.org/abs/2005.09506v1 )

ライセンス: Link先を確認
Cesar Gomez, Raul Jimenez(参考訳) 初期宇宙を時間依存の量子密度行列として記述するために量子情報図を用いて、時間とともに確率変数の役割を担い、原始揺らぎの分布における非ガウス的特徴を計算する。 2つの異なる時間で密度行列に対する相対エンタングルメントエントロピーの2番目の微分として、準ド・ジッターモデルを用いて対応する量子フィッシャー情報関数を計算する。 時間量子推定器を用いて曲率変動を定義する。 標準量子推定理論を用いて、原始変動の統計分布における非ガウス的特徴を計算する。 我々のアプローチはモデル独立であり、準ド・ジッター相の存在にのみ依存する。 主観的非ガウス性は, 圧縮形状と等方形状の両方で示される。 圧縮された極限は$f_{\rm NL} \sim n_s-1$である。 等辺限では、$f_{\rm nl} \sim 0.03$ となる。 等辺非ガウス性はアインシュタイン方程式の非線形性に起因する。 一方、圧縮されたものはクロック同期の量子的性質のためであり、したがって実数であり、大域的な曲率として測定することはできない。 純粋な量子効果である {\it clock bias} は、スペクトル傾きにバイアスをもたらし、次数 $\sim 10^{-4}$ のパワースペクトルを走らせる。

Using the quantum information picture to describe the early universe as a time dependent quantum density matrix, with time playing the role of a stochastic variable, we compute the non-gaussian features in the distribution of primordial fluctuations. We use a quasi de Sitter model to compute the corresponding quantum Fisher information function as the second derivative of the relative entanglement entropy for the density matrix at two different times. We define the curvature fluctuations in terms of the time quantum estimator. Using standard quantum estimation theory we compute the non-gaussian features in the statistical distribution of primordial fluctuations. Our approach is model independent and only relies on the existence of a quasi de Sitter phase. We show that there are primordial non-gaussianities, both in the form of squeezed and equilateral shapes. The squeezed limit gives a value of $f_{\rm NL} \sim n_s-1$. In the equilateral limit we find that $f_{\rm NL} \sim 0.03$. The equilateral non-gaussianity is due to the non-linearity of Einstein's equation. On the other hand, the squeezed one is due to the quantum nature of clock synchronization and thus real and cannot be gauged away as a global curvature. We identify a new effect: {\it clock bias} which is a pure quantum effect and introduces a bias in the spectral tilt and running of the power spectrum of order $\sim 10^{-4}$, which could be potentially measurable and yield precious information on the quantum nature of the early Universe.
翻訳日:2023-05-19 08:15:44 公開日:2020-05-19
# 自立生活継続医療における非臨床システムにおける機械学習技術の比較研究

A comparative study of machine learning techniques used in non-clinical systems for continuous healthcare of independent livings ( http://arxiv.org/abs/2005.09502v1 )

ライセンス: Link先を確認
Zahid Iqbal, Rafia Ilyas, Waseem Shahzad, Irum Inayat(参考訳) 新しい技術は医療の進歩、特に独立した生活に適応している。 遠隔医療は医療とテクノロジーの統合に繋がっている。 ウェアラブルセンサーネットワーク技術と協調する機械学習手法は、データ中の隠れパターンを見つけ、患者の動きを検出し、患者の習慣を観察し、患者の臨床データを分析し、患者の意図を見つけ、収集されたデータに基づいて決定する。 本研究は, 自立生活者の医療における非臨床システムの比較研究を行う。 本研究では,これらのシステムを,単一目的システムと多目的システムという2つのタイプに分類した。 単一の特定の目的のために構築されるシステム(例えば、転倒を検出し、慢性疾患患者の緊急状態を検出し、医療を一般的にサポートできないシステム)は、単一のシステムを用いて複数の問題(例えば、心臓発作など)に対処するために構築される。 本研究は、自立生活のための医療システムにおける機械学習技術の使用状況を分析する。 Answer Set Programming (ASP), Artificial Neural Networks, Classification, Smpling and Rule Based Reasoning等は、緊急状況を特定し、患者のデータの変化を観察する技術である。 すべてのメソッドの中で、ASPロジックが最も広く使われているのは、不完全なデータを扱う機能のためです。 また,ANNを用いたシステムは,他のシステムよりも精度が高いことがわかった。 生成されたシステムのほとんどは単一の目的のためである。 本研究では、10の単一目的システムと5つの多目的システムについて検討する。 複数の疾患を持つ患者に使用できる、より汎用的なシステムを構築する必要がある。 また、ほとんどのシステムは原型的である。 現実世界で医療サービスを提供できるシステムを構築する必要がある。

New technologies are adapted to made progress in healthcare especially for independent livings. Medication at distance is leading to integrate technologies with medical. Machine learning methods in collaboration with wearable sensor network technology are used to find hidden patterns in data, detect patient movements, observe habits of patient, analyze clinical data of patient, find intention of patients and make decision on the bases of gathered data. This research performs comparative study on non-clinical systems in healthcare for independent livings. In this study, these systems are sub-divided w.r.t their working into two types: single purpose systems and multi-purpose systems. Systems that are built for single specific purpose (e.g. detect fall, detect emergent state of chronic disease patient) and cannot support healthcare generically are known as single purpose systems, where multi-purpose systems are built to serve for multiple problems (e.g. heart attack etc.) by using single system. This study analyzes usages of machine learning techniques in healthcare systems for independent livings. Answer Set Programming (ASP), Artificial Neural Networks, Classification, Sampling and Rule Based Reasoning etc. are some state of art techniques used to determine emergent situations and observe changes in patient data. Among all methods, ASP logic is used most widely, it is due to its feature to deal with incomplete data. It is also observed that system using ANN shows better accuracy than other systems. It is observed that most of the systems created are for single purpose. In this work, 10 single purpose systems and 5 multi-purpose systems are studied. There is need to create more generic systems that can be used for patients with multiple diseases. Also most of the systems created are prototypical. There is need to create systems that can serve healthcare services in real world.
翻訳日:2023-05-19 08:15:24 公開日:2020-05-19
# Su(1, 1), su(2), so(2, 1)リー代数の新しいBCH様関係

New BCH-like relations of the su(1, 1), su(2) and so(2, 1) Lie algebras ( http://arxiv.org/abs/2005.09500v1 )

ライセンス: Link先を確認
D. M. Tibaduiza, A. H. Arag\~ao, C. Farina and C. A. D. Zarro(参考訳) 本研究では、su(1, 1), su(2), so(2, 1) のリー代数の生成元を含む新しい bch-様関係を示す。 我々は、この結果を用いて、対応するリー群の任意の数の要素の合成を得る。 結果の自明な検証を行うため、最初のアプリケーションとして、2つの任意のスクイーズ作用素の非自明な合成則を回収する。 第2の応用として,上記のリー代数の生成元の線形結合によって与えられる時間依存ハミルトニアンによって記述される物理系の時間発展作用素の計算に,我々の結果がどう役立つかを示す。

In this work we demonstrate new BCH-like relations involving the generators of the su(1, 1), su(2) and so(2, 1) Lie algebras. We use our results to obtain in a straightforward way the composition of an arbitrary number of elements of the corresponding Lie groups. In order to make a self-consistent check of our results, as a first application we recover the non-trivial composition law of two arbitrary squeezing operators. As a second application, we show how our results can be used to compute the time evolution operator of physical systems described by time-dependent hamiltonians given by linear combinations of the generators of the aforementioned Lie algebras.
翻訳日:2023-05-19 08:14:59 公開日:2020-05-19
# チューター割当問題に対する整数線形計画法:イギリスの大学における実例

Integer Linear Programming for the Tutor Allocation Problem: A Practical Case in a British University ( http://arxiv.org/abs/2005.09442v1 )

ライセンス: Link先を確認
Giulia Caselli, Maxence Delorme, Manuel Iori(参考訳) 家庭教師割当問題では、家庭教師の選好を最大化するために、一組の家庭教師を一組のワークショップに割り当てることが目的である。 この問題は毎年多くの大学によって解決され、それぞれに固有の制約がある。 本研究では,エディンバラ大学の数学科におけるチューター割当について検討し,整数線形プログラミングモデルを用いて解いた。 このモデルを2019/2020年のケースでテストし、使用中の手動割り当てに関して大幅な改善を得た。 ランダムに生成されたインスタンスのさらなるテストは、モデルが幅広い関心を持つケースに対処するために使用できることを示している。 また,ワークショップの場所数や教師の好みリストの長さなどの入力パラメータが,モデルの性能や満足度の平均値にどのように影響するかについて,有意義な洞察を与える。

In the Tutor Allocation Problem, the objective is to assign a set of tutors to a set of workshops in order to maximize tutors' preferences. The problem is solved every year by many universities, each having its own specific set of constraints. In this work, we study the tutor allocation in the School of Mathematics at the University of Edinburgh, and solve it with an integer linear programming model. We tested the model on the 2019/2020 case, obtaining a significant improvement with respect to the manual assignment in use. Further tests on randomly created instances show that the model can be used to address cases of broad interest. We also provide meaningful insights on how input parameters, such as the number of workshop locations and the length of the tutors' preference list, might affect the performance of the model and the average number of preferences satisfied.
翻訳日:2023-05-19 08:14:17 公開日:2020-05-19
# 量子キャビティの化学:正確な結果、熱速度と修正された解離の影響

Chemistry in Quantum Cavities: Exact Results, the Impact of Thermal Velocities and Modified Dissociation ( http://arxiv.org/abs/2005.09385v1 )

ライセンス: Link先を確認
Dominik Sidler, Michael Ruggenthaler, Heiko Appel and Angel Rubio(参考訳) 近年、光と光の相互作用の分野では、光空洞のモードとの強い結合が室温でも化学を変えることが明らかにされている。 これらの顕著な進歩にもかかわらず、キャビティにおける化学の基本的な問題の多くは未解決のままである。 これはまた、近似アプローチの検証とベンチマークに使用できる正確な結果の欠如によるものである。 本研究では、パウリ・フィエルツ・ハミルトニアンの長波長極限における正確な対角化から有効キャビティモードによる参照計算を行う。 これにより,電子だけでなくロ振動遷移においてもユビキタスなjaynes-cummingsモデルの信頼性を検証できる。 荷電分子系の熱速度がスペクトルを不変にしながら化学特性にどのように影響するかを示す。 さらに, 解離エネルギー限界を超える新しい境界偏光状態の出現を示す。

In recent years tremendous progress in the field of light-matter interactions has unveiled that strong coupling to the modes of an optical cavity can alter chemistry even at room temperature. Despite these impressive advances, many fundamental questions of chemistry in cavities remain unanswered. This is also due to a lack of exact results that can be used to validate and benchmark approximate approaches. In this work we provide such reference calculations from exact diagonalisation of the Pauli-Fierz Hamiltonian in the long-wavelength limit with an effective cavity mode. This allows us to investigate the reliability of the ubiquitous Jaynes-Cummings model not only for electronic but also for the case of ro-vibrational transitions. We demonstrate how the commonly ignored thermal velocity of charged molecular systems can influence chemical properties, while leaving the spectra invariant. Furthermore, we show the emergence of new bound polaritonic states beyond the dissociation energy limit.
翻訳日:2023-05-19 08:13:45 公開日:2020-05-19
# 高光安定ペロブスカイトナノキューブ : テープ状ナノファイバーを用いた集積単一光子源を目指して

Highly photo-stable Perovskite nanocubes: towards integrated single photon sources based on tapered nanofibers ( http://arxiv.org/abs/2005.09359v1 )

ライセンス: Link先を確認
Stefano Pierini, Marianna D'Amato, Mayank Goyal, Quentin Glorieux, Elisabeth Giacobino, Emmanuel Lhuillier, Christophe Couteau and Alberto Bramati(参考訳) 量子アプリケーションのためのCsPbBr$_3$のようなペロブスカイトナノ結晶(NC)への関心は急速に高まっている。 この文脈で取り組む主な問題は、光励起下での光安定性である。 本稿では,超高効率ペロブスカイトナノキューブの量子エミッタ生成に初めて用いられ,高効率なペロブスカイトナノキューブの光学特性と量子特性の完全な解析を行い,光安定性の向上を実証する。 これらのエミッタは強い光子反束と共に点滅を減少させる。 これらの特徴は、放射飽和レベルよりもはるかに高い励起強度の増加の影響を受けにくい。 最後に, 単一ペロブスカイトナノキューブとテーパ型光ナノファイバーとの結合を初めて達成し, 将来の応用に向けた小型集積型単一光子源の実現を目指す。

The interest in perovskite nanocrystals (NCs) such as CsPbBr$_3$ for quantum applications is rapidly raising, as it has been demonstrated that they can behave as very efficient single photon emitters. The main problem to tackle in this context is their photo-stability under optical excitation. In this article, we present a full analysis of the optical and quantum properties of highly efficient perovskite nanocubes synthesized with an established method, which is used for the first time to produce quantum emitters, and is shown to ensure an increased photostability. These emitters exhibit reduced blinking together with a strong photon antibunching. Remarkably these features are hardly affected by the increase of the excitation intensity well above the emission saturation levels. Finally, we achieve for the first time the coupling of a single perovskite nanocube with a tapered optical nanofiber in order to aim for a compact integrated single photon source for future applications.
翻訳日:2023-05-19 08:13:31 公開日:2020-05-19
# スピン鎖における量子相関のキャラクタリゼーション

Characterizing quantum correlations in spin chains ( http://arxiv.org/abs/2005.09604v1 )

ライセンス: Link先を確認
Artur Niezgoda, Mi{\l}osz Panfil and Jan Chwede\'nczuk(参考訳) スピン=1/2$の粒子/量子ビットの精度の高い多体系の需要の増加は、アプリケーション指向の量子拡張プロトコルと量子理論の基礎的なテストにおいて、最強の汎用性に起因する。 ここでは、量子はスピンの連鎖であるのかという疑問に対処する。 密度行列の1つの要素が解を持つことを示す。 適切に分析することで、多体絡みの程度と非局所性に関する情報が得られる。 この手法は、量子計算、超精密メトロロジー、あるいは量子力学の大規模実験に応用可能な、多体系における非常に非古典的な効果を調整・確認するために使うことができる。 原理の証明として, 実験可能なスピン鎖の基底状態および熱状態における非局所性と絡み合いの拡張について検討する。

The growth in the demand for precisely crafted many-body systems of spin-$1/2$ particles/qubits is due to their top-notch versatility in application-oriented quantum-enhanced protocols and the fundamental tests of quantum theory. Here we address the question: how quantum is a chain of spins? We demonstrate that a single element of the density matrix carries the answer. Properly analyzed it brings information about the extent of the many-body entanglement and the non-locality. This method can be used to tailor and witness highly non-classical effects in many-body systems with possible applications to quantum computing, ultra-precise metrology or large-scale tests of quantum mechanics. As a proof of principle, we investigate the extend of non-locality and entanglement in ground states and thermal states of experimentally accessible spin chains.
翻訳日:2023-05-19 08:04:00 公開日:2020-05-19
# シリコン量子フォトニクスにおける近理想的自発光子源

Near-ideal spontaneous photon sources in silicon quantum photonics ( http://arxiv.org/abs/2005.09579v1 )

ライセンス: Link先を確認
Stefano Paesani, Massimo Borghi, Stefano Signorini, Alexandre Ma\"inos, Lorenzo Pavesi, Anthony Laing(参考訳) 統合フォトニクスは量子情報処理のための強固なプラットフォームであるが、フォトニック量子コンピューティングのアーキテクチャは高品質な情報キャリアに厳しい要求を課している。 単一光子の源は、非常に識別不能で純粋なもので、ほぼ決定論的であるか、高い効率性を有しており、大量生産に適している。 本稿では,これら各要件を同時に満たすオンチップ光子源について述べる。 我々の光子源は、成熟したプロセスを用いてシリコンで製造され、低損失スパイラル多モード導波路における自発4波長混合によるスペクトル純光子対の放出を工学するために、2モードポンプ遅延励起方式を用いる。 同時に、スペクトル純度0.9904 \pm 0.0006$、相互に区別できない$0.987 \pm 0.002$、$>90\%$固有のヘラルド効率を同時に測定する。 我々は、異なるソースからのヘラルド光子間の視認率0.96 \pm 0.02$のオンチップ量子干渉を測定する。 これらの結果は、統合フォトニクスにおける量子情報処理をスケールするための決定的なステップである。

While integrated photonics is a robust platform for quantum information processing, architectures for photonic quantum computing place stringent demands on high quality information carriers. Sources of single photons that are highly indistinguishable and pure, that are either near-deterministic or heralded with high efficiency, and that are suitable for mass-manufacture, have been elusive. Here, we demonstrate on-chip photon sources that simultaneously meet each of these requirements. Our photon sources are fabricated in silicon using mature processes, and exploit a novel dual-mode pump-delayed excitation scheme to engineer the emission of spectrally pure photon pairs through intermodal spontaneous four-wave mixing in low-loss spiralled multi-mode waveguides. We simultaneously measure a spectral purity of $0.9904 \pm 0.0006$, a mutual indistinguishably of $0.987 \pm 0.002$, and $>90\%$ intrinsic heralding efficiency. We measure on-chip quantum interference with a visibility of $0.96 \pm 0.02$ between heralded photons from different sources. These results represent a decisive step for scaling quantum information processing in integrated photonics.
翻訳日:2023-05-19 08:03:47 公開日:2020-05-19
# 小型導波路によるフォトニックトンネルの再検討

Reconsideration of photonic tunneling through undersized waveguides ( http://arxiv.org/abs/2005.09562v1 )

ライセンス: Link先を確認
Zhi-Yong Wang(参考訳) これまでのフォトニックトンネルの研究はすべて、1次元の量子力学トンネルの単純な類似に基づいており、導波路に沿った電磁波の水平構造を考慮せず、過度に単純化され不完全である。 ここでは、カットオフ導波路によるフォトニックトンネルのより深刻な検討を行い、新しい結果を得た厳密な理論モデルを得る。

All the previous studies on photonic tunneling are just based on a simple and directly analogy with a one-dimensional quantum-mechanical tunneling, without taking into account the horizontal structure of electromagnetic waves along the waveguide, such that they are oversimplified and incomplete. Here we present a more serious deliberation on photonic tunneling through cut-off waveguides, and obtain a strictly theoretical model with some new results.
翻訳日:2023-05-19 08:03:24 公開日:2020-05-19
# 超低温原子で実現したチューナブルハイゼンベルクモデルにおけるスピン輸送

Spin transport in a tunable Heisenberg model realized with ultracold atoms ( http://arxiv.org/abs/2005.09549v1 )

ライセンス: Link先を確認
Niklas Jepsen, Jesse Amato-Grill, Ivana Dimitrova, Wen Wei Ho, Eugene Demler, Wolfgang Ketterle(参考訳) 相互作用するスピンの単純なモデルは物理学において重要な役割を果たす。 多くの磁性物質の特性を捉えるが、格子内のボソンやフェルミオン、ゲージ場を持つシステム、高温超伝導体、エニオンやマヨラナフェルミオンのような異種粒子を持つシステムにも拡張される。 これらのモデルを研究し比較するには、汎用プラットフォームが必要である。 このようなシステムを実現することは、超低温原子の分野で長年の目標であった。 これまでスピン輸送は等方性ハイゼンベルク模型でしか研究されていない。 ここでは、調整可能な異方性を持つハイゼンベルクxxzモデルを実装し、この系を用いて、インプリントされたスピンヘリックスパターンから量子クエンチ後の平衡から遠く離れたスピン輸送の研究を行う。 非相互作用型xxモデルではスピンダイナミクスの弾道的挙動が発見され、等方性xxxモデルでは拡散的挙動が発見される。 正の異方性については、異常な超拡散から亜拡散まで、負の異方性では弾道から拡散輸送までの時間領域のクロスオーバーを観測する。 この挙動は線形応答レジームに対する期待と対照的であり、平衡から遠く離れた量子多体力学を理解するための新たな疑問を提起する。

Simple models of interacting spins play an important role in physics. They capture the properties of many magnetic materials, but also extend to other systems, such as bosons and fermions in a lattice, systems with gauge fields, high-Tc superconductors, and systems with exotic particles such as anyons and Majorana fermions. In order to study and compare these models, a versatile platform is needed. Realizing such a system has been a long-standing goal in the field of ultracold atoms. So far, spin transport has only been studied in the isotropic Heisenberg model. Here we implement the Heisenberg XXZ model with adjustable anisotropy and use this system to study spin transport far from equilibrium after quantum quenches from imprinted spin helix patterns. In the non-interacting XX model, we find ballistic behavior of spin dynamics, while in the isotropic XXX model, we find diffusive behavior. For positive anisotropies, the dynamics ranges from anomalous super-diffusion to sub-diffusion depending on anisotropy, whereas for negative anisotropies, we observe a crossover in the time domain from ballistic to diffusive transport. This behavior contrasts with expectations for the linear response regime and raises new questions in understanding quantum many-body dynamics far away from equilibrium.
翻訳日:2023-05-19 08:03:03 公開日:2020-05-19
# 慣性センシング用光機械レーザー

Optomechanical lasers for inertial sensing ( http://arxiv.org/abs/2006.01091v1 )

ライセンス: Link先を確認
Hayden Wisniewski, Logan Richardson, Adam Hines, Alexandre Laurain, and Felipe Guzman(参考訳) 垂直共振器面発光レーザと不定形シリカ共振器を組み合わせた慣性高感度光機械レーザーを開発した。 ベセルの外部キャビティミラーをオプトメカニカル共振器試験質量に配置することにより、外部加速度を直接発振周波数に転写するセンサを作成する。 実験室の試作機を開発し,VECSELラシング周波数4.18 +/- .03 Hzでセンサの共振周波数の質量振動を観測した。 さらに、機械振動子の試験質量の運動を追跡するために、アシラリーヘテロダイン干渉計を設置し、4.194 +/-0.004 Hzの共鳴を観測した。 干渉計測定はVECSELの結果を評価し、慣性センシングにオプティメカルレーザーを用いることの可能性を確認する。

We have developed an inertially sensitive optomechanical laser by combining a Vertical-External-Cavity Surface-Emitting Laser with a monolithic fused silica resonator. By placing the external cavity mirror of the VECSEL onto the optomechanical resonator test mass, we create a sensor where external accelerations are directly transcribed onto the lasing frequency. We developed a proof-of-principle laboratory prototype and observe test mass oscillations at the resonance frequency of the sensor through the VECSEL lasing frequency, 4.18 +/- .03 Hz. In addition, we set up an ancillary heterodyne interferometer to track the motion of the mechanical oscillator's test mass, observing a resonance of 4.194 +/- 0.004 Hz. The interferometer measurements validate the VECSEL results, confirming the feasibility of using optomechanical lasers for inertial sensing.
翻訳日:2023-05-19 07:57:08 公開日:2020-05-19
# 接触追跡アプリケーションにおけるプライベートデータ解析のための暗号アルゴリズムに関する研究

A Note on Cryptographic Algorithms for Private Data Analysis in Contact Tracing Applications ( http://arxiv.org/abs/2005.10634v1 )

ライセンス: Link先を確認
Rajan M A, Manish Shukla, Sachin Lodha(参考訳) 接触追跡は新型コロナウイルスのパンデミックに対抗する重要な手段だ。 初期の段階では、多くの国が手動接触追跡を用いて感染率を抑えたが、多くの問題がある。 手動のアプローチは面倒で時間がかかり、それを実現するのに多くの人たちの積極的な参加も必要です。 これらの欠点を克服するために、通常、人の移動を追跡し、社会的相互作用を閉じることのできる接触追跡アプリケーションを人のモバイルデバイスにデプロイする、デジタル接触追跡が提案されている。 デジタル接触追跡は手動の接触追跡よりも効果的であることが研究で示唆されているが、接触追跡アプリの採用率の上昇は、よりコントロールされた流行をもたらす可能性がある。 これにより、収集されたデータの精度とその後の分析の信頼性も向上する。 連絡先追跡アプリケーションの採用率が低い理由の1つは、個人のプライバシーに関する懸念である。 実際、複数の国に展開されている接触追跡アプリケーションは、プライバシーに優しくなく、関係する政府による大量監視に使用される可能性があると、いくつかの研究が報告している。 したがって、連絡先追跡アプリケーションを尊重するプライバシーは、非常に効果的で効率的な連絡先追跡につながる時間の必要性である。 本研究は,コンタクトトレースに関するプライバシの中心にあるPrivate Set Intersection問題に対処する上で有効な,さまざまな暗号技術に注目した。 本稿では,これらの手法の計算と通信の複雑さを,コンタクトトレースアプリケーションで利用される典型的なクライアントサーバアーキテクチャで解析する。 さらに,インドシナリオの計算と通信の複雑性式を評価し,より適切にデプロイ可能な暗号手法を特定する。

Contact tracing is an important measure to counter the COVID-19 pandemic. In the early phase, many countries employed manual contact tracing to contain the rate of disease spread, however it has many issues. The manual approach is cumbersome, time consuming and also requires active participation of a large number of people to realize it. In order to overcome these drawbacks, digital contact tracing has been proposed that typically involves deploying a contact tracing application on people's mobile devices which can track their movements and close social interactions. While studies suggest that digital contact tracing is more effective than manual contact tracing, it has been observed that higher adoption rates of the contact tracing app may result in a better controlled epidemic. This also increases the confidence in the accuracy of the collected data and the subsequent analytics. One key reason for low adoption rate of contact tracing applications is the concern about individual privacy. In fact, several studies report that contact tracing applications deployed in multiple countries are not privacy friendly and have potential to be used for mass surveillance by the concerned governments. Hence, privacy respecting contact tracing application is the need of the hour that can lead to highly effective, efficient contact tracing. As part of this study, we focus on various cryptographic techniques that can help in addressing the Private Set Intersection problem which lies at the heart of privacy respecting contact tracing. We analyze the computation and communication complexities of these techniques under the typical client-server architecture utilized by contact tracing applications. Further we evaluate those computation and communication complexity expressions for India scenario and thus identify cryptographic techniques that can be more suitably deployed there.
翻訳日:2023-05-19 07:56:52 公開日:2020-05-19
# あらゆる色: 論争におけるスタンス予測とターンアラウンド

Every Colour You Are: Stance Prediction and Turnaround in Controversial Issues ( http://arxiv.org/abs/2005.10019v1 )

ライセンス: Link先を確認
Eduardo Graells-Garrido, Ricardo Baeza-Yates, Mounia Lalmas(参考訳) Webプラットフォームは、政治宣言と議論を何十年も許可してきた。 テクノロジーの変化は、表現の新たな機会をもたらし、これらの議論の縦断データを利用できるようになり、誰が参加し、誰が意見を更新するかについての新しい疑問が持ち上がった。 この研究の目的は、これらの現象を測定する方法論を提供することであり、最も人気のあるマイクロブログプラットフォームのひとつで観察される中絶という特定のトピックでこの方法論をテストすることである。 そのために、2015年から2018年にかけて、スペイン語を話す2カ国で中絶についてTwitterで議論した。 私たちの主な洞察は2つです。 一方、中絶時の身体症状を反映する形で、心の絵文字(グリーンハート)とパープルハート(パープルハート)の色彩変化といったスタンスを表現するために、新しい技術が採用されている。 一方、強い意見を持つ問題においても意見が変わる可能性があり、これらの変化は人口集団の違いを示している。 これらの知見は,ウェブ上での議論が新たなスタンス・アテンデンスを取り入れ,意見の変化を計測し,評価できることを示唆している。

Web platforms have allowed political manifestation and debate for decades. Technology changes have brought new opportunities for expression, and the availability of longitudinal data of these debates entice new questions regarding who participates, and who updates their opinion. The aim of this work is to provide a methodology to measure these phenomena, and to test this methodology on a specific topic, abortion, as observed on one of the most popular micro-blogging platforms. To do so, we followed the discussion on Twitter about abortion in two Spanish-speaking countries from 2015 to 2018. Our main insights are two fold. On the one hand, people adopted new technologies to express their stances, particularly colored variations of heart emojis ([green heart] & [purple heart]) in a way that mirrored physical manifestations on abortion. On the other hand, even on issues with strong opinions, opinions can change, and these changes show differences in demographic groups. These findings imply that debate on the Web embraces new ways of stance adherence, and that changes of opinion can be measured and characterized.
翻訳日:2023-05-19 07:55:21 公開日:2020-05-19
# 政治グループにおける画像と誤情報:インドのWhatsAppによる証拠

Images and Misinformation in Political Groups: Evidence from WhatsApp in India ( http://arxiv.org/abs/2005.09784v1 )

ライセンス: Link先を確認
Kiran Garimella, Dean Eckles(参考訳) WhatsAppはニュースや噂の拡散の鍵となるメディアであり、しばしば画像として共有される。 われわれは、2019年のインド大統領選挙までの期間に焦点を当てて、インドにおける政治的指向のWhatsAppグループを多数調査している。 ランダム画像と人気画像のサンプルをラベル付けすることで、共有画像の約13%が偽情報であり、ほとんどが3種類の画像に分類されることがわかった。 機械学習手法は、バイラル画像が誤情報であるかどうかを予測するのに使えるが、時間の経過とともにコンテンツの変化に弱い。

WhatsApp is a key medium for the spread of news and rumors, often shared as images. We study a large collection of politically-oriented WhatsApp groups in India, focusing on the period leading up to the 2019 Indian national elections. By labeling samples of random and popular images, we find that around 13% of shared images are known misinformation and most fall into three types of images. Machine learning methods can be used to predict whether a viral image is misinformation, but are brittle to shifts in content over time.
翻訳日:2023-05-19 07:55:00 公開日:2020-05-19
# 一酸化リチウムラジカルの超低温衝突

Ultracold collisions of the lithium monoxide radical ( http://arxiv.org/abs/2005.09778v1 )

ライセンス: Link先を確認
Lucie D. Augustovi\v{c}ov\'a and John L. Bohn(参考訳) 外部磁場または電場の影響下では、$^{2}\Pi_{3/2}=基底状態におけるLiO分子の超低温衝突が検討される。 非弾性衝突は、控えめな実験室強度の磁場と電場の存在下で抑制される。 熱分布を再熱化する弾性衝突の速度とそれに対応する加熱状態変化衝突の低速度は、ミリケルビン領域の初期温度が達成可能であることを前提として、LiOガスの量子縮退あるいは分子ボース・アインシュタイン凝縮が達成可能であることを示唆している。

Ultracold collisions of LiO molecules in the $^{2}\Pi_{3/2}$ ground state are considered, under the influence of either an external magnetic or electric field. Inelastic collisions are shown to be suppressed in the presence of modest laboratory strength magnetic and electric fields. The rate of elastic collisions that rethermalize the thermal distribution, and the corresponding low rate of heating state-changing collisions, suggest that quantum degeneracy or even molecular Bose-Einstein condensation of LiO gas may be attainable, provided that the initial temperatures in the milliKelvin range are achievable.
翻訳日:2023-05-19 07:54:49 公開日:2020-05-19
# 軽量参照フレーム内の時間短縮

Time Contraction Within Lightweight Reference Frames ( http://arxiv.org/abs/2005.09697v1 )

ライセンス: Link先を確認
Matheus Fritsch Savi and Renato Moreira Angelo(参考訳) 特殊相対性理論は、異なる慣性フレームは同じ力学則を知覚するが、空間と時間間隔は値が異なることを教えてくれる。 光子を放出し、後から吸収する高速移動型実験室のパラダイムモデルを用いて、時間収縮の問題を再検討する。 しかし, 本モデルでは, 実験室は2つの独立した平行板で構成されており, それぞれが光を放出し吸収することで, 十分な光量を得ることができた。 実験室の明度が時間の収縮を強調することを示した。 また,光移動鏡の反射による光子周波数の変化についても考察する。 しばしば知覚できないが、現実の有限質量体が関与する場合、これらの効果は必然的に存在する。 より根本的には、参照の相対論的量子フレームの問題に対する最終的なアプローチを必ず浸透させなければならない。

The special theory of relativity teaches us that, although distinct inertial frames perceive the same dynamical laws, space and time intervals differ in value. We revisit the problem of time contraction using the paradigmatic model of a fast-moving laboratory within which a photon is emitted and posteriorly absorbed. In our model, however, the laboratory is composed of two independent parallel plates, each of which allowed to be sufficiently light so as to get kickbacks upon emission and absorption of light. We show that the lightness of the laboratory accentuates the time contraction. We also discuss how the photon frequency shifts upon reflection in a light moving mirror. Although often imperceptible, these effects will inevitably exist whenever realistic finite-mass bodies are involved. More fundamentally, they should necessarily permeate any eventual approach to the problem of relativistic quantum frames of reference.
翻訳日:2023-05-19 07:53:58 公開日:2020-05-19
# サルエント物体検出のための固定型360{\deg}ベンチマークデータセット

A Fixation-based 360{\deg} Benchmark Dataset for Salient Object Detection ( http://arxiv.org/abs/2001.07960v2 )

ライセンス: Link先を確認
Yi Zhang, Lu Zhang, Wassim Hamidouche, Olivier Deforges(参考訳) パノラマコンテンツ中の固定予測(FP)は、仮想現実(VR)アプリケーションの普及傾向とともに広く研究されている。 しかし,salient object detection(sod, salient object detection)は,ピクセルレベルのアノテーションを用いた実際のシーンを表すデータセットが不足しているため,360{\deg}(あるいは全方位)画像では探索されることがほとんどない。 この目的に向けて,挑戦的なシーンと複数のオブジェクトクラスを持つ107の等角パノラマを収集した。 FPと明示的正当性判定との整合性に基づき,実際の眼球固定図の指導の下で,収集画像上に1,165個の有意な物体を正確なマスクで手動で注釈する。 6つの最先端sodモデルは、複数の立方体投影に基づく微調整法を適用して、提案された固定型360{\deg}画像データセット(f-360isod)上でベンチマークされる。 実験の結果、パノラマ画像におけるSODの現在の手法の限界が示され、提案したデータセットが困難であることが示されている。 360{\deg} sodの重要な問題についても論じる。 提案されたデータセットはhttps://github.com/PanoAsh/F-360iSODで公開されている。

Fixation prediction (FP) in panoramic contents has been widely investigated along with the booming trend of virtual reality (VR) applications. However, another issue within the field of visual saliency, salient object detection (SOD), has been seldom explored in 360{\deg} (or omnidirectional) images due to the lack of datasets representative of real scenes with pixel-level annotations. Toward this end, we collect 107 equirectangular panoramas with challenging scenes and multiple object classes. Based on the consistency between FP and explicit saliency judgements, we further manually annotate 1,165 salient objects over the collected images with precise masks under the guidance of real human eye fixation maps. Six state-of-the-art SOD models are then benchmarked on the proposed fixation-based 360{\deg} image dataset (F-360iSOD), by applying a multiple cubic projection-based fine-tuning method. Experimental results show a limitation of the current methods when used for SOD in panoramic images, which indicates the proposed dataset is challenging. Key issues for 360{\deg} SOD is also discussed. The proposed dataset is available at https://github.com/PanoAsh/F-360iSOD.
翻訳日:2023-01-07 18:39:42 公開日:2020-05-19
# 自動車運転における深層強化学習とモデルベースパスプランナの統合

Integrating Deep Reinforcement Learning with Model-based Path Planners for Automated Driving ( http://arxiv.org/abs/2002.00434v2 )

ライセンス: Link先を確認
Ekim Yurtsever, Linda Capito, Keith Redmill, Umit Ozguner(参考訳) 都市部での自動運転は難しい。 人間の参加行動はモデル化が困難であり、従来のルールベースの自動運転システム(adss)は、非モデリングのダイナミクスに直面すると失敗する傾向がある。 一方、より最近のDRL(Deep Reinforcement Learning)ベースのモデルフリーADSは、有望な結果を示している。 しかし、純粋な学習ベースのアプローチは、モデルベースのコントローラのハードコードされた安全性対策を欠いている。 本稿では、経路計画管を視覚ベースのDRLフレームワークに統合し、両世界の欠点を軽減するためのハイブリッドアプローチを提案する。 要約すると、DRLエージェントは、パスプランナーのウェイポイントをできるだけ近くに追従するように訓練される。 エージェントは環境と対話することでこのポリシーを学ぶ。 報酬関数には、パスプランナーから離れる罰と衝突する罰の2つの主要な用語が含まれている。 後者は、はるかに大きな数値を持つ形で優先する。 実験の結果, 提案手法は, 動的都市シミュレーション環境であるCARLAにおいて, ランダムに選択した起点間を走行できることがわかった。 私たちのコードはオープンソースで、オンラインで利用可能です。

Automated driving in urban settings is challenging. Human participant behavior is difficult to model, and conventional, rule-based Automated Driving Systems (ADSs) tend to fail when they face unmodeled dynamics. On the other hand, the more recent, end-to-end Deep Reinforcement Learning (DRL) based model-free ADSs have shown promising results. However, pure learning-based approaches lack the hard-coded safety measures of model-based controllers. Here we propose a hybrid approach for integrating a path planning pipe into a vision based DRL framework to alleviate the shortcomings of both worlds. In summary, the DRL agent is trained to follow the path planner's waypoints as close as possible. The agent learns this policy by interacting with the environment. The reward function contains two major terms: the penalty of straying away from the path planner and the penalty of having a collision. The latter has precedence in the form of having a significantly greater numerical value. Experimental results show that the proposed method can plan its path and navigate between randomly chosen origin-destination points in CARLA, a dynamic urban simulation environment. Our code is open-source and available online.
翻訳日:2023-01-04 20:05:28 公開日:2020-05-19
# 預言者:訓練・報告の質を予測したフェデレート学習の積極的な候補選択

Prophet: Proactive Candidate-Selection for Federated Learning by Predicting the Qualities of Training and Reporting Phases ( http://arxiv.org/abs/2002.00577v2 )

ライセンス: Link先を確認
Huawei Huang, Kangying Lin, Song Guo, Pan Zhou, Zibin Zheng(参考訳) デバイス接続の課題は5Gネットワークで大幅に緩和されているが、トレーニングレイテンシは依然としてフェデレートラーニング(FL)が広く採用されるのを防ぐ障害である。 大きなレイテンシをもたらす最も基本的な問題の1つは、FLの悪い候補選択である。 動的環境では、既存のリアクティブ候補選択アルゴリズムによって選択されたモバイルデバイスは、FLパラメータサーバが現在のすべての候補のリソースしか知らないため、FLのトレーニングおよびレポートフェーズを完了できない可能性がある。 そこで本論文では,FLの有効候補選択について検討する。 まず、LSTMを用いて、各候補装置がトレーニングおよびレポートフェーズの両方の品質を局所的に予測する。 提案する候補選択アルゴリズムは,Deep Reinforcement Learning (DRL)フレームワークによって実装される。 最後に、実世界のトレース駆動実験は、提案手法が既存のリアクティブアルゴリズムを上回ることを証明している。

Although the challenge of the device connection is much relieved in 5G networks, the training latency is still an obstacle preventing Federated Learning (FL) from being largely adopted. One of the most fundamental problems that lead to large latency is the bad candidate-selection for FL. In the dynamic environment, the mobile devices selected by the existing reactive candidate-selection algorithms very possibly fail to complete the training and reporting phases of FL, because the FL parameter server only knows the currently-observed resources of all candidates. To this end, we study the proactive candidate-selection for FL in this paper. We first let each candidate device predict the qualities of both its training and reporting phases locally using LSTM. Then, the proposed candidateselection algorithm is implemented by the Deep Reinforcement Learning (DRL) framework. Finally, the real-world trace-driven experiments prove that the proposed approach outperforms the existing reactive algorithms
翻訳日:2023-01-04 08:41:03 公開日:2020-05-19
# 多面画像を用いた光フィールド合成の学習:再帰的セグメンテーションタスクとしてのシーンエンコーディング

Learning light field synthesis with Multi-Plane Images: scene encoding as a recurrent segmentation task ( http://arxiv.org/abs/2002.05028v3 )

ライセンス: Link先を確認
Tom\'as V\"olker, Guillaume Boisson, Bertrand Chupeau(参考訳) 本稿では,入力ビューのスパースセットを多面体画像(MPI)に変換することで,大規模なベースライン光場からのビュー合成の問題に対処する。 利用可能なデータセットは少ないため、広範なトレーニングを必要としない軽量ネットワークを提案する。 最新のアプローチとは異なり、このモデルはrgb層を推定することを学ばず、セグメンテーションタスクにつながるmpi alpha層内のシーンジオメトリのみをエンコードする。 Learned Gradient Descent (LGD)フレームワークは、得られた体積表現を洗練させるために、同じ畳み込みネットワークを反復的にカスケードするために使用される。 パラメータの少なさにより,小型のライトフィールドビデオデータセット上でのトレーニングが成功し,視覚的に魅力的な結果が得られる。 また、入力ビュー数、MPI内の深さ平面数、改善イテレーション数の両方について、便利な一般化特性を示す。

In this paper we address the problem of view synthesis from large baseline light fields, by turning a sparse set of input views into a Multi-plane Image (MPI). Because available datasets are scarce, we propose a lightweight network that does not require extensive training. Unlike latest approaches, our model does not learn to estimate RGB layers but only encodes the scene geometry within MPI alpha layers, which comes down to a segmentation task. A Learned Gradient Descent (LGD) framework is used to cascade the same convolutional network in a recurrent fashion in order to refine the volumetric representation obtained. Thanks to its low number of parameters, our model trains successfully on a small light field video dataset and provides visually appealing results. It also exhibits convenient generalization properties regarding both the number of input views, the number of depth planes in the MPI, and the number of refinement iterations.
翻訳日:2023-01-01 20:13:38 公開日:2020-05-19
# Zero-Resource Cross-Domain Named Entity Recognition

Zero-Resource Cross-Domain Named Entity Recognition ( http://arxiv.org/abs/2002.05923v2 )

ライセンス: Link先を確認
Zihan Liu, Genta Indra Winata, Pascale Fung(参考訳) 既存のドメイン名付きエンティティ認識(NER)モデルは、多くのラベルなしコーパスや、ターゲットドメイン内のラベル付きNERトレーニングデータに依存している。 しかし、低リソースターゲットドメインのデータ収集はコストだけでなく、時間もかかる。 したがって、外部リソースを一切使用しないドメイン間NERモデルを提案する。 まず,トークンが名前付きエンティティであるかどうかを検出するために,新たな目的関数を追加することで,マルチタスク学習(mtl)を導入する。 次に、ゼロリソースドメイン適応の堅牢性を改善するために、Mixture of Entity Experts(MoEE)というフレームワークを紹介します。 最後に、実験結果から、我々のモデルは強力な教師なしクロスドメインシーケンスラベリングモデルよりも優れており、我々のモデルの性能は広範囲なリソースを利用する最先端モデルに近いことを示している。

Existing models for cross-domain named entity recognition (NER) rely on numerous unlabeled corpus or labeled NER training data in target domains. However, collecting data for low-resource target domains is not only expensive but also time-consuming. Hence, we propose a cross-domain NER model that does not use any external resources. We first introduce a Multi-Task Learning (MTL) by adding a new objective function to detect whether tokens are named entities or not. We then introduce a framework called Mixture of Entity Experts (MoEE) to improve the robustness for zero-resource domain adaptation. Finally, experimental results show that our model outperforms strong unsupervised cross-domain sequence labeling models, and the performance of our model is close to that of the state-of-the-art model which leverages extensive resources.
翻訳日:2023-01-01 03:55:43 公開日:2020-05-19
# 手目校正問題に対する最適最小二乗解法

Optimal least-squares solution to the hand-eye calibration problem ( http://arxiv.org/abs/2002.10838v2 )

ライセンス: Link先を確認
Amit Dekel, Linus H\"arenstam-Nielsen, Sergio Caccamo(参考訳) 双四元数を用いた無声手目キャリブレーション問題に対する最小二乗法を提案し,非線形最適化を回避し,問題の解析的性質に基づく最適解を求めるための効率的なアルゴリズムを提案する。 さらに, 正確な解に比べて極めて優れた推定値を提供する簡易解析近似解を提案する。 さらに、コスト関数において与えられた外在的事前を考慮し、解を一般化する方法を示す。 我々の知る限りでは、我々のアルゴリズムは眼の校正問題を最適に解くための最も効率的な方法である。

We propose a least-squares formulation to the noisy hand-eye calibration problem using dual-quaternions, and introduce efficient algorithms to find the exact optimal solution, based on analytic properties of the problem, avoiding non-linear optimization. We further present simple analytic approximate solutions which provide remarkably good estimations compared to the exact solution. In addition, we show how to generalize our solution to account for a given extrinsic prior in the cost function. To the best of our knowledge our algorithm is the most efficient approach to optimally solve the hand-eye calibration problem.
翻訳日:2022-12-28 22:03:23 公開日:2020-05-19
# 身元関係学習のための重み付け

Weight Priors for Learning Identity Relations ( http://arxiv.org/abs/2003.03125v2 )

ライセンス: Link先を確認
Radha Kopparti, Tillman Weyde(参考訳) 抽象的および体系的な関係の学習は、30年以上にわたってニューラルネットワーク学習においてオープンな問題となっている。 近年、ニューラルネットワークはアイデンティティに基づいて関係を学習せず、見当たらないデータにうまく一般化できないことが示されている。 この問題の解としてrbp(relational based pattern)アプローチが提案されている。 本研究では,ネットワークの重み付けに先立ってベイジアンとして認識し,同一性関係をモデル化することでrppを拡張する。 この重みは前もって標準ネットワーク学習における修正正規化項に繋がる。 実験では、ベイズ重みがアイデンティティに基づく関係を学習する際に完全に一般化し、一般のニューラルネットワーク学習に支障を来さないことを示す。 重み付き帰納バイアスを生み出すアプローチは、他の種類の関係に容易に拡張することができ、他の多くの学習タスクに有用であると考えています。

Learning abstract and systematic relations has been an open issue in neural network learning for over 30 years. It has been shown recently that neural networks do not learn relations based on identity and are unable to generalize well to unseen data. The Relation Based Pattern (RBP) approach has been proposed as a solution for this problem. In this work, we extend RBP by realizing it as a Bayesian prior on network weights to model the identity relations. This weight prior leads to a modified regularization term in otherwise standard network learning. In our experiments, we show that the Bayesian weight priors lead to perfect generalization when learning identity based relations and do not impede general neural network learning. We believe that the approach of creating an inductive bias with weight priors can be extended easily to other forms of relations and will be beneficial for many other learning tasks.
翻訳日:2022-12-26 00:45:09 公開日:2020-05-19
# 畳み込みニューラルネットワークによる設計思想のための特許画像検索手法

A Convolutional Neural Network-based Patent Image Retrieval Method for Design Ideation ( http://arxiv.org/abs/2003.08741v3 )

ライセンス: Link先を確認
Shuo Jiang, Jianxi Luo, Guillermo Ruiz Pava, Jie Hu, Christopher L. Magee(参考訳) 特許データベースは、大きく、多種多様で、特許文書に豊富な設計情報があるため、革新的な設計の機会にインスピレーションを与えるためにしばしば用いられる。 しかし、ほとんどの特許マイニング研究はテキスト情報のみに焦点を当て、視覚情報を無視している。 本稿では,畳み込みニューラルネットワーク(CNN)を用いた特許画像検索手法を提案する。 このアプローチの中核は、ビジュアルマテリアルタイプ予測と国際特許分類(IPC)クラスラベル予測という2つのタスクを達成することを目的とした、Dual-VGGという新しいニューラルネットワークアーキテクチャである。 代わりに、トレーニングされたニューラルネットワークは、特許画像検索と視覚マッピングに使用できる画像埋め込みベクターの深い特徴を提供する。 本モデルの性能を示すために,訓練作業と特許画像埋め込み空間の双方の精度を評価した。 この手法は、ロボットアーム設計検索のケーススタディでも説明されている。 従来のキーワードベース検索やGoogle画像検索と比較して,提案手法は工学設計においてより有用な視覚情報を発見する。

The patent database is often used in searches of inspirational stimuli for innovative design opportunities because of its large size, extensive variety and rich design information in patent documents. However, most patent mining research only focuses on textual information and ignores visual information. Herein, we propose a convolutional neural network (CNN)-based patent image retrieval method. The core of this approach is a novel neural network architecture named Dual-VGG that is aimed to accomplish two tasks: visual material type prediction and international patent classification (IPC) class label prediction. In turn, the trained neural network provides the deep features in the image embedding vectors that can be utilized for patent image retrieval and visual mapping. The accuracy of both training tasks and patent image embedding space are evaluated to show the performance of our model. This approach is also illustrated in a case study of robot arm design retrieval. Compared to traditional keyword-based searching and Google image searching, the proposed method discovers more useful visual information for engineering design.
翻訳日:2022-12-24 21:49:06 公開日:2020-05-19
# ロバスト医療機器セグメンテーションチャレンジ2019

Robust Medical Instrument Segmentation Challenge 2019 ( http://arxiv.org/abs/2003.10299v2 )

ライセンス: Link先を確認
Tobias Ross, Annika Reinke, Peter M. Full, Martin Wagner, Hannes Kenngott, Martin Apitz, Hellena Hempe, Diana Mindroc Filimon, Patrick Scholz, Thuy Nuong Tran, Pierangela Bruno, Pablo Arbel\'aez, Gui-Bin Bian, Sebastian Bodenstedt, Jon Lindstr\"om Bolmgren, Laura Bravo-S\'anchez, Hua-Bin Chen, Cristina Gonz\'alez, Dong Guo, P{\aa}l Halvorsen, Pheng-Ann Heng, Enes Hosgor, Zeng-Guang Hou, Fabian Isensee, Debesh Jha, Tingting Jiang, Yueming Jin, Kadir Kirtac, Sabrina Kletz, Stefan Leger, Zhixuan Li, Klaus H. Maier-Hein, Zhen-Liang Ni, Michael A. Riegler, Klaus Schoeffmann, Ruohua Shi, Stefanie Speidel, Michael Stenzel, Isabell Twick, Gutai Wang, Jiacheng Wang, Liansheng Wang, Lu Wang, Yujie Zhang, Yan-Jie Zhou, Lei Zhu, Manuel Wiesenfarth, Annette Kopp-Schneider, Beat P. M\"uller-Stich, Lena Maier-Hein(参考訳) 腹腔鏡装置の術中追跡は、しばしばコンピュータとロボットによる介入の必要条件である。 内視鏡的映像画像に基づく医療機器の検出, 分割, 追跡に関する多くの手法が文献に提案されているが, 第一に, 頑健性, 即ち, 困難な画像(例えば血液, 煙, 運動アーチファクトの有無)上での最先端手法の信頼性が問題となる。 第二に、特定の病院への特定の介入のために訓練されたアルゴリズムは、他の介入や機関に一般化されるべきである。 これらの制限に対する解決策を促進するために、ロバスト・ミズ(robust-mis)チャレンジを、アルゴリズムのロバスト性と一般化能力に焦点を絞った国際ベンチマークコンペティションとして組織した。 内視鏡的画像処理の分野では初めて,バイナリセグメンテーションの課題と,マルチインスタンス検出とセグメンテーションの課題が紹介された。 この課題は、3種類の手術から合計30の手術手順から得られた10,040個の注釈付き画像からなる手術データセットに基づいていた。 3つのタスク(バイナリセグメンテーション、マルチインテンス検出、マルチインテンスセグメンテーション)の競合する方法の検証は、トレーニングとテストデータの間のドメインギャップの増加とともに、3つの異なるステージで実施された。 その結果,初期仮説,すなわちアルゴリズム性能がドメインギャップの増加とともに低下することを確認した。 最適性能アルゴリズムの平均検出とセグメンテーション品質は高いが、将来の研究は、小型、横断型、移動型、透明な機器(部品)の検出とセグメンテーションに集中すべきである。

Intraoperative tracking of laparoscopic instruments is often a prerequisite for computer and robotic-assisted interventions. While numerous methods for detecting, segmenting and tracking of medical instruments based on endoscopic video images have been proposed in the literature, key limitations remain to be addressed: Firstly, robustness, that is, the reliable performance of state-of-the-art methods when run on challenging images (e.g. in the presence of blood, smoke or motion artifacts). Secondly, generalization; algorithms trained for a specific intervention in a specific hospital should generalize to other interventions or institutions. In an effort to promote solutions for these limitations, we organized the Robust Medical Instrument Segmentation (ROBUST-MIS) challenge as an international benchmarking competition with a specific focus on the robustness and generalization capabilities of algorithms. For the first time in the field of endoscopic image processing, our challenge included a task on binary segmentation and also addressed multi-instance detection and segmentation. The challenge was based on a surgical data set comprising 10,040 annotated images acquired from a total of 30 surgical procedures from three different types of surgery. The validation of the competing methods for the three tasks (binary segmentation, multi-instance detection and multi-instance segmentation) was performed in three different stages with an increasing domain gap between the training and the test data. The results confirm the initial hypothesis, namely that algorithm performance degrades with an increasing domain gap. While the average detection and segmentation quality of the best-performing algorithms is high, future research should concentrate on detection and segmentation of small, crossing, moving and transparent instrument(s) (parts).
翻訳日:2022-12-21 00:26:33 公開日:2020-05-19
# SPFCN:リアルタイム駐車スロット検出のための完全畳み込みネットワークの選択とプルーニング

SPFCN: Select and Prune the Fully Convolutional Networks for Real-time Parking Slot Detection ( http://arxiv.org/abs/2003.11337v2 )

ライセンス: Link先を確認
Zhuoping Yu, Zhong Gao, Hansheng Chen, and Yuyao Huang(参考訳) 自動駐車システムを備えた車両では,駐車スロット検出の精度と速度が重要である。 しかし、高い精度は、低速または高価な計算機器の価格で得られ、これは多くの自動車メーカーに敏感である。 本稿では,CNN(畳み込みニューラルネットワーク)を用いて,精度を保ちながら高速でモデルサイズを小さくする検出器を提案する。 最適バランスを達成するため,各訓練期間終了後に最適な受容場を選択し,冗長チャネルを自動的にプーンする手法を開発した。 提案モデルは、平均プロセッサ上でリアルタイムに効率的に動作しながら、駐車スロットのコーナーやラインの特徴を共同で検出することができる。 このモデルは2.3ghzのcpuコア上で約30fpsのフレームレートを持ち、パーキングスロット角のローカライズエラーは1.51$\pm$2.14 cm (std. err.)であり、スロット検出精度は98\%であり、一般的にはオンボード携帯端末の速度と精度の要件を満たす。

For vehicles equipped with the automatic parking system, the accuracy and speed of the parking slot detection are crucial. But the high accuracy is obtained at the price of low speed or expensive computation equipment, which are sensitive for many car manufacturers. In this paper, we proposed a detector using CNN(convolutional neural networks) for faster speed and smaller model size while keeps accuracy. To achieve the optimal balance, we developed a strategy to select the best receptive fields and prune the redundant channels automatically after each training epoch. The proposed model is capable of jointly detecting corners and line features of parking slots while running efficiently in real time on average processors. The model has a frame rate of about 30 FPS on a 2.3 GHz CPU core, yielding parking slot corner localization error of 1.51$\pm$2.14 cm (std. err.) and slot detection accuracy of 98\%, generally satisfying the requirements in both speed and accuracy on on-board mobile terminals.
翻訳日:2022-12-20 02:56:08 公開日:2020-05-19
# 新しいハイパーボックス選択規則を用いた一般ファジィmin-maxニューラルネットワークの高速化学習アルゴリズム

Accelerated learning algorithms of general fuzzy min-max neural network using a novel hyperbox selection rule ( http://arxiv.org/abs/2003.11333v2 )

ライセンス: Link先を確認
Thanh Tung Khuat and Bogdan Gabrys(参考訳) 本稿では,一般ファジィmin-maxニューラルネットワークの学習過程を高速化する手法を提案する。 その目的は、既存のハイパーボックスの拡張ステップの候補として選択された不適切なハイパーボックスを削減し、オンライン学習アルゴリズムの新たな入力パターンや凝集学習アルゴリズムのハイパーボックス集約プロセスの候補をカバーすることである。 提案手法は,拡張条件や集約条件を確実に満たさないハイパーボックスを除去し,学習アルゴリズムの学習時間を短縮することを目的とした分岐境界解の数学的公式に基づく。 提案手法の効率性は,多くの広く利用されているデータセットで評価される。 実験の結果,オンライン学習アルゴリズムと凝集学習アルゴリズムの両方において,提案手法の学習時間が有意に短縮された。 特に、オンライン学習アルゴリズムの学習時間は、提案手法を用いた場合の1.2倍から12倍に短縮され、凝集学習アルゴリズムは平均で7倍から37倍に高速化される。

This paper proposes a method to accelerate the training process of a general fuzzy min-max neural network. The purpose is to reduce the unsuitable hyperboxes selected as the potential candidates of the expansion step of existing hyperboxes to cover a new input pattern in the online learning algorithms or candidates of the hyperbox aggregation process in the agglomerative learning algorithms. Our proposed approach is based on the mathematical formulas to form a branch-and-bound solution aiming to remove the hyperboxes which are certain not to satisfy expansion or aggregation conditions, and in turn, decreasing the training time of learning algorithms. The efficiency of the proposed method is assessed over a number of widely used data sets. The experimental results indicated the significant decrease in training time of the proposed approach for both online and agglomerative learning algorithms. Notably, the training time of the online learning algorithms is reduced from 1.2 to 12 times when using the proposed method, while the agglomerative learning algorithms are accelerated from 7 to 37 times on average.
翻訳日:2022-12-20 02:47:36 公開日:2020-05-19
# スケルトンに基づく行動認識のためのグラフ畳み込みと統一化

Disentangling and Unifying Graph Convolutions for Skeleton-Based Action Recognition ( http://arxiv.org/abs/2003.14111v2 )

ライセンス: Link先を確認
Ziyu Liu, Hongwen Zhang, Zhenghao Chen, Zhiyong Wang, Wanli Ouyang(参考訳) 時空間グラフは骨格に基づく行動認識アルゴリズムによって人間の行動力学をモデル化するために広く利用されている。 これらのグラフからロバストな動きパターンを捉えるために、長距離およびマルチスケールのコンテキストアグリゲーションと時空間依存モデリングが強力な特徴抽出器の重要な側面である。 しかし,既存の手法では,(1)マルチスケール演算子の下での非バイアスな長距離連接関係モデリング,(2)複雑な時空間依存を捉えるための非障害物な時空間情報フローの実現に限界がある。 本稿では,(1)多スケールグラフ畳み込みを解消するための簡易な方法,(2)空間-時空間グラフ畳み込み演算子g3dを提案する。 提案するマルチスケールアグリゲーションスキームは,実効的長距離モデリングにおいて異なる近傍のノードの重要性を解消する。 提案したG3Dモジュールは、空間時間グラフを横断する直接情報伝達のためのスキップ接続として、高密度な時空間エッジを利用する。 これらの提案を結合することにより,NTU RGB+D 60, NTU RGB+D 120, Kinetics Skeleton 400の3つの大規模データセット上で, 従来の最先端手法よりも優れた特徴抽出器MS-G3Dを開発した。

Spatial-temporal graphs have been widely used by skeleton-based action recognition algorithms to model human action dynamics. To capture robust movement patterns from these graphs, long-range and multi-scale context aggregation and spatial-temporal dependency modeling are critical aspects of a powerful feature extractor. However, existing methods have limitations in achieving (1) unbiased long-range joint relationship modeling under multi-scale operators and (2) unobstructed cross-spacetime information flow for capturing complex spatial-temporal dependencies. In this work, we present (1) a simple method to disentangle multi-scale graph convolutions and (2) a unified spatial-temporal graph convolutional operator named G3D. The proposed multi-scale aggregation scheme disentangles the importance of nodes in different neighborhoods for effective long-range modeling. The proposed G3D module leverages dense cross-spacetime edges as skip connections for direct information propagation across the spatial-temporal graph. By coupling these proposals, we develop a powerful feature extractor named MS-G3D based on which our model outperforms previous state-of-the-art methods on three large-scale datasets: NTU RGB+D 60, NTU RGB+D 120, and Kinetics Skeleton 400.
翻訳日:2022-12-18 01:25:01 公開日:2020-05-19
# 自由テキストからの戦略的行動予測

Predicting Strategic Behavior from Free Text ( http://arxiv.org/abs/2004.02973v2 )

ライセンス: Link先を確認
Omer Ben-Porat, Sharon Hirsch, Lital Kuchy, Guy Elad, Roi Reichart, Moshe Tennenholtz(参考訳) メッセージとアクションの関連性は、Web検索や感情分析のようなWebアプリケーションと経済学の両方に基本的である。 しかしながら、著名なオンラインアプリケーションは、非ストラテジックなアクション選択を予測するために、自然な(人間)言語でのメッセージングを利用する一方、経済学文献は構造化されたスタイル化されたメッセージングとゲームにおける戦略的決定とマルチエージェントの遭遇との関連に焦点を当てている。 本稿では,これら2つの研究の連鎖をつなぐことを目的とし,web上でのオンラインテキスト通信の広さから,時間的かつ重要視する。 特に、自然言語で表現された自由テキストは、ゲームとしてモデル化された経済的な文脈における行動選択の予測に役立つか? 本研究では,この課題について研究を開始するために,プレイすべきゲームに気付いていないまま,提供した自由テキストに基づくワンショットゲームにおいて,個人の行動予測に関する研究を紹介する。 我々は,クラウドソーシングによる共通感覚的性格特性を個人が書いた自由テキストに寄与させ,これらの属性に基づいたワンショットゲームにおける個人による行動予測にトランスダクティブ学習を採用することで,この問題に対処する。 当社のアプローチでは、複数のゲームで実行されるアクションに対して予測を行う単一の分類器をトレーニングすることが可能です。 3つのよく研究されたゲームを使った実験では、アルゴリズムは強力な代替手法と好意的に比較される。 アブレーション分析において,我々はモデルの予測能力に対して,共通認識的パーソナリティ属性によるテキスト表現と分類器のモデル化選択の重要性を実証する。

The connection between messaging and action is fundamental both to web applications, such as web search and sentiment analysis, and to economics. However, while prominent online applications exploit messaging in natural (human) language in order to predict non-strategic action selection, the economics literature focuses on the connection between structured stylized messaging to strategic decisions in games and multi-agent encounters. This paper aims to connect these two strands of research, which we consider highly timely and important due to the vast online textual communication on the web. Particularly, we introduce the following question: can free text expressed in natural language serve for the prediction of action selection in an economic context, modeled as a game? In order to initiate the research on this question, we introduce the study of an individual's action prediction in a one-shot game based on free text he/she provides, while being unaware of the game to be played. We approach the problem by attributing commonsensical personality attributes via crowd-sourcing to free texts written by individuals, and employing transductive learning to predict actions taken by these individuals in one-shot games based on these attributes. Our approach allows us to train a single classifier that can make predictions with respect to actions taken in multiple games. In experiments with three well-studied games, our algorithm compares favorably with strong alternative approaches. In ablation analysis, we demonstrate the importance of our modeling choices---the representation of the text with the commonsensical personality attributes and our classifier---to the predictive power of our model.
翻訳日:2022-12-16 05:34:56 公開日:2020-05-19
# 即興対話による会話の接地

Grounding Conversations with Improvised Dialogues ( http://arxiv.org/abs/2004.09544v2 )

ライセンス: Link先を確認
Hyundong Cho, Jonathan May(参考訳) 効果的な対話は、人とのコミュニケーションに不可欠な相互知識を確立するための基盤となる。 現代の対話システムは、共通基盤を構築するために明示的に訓練されていないため、コミュニケーションの重要な側面を見落としている。 即興劇場(即興劇場)は、本質的に、共通の基盤を構築することに焦点を当てた対話の比率が高く、一貫性と行動可能な客観的現実を確立するために、強固な基礎的言論法であるイエス・アンド・原理(yes-and principle)を活用している。 我々は、26,000以上のイエス・アンド・ターンのコーパスを収集し、即興対話から翻訳し、さらに大きいがより人口の多い映画脚本対話コーパスから、ブートストラップ付き分類器を介してそれらを抽出する。 我々は,より基礎的かつ関連性のある会話を促すために,コーパスとchit-chat対話システムを微調整し,これらの発見を人間評価で確認する。

Effective dialogue involves grounding, the process of establishing mutual knowledge that is essential for communication between people. Modern dialogue systems are not explicitly trained to build common ground, and therefore overlook this important aspect of communication. Improvisational theater (improv) intrinsically contains a high proportion of dialogue focused on building common ground, and makes use of the yes-and principle, a strong grounding speech act, to establish coherence and an actionable objective reality. We collect a corpus of more than 26,000 yes-and turns, transcribing them from improv dialogues and extracting them from larger, but more sparsely populated movie script dialogue corpora, via a bootstrapped classifier. We fine-tune chit-chat dialogue systems with our corpus to encourage more grounded, relevant conversation and confirm these findings with human evaluations.
翻訳日:2022-12-11 18:38:06 公開日:2020-05-19
# Gabriella: セキュリティビデオのリアルタイムアクティビティ検出のためのオンラインシステム

Gabriella: An Online System for Real-Time Activity Detection in Untrimmed Security Videos ( http://arxiv.org/abs/2004.11475v2 )

ライセンス: Link先を確認
Mamshad Nayeem Rizve, Ugur Demir, Praveen Tirupattur, Aayush Jung Rana, Kevin Duarte, Ishan Dave, Yogesh Singh Rawat, Mubarak Shah(参考訳) セキュリティビデオにおけるアクティビティ検出は,広い視野,複数のアクティビティの存在,スケールや視点の相違,未解決の性質など,複数の要因により難しい問題である。 アクティビティ検出に関する既存の研究は、主にUCF-101、JHMDB、THUMOS、AVAなどのデータセットに焦点を当てており、これらの問題に部分的に対処している。 セキュリティビデオのリアルタイム処理の必要性は、これをさらに難しくしている。 本稿では,未トリミングされたセキュリティビデオのアクティビティ検出を行うリアルタイムオンラインシステムGabriellaを提案する。 提案手法は, チューブレット抽出, 活性分類, オンラインチューブレット融合の3段階からなる。 チューブレット抽出のために,ビデオクリップを入力とし,複数スケールの電位前景領域を時空間的に検出してアクションチューブを生成するローカライズネットワークを提案する。 本稿では,アクタサイズの大きな変動に対処するパッチディスロスを提案する。 クリップレベルでのビデオのオンライン処理は、アクティビティ検出の計算時間を劇的に削減します。 検出されたチューブレットは分類ネットワークによってアクティビティクラススコアを割り当てられ、提案するチューブレットマージアクションスリット(tmas)アルゴリズムを用いてマージされ、最終動作検出となる。 TMASアルゴリズムは、チューブレットをオンラインで効率的に接続し、様々な長さのアクティビティに対して堅牢な動作検出を生成する。 我々は,VIRATとMEVA(Multiview Extended Video with Activity)データセットを用いて実験を行い,提案手法の有効性を示す。 コードとモデルは公開される予定だ。

Activity detection in security videos is a difficult problem due to multiple factors such as large field of view, presence of multiple activities, varying scales and viewpoints, and its untrimmed nature. The existing research in activity detection is mainly focused on datasets, such as UCF-101, JHMDB, THUMOS, and AVA, which partially address these issues. The requirement of processing the security videos in real-time makes this even more challenging. In this work we propose Gabriella, a real-time online system to perform activity detection on untrimmed security videos. The proposed method consists of three stages: tubelet extraction, activity classification, and online tubelet merging. For tubelet extraction, we propose a localization network which takes a video clip as input and spatio-temporally detects potential foreground regions at multiple scales to generate action tubelets. We propose a novel Patch-Dice loss to handle large variations in actor size. Our online processing of videos at a clip level drastically reduces the computation time in detecting activities. The detected tubelets are assigned activity class scores by the classification network and merged together using our proposed Tubelet-Merge Action-Split (TMAS) algorithm to form the final action detections. The TMAS algorithm efficiently connects the tubelets in an online fashion to generate action detections which are robust against varying length activities. We perform our experiments on the VIRAT and MEVA (Multiview Extended Video with Activities) datasets and demonstrate the effectiveness of the proposed approach in terms of speed (~100 fps) and performance with state-of-the-art results. The code and models will be made publicly available.
翻訳日:2022-12-10 10:13:24 公開日:2020-05-19
# 離散アノテーションを用いた参照解決のためのアクティブラーニング

Active Learning for Coreference Resolution using Discrete Annotation ( http://arxiv.org/abs/2004.13671v3 )

ライセンス: Link先を確認
Belinda Z. Li, Gabriel Stanovsky, Luke Zettlemoyer(参考訳) 提案する参照対がcoreferentでないと判断された場合、先行項の識別を注釈者に依頼することで、共参照解決におけるアクティブラーニングのためのペアワイズアノテーションを改善した。 この単純な修正は、ラベルを付けるべき例を選択する新しい参照クラスタリングアルゴリズムと組み合わせると、アノテーションの予算ごとに得られるパフォーマンスの点ではるかに効率的である。 既存のベンチマークコアベンチマークデータセットを用いた実験では、この追加質問からの信号が人間のアノテーション時間当たりの大幅なパフォーマンス向上につながることが示された。 将来の作業では、アノテーションプロトコルを使用して、新しいドメインのコア参照モデルを効果的に開発できます。 私たちのコードはhttps://github.com/belindal/discrete-active-learning-corefで公開されています。

We improve upon pairwise annotation for active learning in coreference resolution, by asking annotators to identify mention antecedents if a presented mention pair is deemed not coreferent. This simple modification, when combined with a novel mention clustering algorithm for selecting which examples to label, is much more efficient in terms of the performance obtained per annotation budget. In experiments with existing benchmark coreference datasets, we show that the signal from this additional question leads to significant performance gains per human-annotation hour. Future work can use our annotation protocol to effectively develop coreference models for new domains. Our code is publicly available at https://github.com/belindal/discrete-active-learning-coref .
翻訳日:2022-12-08 23:09:18 公開日:2020-05-19
# データレンズによる深部モデルの解釈

Interpreting Deep Models through the Lens of Data ( http://arxiv.org/abs/2005.03442v2 )

ライセンス: Link先を確認
Dominique Mercier, Shoaib Ahmed Siddiqui, Andreas Dengel, Sheraz Ahmed(参考訳) 分類器(つまりサポートベクターとして機能する)に関連する入力データポイントの識別は、最近研究者の理解可能性とデータセットデバッグの両方に対する関心を喚起した。 本稿では,これらのデータポイントが生成する分類器に与える影響を同定する手法について,詳細な解析を行う。 影響の質を定量化するために、異なる方法から得られた影響情報に基づいてデータセットをデバッグし、prunした一連の実験をキュレートした。 そのため、全体的なパフォーマンスを阻害する誤ったラベルの例を分類器に提供しました。 分類器はデータとモデルの両方の組み合わせであるため、深層学習モデルの解釈可能性のためにもこれらの影響を分析することが不可欠である。 結果分析の結果,ランダムな手法よりも誤記を検出できる方法がいくつか存在するが,これらの手法の主張とは対照的に,学習損失に基づくサンプル選択が優れた性能を示した。

Identification of input data points relevant for the classifier (i.e. serve as the support vector) has recently spurred the interest of researchers for both interpretability as well as dataset debugging. This paper presents an in-depth analysis of the methods which attempt to identify the influence of these data points on the resulting classifier. To quantify the quality of the influence, we curated a set of experiments where we debugged and pruned the dataset based on the influence information obtained from different methods. To do so, we provided the classifier with mislabeled examples that hampered the overall performance. Since the classifier is a combination of both the data and the model, therefore, it is essential to also analyze these influences for the interpretability of deep learning models. Analysis of the results shows that some interpretability methods can detect mislabels better than using a random approach, however, contrary to the claim of these methods, the sample selection based on the training loss showed a superior performance.
翻訳日:2022-12-06 13:30:48 公開日:2020-05-19
# 局所ラベル不均衡に基づくマルチラベルサンプリング

Multi-Label Sampling based on Local Label Imbalance ( http://arxiv.org/abs/2005.03240v2 )

ライセンス: Link先を確認
Bin Liu, Konstantinos Blekas, and Grigorios Tsoumakas(参考訳) クラス不均衡は、ほとんどのマルチラベル学習方法を妨げるマルチラベルデータの特徴である。 この問題に対処する効率的で柔軟な戦略の1つは、マルチラベル学習モデルをトレーニングする前にサンプリング技術を採用することである。 既存のマルチラベルサンプリングアプローチは、マルチラベルデータセットのグローバル不均衡を緩和するが、実際には、パフォーマンス低下において重要な役割を果たすマイノリティクラス例のローカル近傍における不均衡レベルである。 この問題に対処するため,マルチラベルデータセットの局所ラベル不均衡を評価するための新しい尺度を提案するとともに,ローカルラベル不均衡に基づく2つのマルチラベルサンプリング手法,すなわちMLULとMLULを提案する。 すべての情報ラベルを考慮することで、MLULはより多様な、より優れたラベル付き合成インスタンスを生成し、MLULはローカル領域に有害なインスタンスを除去する。 13のマルチラベルデータセットに対する実験結果から,提案手法の有効性と,様々な評価指標に対するサンプリング手法の有効性が示された。

Class imbalance is an inherent characteristic of multi-label data that hinders most multi-label learning methods. One efficient and flexible strategy to deal with this problem is to employ sampling techniques before training a multi-label learning model. Although existing multi-label sampling approaches alleviate the global imbalance of multi-label datasets, it is actually the imbalance level within the local neighbourhood of minority class examples that plays a key role in performance degradation. To address this issue, we propose a novel measure to assess the local label imbalance of multi-label datasets, as well as two multi-label sampling approaches based on the local label imbalance, namely MLSOL and MLUL. By considering all informative labels, MLSOL creates more diverse and better labeled synthetic instances for difficult examples, while MLUL eliminates instances that are harmful to their local region. Experimental results on 13 multi-label datasets demonstrate the effectiveness of the proposed measure and sampling approaches for a variety of evaluation metrics, particularly in the case of an ensemble of classifiers trained on repeated samples of the original data.
翻訳日:2022-12-05 22:40:47 公開日:2020-05-19
# 自然な会話における連続感情認識のためのマルチモーダルセンサデータセットK-EmoCon

K-EmoCon, a multimodal sensor dataset for continuous emotion recognition in naturalistic conversations ( http://arxiv.org/abs/2005.04120v2 )

ライセンス: Link先を確認
Cheul Young Park, Narae Cha, Soowon Kang, Auk Kim, Ahsan Habib Khandoker, Leontios Hadjileontiadis, Alice Oh, Yong Jeong, Uichin Lee(参考訳) 社会的相互作用における感情の認識は、低コストな移動センサの普及に多くの潜在的応用があるが、自然主義的な感情的相互作用データが欠如していることが課題である。 既存の感情データセットのほとんどは、制約された環境で収集された野生で発生する慣用的な感情の研究をサポートしない。 したがって、社会的相互作用の文脈で感情を研究するには、新しいデータセットが必要であり、K-EmoConは自然主義的会話における継続的な感情の包括的なアノテーションを備えたマルチモーダルデータセットである。 このデータセットには、オーディオヴィジュアル記録、脳波、周辺生理学的信号を含むマルチモーダルな測定が含まれており、約10分間の長い議論の16セッションから、市販のデバイスで取得された。 これまでのデータセットとは違って、セルフ、ディベートパートナー、外部オブザーバーの3つの視点から感情アノテーションを含んでいる。 ラッカーは5秒ごとに感情の表示を注釈付けし、議論の映像を観ながら、覚醒的価値と18の追加のカテゴリー的感情を表現した。 結果として得られたK-EmoConは、社会的相互作用中の感情の多面的評価を調節する、初めて公開された感情データセットである。

Recognizing emotions during social interactions has many potential applications with the popularization of low-cost mobile sensors, but a challenge remains with the lack of naturalistic affective interaction data. Most existing emotion datasets do not support studying idiosyncratic emotions arising in the wild as they were collected in constrained environments. Therefore, studying emotions in the context of social interactions requires a novel dataset, and K-EmoCon is such a multimodal dataset with comprehensive annotations of continuous emotions during naturalistic conversations. The dataset contains multimodal measurements, including audiovisual recordings, EEG, and peripheral physiological signals, acquired with off-the-shelf devices from 16 sessions of approximately 10-minute long paired debates on a social issue. Distinct from previous datasets, it includes emotion annotations from all three available perspectives: self, debate partner, and external observers. Raters annotated emotional displays at intervals of every 5 seconds while viewing the debate footage, in terms of arousal-valence and 18 additional categorical emotions. The resulting K-EmoCon is the first publicly available emotion dataset accommodating the multiperspective assessment of emotions during social interactions.
翻訳日:2022-12-05 13:02:13 公開日:2020-05-19
# エンドツーエンドインスタンス分割のための強化色付け

Reinforced Coloring for End-to-End Instance Segmentation ( http://arxiv.org/abs/2005.07058v2 )

ライセンス: Link先を確認
Tuan Tran Anh, Khoa Nguyen-Tuan, Tran Minh Quan, and Won-Ki Jeong(参考訳) インスタンスセグメンテーション(インスタンスセグメンテーション)は、コンピュータビジョンにおいて、多くの関心対象を個別に分離する研究トピックの1つである。 多くのフィードフォワードネットワークは、異なるタイプの画像に対して高品質なセグメンテーションを生成するが、その結果は多くのオブジェクトのセグメンテーションのトポロジ的エラー(マージまたは分割)に悩まされ、後処理を必要とする。 一方、既存の反復的手法は、後処理に頼らずに、識別的知識に基づく特性(サンプル、境界など)を用いて、一度に1つのオブジェクトを抽出するが、うまくスケールしない。 拡張性を損なうことなく,従来の単一対象毎ステップ分割手法の利点を生かして,複数のオブジェクトを並列に区別する方法を学習する,反復的深層強化学習エージェントを提案する。 トレーニング可能なエージェントに対する報酬関数は、グラフカラー化アルゴリズムを用いて、同じオブジェクトに属するピクセルをグループ化することを好む。 提案手法は,処理後重くすることなく,多数のオブジェクトのインスタンスセグメンテーションを効率的に実行できることを実証する。

Instance segmentation is one of the actively studied research topics in computer vision in which many objects of interest should be separated individually. While many feed-forward networks produce high-quality segmentation on different types of images, their results often suffer from topological errors (merging or splitting) for segmentation of many objects, requiring post-processing. Existing iterative methods, on the other hand, extract a single object at a time using discriminative knowledge-based properties (shapes, boundaries, etc.) without relying on post-processing, but they do not scale well. To exploit the advantages of conventional single-object-per-step segmentation methods without impairing the scalability, we propose a novel iterative deep reinforcement learning agent that learns how to differentiate multiple objects in parallel. Our reward function for the trainable agent is designed to favor grouping pixels belonging to the same object using a graph coloring algorithm. We demonstrate that the proposed method can efficiently perform instance segmentation of many objects without heavy post-processing.
翻訳日:2022-12-03 04:56:56 公開日:2020-05-19
# 時間-周波数整合性を考慮した教師なしクロスドメイン音声-音声変換

Unsupervised Cross-Domain Speech-to-Speech Conversion with Time-Frequency Consistency ( http://arxiv.org/abs/2005.07810v2 )

ライセンス: Link先を確認
Mohammad Asif Khan, Fabien Cardinaux, Stefan Uhlich, Marc Ferras, Asja Fischer(参考訳) 近年,GANをベースとしたモデルが,教師なし音声から音声への変換に成功しており,音量スペクトルのコンパクトな高調波ビューは,これらのモデルを音声データで訓練するのに適していると考えられる。 音声信号をまず再構成するために、ニューラルネットワークにより等級スペクトログラムを生成し、その後、グリフィン・リムアルゴリズムなどの手法で位相スペクトログラムを再構成する。 この手順は、生成した等級スペクトログラムが一貫しない可能性があり、全スペクトルが自然な音声波形を持つような位相を見つけるために必要となる。 本研究では,逆行訓練におけるスペクトル整合性を促す条件を提案することで,この問題に対処する。 我々は,男性話者の音声を女性話者の音声に翻訳する作業に対するアプローチを実証し,その逆も示す。 Librispeech corpus を用いた実験結果から,TF の整合性で訓練したモデルにより,音声から音声への変換の精度が向上することが示された。

In recent years generative adversarial network (GAN) based models have been successfully applied for unsupervised speech-to-speech conversion.The rich compact harmonic view of the magnitude spectrogram is considered a suitable choice for training these models with audio data. To reconstruct the speech signal first a magnitude spectrogram is generated by the neural network, which is then utilized by methods like the Griffin-Lim algorithm to reconstruct a phase spectrogram. This procedure bears the problem that the generated magnitude spectrogram may not be consistent, which is required for finding a phase such that the full spectrogram has a natural-sounding speech waveform. In this work, we approach this problem by proposing a condition encouraging spectrogram consistency during the adversarial training procedure. We demonstrate our approach on the task of translating the voice of a male speaker to that of a female speaker, and vice versa. Our experimental results on the Librispeech corpus show that the model trained with the TF consistency provides a perceptually better quality of speech-to-speech conversion.
翻訳日:2022-12-02 23:52:40 公開日:2020-05-19
# 音声による睡眠予測のための自動エンコーダの意図とシーケンスの新たな融合

A Novel Fusion of Attention and Sequence to Sequence Autoencoders to Predict Sleepiness From Speech ( http://arxiv.org/abs/2005.08722v2 )

ライセンス: Link先を確認
Shahin Amiriparian, Pawel Winokurow, Vincent Karas, Sandra Ottl, Maurice Gerczuk, Bj\"orn W. Schuller(参考訳) 人間の視覚系の注意機構と機械翻訳の分野での最近の発展に触発され、音声ファイルから完全に教師なしの表現学習のためのシーケンスオートエンコーダに注意ベースおよび繰り返しシーケンスを導入する。 特に,音声に基づく眠気認識の課題に対する新しいアプローチの有効性を検証した。 両オートエンコーダからの学習表現を評価し,それらの相補性を確認するために早期融合を行う。 本フレームワークでは,まず,生音声ファイルからメルスペクトルを抽出する。 第2に、時間依存周波数ベクトルと見なされるこれらのスペクトログラム上で再帰オートエンコーダを訓練する。 その後、対応するオーディオインスタンスに対するスペクトログラムの学習的特徴を表すオートエンコーダの特定の完全連結層のアクティベーションを抽出する。 最後に,これらの表現に対してサポートベクトルレグレッシャを訓練し,予測を行う。 データの開発分割では,注意力と非注意自動エンコーダを用いて,カロリンスカ覚醒尺度の目標値である.324,.283,.320のスピアマン相関係数をそれぞれ達成し,両オートエンコーダの表現を融合させる。 同じ順序で、我々は試験データ上の.311, .359, .367の相関係数を達成し、提案した融合戦略の適合性を示した。

Motivated by the attention mechanism of the human visual system and recent developments in the field of machine translation, we introduce our attention-based and recurrent sequence to sequence autoencoders for fully unsupervised representation learning from audio files. In particular, we test the efficacy of our novel approach on the task of speech-based sleepiness recognition. We evaluate the learnt representations from both autoencoders, and then conduct an early fusion to ascertain possible complementarity between them. In our frameworks, we first extract Mel-spectrograms from raw audio files. Second, we train recurrent autoencoders on these spectrograms which are considered as time-dependent frequency vectors. Afterwards, we extract the activations of specific fully connected layers of the autoencoders which represent the learnt features of spectrograms for the corresponding audio instances. Finally, we train support vector regressors on these representations to obtain the predictions. On the development partition of the data, we achieve Spearman's correlation coefficients of .324, .283, and .320 with the targets on the Karolinska Sleepiness Scale by utilising attention and non-attention autoencoders, and the fusion of both autoencoders' representations, respectively. In the same order, we achieve .311, .359, and .367 Spearman's correlation coefficients on the test data, indicating the suitability of our proposed fusion strategy.
翻訳日:2022-12-02 22:51:58 公開日:2020-05-19
# テクニカルサービスチケットにおけるニューラルエンティティリンク

Neural Entity Linking on Technical Service Tickets ( http://arxiv.org/abs/2005.07604v2 )

ライセンス: Link先を確認
Nadja Kurz, Felix Hamann, Adrian Ulges(参考訳) テキストによる言及を既知のエンティティにマッピングする作業であるエンティティリンクは、最近コンテキスト化されたニューラルネットワークを使用して取り組まれている。 我々は、これらの結果 -- wikipediaのような大規模で高品質なデータセットで報告されている -- が、ラベルが不足し、テキストが低品質で、用語がドメイン特化している実用的なビジネスユースケースに転送されるかどうかに疑問を呈する。 自然言語処理における一般的なトランスフォーマーネットワークであるbertに基づくエンティティリンクモデルを用いて,約20%のtop-1精度を向上し,手書きヒューリスティックスよりもニューラルネットワークが優れ,補完することを示す。 また,大きなコーパス上での転送学習の利点が実証されているが,微調整は困難である。 最後に、異なるBERTベースのアーキテクチャを比較し、単純な文単位の符号化(Bi-Encoder)が高速かつ効率的な検索を実現することを示す。

Entity linking, the task of mapping textual mentions to known entities, has recently been tackled using contextualized neural networks. We address the question whether these results -- reported for large, high-quality datasets such as Wikipedia -- transfer to practical business use cases, where labels are scarce, text is low-quality, and terminology is highly domain-specific. Using an entity linking model based on BERT, a popular transformer network in natural language processing, we show that a neural approach outperforms and complements hand-coded heuristics, with improvements of about 20% top-1 accuracy. Also, the benefits of transfer learning on a large corpus are demonstrated, while fine-tuning proves difficult. Finally, we compare different BERT-based architectures and show that a simple sentence-wise encoding (Bi-Encoder) offers a fast yet efficient search in practice.
翻訳日:2022-12-02 22:24:16 公開日:2020-05-19
# 光コヒーレンストモグラフィ画像からの網膜変性検出のための共同注意ネットワークを用いたロバスト性の改善

Improving Robustness using Joint Attention Network For Detecting Retinal Degeneration From Optical Coherence Tomography Images ( http://arxiv.org/abs/2005.08094v2 )

ライセンス: Link先を確認
Sharif Amit Kamran, Alireza Tavakkoli, Stewart Lee Zuckerbrod(参考訳) 異なる眼疾患による眼の外観のノイズデータと類似性は、網膜疾患を正確に検出する自動化専門家システムにとって重要な課題である。 さらに、知識転送能力の欠如と不当に大規模なデータセットの必要性は、現在の機械学習システムの臨床応用を制限する。 堅牢性を高めるために、網膜のサブスペースの変形が病気の重症度にどのように影響するかをよりよく理解し、疾患特異的モデルの詳細を優先順位付けする必要がある。 本稿では, 病原性特徴表現を2つの共同ネットワークからなる新しいアーキテクチャとして, 病原性特徴表現を用いて, 病原性空間情報を保持するために, 病原性特徴表現を教師なしで生成する手法を提案する。 提案する共同ネットワークは,未発見のデータセット上で,最先端の網膜疾患分類ネットワークの精度とロバスト性を大幅に向上させる。

Noisy data and the similarity in the ocular appearances caused by different ophthalmic pathologies pose significant challenges for an automated expert system to accurately detect retinal diseases. In addition, the lack of knowledge transferability and the need for unreasonably large datasets limit clinical application of current machine learning systems. To increase robustness, a better understanding of how the retinal subspace deformations lead to various levels of disease severity needs to be utilized for prioritizing disease-specific model details. In this paper we propose the use of disease-specific feature representation as a novel architecture comprised of two joint networks -- one for supervised encoding of disease model and the other for producing attention maps in an unsupervised manner to retain disease specific spatial information. Our experimental results on publicly available datasets show the proposed joint-network significantly improves the accuracy and robustness of state-of-the-art retinal disease classification networks on unseen datasets.
翻訳日:2022-12-02 14:01:53 公開日:2020-05-19
# 長文機械読解における繰り返しチャンキング機構

Recurrent Chunking Mechanisms for Long-Text Machine Reading Comprehension ( http://arxiv.org/abs/2005.08056v2 )

ライセンス: Link先を確認
Hongyu Gong, Yelong Shen, Dian Yu, Jianshu Chen, Dong Yu(参考訳) 本稿では,長文の機械読解(MRC)について検討する。そこでは,長文と質問の入力としてモデルを取り上げ,回答として文書からテキストを抽出する。 最先端モデルは、文書と質問の共用コンテキスト情報をエンコードするために、事前訓練されたトランスフォーマーモデル(例えばBERT)を使用する傾向がある。 しかし、これらのトランスフォーマーベースのモデルは、入力として固定長(例えば512)テキストだけを取ることができる。 さらに長いテキスト入力を扱うために、従来のアプローチは通常、それらを等間隔のセグメントに分類し、他のセグメントからの情報を考慮せずに各セグメントに基づいて回答を予測する。 その結果、正しい回答範囲をカバーできないセグメントを形成するか、周囲のコンテキストが不十分でパフォーマンスが著しく低下する可能性がある。 さらに、クロスセグメント情報を必要とする質問に答える能力も低い。 私たちは、強化学習を通じてモデルがより柔軟な方法でチャンクすることを学べるようにすることを提案します。 また、セグメントをまたいで情報を流すための繰り返しメカニズムも採用しています。 3つのMCCデータセット(CoQA、QuAC、TriviaQA)の実験では、提案した繰り返しチャンキングメカニズムの有効性が実証されている。

In this paper, we study machine reading comprehension (MRC) on long texts, where a model takes as inputs a lengthy document and a question and then extracts a text span from the document as an answer. State-of-the-art models tend to use a pretrained transformer model (e.g., BERT) to encode the joint contextual information of document and question. However, these transformer-based models can only take a fixed-length (e.g., 512) text as its input. To deal with even longer text inputs, previous approaches usually chunk them into equally-spaced segments and predict answers based on each segment independently without considering the information from other segments. As a result, they may form segments that fail to cover the correct answer span or retain insufficient contexts around it, which significantly degrades the performance. Moreover, they are less capable of answering questions that need cross-segment information. We propose to let a model learn to chunk in a more flexible way via reinforcement learning: a model can decide the next segment that it wants to process in either direction. We also employ recurrent mechanisms to enable information to flow across segments. Experiments on three MRC datasets -- CoQA, QuAC, and TriviaQA -- demonstrate the effectiveness of our proposed recurrent chunking mechanisms: we can obtain segments that are more likely to contain complete answers and at the same time provide sufficient contexts around the ground truth answers for better predictions.
翻訳日:2022-12-02 12:49:11 公開日:2020-05-19
# building brook: 人車間インタラクション研究のためのマルチモーダルおよび顔ビデオデータベース

Building BROOK: A Multi-modal and Facial Video Database for Human-Vehicle Interaction Research ( http://arxiv.org/abs/2005.08637v2 )

ライセンス: Link先を確認
Xiangjun Peng, Zhentao Huang, Xu Sun(参考訳) 自動運転車の普及に伴い、人間と車両の相互作用の文脈で多くの機会が生まれている。 しかしながら、このような特定のユースケースに対する包括的かつ具体的なデータベースサポートの欠如は、設計スペース全体における関連する研究を制限する。 本稿では,運転者の情動状態や運転スタイルを特徴付けるために,顔ビデオ記録を備えた公共マルチモーダルデータベースであるBROOKを提案する。 私たちはまず、そのようなデータベースを詳細にオーバーエンジニアリングし、そして10ヶ月の研究で得られたものを説明します。 次に,顔面ビデオを通してマルチモーダル予測(心拍数と皮膚コンダクタンスの生理データ,速度の運転状況データを含む)をサポートするbrookを活用したニューラルネットワークベースの予測器について紹介する。 最後に,このようなデータベースを構築する際の問題点とBROOKの文脈における今後の方向性について議論する。 我々は、BROOKが将来の人間-車両インタラクション研究にとって不可欠なビルディングブロックであると信じている。

With the growing popularity of Autonomous Vehicles, more opportunities have bloomed in the context of Human-Vehicle Interactions. However, the lack of comprehensive and concrete database support for such specific use case limits relevant studies in the whole design spaces. In this paper, we present our work-in-progress BROOK, a public multi-modal database with facial video records, which could be used to characterize drivers' affective states and driving styles. We first explain how we over-engineer such database in details, and what we have gained through a ten-month study. Then we showcase a Neural Network-based predictor, leveraging BROOK, which supports multi-modal prediction (including physiological data of heart rate and skin conductance and driving status data of speed)through facial videos. Finally, we discuss related issues when building such a database and our future directions in the context of BROOK. We believe BROOK is an essential building block for future Human-Vehicle Interaction Research.
翻訳日:2022-12-02 00:26:27 公開日:2020-05-19
# MMFashion:ビジュアルファッション分析のためのオープンソースのツールボックス

MMFashion: An Open-Source Toolbox for Visual Fashion Analysis ( http://arxiv.org/abs/2005.08847v2 )

ライセンス: Link先を確認
Xin Liu, Jiancheng Li, Jiaqi Wang, Ziwei Liu(参考訳) PyTorchをベースとした,包括的でフレキシブルでユーザフレンドリなオープンソースビジュアルファッション分析ツールボックスMMFashionを提案する。 このツールボックスは、ファッション属性の予測、ファッション認識と検索、ファッションランドマークの検出、ファッション解析とセグメンテーション、ファッション互換性とレコメンデーションを含む、幅広いファッション分析タスクをサポートする。 ファッション分析コミュニティのほぼすべての主要なタスクをカバーしている。 MMFashionにはいくつかの魅力的な特性がある。 まず、MMFashionはモジュラー設計の原則に従う。 フレームワークは異なるコンポーネントに分解され、多様なカスタマイズされたモジュールを簡単に拡張できる。 さらに、詳細なドキュメンテーション、デモスクリプト、オフザシェルフモデルも利用可能で、ディープラーニングベースのファッション分析の最近の進歩を活用するために、レイマンユーザの負担が軽減される。 提案するMMFashionは現在、ディープラーニング時代の視覚的ファッション分析のための最も完全なプラットフォームであり、さらに機能が追加されるべきである。 このツールボックスとベンチマークは、既存のモデルをデプロイし、新しいアイデアやアプローチを開発するための柔軟なツールキットを提供することで、繁栄する研究コミュニティに役立ちます。 オープンサイエンスへのこの成長を続ける取り組みへのすべての貢献を歓迎する。

We present MMFashion, a comprehensive, flexible and user-friendly open-source visual fashion analysis toolbox based on PyTorch. This toolbox supports a wide spectrum of fashion analysis tasks, including Fashion Attribute Prediction, Fashion Recognition and Retrieval, Fashion Landmark Detection, Fashion Parsing and Segmentation and Fashion Compatibility and Recommendation. It covers almost all the mainstream tasks in fashion analysis community. MMFashion has several appealing properties. Firstly, MMFashion follows the principle of modular design. The framework is decomposed into different components so that it is easily extensible for diverse customized modules. In addition, detailed documentations, demo scripts and off-the-shelf models are available, which ease the burden of layman users to leverage the recent advances in deep learning-based fashion analysis. Our proposed MMFashion is currently the most complete platform for visual fashion analysis in deep learning era, with more functionalities to be added. This toolbox and the benchmark could serve the flourishing research community by providing a flexible toolkit to deploy existing models and develop new ideas and approaches. We welcome all contributions to this still-growing efforts towards open science: https://github.com/open-mmlab/mmfashion.
翻訳日:2022-12-01 23:58:23 公開日:2020-05-19
# 多チャンネル距離音声認識のための四元ニューラルネットワーク

Quaternion Neural Networks for Multi-channel Distant Speech Recognition ( http://arxiv.org/abs/2005.08566v2 )

ライセンス: Link先を確認
Xinchi Qiu, Titouan Parcollet, Mirco Ravanelli, Nicholas Lane, Mohamed Morchid(参考訳) 音声認識(ASR)の進歩にもかかわらず、雑音や残響により遠方のASRは困難である。 この問題を軽減する一般的なアプローチは、録音装置に複数のマイクを装着し、異なる視点から音響シーンをキャプチャすることである。 これらのマルチチャネルオーディオ記録は、各信号間の特定の内部関係を含む。 本稿では,これらの構造的依存関係を四元系ニューラルネットワークで捉え,複数の信号を四元系全体として共同処理する手法を提案する。 四元数代数は標準ドット積をハミルトン積に置き換え、要素間の依存関係をシンプルでエレガントにモデル化する方法を提供する。 四元層はリカレントニューラルネットワークと結合され、時間領域における長期的な依存関係を学習する。 連続した多チャンネル音声信号に基づいて訓練された四元長短長期記憶ニューラルネットワーク(QLSTM)が、多チャンネル遠隔音声認識の2つのタスクにおいて等価実数値LSTMより優れていることを示す。

Despite the significant progress in automatic speech recognition (ASR), distant ASR remains challenging due to noise and reverberation. A common approach to mitigate this issue consists of equipping the recording devices with multiple microphones that capture the acoustic scene from different perspectives. These multi-channel audio recordings contain specific internal relations between each signal. In this paper, we propose to capture these inter- and intra- structural dependencies with quaternion neural networks, which can jointly process multiple signals as whole quaternion entities. The quaternion algebra replaces the standard dot product with the Hamilton one, thus offering a simple and elegant way to model dependencies between elements. The quaternion layers are then coupled with a recurrent neural network, which can learn long-term dependencies in the time domain. We show that a quaternion long-short term memory neural network (QLSTM), trained on the concatenated multi-channel speech signals, outperforms equivalent real-valued LSTM on two different tasks of multi-channel distant speech recognition.
翻訳日:2022-12-01 23:13:26 公開日:2020-05-19
# 伝達学習のための情報理論解析

Information-theoretic analysis for transfer learning ( http://arxiv.org/abs/2005.08697v2 )

ライセンス: Link先を確認
Xuetong Wu, Jonathan H. Manton, Uwe Aickelin, Jingge Zhu(参考訳) トランスファーラーニング(英: Transfer learning)またはドメイン適応(ドメイン適応)は、トレーニングデータとテストデータがおそらく異なる分布(それぞれ$\mu$と$\mu'$と表記される)から来る機械学習の問題である。 本研究では,RussoとZhouによって始められた一連の研究に続き,一般化誤差と伝達学習アルゴリズムの過大なリスクに関する情報理論解析を行う。 以上の結果から,kullback-leibler (kl) divergence $d(mu||mu')$がドメイン適応設定における一般化誤差を特徴づける上で重要な役割を果たすことが示唆された。 具体的には、一般伝達学習アルゴリズムの一般化誤差上限を提供し、その結果をトレーニングフェーズで両分布のデータが利用できる特定の経験的リスク最小化(erm)アルゴリズムに拡張する。 さらに,本手法を反復的,ノイズの多い勾配降下アルゴリズムに適用し,学習アルゴリズムからのパラメータのみを用いて容易に計算できる上限を求める。 結果の有用性を示すいくつかの例が提供されている。 特に、我々の境界はラデマッハ複雑性を用いた境界よりも特定の分類問題においてより厳密である。

Transfer learning, or domain adaptation, is concerned with machine learning problems in which training and testing data come from possibly different distributions (denoted as $\mu$ and $\mu'$, respectively). In this work, we give an information-theoretic analysis on the generalization error and the excess risk of transfer learning algorithms, following a line of work initiated by Russo and Zhou. Our results suggest, perhaps as expected, that the Kullback-Leibler (KL) divergence $D(mu||mu')$ plays an important role in characterizing the generalization error in the settings of domain adaptation. Specifically, we provide generalization error upper bounds for general transfer learning algorithms and extend the results to a specific empirical risk minimization (ERM) algorithm where data from both distributions are available in the training phase. We further apply the method to iterative, noisy gradient descent algorithms, and obtain upper bounds which can be easily calculated, only using parameters from the learning algorithms. A few illustrative examples are provided to demonstrate the usefulness of the results. In particular, our bound is tighter in specific classification problems than the bound derived using Rademacher complexity.
翻訳日:2022-12-01 23:05:16 公開日:2020-05-19
# RF-DNAフィンガープリントとSVMを用いた無線ID検証ベースのIoTセキュリティ

Pre-print: Radio Identity Verification-based IoT Security Using RF-DNA Fingerprints and SVM ( http://arxiv.org/abs/2005.09503v1 )

ライセンス: Link先を確認
Donald Reising, Joseph Cancelleri, T. Daniel Loveless, Farah Kandah, and Anthony Skjellum(参考訳) IoTデバイスの数は、今後5年間で75億に達すると見積もられている。 現在、デプロイされているほとんどのデバイスは、デジタル認証アプローチを回避するために認証されたデバイスとして仮装する悪意のあるiotデバイスによる攻撃から自己とネットワークを保護するための十分なセキュリティを欠いている。 本稿では,rf-dna(radio frequency-distinct native attribute)指紋とサポートベクターマシン(svm)を用いた,この重要なセキュリティニーズに対応するためのphy layer iot認証手法を提案する。 この研究は100%成功しています (i)信号対雑音比が6dB以上で、ランダムに選択された6つの無線の3つの試験における認証ID検証 (II)Relief-Fアルゴリズムを用いて特徴を抽出したRF-DNA指紋を用いて、信号対雑音比が3dB以上である全てのローグ無線IDスプーフィング攻撃を拒絶する。

It is estimated that the number of IoT devices will reach 75 billion in the next five years. Most of those currently, and to be deployed, lack sufficient security to protect themselves and their networks from attack by malicious IoT devices that masquerade as authorized devices to circumvent digital authentication approaches. This work presents a PHY layer IoT authentication approach capable of addressing this critical security need through the use of feature reduced Radio Frequency-Distinct Native Attributes (RF-DNA) fingerprints and Support Vector Machines (SVM). This work successfully demonstrates 100%: (i) authorized ID verification across three trials of six randomly chosen radios at signal-to-noise ratios greater than or equal to 6 dB, and (ii) rejection of all rogue radio ID spoofing attacks at signal-to-noise ratios greater than or equal to 3 dB using RF-DNA fingerprints whose features are selected using the Relief-F algorithm.
翻訳日:2022-12-01 15:02:50 公開日:2020-05-19
# mwer損失基準のカスタマイズによるエンドツーエンドasrの固有名詞認識の改善

Improving Proper Noun Recognition in End-to-End ASR By Customization of the MWER Loss Criterion ( http://arxiv.org/abs/2005.09756v1 )

ライセンス: Link先を確認
Cal Peyser, Tara N. Sainath, Golan Pundak(参考訳) 固有名詞は、訓練中にのみ特定の名前が現れることが稀であり、より一般的な単語と同様の発音を持つという、エンドツーエンド(E2E)自動音声認識(ASR)システムへの挑戦を示す。 従来のASRとは異なり、E2Eシステムには、適切な名詞の発音で特別に訓練できる明示的な発音モデルと、大きなテキストのみのコーパスで訓練できる言語モデルがない。 過去の研究は、追加のトレーニングデータや追加モデルを組み込むことでこの問題に対処してきた。 そこで,本稿では,最小単語誤り率(MWER)トレーニングの最近の進歩に基づいて,固有名詞認識を特に重視する2つの新たな損失基準を開発する。 この問題に関する過去の研究とは異なり、この方法はトレーニング中や推論中の外部モデルに新しいデータを必要としない。 関連するベンチマークでは、2%から7%まで改善されています。

Proper nouns present a challenge for end-to-end (E2E) automatic speech recognition (ASR) systems in that a particular name may appear only rarely during training, and may have a pronunciation similar to that of a more common word. Unlike conventional ASR models, E2E systems lack an explicit pronounciation model that can be specifically trained with proper noun pronounciations and a language model that can be trained on a large text-only corpus. Past work has addressed this issue by incorporating additional training data or additional models. In this paper, we instead build on recent advances in minimum word error rate (MWER) training to develop two new loss criteria that specifically emphasize proper noun recognition. Unlike past work on this problem, this method requires no new data during training or external models during inference. We see improvements ranging from 2% to 7% relative on several relevant benchmarks.
翻訳日:2022-12-01 15:02:16 公開日:2020-05-19
# 新型コロナウイルス接触追跡 : bluetooth受信信号強度を用いた近接検出の可能性評価

Coronavirus Contact Tracing: Evaluating The Potential Of Using Bluetooth Received Signal Strength For Proximity Detection ( http://arxiv.org/abs/2006.06822v1 )

ライセンス: Link先を確認
Douglas J. Leith and Stephen Farrell(参考訳) 本報告では,Bluetooth Low Energy (LE) の受信信号強度を携帯端末上で測定する。 注意すべき課題は、人々が互いに近接しているときに、基礎的な真理を得ることである。 この基礎的真実の知識は、Bluetooth LEによって接触イベントが検出される精度を正確に評価するために重要である。 シナリオベースのアプローチを採用することで、この問題にアプローチします。 まとめると、Bluetooth LE受信信号強度は、ハンドセットの相対的な向き、人体による吸収、建物や電車における電波信号の反射・吸収などによって大きく変化する。 実際、受信した信号強度は距離の増大とともに減少する必要はない。 このことから,Bluetooth LE受信信号強度に基づく近接検出手法の開発が困難である可能性が示唆された。 また,Bluetooth LEコンタクトトレーシングアプリの利用と新たなソーシャルプロトコルの採用を併用することで,メリットがもたらされることが示唆された。 例えば、会議中に電話をテーブルに置くと、受信した信号強度を使って近接検出が簡単になる。 同様に、携帯でハンドバッグを外面の近くに運んでいる。 信号伝搬の複雑さが受信した信号強度を用いた近接検出を行う場所では、例えば、時間変化QRコード等をスキャンすることで、その位置からの入出力をアプリに記録する。

We report on measurements of Bluetooth Low Energy (LE) received signal strength taken on mobile handsets in a variety of common, real-world settings. We note that a key difficulty is obtaining the ground truth as to when people are in close proximity to one another. Knowledge of this ground truth is important for accurately evaluating the accuracy with which contact events are detected by Bluetooth LE. We approach this by adopting a scenario-based approach. In summary, we find that the Bluetooth LE received signal strength can vary substantially depending on the relative orientation of handsets, on absorption by the human body, reflection/absorption of radio signals in buildings and trains. Indeed we observe that the received signal strength need not decrease with increasing distance. This suggests that the development of accurate methods for proximity detection based on Bluetooth LE received signal strength is likely to be challenging. Our measurements also suggest that combining use of Bluetooth LE contact tracing apps with adoption of new social protocols may yield benefits but this requires further investigation. For example, placing phones on the table during meetings is likely to simplify proximity detection using received signal strength. Similarly, carrying handbags with phones placed close to the outside surface. In locations where the complexity of signal propagation makes proximity detection using received signal strength problematic entry/exit from the location might instead be logged in an app by e.g. scanning a time-varying QR code or the like.
翻訳日:2022-12-01 15:02:00 公開日:2020-05-19
# ニューラルデコーディングのためのディープラーニングアプローチ:CNNからLSTMへ、スパイクからfMRIへ

Deep learning approaches for neural decoding: from CNNs to LSTMs and spikes to fMRI ( http://arxiv.org/abs/2005.09687v1 )

ライセンス: Link先を確認
Jesse A. Livezey and Joshua I. Glaser(参考訳) 神経信号から直接の行動、知覚、認知状態の復号は、脳とコンピュータのインターフェイス研究やシステム神経科学への応用がある。 過去10年間で、ディープラーニングは、音声認識から画像分割まで、多くの機械学習タスクにおいて最先端の方法になっている。 他の領域におけるディープ・ネットワークの成功は神経科学の新しい応用の波につながった。 本稿では,ニューラルデコードに対するディープラーニングアプローチについて概説する。 本稿では,スパイクから脳波まで,神経記録から有用な特徴を抽出するアーキテクチャについて述べる。 さらに,音声や画像などの複雑な復号化対象に対して,事前学習された深層ネットワークを前処理として組み込む方法に着目し,動き,音声,視覚などの共通出力予測にディープラーニングがいかに活用されているかを検討した。 ディープラーニングは、幅広いタスクにわたる神経デコーディングの正確性と柔軟性を向上させる上で有用なツールであることが示されている。

Decoding behavior, perception, or cognitive state directly from neural signals has applications in brain-computer interface research as well as implications for systems neuroscience. In the last decade, deep learning has become the state-of-the-art method in many machine learning tasks ranging from speech recognition to image segmentation. The success of deep networks in other domains has led to a new wave of applications in neuroscience. In this article, we review deep learning approaches to neural decoding. We describe the architectures used for extracting useful features from neural recording modalities ranging from spikes to EEG. Furthermore, we explore how deep learning has been leveraged to predict common outputs including movement, speech, and vision, with a focus on how pretrained deep networks can be incorporated as priors for complex decoding targets like acoustic speech or images. Deep learning has been shown to be a useful tool for improving the accuracy and flexibility of neural decoding across a wide range of tasks, and we point out areas for future scientific development.
翻訳日:2022-12-01 14:53:37 公開日:2020-05-19
# 急速に発展するパンデミックにおける人工知能モデルの展開の課題

The challenges of deploying artificial intelligence models in a rapidly evolving pandemic ( http://arxiv.org/abs/2005.12137v1 )

ライセンス: Link先を確認
Yipeng Hu, Joseph Jacob, Geoffrey JM Parker, David J Hawkes, John R Hurst, Danail Stoyanov(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは、ビッグデータ、計算力、ニューラルネットワークに基づく人工知能(AI)によって急速に変化している世界へと発展した。 近年、これらのネットワークの注目は医療分野の応用にますます向けられている。 健康と経済の破壊を広める世界的な病気であるcovid-19が、学界や産業における世界のコンピュータ科学者の関心と資源を捉えることは、おそらく避けられないことだった。 パンデミックへの対応を支援するAIの可能性は、病気の予測、監視、抗ウイルス薬の発見など、幅広い臨床および社会的な課題で提案されている。 パンデミックの影響が世界の人々、産業、経済に広がる中、これは今後も続く可能性が高いが、現在のパンデミックに対する驚くべき観察は、aiが新型コロナウイルス(covid-19)の管理にこれまでに与えた影響が限られていることだ。 この対応は、最前線の医療サービスにおいて、新型コロナウイルスの診断と予後のために開発されたAIモデルの採用が成功しなかったことの潜在的な理由を探究することに焦点を当てている。 我々は、流行の異なる段階でモデルが対処しなければならない移動型臨床ニーズを強調し、地域医療環境を反映した翻訳モデルの重要性を説明する。 我々は、AIモデルの可能性を加速するために、基礎研究と応用研究の両方が不可欠であると主張する。 新型コロナウイルスへの対応に関するこの視点は、世界の科学界が将来の感染症の流行にどう対処すべきかを垣間見ることができるかもしれない。

The COVID-19 pandemic, caused by the severe acute respiratory syndrome coronavirus 2, emerged into a world being rapidly transformed by artificial intelligence (AI) based on big data, computational power and neural networks. The gaze of these networks has in recent years turned increasingly towards applications in healthcare. It was perhaps inevitable that COVID-19, a global disease propagating health and economic devastation, should capture the attention and resources of the world's computer scientists in academia and industry. The potential for AI to support the response to the pandemic has been proposed across a wide range of clinical and societal challenges, including disease forecasting, surveillance and antiviral drug discovery. This is likely to continue as the impact of the pandemic unfolds on the world's people, industries and economy but a surprising observation on the current pandemic has been the limited impact AI has had to date in the management of COVID-19. This correspondence focuses on exploring potential reasons behind the lack of successful adoption of AI models developed for COVID-19 diagnosis and prognosis, in front-line healthcare services. We highlight the moving clinical needs that models have had to address at different stages of the epidemic, and explain the importance of translating models to reflect local healthcare environments. We argue that both basic and applied research are essential to accelerate the potential of AI models, and this is particularly so during a rapidly evolving pandemic. This perspective on the response to COVID-19, may provide a glimpse into how the global scientific community should react to combat future disease outbreaks more effectively.
翻訳日:2022-12-01 14:53:19 公開日:2020-05-19
# 3次元拡張現実支援ctガイド介入:hololens 2を用いた腹部ファントムのシステム設計と臨床実験

3D Augmented Reality-Assisted CT-Guided Interventions: System Design and Preclinical Trial on an Abdominal Phantom using HoloLens 2 ( http://arxiv.org/abs/2005.09146v1 )

ライセンス: Link先を確認
Brian J. Park, Stephen J. Hunt, Gregory J. Nadolski, Terence P. Gade(参考訳) 背景: 平面外病変はCTガイド下手術の課題となる。 Augmented Reality(AR)ヘッドセットデバイスは進化し、CT誘導ターゲティングを改善するために仮想3Dガイダンスを提供することができる。 目的:hololens 2を用いた3次元3次元arナビゲーションシステムの設計と,ctガイドシミュレーションによる性能評価を行う。 対象と方法: 腹部ファントムを対象とし, AR誘導の有無を問わないCTガイド針を用いた前向き試験を行った。 臨床経験の異なる8名のオペレーターが登録され,合計86回の針通しを行った。 処置効率,放射線線量,合併症率をAR誘導の有無で比較した。 第1針パスのベクトル解析も行った。 結果: 目標に達する針の総パス数は, arを使わずに7.4パスから3.4パスに減少 (54.2%減少, p=0.011)。 平均線量長 (DLP) はARなしで538 mGy-cmから318 mGy-cm (41.0%減少, p=0.009) まで減少した。 非標的病変の合併症率は,ARのない11.9% (7/59針パス) からARで0% (0/27針パス) まで減少した。 最初の針通しは、arとarとの理想的な目標軌道とほぼ一致していた(それぞれ4.6{\deg}対8.0{\deg}オフセット、p=0.018)。 医学生、住民、出席者はいずれもARガイダンスで同じレベルで行われる。 結論: 3D ARガイダンスは、難治性の飛行機外病変を標的として、手続き効率と放射線線量削減の大幅な改善を提供する。 ARガイダンスは、以前の臨床経験に関係なく、すべてのオペレータのパフォーマンスを同じレベルに引き上げる。

Background: Out-of-plane lesions pose challenges for CT-guided interventions. Augmented reality (AR) headset devices have evolved and are readily capable to provide virtual 3D guidance to improve CT-guided targeting. Purpose: To describe the design of a three-dimensional (3D) AR-assisted navigation system using HoloLens 2 and evaluate its performance through CT-guided simulations. Materials and Methods: A prospective trial was performed assessing CT-guided needle targeting on an abdominal phantom with and without AR guidance. A total of 8 operators with varying clinical experience were enrolled and performed a total of 86 needle passes. Procedure efficiency, radiation dose, and complication rates were compared with and without AR guidance. Vector analysis of the first needle pass was also performed. Results: Average total number of needle passes to reach the target reduced from 7.4 passes without AR to 3.4 passes with AR (54.2% decrease, p=0.011). Average dose-length product (DLP) decreased from 538 mGy-cm without AR to 318 mGy-cm with AR (41.0% decrease, p=0.009). Complication rate of hitting a non-targeted lesion decreased from 11.9% without AR (7/59 needle passes) to 0% with AR (0/27 needle passes). First needle passes were more nearly aligned with the ideal target trajectory with AR versus without AR (4.6{\deg} vs 8.0{\deg} offset, respectively, p=0.018). Medical students, residents, and attendings all performed at the same level with AR guidance. Conclusions: 3D AR guidance can provide significant improvements in procedural efficiency and radiation dose savings for targeting challenging, out-of-plane lesions. AR guidance elevated the performance of all operators to the same level irrespective of prior clinical experience.
翻訳日:2022-12-01 14:52:52 公開日:2020-05-19
# 2次トータル一般化変分制約による逆問題

Inverse problems with second-order Total Generalized Variation constraints ( http://arxiv.org/abs/2005.09725v1 )

ライセンス: Link先を確認
Kristian Bredies and Tuomo Valkonen(参考訳) TGV(Total Generalized Variation)は、エッジとスムーズなバリエーションを持つ画像のモデリングのためのペナルティ関数として最近導入された。 これは、第1から第1の$k$-th分布微分への最適バランスの「まばらな」ペナル化と解釈でき、画像デノイング、すなわちTGVペナルティによる$L^2$-fittingに適用した場合に望ましい結果をもたらす。 本稿では,2次線形逆問題の解法におけるTGVについて検討する。 データに対するTikhonov-functional Minimizationの解の存在と安定性を示し、ぼやけたノイズのあるデータから画像を復元する問題に適用した。

Total Generalized Variation (TGV) has recently been introduced as penalty functional for modelling images with edges as well as smooth variations. It can be interpreted as a "sparse" penalization of optimal balancing from the first up to the $k$-th distributional derivative and leads to desirable results when applied to image denoising, i.e., $L^2$-fitting with TGV penalty. The present paper studies TGV of second order in the context of solving ill-posed linear inverse problems. Existence and stability for solutions of Tikhonov-functional minimization with respect to the data is shown and applied to the problem of recovering an image from blurred and noisy data.
翻訳日:2022-12-01 14:52:26 公開日:2020-05-19
# 時空人気ダイナミクスを用いたキャッシングの強化学習

Reinforcement Learning for Caching with Space-Time Popularity Dynamics ( http://arxiv.org/abs/2005.09155v1 )

ライセンス: Link先を確認
Alireza Sadeghi and Georgios B. Giannakis and Gang Wang and Fatemeh Sheikholeslami(参考訳) 有線および無線ネットワーク上のデータトラフィックの著しい増加とリッチメディアアプリケーションの増加により、キャッシングは次世代ネットワークにおいて重要な役割を果たすものと期待されている。 コンテンツをインテリジェントにプリフェッチし、保存するために、キャッシュノードは、キャッシュの何時を学習できる必要がある。 地理的および時間的コンテンツ人気のダイナミクスを考えると、キャッシュノードでのストレージの制限、ネットワークキャッシング設定におけるキャッシュ決定のインタラクティブなインセンシング、効果的なキャッシングポリシーの開発は事実上困難である。 これらの課題に対応するため、この章では、動的時空人気下での単一ノードおよびネットワークキャッシュ設定において、ほぼ最適なキャッシュポリシー設計のための多目的強化学習に基づくアプローチを提案する。 提示されたポリシーは、いくつかの標準キャッシングポリシーに対して提示されたアプローチのメリットを示す数値テストのセットを使用して補完される。

With the tremendous growth of data traffic over wired and wireless networks along with the increasing number of rich-media applications, caching is envisioned to play a critical role in next-generation networks. To intelligently prefetch and store contents, a cache node should be able to learn what and when to cache. Considering the geographical and temporal content popularity dynamics, the limited available storage at cache nodes, as well as the interactive in uence of caching decisions in networked caching settings, developing effective caching policies is practically challenging. In response to these challenges, this chapter presents a versatile reinforcement learning based approach for near-optimal caching policy design, in both single-node and network caching settings under dynamic space-time popularities. The herein presented policies are complemented using a set of numerical tests, which showcase the merits of the presented approach relative to several standard caching policies.
翻訳日:2022-12-01 14:52:10 公開日:2020-05-19
# 補間深部ニューラルネットワークを用いた異常音検出

Anomalous sound detection based on interpolation deep neural network ( http://arxiv.org/abs/2005.09234v1 )

ライセンス: Link先を確認
Kaori Suefusa, Tomoya Nishida, Harsh Purohit, Ryo Tanabe, Takashi Endo, and Yohei Kawaguchi(参考訳) 労働力の減少に伴い、産業機器の保守を行う作業用自動音響検出技術の需要が高まっている。 従来の手法ではオートエンコーダの復元誤差に基づいて異常を検出する。 しかし, 対象の機械音が静止しない場合, 復元誤差は異常に大きく依存する傾向にあり, エッジフレームの予測が困難であったため, その変動が増大する傾向にある。 そこで本研究では,中心フレームを入力として除去したスペクトルグラムの複数のフレームをモデルとして用いた異常検出手法を提案し,除去フレームの補間を出力として予測する。 提案手法は,エッジフレームを予測するのではなく,再構成誤差を異常と一致させる。 実験の結果,提案手法は標準AUCスコアに基づいて27%改善し,特に非定常機械音に対して有効であった。

As the labor force decreases, the demand for labor-saving automatic anomalous sound detection technology that conducts maintenance of industrial equipment has grown. Conventional approaches detect anomalies based on the reconstruction errors of an autoencoder. However, when the target machine sound is non-stationary, a reconstruction error tends to be large independent of an anomaly, and its variations increased because of the difficulty of predicting the edge frames. To solve the issue, we propose an approach to anomalous detection in which the model utilizes multiple frames of a spectrogram whose center frame is removed as an input, and it predicts an interpolation of the removed frame as an output. Rather than predicting the edge frames, the proposed approach makes the reconstruction error consistent with the anomaly. Experimental results showed that the proposed approach achieved 27% improvement based on the standard AUC score, especially against non-stationary machinery sounds.
翻訳日:2022-12-01 14:51:54 公開日:2020-05-19
# 適応型ディジタルフィルタとリカレントニューラルネットワークを組み合わせた音響エコーキャンセラ

Acoustic Echo Cancellation by Combining Adaptive Digital Filter and Recurrent Neural Network ( http://arxiv.org/abs/2005.09237v1 )

ライセンス: Link先を確認
Lu Ma, Hua Huang, Pei Zhao, Tengrong Su(参考訳) 音響エコーキャンセレーション(aec)は音声対話において重要な役割を果たす。 条件を満たすための明示的な数学的原理とインテリジェントな性質のため、異なる種類の実装を持つ適応フィルタは常にAECで使われており、性能はかなり高い。 しかし、推定と現実とのミスマッチによって生じる線形残差や、主にオーディオデバイス上の非線形成分によって生じる非線形残差など、結果に残留する残差がいくつか存在する。 線形残基は精巧な構造と方法によって減少することができ、非線形残基は抑制に難渋する。 しかし,一部の非線形処理手法はすでに引き上げられているが,抑制には複雑で非効率であり,音声にダメージを与える可能性がある。 本稿では,適応フィルタとニューラルネットワークを組み合わせた融合方式を提案する。 適応フィルタリングによってエコーを大規模に減らすことができ、残響が少なくなる。 音声よりもずっと小さいが、人間の耳によっても知覚され、コミュニケーションをいらいらさせる可能性がある。 ニューラルネットワークは、そのような残留エコーを抑制するために精巧に設計され、訓練されている。 提案手法との比較実験を行い,提案方式の有効性と優位性を検証した。

Acoustic Echo Cancellation (AEC) plays a key role in voice interaction. Due to the explicit mathematical principle and intelligent nature to accommodate conditions, adaptive filters with different types of implementations are always used for AEC, giving considerable performance. However, there would be some kinds of residual echo in the results, including linear residue introduced by mismatching between estimation and the reality and non-linear residue mostly caused by non-linear components on the audio devices. The linear residue can be reduced with elaborate structure and methods, leaving the non-linear residue intractable for suppression. Though, some non-linear processing methods have already be raised, they are complicated and inefficient for suppression, and would bring damage to the speech audio. In this paper, a fusion scheme by combining adaptive filter and neural network is proposed for AEC. The echo could be reduced in a large scale by adaptive filtering, resulting in little residual echo. Though it is much smaller than speech audio, it could also be perceived by human ear and would make communication annoy. The neural network is elaborately designed and trained for suppressing such residual echo. Experiments compared with prevailing methods are conducted, validating the effectiveness and superiority of the proposed combination scheme.
翻訳日:2022-12-01 14:51:40 公開日:2020-05-19
# 最大信号-雑音比フィルタを用いたマイクロホンアレイビームフォーミング方式

A Lite Microphone Array Beamforming Scheme with Maximum Signal-to-Noise Ratio Filter ( http://arxiv.org/abs/2005.09238v1 )

ライセンス: Link先を確認
Lu Ma, Xin Zhao, Pei Zhao, Tengrong Su(参考訳) 空間領域情報を利用することができるため、マイクロホンアレイビームフォーミングは方向の乱れを抑えて音声の質を高めるためによく用いられる。 しかし、マイクの数が増えると複雑さが増す。 本稿では,SNRフィルタを用いた高精度ビームフォーミング手法を提案し,ビームフォーミングの複雑さを低減する。 最大SNRフィルタは、音声ソースローカライゼーション(SSL)の推定方向(DOA)と独立ベクトル解析(IVA)の解法を用いて実現される。 提案手法は,他の広く使われているアルゴリズムと比較すると,信号対干渉および雑音比(sinr)の高い利得が得られることを示す。

Since space-domain information can be utilized, microphone array beamforming is often used to enhance the quality of the speech by suppressing directional disturbance. However, with the increasing number of microphone, the complexity would be increased. In this paper, a concise beamforming scheme using Maximum Signal-to-Noise Ratio (SNR) filter is proposed to reduce the beamforming complexity. The maximum SNR filter is implemented by using the estimated direction-of-arrival (DOA) of the speech source localization (SSL) and the solving method of independent vector analysis (IVA). Our experiments show that when compared with other widely-used algorithms, the proposed algorithm obtain higher gain of signal-to-interference and noise ratio (SINR).
翻訳日:2022-12-01 14:51:22 公開日:2020-05-19
# 分散デバイスのための競合的ウェイクアップ方式

Competitive Wakeup Scheme for Distributed Devices ( http://arxiv.org/abs/2005.09242v1 )

ライセンス: Link先を確認
Lu Ma, Haiping Zhang, Pei Zhao, Tengrong Su(参考訳) Wakeupは音声インタラクションの主要な機能であり、スマートホームのためのヒューマンマシンインタラクション(HMI)アプリケーションにおける主流のスキームである。 同じ単語がすべてのデバイスで使われている場合、すべてのデバイスが応答する。 これによってカオスが発生し、ユーザエクスペリエンスの質(qoe)が低下する。 この問題を解決する唯一の方法は、同じスコアリングルールに基づいて、同じ無線ローカルエリアネットワーク(WLAN)内のすべてのデバイスがウェイクアップと競合することである。 ユーザに最も近いものは、応答のために選択される。 そこで本稿では,マイクロホンの受電エネルギーを精巧に設計したキャリブレーション手法を用いて,競合的な起動方式を提案する。 また、ユーザ指向を補助して最適なデバイスを決定する。 実験は、このスキームの有効性と妥当性を明らかにする。

Wakeup is the primary function in voice interaction which is the mainstream scheme in man-machine interaction (HMI) applications for smart home. All devices will response if the same wake-up word is used for all devices. This will bring chaos and reduce user quality of experience (QoE). The only way to solve this problem is to make all the devices in the same wireless local area network (WLAN) competing to wake-up based on the same scoring rule. The one closest to the user would be selected for response. To this end, a competitive wakeup scheme is proposed in this paper with elaborately designed calibration method for receiving energy of microphones. Moreover, the user orientation is assisted to determine the optimal device. Experiments reveal the feasibility and validity of this scheme.
翻訳日:2022-12-01 14:51:10 公開日:2020-05-19
# SINVAD:DNN画像分類器テスト入力生成のための検索に基づく画像空間ナビゲーション

SINVAD: Search-based Image Space Navigation for DNN Image Classifier Test Input Generation ( http://arxiv.org/abs/2005.09296v1 )

ライセンス: Link先を確認
Sungmin Kang (1), Robert Feldt (2), Shin Yoo (1) ((1) School of Computing KAIST, (2) Chalmers University)(参考訳) ディープニューラルネットワーク(DNN)のテストは、安全クリティカルシステムで広く採用されているため、ますます重要になっている。 多くのテスト適性基準が提案されているが、多くのタイプのdnnの自動テスト入力生成は、生の入力空間がランダムにサンプルするには大きすぎるか、あるいは妥当な入力をナビゲートし探索するには困難である。 その結果、DNNの現在のテスト技術は、メタモルフィックテストの原理に基づいて、既存の入力に対する小さな局所摂動に依存している。 我々は,画像空間全体ではなく,真のトレーニング分布に類似した,妥当な入力空間を探索する新しい方法を提案する。 この空間は変分オートエンコーダ(vaes)を用いて構築され、潜在ベクトル空間をナビゲートする。 この空間は、現実的なテストに対処する際のDNNの堅牢性に関する情報を明らかにするテスト入力を効率よく生成し、高度に構造化された画像空間を通して意味のある探索を行うことができることを示す。

The testing of Deep Neural Networks (DNNs) has become increasingly important as DNNs are widely adopted by safety critical systems. While many test adequacy criteria have been suggested, automated test input generation for many types of DNNs remains a challenge because the raw input space is too large to randomly sample or to navigate and search for plausible inputs. Consequently, current testing techniques for DNNs depend on small local perturbations to existing inputs, based on the metamorphic testing principle. We propose new ways to search not over the entire image space, but rather over a plausible input space that resembles the true training distribution. This space is constructed using Variational Autoencoders (VAEs), and navigated through their latent vector space. We show that this space helps efficiently produce test inputs that can reveal information about the robustness of DNNs when dealing with realistic tests, opening the field to meaningful exploration through the space of highly structured images.
翻訳日:2022-12-01 14:43:40 公開日:2020-05-19
# 繰り返しの概念をハードコードするか、代わりに学ぶべきか? 音声認識のためのトランスフォーマーアーキテクチャの探索

Should we hard-code the recurrence concept or learn it instead ? Exploring the Transformer architecture for Audio-Visual Speech Recognition ( http://arxiv.org/abs/2005.09297v1 )

ライセンス: Link先を確認
George Sterpu, Christian Saam, Naomi Harte(参考訳) 音声-視覚的音声融合戦略であるAV Alignは、挑戦的なLSS2データセット上での音声-視覚的音声認識(AVSR)の性能を大幅に改善した。 聴覚機能に加えて音声の視覚的モダリティを利用する場合の雑音レベルによっては7%から30%の範囲で性能が向上する。 本稿では、直流のlong short-term memory(lstm)計算ブロックを、より最近提案されたtransformerブロックに置き換えるavアライメントの変種を提案する。 2つの方法を比較し、その強みと弱みについてより詳細に論じる。 また、トランスフォーマーは、クロスモーダルなモノトニックアライメントも学習するが、LSTMモデルと同じ視覚収束問題に悩まされ、機械学習における支配的なモダリティ問題に対するより深い調査が求められている。

The audio-visual speech fusion strategy AV Align has shown significant performance improvements in audio-visual speech recognition (AVSR) on the challenging LRS2 dataset. Performance improvements range between 7% and 30% depending on the noise level when leveraging the visual modality of speech in addition to the auditory one. This work presents a variant of AV Align where the recurrent Long Short-term Memory (LSTM) computation block is replaced by the more recently proposed Transformer block. We compare the two methods, discussing in greater detail their strengths and weaknesses. We find that Transformers also learn cross-modal monotonic alignments, but suffer from the same visual convergence problems as the LSTM model, calling for a deeper investigation into the dominant modality problem in machine learning.
翻訳日:2022-12-01 14:43:22 公開日:2020-05-19
# aevb-comm: aevbsに基づく知的通信システム

AEVB-Comm: An Intelligent CommunicationSystem based on AEVBs ( http://arxiv.org/abs/2005.09391v1 )

ライセンス: Link先を確認
Raghu Vamshi Hemadri, Akshay Rayaluru, and Rahul Jashvantbhai Pandya(参考訳) 近年,コミュニケーションシステムにおいて,Deep Learning (DL) 技術の適用が一般的な実践として現れ,有望な成果が示された。 本稿では,新しい畳み込みニューラルネットワーク(CNN)を用いた可変オートエンコーダ(VAE)通信システムを提案する。 VAE(continuous latent space)ベースの通信システムは、AE(distributed latent space)や他の従来の手法と比較して、システム性能が前例のない改善である。 提案するvaeに調整可能なハイパーパラメータベータを導入した。これはβ-vaeとしても知られ、非常に不連続な潜在空間表現となる。 さらに、2n の代わりに 4n 次元のような遅延空間の高次元表現が採用され、ブロック誤差率(BLER)が減少する。 提案システムは,AWGN (Additive Wide Gaussian Noise) とレイリーフェディングチャネルの下で動作可能である。 cnnベースのvaeアーキテクチャは送信機でエンコーディングと変調を行い、一方で受信機ではデコードと復調を行う。 最後に, 連続潜時空間ベース系が他よりも優れていることを示すため, 正常・雑音条件下での様々なシミュレーション結果が与えられた。

In recent years, applying Deep Learning (DL) techniques emerged as a common practice in the communication system, demonstrating promising results. The present paper proposes a new Convolutional Neural Network (CNN) based Variational Autoencoder (VAE) communication system. The VAE (continuous latent space) based communication systems confer unprecedented improvement in the system performance compared to AE (distributed latent space) and other traditional methods. We have introduced an adjustable hyperparameter beta in the proposed VAE, which is also known as beta-VAE, resulting in extremely disentangled latent space representation. Furthermore, a higher-dimensional representation of latent space is employed, such as 4n dimension instead of 2n, reducing the Block Error Rate (BLER). The proposed system can operate under Additive Wide Gaussian Noise (AWGN) and Rayleigh fading channels. The CNN based VAE architecture performs the encoding and modulation at the transmitter, whereas decoding and demodulation at the receiver. Finally, to prove that a continuous latent space-based system designated VAE performs better than the other, various simulation results supporting the same has been conferred under normal and noisy conditions.
翻訳日:2022-12-01 14:43:09 公開日:2020-05-19
# 障害のあるエージェントを育成する学習 : 深層強化学習を用いたロバストな羊飼い行動の訓練

Learning to Herd Agents Amongst Obstacles: Training Robust Shepherding Behaviors using Deep Reinforcement Learning ( http://arxiv.org/abs/2005.09476v1 )

ライセンス: Link先を確認
Jixuan Zhi and Jyh-Ming Lien(参考訳) ロボット羊飼い問題(英: Robotic Shepherding problem)は、羊飼いと呼ばれる外部ロボットの動きを通じて、コヒーレントエージェントのグループ(例えば鳥の群れやドローンの群れ)の制御とナビゲーションを考える問題である。 機械学習に基づく手法は、障害物のない空の環境でこの問題をうまく解決した。 一方、ルールベースの手法は、環境が障害物で散らばり、複数のシェパードが協調して動作するという、より複雑なシナリオを処理できる。 しかしながら、これらのルールベースのメソッドは、すべての可能なケースを扱える包括的なルールセットを定義するのが難しいため、脆弱である。 これらの制約を克服するために,エージェントを障害物に閉じ込める学習ベースの手法を提案する。 確率的ロードマップと組み合わさった深層強化学習手法を用いて, 環境パラメータと行動パラメータを制御した羊飼いモデルを訓練する。 実験の結果,提案手法は頑健であり,環境モデルと行動モデルの両方に由来する不確実性に敏感であることがわかった。 その結果,提案手法は,ルールに基づく行動法よりも成功率が高く,完成時間も短く,経路長も長いことがわかった。 これらの利点は、より困難なグループや厳しい通過を含むより困難なシナリオにおいて特に顕著である。

Robotic shepherding problem considers the control and navigation of a group of coherent agents (e.g., a flock of bird or a fleet of drones) through the motion of an external robot, called shepherd. Machine learning based methods have successfully solved this problem in an empty environment with no obstacles. Rule-based methods, on the other hand, can handle more complex scenarios in which environments are cluttered with obstacles and allow multiple shepherds to work collaboratively. However, these rule-based methods are fragile due to the difficulty in defining a comprehensive set of rules that can handle all possible cases. To overcome these limitations, we propose the first known learning-based method that can herd agents amongst obstacles. By using deep reinforcement learning techniques combined with the probabilistic roadmaps, we train a shepherding model using noisy but controlled environmental and behavioral parameters. Our experimental results show that the proposed method is robust, namely, it is insensitive to the uncertainties originated from both environmental and behavioral models. Consequently, the proposed method has a higher success rate, shorter completion time and path length than the rule-based behavioral methods have. These advantages are particularly prominent in more challenging scenarios involving more difficult groups and strenuous passages.
翻訳日:2022-12-01 14:42:46 公開日:2020-05-19
# 単画像雨雨除去のための構造残差学習

Structural Residual Learning for Single Image Rain Removal ( http://arxiv.org/abs/2005.09228v1 )

ライセンス: Link先を確認
Hong Wang, Yichen Wu, Qi Xie, Qian Zhao, Yong Liang, Deyu Meng(参考訳) 画像処理タスクにおけるレインストリークの悪影響を軽減するため,CNNに基づく単一雨量除去手法が最近提案されている。 しかし,これらの深層学習手法の性能は,事前収集した雨・クリーニング画像ペアに含まれる雨の形状範囲に大きく依存する。 これにより、トレーニング用サンプルの過度な問題に陥りやすくなり、複雑で多様な雨天を持つ実用的な雨天画像に微妙に一般化することができない。 本研究は,本研究では,降雨構造を有するネットワークの出力残差を強制することにより,新たなネットワークアーキテクチャを提案する。 このような構造的残差設定は、ネットワークによって抽出された雨層が一般的な雨害の事前の知識に微妙に従うことを保証し、トレーニングおよび予測段階において雨害画像から十分に抽出可能な音響雨形状を規制する。 このような一般的な正規化関数は、自然とより優れたトレーニング精度とテストの一般化能力の両方をもたらす。 このような優越性は、現在の最先端の手法と比較して、視覚的かつ定量的に、合成データと実データの両方に実装された実験によって包括的に証明される。

To alleviate the adverse effect of rain streaks in image processing tasks, CNN-based single image rain removal methods have been recently proposed. However, the performance of these deep learning methods largely relies on the covering range of rain shapes contained in the pre-collected training rainy-clean image pairs. This makes them easily trapped into the overfitting-to-the-training-samples issue and cannot finely generalize to practical rainy images with complex and diverse rain streaks. Against this generalization issue, this study proposes a new network architecture by enforcing the output residual of the network possess intrinsic rain structures. Such a structural residual setting guarantees the rain layer extracted by the network finely comply with the prior knowledge of general rain streaks, and thus regulates sound rain shapes capable of being well extracted from rainy images in both training and predicting stages. Such a general regularization function naturally leads to both its better training accuracy and testing generalization capability even for those non-seen rain configurations. Such superiority is comprehensively substantiated by experiments implemented on synthetic and real datasets both visually and quantitatively as compared with current state-of-the-art methods.
翻訳日:2022-12-01 14:35:33 公開日:2020-05-19
# RGB画像からのスペクトル再構成に先立ってカメラ分光感度を有する適応重み付き注意ネットワーク

AdaptiveWeighted Attention Network with Camera Spectral Sensitivity Prior for Spectral Reconstruction from RGB Images ( http://arxiv.org/abs/2005.09305v1 )

ライセンス: Link先を確認
Jiaojiao Li, Chaoxiong Wu, Rui Song, Yunsong Li, Fei Liu(参考訳) スペクトル再構成(SR)に対する最近の有望な取り組みは、より深くより広い畳み込みニューラルネットワーク(CNN)を使用して複雑なマッピングを学ぶことに焦点を当てている。 しかし、ほとんどのCNNベースのSRアルゴリズムは、中間機能間でのカメラスペクトル感度(CSS)の事前および相互依存性の探索を怠り、SRのネットワークの表現能力と性能を制限している。 これらの問題を克服するために,バックボーンに複数の二重残留注意ブロック(DRAB)を重畳し,長いスキップ接続と短いスキップ接続を施し,二重残留学習を形成する新しい適応重み付き注目ネットワーク(AWAN)を提案する。 具体的には,チャネル間の相関を統合することにより,チャネル毎の特徴応答を再配置する適応型重み付きチャネルアテンション(awca)モジュールについて検討する。 さらに,より強力な特徴表現のために,2次非局所操作による長距離空間空間情報を取り込むパッチレベル2次非局所(psnl)モジュールを開発した。 得られたRGB画像は、再構成されたハイパースペクトル画像(HSI)と所定のCSS関数によって投影できるという事実に基づいて、より正確な再構成のためのより細かい制約として、RGB画像とHSIの相違を組み込む。 実験により,他の最先端SR手法と比較して,定量的比較と知覚品質の観点から,提案したAWANネットワークの有効性が示された。 NTIRE 2020 Spectral Reconstruction Challengeでは、クリーントラックで1位、リアルワールドで3位を獲得しました。 コードはhttps://github.com/deep-imagelab/awanで入手できる。

Recent promising effort for spectral reconstruction (SR) focuses on learning a complicated mapping through using a deeper and wider convolutional neural networks (CNNs). Nevertheless, most CNN-based SR algorithms neglect to explore the camera spectral sensitivity (CSS) prior and interdependencies among intermediate features, thus limiting the representation ability of the network and performance of SR. To conquer these issues, we propose a novel adaptive weighted attention network (AWAN) for SR, whose backbone is stacked with multiple dual residual attention blocks (DRAB) decorating with long and short skip connections to form the dual residual learning. Concretely, we investigate an adaptive weighted channel attention (AWCA) module to reallocate channel-wise feature responses via integrating correlations between channels. Furthermore, a patch-level second-order non-local (PSNL) module is developed to capture long-range spatial contextual information by second-order non-local operations for more powerful feature representations. Based on the fact that the recovered RGB images can be projected by the reconstructed hyperspectral image (HSI) and the given CSS function, we incorporate the discrepancies of the RGB images and HSIs as a finer constraint for more accurate reconstruction. Experimental results demonstrate the effectiveness of our proposed AWAN network in terms of quantitative comparison and perceptual quality over other state-of-the-art SR methods. In the NTIRE 2020 Spectral Reconstruction Challenge, our entries obtain the 1st ranking on the Clean track and the 3rd place on the Real World track. Codes are available at https://github.com/Deep-imagelab/AWAN.
翻訳日:2022-12-01 14:35:12 公開日:2020-05-19
# 物理相互作用によるインスタンスセグメンテーションのための自己教師伝達学習

Self-supervised Transfer Learning for Instance Segmentation through Physical Interaction ( http://arxiv.org/abs/2005.09484v1 )

ライセンス: Link先を確認
Andreas Eitel and Nico Hauff and Wolfram Burgard(参考訳) 画像からの未知のオブジェクトのインスタンスセグメンテーションは、把握、追跡、オブジェクトソートを含むいくつかのロボットスキルに関係していると考えられている。 近年のコンピュータビジョンの結果、手動ラベル付きデータセットは高いセグメンテーション性能を実現することが示されている。 新しい環境におけるデータのラベル付けに時間を要することを克服するために,ロボットが環境と対話してオブジェクトをセグメント化することを学ぶための移動学習手法を提案する。 ロボットは未知の物体をテーブル上に押し込み、光学フローから情報を得て、オブジェクトマスクの形でトレーニングラベルを作成する。 そこで我々は,ロボットが取得した自己ラベル付きトレーニングデータに基づいて,既存のDeepMaskネットワークを微調整する。 学習したネットワーク(selfdeepmask)を実画像のセットで評価し,新しい物体を用いた難易度と雑然としたシーンを示す。 ここで、SelfDeepMaskはCOCOデータセットでトレーニングされたDeepMaskネットワークを平均精度で9.5%上回っている。 さらに,提案手法と最近の雑音ラベルの学習手法を組み合わせることで,ラベルノイズの低減を図る。

Instance segmentation of unknown objects from images is regarded as relevant for several robot skills including grasping, tracking and object sorting. Recent results in computer vision have shown that large hand-labeled datasets enable high segmentation performance. To overcome the time-consuming process of manually labeling data for new environments, we present a transfer learning approach for robots that learn to segment objects by interacting with their environment in a self-supervised manner. Our robot pushes unknown objects on a table and uses information from optical flow to create training labels in the form of object masks. To achieve this, we fine-tune an existing DeepMask network for instance segmentation on the self-labeled training data acquired by the robot. We evaluate our trained network (SelfDeepMask) on a set of real images showing challenging and cluttered scenes with novel objects. Here, SelfDeepMask outperforms the DeepMask network trained on the COCO dataset by 9.5% in average precision. Furthermore, we combine our approach with recent approaches for training with noisy labels in order to better cope with induced label noise.
翻訳日:2022-12-01 14:34:44 公開日:2020-05-19
# UAVとビジョンベースアルゴリズムを用いたインフラモニタリングと検査

Built Infrastructure Monitoring and Inspection Using UAVs and Vision-based Algorithms ( http://arxiv.org/abs/2005.09486v1 )

ライセンス: Link先を確認
Khai Ky Ly and Manh Duong Phung(参考訳) 本研究では,実時間制御無人航空機(UAV)による構造物表面の検査システムを提案する。 本システムは,Wentworthライトレールベース構造である目標構造を調査するために,良好な気象条件下で運用されている。 システムにはドローン、GoPro HERO4カメラ、コントローラー、携帯電話が含まれる。 ドローンはテストフィールドで手動で地面から離陸し、後の分析に必要なデータを収集する。 この画像はHERO4カメラを介して撮影され、Wi-Fiルータが確立した無線接続により地上制御局等の遠隔処理ユニットにリアルタイムに転送される。 き裂などの欠陥や損傷を検出する画像処理手法が提案されている。 低強度区間に含まれる亀裂に関連する画素群を利用するための強度ヒストグラムアルゴリズムに基づく手法である。 提案システムの性能と妥当性を評価するため,実験,シミュレーション,比較を行った。

This study presents an inspecting system using real-time control unmanned aerial vehicles (UAVs) to investigate structural surfaces. The system operates under favourable weather conditions to inspect a target structure, which is the Wentworth light rail base structure in this study. The system includes a drone, a GoPro HERO4 camera, a controller and a mobile phone. The drone takes off the ground manually in the testing field to collect the data requiring for later analysis. The images are taken through HERO 4 camera and then transferred in real time to the remote processing unit such as a ground control station by the wireless connection established by a Wi-Fi router. An image processing method has been proposed to detect defects or damages such as cracks. The method based on intensity histogram algorithms to exploit the pixel group related to the crack contained in the low intensity interval. Experiments, simulation and comparisons have been conducted to evaluate the performance and validity of the proposed system.
翻訳日:2022-12-01 14:34:27 公開日:2020-05-19
# GPRデータと理論的データベースの比較による残差とサイズ決定のための革新的アプローチ

An Innovative Approach to Determine Rebar Depth and Size by Comparing GPR Data with a Theoretical Database ( http://arxiv.org/abs/2005.09643v1 )

ライセンス: Link先を確認
Zhongming Xiang, Ge Ou, Abbas Rashidi(参考訳) 地中貫入レーダ (GPR) は, コンクリート構造物の埋設鉄筋を迅速に認識する手法である。 しかし、GPRデータから信号を取り出すのが困難であり、また、データに示される後部深度とサイズとの間の内在的な結合が困難であるため、同時に後部深度とサイズを決定することは困難である。 本稿では,この問題に対処する革新的なアルゴリズムを提案する。 まず、GPRデータからの双極子信号を、直接波除去、信号再構成、分離により同定する。 その後、データベースは一連の理論的ハイパーボラから開発され、抽出されたハイパーボラのアウトラインと比較される。 最後に、データベースに最も近いものを探すことにより、残響深度と大きさを決定する。 その結果,(1)GPRデータから直接波のノイズを完全に除去し,インターレースハイパーボラからアウトラインを抽出し,それぞれ100%と95.11%の精度でバーの深さとサイズを同時に決定できることが示唆された。

Ground penetrating radar (GPR) is an efficient technique used for rapidly recognizing embedded rebar in concrete structures. However, due to the difficulty in extracting signals from GPR data and the intrinsic coupling between the rebar depth and size showing in the data, simultaneously determining rebar depth and size is challenging. This paper proposes an innovative algorithm to address this issue. First, the hyperbola signal from the GPR data is identified by direct wave removal, signal reconstruction and separation. Subsequently, a database is developed from a series of theoretical hyperbolas and then compared with the extracted hyperbola outlines. Finally, the rebar depth and size are determined by searching for the closest counterpart in the database. The obtained results are very promising and indicate that: (1) implementing the method presented in this paper can completely remove the direct wave noise from the GPR data, and can successfully extract the outlines from the interlaced hyperbolas; and (2) the proposed method can simultaneously determine the rebar depth and size with the accuracy of 100% and 95.11%, respectively.
翻訳日:2022-12-01 14:34:13 公開日:2020-05-19
# 超高分解能画像塗布における残像集合

Contextual Residual Aggregation for Ultra High-Resolution Image Inpainting ( http://arxiv.org/abs/2005.09704v1 )

ライセンス: Link先を確認
Zili Yi, Qiang Tang, Shekoofeh Azizi, Daesik Jang, Zhan Xu(参考訳) 近年, 物体除去や損傷画像修復などの基本的な画像編集作業に影響を与え, インスピレーションを与えている。 これらの手法は古典的な手法よりも効果的であるが、メモリ制限のため、通常1Kより小さい低解像度の入力しか処理できない。 一方、モバイルデバイスで撮影した写真の解像度は最大8Kになる。 低解像度の塗装結果のナイーブアップサンプリングは、大きすぎるがぼやけた結果をもたらすだけである。 一方、大きなぼやけた画像に高周波残像を加えると、細部やテクスチャに富んだシャープな結果が得られる。 そこで本研究では,コンテキストパッチからの残差の重み付けにより,不足コンテンツに対する高頻度残差を生成できるコンテキスト残差凝集(CRA)機構を提案する。 ニューラルネットワークの畳み込み層は低解像度の入力と出力でのみ動作する必要があるため、メモリと計算パワーのコストは十分に抑制される。 さらに、高解像度のトレーニングデータセットの必要性も軽減されている。 提案するモデルを解像度512×512の小さな画像で訓練し,高画質画像の推論を行い,印象的な品質を実現する。 従来の学習に基づくアプローチでは難解な,8k程度の大きなホールサイズでイメージをインペイントすることが可能である。 我々は,gtx 1080 ti gpu上での2k画像のリアルタイム性能を実現するため,ネットワークアーキテクチャの軽量設計をさらに詳細に述べる。 Atlas200dk/sample-imageinpainting-HiFill のコードがある。

Recently data-driven image inpainting methods have made inspiring progress, impacting fundamental image editing tasks such as object removal and damaged image repairing. These methods are more effective than classic approaches, however, due to memory limitations they can only handle low-resolution inputs, typically smaller than 1K. Meanwhile, the resolution of photos captured with mobile devices increases up to 8K. Naive up-sampling of the low-resolution inpainted result can merely yield a large yet blurry result. Whereas, adding a high-frequency residual image onto the large blurry image can generate a sharp result, rich in details and textures. Motivated by this, we propose a Contextual Residual Aggregation (CRA) mechanism that can produce high-frequency residuals for missing contents by weighted aggregating residuals from contextual patches, thus only requiring a low-resolution prediction from the network. Since convolutional layers of the neural network only need to operate on low-resolution inputs and outputs, the cost of memory and computing power is thus well suppressed. Moreover, the need for high-resolution training datasets is alleviated. In our experiments, we train the proposed model on small images with resolutions 512x512 and perform inference on high-resolution images, achieving compelling inpainting quality. Our model can inpaint images as large as 8K with considerable hole sizes, which is intractable with previous learning-based approaches. We further elaborate on the light-weight design of the network architecture, achieving real-time performance on 2K images on a GTX 1080 Ti GPU. Codes are available at: Atlas200dk/sample-imageinpainting-HiFill.
翻訳日:2022-12-01 14:33:54 公開日:2020-05-19
# VigiFlood: 視点の変化が洪水警戒に及ぼす影響を評価する

VigiFlood: evaluating the impact of a change of perspective on flood vigilance ( http://arxiv.org/abs/2005.09460v1 )

ライセンス: Link先を確認
Carole Adam(参考訳) 緊急管理職は「第一、右、信頼」の重要性についてコミュニケーショントレーニングを受け、ストレスとリスクの下で、聴衆の心理と特定の理由を考慮に入れます。 しかし私たちは、市民も同様にリスクコミュニケーションの扱い方を訓練すべきだと考えています。 特に、こうしたメッセージは、ほとんどの自然なリスクは、事前の正確な予測が難しいため、必ずしも不確実性の一部となる。 しかし、過去に予測ミスをした後も、市民は緊急通信機関を信頼し続けなければならない。 われわれは、2018年10月にフランス南西部で起きたフラッシュ洪水の実例調査に基づいて、Vigifloodと呼ばれる深刻なゲームを設計した。 このゲームでは、利用者は、不確定な手がかりに基づいて、住民に警告するために警戒レベルを設定する必要のある緊急コミュニケータの役割を引き受けて、視点を変える。 我々の仮説は、この視点の変化は将来の洪水警戒発表に対するプレイヤーの意識と反応を改善することができるというものである。 我々は,このゲームについて,試合前後の洪水リスク意識と行動意図に関する質問に回答するよう求められたオンライン調査を通じて評価し,その影響を評価した。

Emergency managers receive communication training about the importance of being 'first, right and credible', and taking into account the psychology of their audience and their particular reasoning under stress and risk. But we believe that citizens should be similarly trained about how to deal with risk communication. In particular, such messages necessarily carry a part of uncertainty since most natural risks are difficult to accurately forecast ahead of time. Yet, citizens should keep trusting the emergency communicators even after they made forecasting errors in the past. We have designed a serious game called Vigiflood, based on a real case study of flash floods hitting the South West of France in October 2018. In this game, the user changes perspective by taking the role of an emergency communicator, having to set the level of vigilance to alert the population, based on uncertain clues. Our hypothesis is that this change of perspective can improve the player's awareness and response to future flood vigilance announcements. We evaluated this game through an online survey where people were asked to answer a questionnaire about flood risk awareness and behavioural intentions before and after playing the game, in order to assess its impact.
翻訳日:2022-12-01 14:33:27 公開日:2020-05-19
# GLEAKE: グローバルおよびローカルな埋め込み自動キーフレーズ抽出

GLEAKE: Global and Local Embedding Automatic Keyphrase Extraction ( http://arxiv.org/abs/2005.09740v1 )

ライセンス: Link先を確認
Javad Rafiei Asl, Juan M. Banda(参考訳) 近年, 学術的, ニュース的, 医学的, ウェブ的文書が増加するにつれて, 大量のテキスト文書の粒度分類の自動化がますます重要になっている。 自動キーフレーズ抽出(AKE)は、文書の主要なトピックをキャプチャする単一のテキスト文書から、単一の単語または複数ワードの小さなセットを自動的に検出することを目的としている。 AKEは、文書要約や分類、フルテキストインデックス、記事レコメンデーションといった様々なNLPおよび情報検索タスクにおいて重要な役割を果たす。 テキスト内容に十分な人間ラベルデータがないため、教師付き学習アプローチは、テキスト本体の内容からキーフレーズを自動的に検出するには理想的ではない。 テキスト埋め込み技術の最先端により、NLPの研究者は、生データセットから有意義な洞察を得るための教師なし手法の開発に注力してきた。 本稿では,AAKE の課題に対して,GLEAKE (Global and Local Embedding Automatic Keyphrase Extractor) を導入する。 gleakeはシングルワードとマルチワードの埋め込み技術を使って、候補句の構文的および意味的側面を探索し、それらを一連の埋め込みベースのグラフに結合する。 さらに、GLEAKEは各埋め込みベースのグラフにネットワーク解析技術を適用し、キーフレーズの最終セットとして最も重要なフレーズを洗練する。 GLEAKEの性能は、異なるドメインや書き方から5つの標準AKEデータセットに対して評価し、他の最先端手法に対してその優位性を示すことで実証する。

Automated methods for granular categorization of large corpora of text documents have become increasingly more important with the rate scientific, news, medical, and web documents are growing in the last few years. Automatic keyphrase extraction (AKE) aims to automatically detect a small set of single or multi-words from within a single textual document that captures the main topics of the document. AKE plays an important role in various NLP and information retrieval tasks such as document summarization and categorization, full-text indexing, and article recommendation. Due to the lack of sufficient human-labeled data in different textual contents, supervised learning approaches are not ideal for automatic detection of keyphrases from the content of textual bodies. With the state-of-the-art advances in text embedding techniques, NLP researchers have focused on developing unsupervised methods to obtain meaningful insights from raw datasets. In this work, we introduce Global and Local Embedding Automatic Keyphrase Extractor (GLEAKE) for the task of AKE. GLEAKE utilizes single and multi-word embedding techniques to explore the syntactic and semantic aspects of the candidate phrases and then combines them into a series of embedding-based graphs. Moreover, GLEAKE applies network analysis techniques on each embedding-based graph to refine the most significant phrases as a final set of keyphrases. We demonstrate the high performance of GLEAKE by evaluating its results on five standard AKE datasets from different domains and writing styles and by showing its superiority with regards to other state-of-the-art methods.
翻訳日:2022-12-01 14:26:34 公開日:2020-05-19
# 参照エンコーダとエンドツーエンドテキスト音声によるアクセント変換の改善

Improving Accent Conversion with Reference Encoder and End-To-End Text-To-Speech ( http://arxiv.org/abs/2005.09271v1 )

ライセンス: Link先を確認
Wenjie Li, Benlai Tang, Xiang Yin, Yushi Zhao, Wei Li, Kang Wang, Hao Huang, Yuxuan Wang, Zejun Ma(参考訳) アクセント変換(AC)は、話者の声の音色を維持しながら、非ネイティブ話者のアクセントをネイティブアクセントに変換する。 本稿では,アクセント変換の適用性の向上と品質向上のためのアプローチを提案する。 まず、変換段階では参照音声が利用できないと仮定し、ネイティブ音声に基づいて訓練されたエンドツーエンドのテキスト音声合成システムを用いて、ネイティブ参照音声を生成する。 変換音声の品質とアクセントを改善するため,マルチソース情報を利用するための参照エンコーダを提案する。 この特徴は,従来の音声後部グラフ(PPG)を補完するネイティブ参照情報や言語情報から抽出した音響的特徴によって動機付けられ,PPGのみに基づくベースラインシステムを改善する特徴としてまとめることができる。 また,合成性能を高めるために,GMMに基づく注意を用いたモデルアーキテクチャを最適化する。 実験結果から,提案手法が適用された場合,非母語話者の音声同一性を維持しつつ,音響品質(平均意見得点の相対的な増加)とネイティブアクセント(68$\%$相対的嗜好)のスコアを大きく上昇させることが示された。

Accent conversion (AC) transforms a non-native speaker's accent into a native accent while maintaining the speaker's voice timbre. In this paper, we propose approaches to improving accent conversion applicability, as well as quality. First of all, we assume no reference speech is available at the conversion stage, and hence we employ an end-to-end text-to-speech system that is trained on native speech to generate native reference speech. To improve the quality and accent of the converted speech, we introduce reference encoders which make us capable of utilizing multi-source information. This is motivated by acoustic features extracted from native reference and linguistic information, which are complementary to conventional phonetic posteriorgrams (PPGs), so they can be concatenated as features to improve a baseline system based only on PPGs. Moreover, we optimize model architecture using GMM-based attention instead of windowed attention to elevate synthesized performance. Experimental results indicate when the proposed techniques are applied the integrated system significantly raises the scores of acoustic quality (30$\%$ relative increase in mean opinion score) and native accent (68$\%$ relative preference) while retaining the voice identity of the non-native speaker.
翻訳日:2022-12-01 14:25:09 公開日:2020-05-19
# 深部2次元心エコーセグメンテーションにおける不確かさの推定

Uncertainty Estimation in Deep 2D Echocardiography Segmentation ( http://arxiv.org/abs/2005.09349v1 )

ライセンス: Link先を確認
Lavsen Dahal, Aayush Kafle, Bishesh Khanal(参考訳) 心血管疾患では2次元心エコー法が最も一般的である。 超音波(US)の可搬性と比較的安価な性質により、エコー心エコー検査を行うために必要な米国のデバイスが広く利用可能となる。 しかし、心臓US画像の取得と解釈はオペレーターに依存しており、専門家がいる場所のみの使用を制限する。 近年,2次元心エコー法において,自動視線分類,構造と機能評価にDeep Learning (DL) が用いられている。 これらの最近の研究は、心エコー図のコンピュータガイドによる取得と自動解釈の開発に有望であるが、これらの手法のほとんどは、トレーニングデータから遠く離れた分布から来るデータをテストする際に重要となる不確かさをモデル化し、推定しない。 不確実性推定は、画像取得フェーズ(取得した画像の品質に関するオペレータにリアルタイムフィードバックを提供すること)と、自動測定と解釈の両方で有用である。 不確実性モデルと定量化メトリックのパフォーマンスは、比較される予測タスクとモデルに依存するかもしれない。 そこで,us画像から左室セグメンテーションの不確実性モデリングの知見を得るため,4つの異なる指標(新たに提案されている1つの指標)を用いて定量化した3つのセンシングに基づく不確実性モデルを比較した。 さらに,不確実性推定を用いて品質の低い画像を自動的にリジェクトし,最先端のセグメンテーション結果を改善する方法を示す。

2D echocardiography is the most common imaging modality for cardiovascular diseases. The portability and relatively low-cost nature of Ultrasound (US) enable the US devices needed for performing echocardiography to be made widely available. However, acquiring and interpreting cardiac US images is operator dependent, limiting its use to only places where experts are present. Recently, Deep Learning (DL) has been used in 2D echocardiography for automated view classification, and structure and function assessment. Although these recent works show promise in developing computer-guided acquisition and automated interpretation of echocardiograms, most of these methods do not model and estimate uncertainty which can be important when testing on data coming from a distribution further away from that of the training data. Uncertainty estimates can be beneficial both during the image acquisition phase (by providing real-time feedback to the operator on acquired image's quality), and during automated measurement and interpretation. The performance of uncertainty models and quantification metric may depend on the prediction task and the models being compared. Hence, to gain insight of uncertainty modelling for left ventricular segmentation from US images, we compare three ensembling based uncertainty models quantified using four different metrics (one newly proposed) on state-of-the-art baseline networks using two publicly available echocardiogram datasets. We further demonstrate how uncertainty estimation can be used to automatically reject poor quality images and improve state-of-the-art segmentation results.
翻訳日:2022-12-01 14:17:36 公開日:2020-05-19
# MaskFace:マルチタスク顔とランドマーク検出器

MaskFace: multi-task face and landmark detector ( http://arxiv.org/abs/2005.09412v1 )

ライセンス: Link先を確認
Dmitry Yashunin, Tamir Baydasov, Roman Vlasov(参考訳) 現在、顔分析の領域では、顔検出とランドマークのローカライゼーションのための単一タスクアプローチが主流である。 本稿では,両タスクを同時に解くマルチタスクモデルに注目する。 顔およびランドマーク検出のための高精度なモデルを提案する。 MaskFaceと呼ばれるこの方法は、キーポイント予測ヘッドを追加することで、以前の顔検出アプローチを拡張する。 新しいキーポイントヘッドは、RoIAlign層で顔の特徴を抽出することで、Mask R-CNNのアイデアを採用する。 キーポイントヘッドは、画像内の顔が少ない場合の計算オーバーヘッドを小さくし、精度を劇的に改善する。 AFW,PASCAL顔,FDDB,WIDER FACEデータセットおよびAFLW,300Wデータセットのランドマーク局所化タスクにおけるMaskFaceの性能を評価する。 両方のタスクに対して、MaskFaceは最先端の結果を達成し、シングルタスクとマルチタスクモデルの多くを上回ります。

Currently in the domain of facial analysis single task approaches for face detection and landmark localization dominate. In this paper we draw attention to multi-task models solving both tasks simultaneously. We present a highly accurate model for face and landmark detection. The method, called MaskFace, extends previous face detection approaches by adding a keypoint prediction head. The new keypoint head adopts ideas of Mask R-CNN by extracting facial features with a RoIAlign layer. The keypoint head adds small computational overhead in the case of few faces in the image while improving the accuracy dramatically. We evaluate MaskFace's performance on a face detection task on the AFW, PASCAL face, FDDB, WIDER FACE datasets and a landmark localization task on the AFLW, 300W datasets. For both tasks MaskFace achieves state-of-the-art results outperforming many of single-task and multi-task models.
翻訳日:2022-12-01 14:17:10 公開日:2020-05-19
# RoadText-1K: 運転ビデオ用テキスト検出・認識データセット

RoadText-1K: Text Detection & Recognition Dataset for Driving Videos ( http://arxiv.org/abs/2005.09496v1 )

ライセンス: Link先を確認
Sangeeth Reddy, Minesh Mathew, Lluis Gomez, Marcal Rusinol, Dimosthenis Karatzas. and C.V. Jawahar(参考訳) テキストの認識は、屋外のシーンの意味を理解するために不可欠であり、運転支援と自動運転のためのインテリジェントなシステムを構築するための重要な要件である。 既存のテキスト検出と認識のためのデータセットのほとんどは静止画像で構成されており、テキストを念頭に置いてコンパイルされている。 本稿では,運転映像中のテキストに対する新しい"roadtext-1k"データセットを提案する。 データセットは、既存の最大テキストデータセットの20倍の大きさだ。 私たちのデータセットは、テキストに対するバイアスがなく、各フレームにテキスト境界ボックスと書き起こしのためのアノテーションが付いた1000の動画クリップで構成されています。 新たなデータセット上では,テキスト検出,認識,追跡のための技術手法が評価され,既存のデータセットと比較して,制約のない動画再生における課題が示される。 このことから、RoadText-1Kは読み取りシステムの研究開発に適しており、運転支援や自動運転といったより複雑な下流業務に組み込むのに十分な堅牢性を持っていることが示唆されている。 データセットはhttp://cvit.iiit.ac.in/research/projects/cvit-projects/roadtext-1kにある。

Perceiving text is crucial to understand semantics of outdoor scenes and hence is a critical requirement to build intelligent systems for driver assistance and self-driving. Most of the existing datasets for text detection and recognition comprise still images and are mostly compiled keeping text in mind. This paper introduces a new "RoadText-1K" dataset for text in driving videos. The dataset is 20 times larger than the existing largest dataset for text in videos. Our dataset comprises 1000 video clips of driving without any bias towards text and with annotations for text bounding boxes and transcriptions in every frame. State of the art methods for text detection, recognition and tracking are evaluated on the new dataset and the results signify the challenges in unconstrained driving videos compared to existing datasets. This suggests that RoadText-1K is suited for research and development of reading systems, robust enough to be incorporated into more complex downstream tasks like driver assistance and self-driving. The dataset can be found at http://cvit.iiit.ac.in/research/projects/cvit-projects/roadtext-1k
翻訳日:2022-12-01 14:16:57 公開日:2020-05-19
# 深部強化学習を用いた超音波映像要約

Ultrasound Video Summarization using Deep Reinforcement Learning ( http://arxiv.org/abs/2005.09531v1 )

ライセンス: Link先を確認
Tianrui Liu, Qingjie Meng, Athanasios Vlontzos, Jeremy Tan, Daniel Rueckert and Bernhard Kainz(参考訳) ビデオは診断、例えば超音波画像、内視鏡、運動評価において必須のイメージングモードである。 しかし、医療画像分析コミュニティではビデオはあまり注目されていない。 クリニカル・プラクティスでは,映像データの処理や注釈,監査に長時間を要するため,生の診断映像データを効率的に活用することが困難である。 本稿では,医療映像データのニーズに合わせた完全自動ビデオ要約手法を提案する。 本手法は強化学習問題であり,重要な診断情報の保存に焦点を当てたエージェントを生成する。 胎児超音波検診では, 記録されたデータのごく一部のみを診断的に用いることが一般的である。 本手法は, 代替ビデオ要約法よりも優れており, 臨床診断基準に必要な必須情報を保存できることを示す。

Video is an essential imaging modality for diagnostics, e.g. in ultrasound imaging, for endoscopy, or movement assessment. However, video hasn't received a lot of attention in the medical image analysis community. In the clinical practice, it is challenging to utilise raw diagnostic video data efficiently as video data takes a long time to process, annotate or audit. In this paper we introduce a novel, fully automatic video summarization method that is tailored to the needs of medical video data. Our approach is framed as reinforcement learning problem and produces agents focusing on the preservation of important diagnostic information. We evaluate our method on videos from fetal ultrasound screening, where commonly only a small amount of the recorded data is used diagnostically. We show that our method is superior to alternative video summarization methods and that it preserves essential information required by clinical diagnostic standards.
翻訳日:2022-12-01 14:16:39 公開日:2020-05-19
# デフォーカスに注目して: 深さ推定のための合成から実領域へのギャップの橋渡し

Focus on defocus: bridging the synthetic to real domain gap for depth estimation ( http://arxiv.org/abs/2005.09623v1 )

ライセンス: Link先を確認
Maxim Maximov, Kevin Galim and Laura Leal-Taix\'e(参考訳) データ駆動深度推定法は、実世界のシーンの膨大な変動により、トレーニングシーン外の一般化に苦慮する。 この問題は合成生成画像を利用することで部分的に解決できるが、合成実領域のギャップを閉じることは自明ではない。 本稿では,ドメイン不変デフォーカスブラーを直接監視として利用することにより,この問題に対処する。 我々は,焦点の異なる画像間の差異からネットワークが学習することを奨励する置換不変畳み込みニューラルネットワークを用いて,デフォーカスのヒントを活用する。 提案するネットワークは,中間監視信号としてデフォーカスマップを用いる。 モデルを完全に合成データに基づいてトレーニングし、それを現実世界の幅広い画像に直接適用することが可能です。 我々は,合成および実データを用いたモデルの評価を行い,有意な一般化結果と最先端の深度予測を示す。

Data-driven depth estimation methods struggle with the generalization outside their training scenes due to the immense variability of the real-world scenes. This problem can be partially addressed by utilising synthetically generated images, but closing the synthetic-real domain gap is far from trivial. In this paper, we tackle this issue by using domain invariant defocus blur as direct supervision. We leverage defocus cues by using a permutation invariant convolutional neural network that encourages the network to learn from the differences between images with a different point of focus. Our proposed network uses the defocus map as an intermediate supervisory signal. We are able to train our model completely on synthetic data and directly apply it to a wide range of real-world images. We evaluate our model on synthetic and real datasets, showing compelling generalization results and state-of-the-art depth prediction.
翻訳日:2022-12-01 14:16:16 公開日:2020-05-19
# ハイブリッドメタヒューリスティックアルゴリズムを用いたモバイルクラウド環境におけるエネルギー効率の良いサービス構成機構

An energy efficient service composition mechanism using a hybrid meta-heuristic algorithm in a mobile cloud environment ( http://arxiv.org/abs/2006.16771v1 )

ライセンス: Link先を確認
Godar J. Ibrahim, Tarik A. Rashid, Mobayode O. Akinsolu(参考訳) テクノロジとヒューマンライフにおけるモバイルデバイスの増加により、多数のアトミックサービスの構成とともに、ランタイムとモバイルサービスの使用はより複雑になっています。 異なるサービスはモバイルクラウドコンポーネントによって提供され、一連の標準で適用されるQuality of Service (QoS)として機能しない特性を表す。 一方,モバイル・ノードの省エネ問題により,モバイル・クラウドにおけるエネルギー源の不均一性の増大が課題となっている。 np-hard問題としてのモバイルクラウドサービスの構成には,モバイルクラウドコンポーネントの展開と相互運用性を拡張可能な,最適なエネルギアウェア方式による効率的な選択方法が考えられる。 また,移動体クラウドコンポーネントの省エネシナリオを維持するため,エネルギー対応型サービス構成機構も必要である。 本稿では,ハイブリッドシャッフルカエル跳躍アルゴリズムと遺伝的アルゴリズム(sfga)を用いて,モバイルクラウドサービスの構成を最適化するエネルギアウェア機構を提案する。 実験結果から,提案機構は,現在のアルゴリズムに対する移動体クラウドコンポーネントの最小エネルギー消費,応答時間,コストで,サービス構成の実現可能性を向上させる。

By increasing mobile devices in technology and human life, using a runtime and mobile services has gotten more complex along with the composition of a large number of atomic services. Different services are provided by mobile cloud components to represent the non-functional properties as Quality of Service (QoS), which is applied by a set of standards. On the other hand, the growth of the energy-source heterogeneity in mobile clouds is an emerging challenge according to the energy-saving problem in mobile nodes. To mobile cloud service composition as an NP-Hard problem, an efficient selection method should be taken by problem using optimal energy-aware methods that can extend the deployment and interoperability of mobile cloud components. Also, an energy-aware service composition mechanism is required to preserve high energy saving scenarios for mobile cloud components. In this paper, an energy-aware mechanism is applied to optimize mobile cloud service composition using a hybrid Shuffled Frog Leaping Algorithm and Genetic Algorithm (SFGA). Experimental results capture that the proposed mechanism improves the feasibility of the service composition with minimum energy consumption, response time, and cost for mobile cloud components against some current algorithms.
翻訳日:2022-12-01 14:08:45 公開日:2020-05-19
# 一般会話知能のための制御言語とベイビーチューリングテスト

Controlled Language and Baby Turing Test for General Conversational Intelligence ( http://arxiv.org/abs/2005.09280v1 )

ライセンス: Link先を確認
Anton Kolonin(参考訳) 一般的な会話知能は、人工知能の重要な部分である。 それぞれ、知性の品質とその達成の制御可能な方法のアクセス可能な測定方法が必要であり、言語モデルと意味モデルが合理的に表現されるのが理想的である。 我々の研究は、任意の主題領域に拡張可能な意味グラフ表現に基づく対話知と制御言語のための古典的チューリングテストの拡張にベイビーチューリングテストアプローチを使うことを提案する。 本稿では,オンラインメディアやソーシャルネットワークデータ処理のためのインテリジェントアシスタントなどの汎用対話システムの構築に,この2つを併用する方法について述べる。

General conversational intelligence appears to be an important part of artificial general intelligence. Respectively, it requires accessible measures of the intelligence quality and controllable ways of its achievement, ideally - having the linguistic and semantic models represented in a reasonable way. Our work is suggesting to use Baby Turing Test approach to extend the classic Turing Test for conversational intelligence and controlled language based on semantic graph representation extensible for arbitrary subject domain. We describe how the two can be used together to build a general-purpose conversational system such as an intelligent assistant for online media and social network data processing.
翻訳日:2022-12-01 14:08:24 公開日:2020-05-19
# taip: 学生チームをインターンシッププログラムに割り当てるanytimeアルゴリズム

TAIP: an anytime algorithm for allocating student teams to internship programs ( http://arxiv.org/abs/2005.09331v1 )

ライセンス: Link先を確認
Athina Georgara, Carles Sierra, Juan A. Rodr\'iguez-Aguilar(参考訳) チームワークが必要なシナリオでは、通常、それぞれを実行するためにチームを形成する必要がある、さまざまな特定のタスクを手元に持っています。 ここでは、教育の文脈において、特に学生のチームを編成し、インターンシッププログラムに割り当てる文脈において、チームとタスクをマッチングする問題をターゲットにしている。 まず、インターンシッププログラム問題のためのチーム割当の形式化を行い、それを最適に解くことの計算困難さを示す。 その後,最初のチーム割り当てを生成するヒューリスティックアルゴリズムであるtaipを提案する。 さらに,TAIPが最適に到達し,時間的にCPLEXより優れていることを示すため,系統評価を行った。

In scenarios that require teamwork, we usually have at hand a variety of specific tasks, for which we need to form a team in order to carry out each one. Here we target the problem of matching teams with tasks within the context of education, and specifically in the context of forming teams of students and allocating them to internship programs. First we provide a formalization of the Team Allocation for Internship Programs Problem, and show the computational hardness of solving it optimally. Thereafter, we propose TAIP, a heuristic algorithm that generates an initial team allocation which later on attempts to improve in an iterative process. Moreover, we conduct a systematic evaluation to show that TAIP reaches optimality, and outperforms CPLEX in terms of time.
翻訳日:2022-12-01 14:08:16 公開日:2020-05-19
# モンテカルロ木探索における2番目の不確かさ

The Second Type of Uncertainty in Monte Carlo Tree Search ( http://arxiv.org/abs/2005.09645v1 )

ライセンス: Link先を確認
Thomas M Moerland, Joost Broekens, Aske Plaat, Catholijn M Jonker(参考訳) モンテカルロ木探索 (monte carlo tree search, mcts) は、木探索における探索と搾取の効率良くバランスをとる。 しかし、これらのローカル訪問数は、アクション以下のサブツリーのサイズによって引き起こされる第2のタイプの不確実性を無視します。 我々はまず,この第2の不確実性タイプが欠如していることから,強化学習コミュニティでよく知られたスパース探索問題において,mctsが完全に失敗する可能性を示す。 次に、アクションの下のサブツリーのサイズを推定する新しいアルゴリズムを導入し、UCB式におけるこれらの情報を利用して直接探索する。 その後、これらのアイデアを一般化し、ループ、すなわち、同じトレースにおける同じ状態の(およそ)繰り返し発生は、実際には部分木の深さ変化の特別な場合であることを示す。 さまざまなタスクのテストでは,特に時間単位の計画予算が小さい場合には,アルゴリズムのサンプリング効率が向上することが示された。

Monte Carlo Tree Search (MCTS) efficiently balances exploration and exploitation in tree search based on count-derived uncertainty. However, these local visit counts ignore a second type of uncertainty induced by the size of the subtree below an action. We first show how, due to the lack of this second uncertainty type, MCTS may completely fail in well-known sparse exploration problems, known from the reinforcement learning community. We then introduce a new algorithm, which estimates the size of the subtree below an action, and leverages this information in the UCB formula to better direct exploration. Subsequently, we generalize these ideas by showing that loops, i.e., the repeated occurrence of (approximately) the same state in the same trace, are actually a special case of subtree depth variation. Testing on a variety of tasks shows that our algorithms increase sample efficiency, especially when the planning budget per timestep is small.
翻訳日:2022-12-01 14:08:03 公開日:2020-05-19
# 腎臓交換アルゴリズムのヒト値への適応

Adapting a Kidney Exchange Algorithm to Align with Human Values ( http://arxiv.org/abs/2005.09755v1 )

ライセンス: Link先を確認
Rachel Freedman, Jana Schaich Borg, Walter Sinnott-Armstrong, John P. Dickerson, Vincent Conitzer(参考訳) 限られた資源を効率よく公平に割り当てることは、経済学と計算機科学における古典的な問題である。 腎臓交換では、中央市場メーカーが臓器を必要とする患者に生きた腎臓ドナーを割り当てる。 腎臓交換の患者とドナーは、委員会によって決められたアドホックウェイトを使用して優先順位付けされ、誰が何を得るかを決定するアルゴリズムに供給される。 本稿では,腎臓交換における個人プロファイルの重量推定のためのエンドツーエンド手法を提案する。 まず、患者を優先する目的(例えば、医療的特徴、ライフスタイルの選択など)に許容されると思われる患者の属性のリストを被験者から導き出した。 そこで我々は,患者プロファイル間の比較クエリと,その応答から推定重量を原則的に求める。 腎交換市場清算アルゴリズムにおけるこれらの重みの使用方法を示す。 次に,シミュレーションにおける重みの影響を評価し,計算した重みの正確な数値が,それらが意味するプロファイルの順序以外のほとんどないことを見出す。 しかし、患者を優先順位付けしていない場合に比べ、特定の患者は人為的価値判断に基づいて優先順位付けされる(de)ため、有意な効果がある。

The efficient and fair allocation of limited resources is a classical problem in economics and computer science. In kidney exchanges, a central market maker allocates living kidney donors to patients in need of an organ. Patients and donors in kidney exchanges are prioritized using ad-hoc weights decided on by committee and then fed into an allocation algorithm that determines who gets what--and who does not. In this paper, we provide an end-to-end methodology for estimating weights of individual participant profiles in a kidney exchange. We first elicit from human subjects a list of patient attributes they consider acceptable for the purpose of prioritizing patients (e.g., medical characteristics, lifestyle choices, and so on). Then, we ask subjects comparison queries between patient profiles and estimate weights in a principled way from their responses. We show how to use these weights in kidney exchange market clearing algorithms. We then evaluate the impact of the weights in simulations and find that the precise numerical values of the weights we computed matter little, other than the ordering of profiles that they imply. However, compared to not prioritizing patients at all, there is a significant effect, with certain classes of patients being (de)prioritized based on the human-elicited value judgments.
翻訳日:2022-12-01 14:07:47 公開日:2020-05-19
# 粒度認識のためのマルチスケール受容場の構築

Associating Multi-Scale Receptive Fields for Fine-grained Recognition ( http://arxiv.org/abs/2005.09153v1 )

ライセンス: Link先を確認
Zihan Ye, Fuyuan Hu, Yin Liu, Zhenping Xia, Fan Lyu, Pengqing Liu(参考訳) 抽出・融合部特徴が微粒化画像認識の鍵となっている。 最近,Non-local (NL) モジュールは画像認識に優れていた。 しかし、マルチスケール部分特徴間の相互作用をモデル化するメカニズムが欠如しており、これはきめ細かい認識に不可欠である。 本稿では,複数スケールの受容場を2つの演算で関連付ける新しいクロスレイヤー非局所(cnl)モジュールを提案する。 まず、cnlはクエリ層とすべての応答層の間の相関を計算する。 第2に、すべての応答機能は相関に従って重み付けされ、クエリ機能に追加される。 層間特性の相互作用により,本モデルは多層層間の空間依存性を構築し,より識別的な特徴を学習する。 さらに,低次元深層をクエリ層として設定すれば,集約コストを低減できる。 詳細な分類の3つのベンチマークデータセットにおいて、我々のモデルが最先端の結果を達成または上回ることを示す実験を行った。 我々のコードはgithub.com/fouriye/cnl-icip2020にある。

Extracting and fusing part features have become the key of fined-grained image recognition. Recently, Non-local (NL) module has shown excellent improvement in image recognition. However, it lacks the mechanism to model the interactions between multi-scale part features, which is vital for fine-grained recognition. In this paper, we propose a novel cross-layer non-local (CNL) module to associate multi-scale receptive fields by two operations. First, CNL computes correlations between features of a query layer and all response layers. Second, all response features are weighted according to the correlations and are added to the query features. Due to the interactions of cross-layer features, our model builds spatial dependencies among multi-level layers and learns more discriminative features. In addition, we can reduce the aggregation cost if we set low-dimensional deep layer as query layer. Experiments are conducted to show our model achieves or surpasses state-of-the-art results on three benchmark datasets of fine-grained classification. Our codes can be found at github.com/FouriYe/CNL-ICIP2020.
翻訳日:2022-12-01 14:07:28 公開日:2020-05-19
# MOTS:Few-Shot法による汎用カテゴリのための複数オブジェクト追跡

MOTS: Multiple Object Tracking for General Categories Based On Few-Shot Method ( http://arxiv.org/abs/2005.09167v1 )

ライセンス: Link先を確認
Xixi Xu, Chao Lu, Liang Zhu, Xiangyang Xue, Guanxian Chen, Qi Guo, Yining Lin, Zhijian Zhao(参考訳) 現代のマルチオブジェクト追跡(MOT)システムは通常、計算効率と性能のバランスをとるためにREIDベースのパラダイムを適用している。 過去数年間、システムを完成させるために多くの試みがなされてきた。 彼らは好成績を示したが、特定のカテゴリーの追跡に制限されていた。 少数ショット手法のアイデアに基づいて,MOTSと呼ばれる,特定のカテゴリの追跡に限らず,メトリクスに基づいた新しいマルチターゲットトラッキングシステムを開発した。 最初の段階では、mot16トレーニングセットのパフォーマンスを犠牲にすることなく88.76%の割り当てを完了できる単純なターゲットマッチングを実行する自己適応マッチングモジュールを設計します。 第2段階では、未整合ターゲットのためのファインマッチネットワークが慎重に設計された。 新たに構築されたTRACK-REIDデータセットにより、ファインマッチネットワークは31のカテゴリターゲットのマッチングを実行できる。

Most modern Multi-Object Tracking (MOT) systems typically apply REID-based paradigm to hold a balance between computational efficiency and performance. In the past few years, numerous attempts have been made to perfect the systems. Although they presented favorable performance, they were constrained to track specified category. Drawing on the ideas of few shot method, we pioneered a new multi-target tracking system, named MOTS, which is based on metrics but not limited to track specific category. It contains two stages in series: In the first stage, we design the self-Adaptive-matching module to perform simple targets matching, which can complete 88.76% assignments without sacrificing performance on MOT16 training set. In the second stage, a Fine-match Network was carefully designed for unmatched targets. With a newly built TRACK-REID data-set, the Fine-match Network can perform matching of 31 category targets, even generalizes to unseen categories.
翻訳日:2022-12-01 14:06:52 公開日:2020-05-19
# 微分可能マッピングネットワーク:疎視化のための構造化マップ表現の学習

Differentiable Mapping Networks: Learning Structured Map Representations for Sparse Visual Localization ( http://arxiv.org/abs/2005.09530v1 )

ライセンス: Link先を確認
Peter Karkus, Anelia Angelova, Vincent Vanhoucke, Rico Jonschkowski(参考訳) マッピングとローカライゼーションは、好ましくは少数の観察から、ロボット工学における基本的なタスクである。 本稿では,空間構造(微分可能マッピング)とエンドツーエンド学習を組み合わせた新しいニューラルネットワークアーキテクチャである微分可能マッピングネットワーク(DMN)を提案する。 DMNは空間的に構造化されたビュー埋め込みマップを構築し、粒子フィルタによるその後の視覚的位置決めに使用する。 dmnアーキテクチャはエンドツーエンドで微分可能であるため、勾配降下を用いて地図表現と局所化を共同で学ぶことができる。 DMNを視覚的ローカライゼーションに応用し、ロボットは既知の視点からの少数の画像に対して、新しい環境にローカライズする必要がある。 シミュレーション環境と実世界のストリートビューデータセットを用いたDMNの評価を行った。 DMNは視覚的局所化のための効率的な地図表現を学習する。 空間構造の利点は、より大きな環境、マッピングの視点、そしてトレーニングデータが不足している場合に増大する。 プロジェクトウェブサイト: http://sites.google.com/view/differentiable-mapping

Mapping and localization, preferably from a small number of observations, are fundamental tasks in robotics. We address these tasks by combining spatial structure (differentiable mapping) and end-to-end learning in a novel neural network architecture: the Differentiable Mapping Network (DMN). The DMN constructs a spatially structured view-embedding map and uses it for subsequent visual localization with a particle filter. Since the DMN architecture is end-to-end differentiable, we can jointly learn the map representation and localization using gradient descent. We apply the DMN to sparse visual localization, where a robot needs to localize in a new environment with respect to a small number of images from known viewpoints. We evaluate the DMN using simulated environments and a challenging real-world Street View dataset. We find that the DMN learns effective map representations for visual localization. The benefit of spatial structure increases with larger environments, more viewpoints for mapping, and when training data is scarce. Project website: http://sites.google.com/view/differentiable-mapping
翻訳日:2022-12-01 13:59:42 公開日:2020-05-19
# 深部ニューラルネットワークを用いた自己監督型ダイナミックCT灌流画像

Self-supervised Dynamic CT Perfusion Image Denoising with Deep Neural Networks ( http://arxiv.org/abs/2005.09766v1 )

ライセンス: Link先を確認
Dufan Wu, Hui Ren, Quanzheng Li(参考訳) dynamic ct perfusion (ctp) imagingは急性期脳梗塞の診断と評価に有望なアプローチである。 脳小葉の血行力学的パラメトリックマップは、脳内のヨウ素化コントラストの第1パスの繰り返しctスキャンから計算される。 画像診断を行うには, 画像診断が必要であるため, 繰り返しスキャンによる高放射線曝露による日常的用途におけるCTPの線量削減が必要である。 本稿では,高用量参照画像を必要としないCTP復調のための自己教師型深層学習手法を提案する。 ネットワークは、CTPの各フレームを隣接するフレームからの推定にマッピングすることで訓練された。 ソースとターゲットのノイズは独立しているため、このアプローチは効果的にノイズを取り除くことができる。 高用量トレーニング画像がないため、提案手法は異なる走査プロトコルに容易に適応できる。 この手法は、シミュレーションとパブリックリアルデータセットの両方で検証された。 提案手法は従来の復調法に比べて画質が向上した。 実データでは,シミュレーションデータから学習した教師付き学習と比較して,空間分解能とコントラスト対雑音比が向上した。

Dynamic computed tomography perfusion (CTP) imaging is a promising approach for acute ischemic stroke diagnosis and evaluation. Hemodynamic parametric maps of cerebral parenchyma are calculated from repeated CT scans of the first pass of iodinated contrast through the brain. It is necessary to reduce the dose of CTP for routine applications due to the high radiation exposure from the repeated scans, where image denoising is necessary to achieve a reliable diagnosis. In this paper, we proposed a self-supervised deep learning method for CTP denoising, which did not require any high-dose reference images for training. The network was trained by mapping each frame of CTP to an estimation from its adjacent frames. Because the noise in the source and target was independent, this approach could effectively remove the noise. Being free from high-dose training images granted the proposed method easier adaptation to different scanning protocols. The method was validated on both simulation and a public real dataset. The proposed method achieved improved image quality compared to conventional denoising methods. On the real data, the proposed method also had improved spatial resolution and contrast-to-noise ratio compared to supervised learning which was trained on the simulation data
翻訳日:2022-12-01 13:59:24 公開日:2020-05-19
# 生成逆ネットワークを用いた医用画像生成

Medical Image Generation using Generative Adversarial Networks ( http://arxiv.org/abs/2005.10687v1 )

ライセンス: Link先を確認
Nripendra Kumar Singh, Khalid Raza(参考訳) generative adversarial networks(gans)は、コンピュータビジョンコミュニティにおいて教師なしのディープラーニングアプローチであり、ここ数年でマルチモーダル医療画像データの内部構造を特定することに大きな注目を集めている。 敵ネットワークは、写実的な医用画像と対応する注釈を同時に生成し、画像拡張、画像登録、医用画像生成、画像再構成、画像から画像への変換など、多くのケースで有用であることが証明される。 これらの特性は、医学画像解析の分野における研究者の注意を喚起し、多くの新規・伝統的応用において急速な適応の証となる。 本章は、医用画像生成およびクロスモダリティ合成におけるGANsベースの臨床応用の最先端について述べる。 GANの様々なフレームワークは、Deep Convolutional GAN (DCGAN)、Laplacian GAN (LAPGAN)、pix2pix、CycleGAN、unsupervised image-to-image translation model (UNIT)などの医療画像の解釈で人気を博し、追加のハイブリッドアーキテクチャを組み込むことで、その性能の向上が議論されている。 さらに,これらのフレームワークの最近の画像再構成,合成,今後の研究方向性についても紹介した。

Generative adversarial networks (GANs) are unsupervised Deep Learning approach in the computer vision community which has gained significant attention from the last few years in identifying the internal structure of multimodal medical imaging data. The adversarial network simultaneously generates realistic medical images and corresponding annotations, which proven to be useful in many cases such as image augmentation, image registration, medical image generation, image reconstruction, and image-to-image translation. These properties bring the attention of the researcher in the field of medical image analysis and we are witness of rapid adaption in many novel and traditional applications. This chapter provides state-of-the-art progress in GANs-based clinical application in medical image generation, and cross-modality synthesis. The various framework of GANs which gained popularity in the interpretation of medical images, such as Deep Convolutional GAN (DCGAN), Laplacian GAN (LAPGAN), pix2pix, CycleGAN, and unsupervised image-to-image translation model (UNIT), continue to improve their performance by incorporating additional hybrid architecture, has been discussed. Further, some of the recent applications of these frameworks for image reconstruction, and synthesis, and future research directions in the area have been covered.
翻訳日:2022-12-01 13:59:08 公開日:2020-05-19
# 言葉に真実を語る:(なぜ)注意は説明できるのか?

Staying True to Your Word: (How) Can Attention Become Explanation? ( http://arxiv.org/abs/2005.09379v1 )

ライセンス: Link先を確認
Martin Tutek, Jan \v{S}najder(参考訳) 注意機構はNLPにおいて急速に普及している。 モデルの性能向上に加えて,NLPモデルの内部動作を垣間見るために注目が集まっている。 後者の側面は近年、ジャイナとウォレスの2019年、ウィグリーフとパターの2019年の業績など、一般的な議論のトピックとなっている。 透明化ツールとしての注意重みの使用の欠点が明らかになったため、注意機構は具体的証拠がなく、説明として利用できるかどうかが証明されていない。 本稿では,シーケンス分類タスクにおいて再帰ネットワークを用いた場合,なぜ注意が正しい批判を受けたのかを説明する。 そこで本研究では, 単語レベルの目標として, この問題に対する対処法を提案するとともに, 再帰モデルの忠実な解釈を提供するために, 注意を喚起する信頼度を与える。

The attention mechanism has quickly become ubiquitous in NLP. In addition to improving performance of models, attention has been widely used as a glimpse into the inner workings of NLP models. The latter aspect has in the recent years become a common topic of discussion, most notably in work of Jain and Wallace, 2019; Wiegreffe and Pinter, 2019. With the shortcomings of using attention weights as a tool of transparency revealed, the attention mechanism has been stuck in a limbo without concrete proof when and whether it can be used as an explanation. In this paper, we provide an explanation as to why attention has seen rightful critique when used with recurrent networks in sequence classification tasks. We propose a remedy to these issues in the form of a word level objective and our findings give credibility for attention to provide faithful interpretations of recurrent models.
翻訳日:2022-12-01 13:58:07 公開日:2020-05-19
# テキストからの伝達学習による深層強化学習によるヒューマンインストラクション追従

Human Instruction-Following with Deep Reinforcement Learning via Transfer-Learning from Text ( http://arxiv.org/abs/2005.09382v1 )

ライセンス: Link先を確認
Felix Hill, Sona Mokra, Nathaniel Wong, Tim Harley(参考訳) 近年の研究では、人間によって指示されるインテリジェントエージェントやロボットへのステップとして、強化学習(RL)で訓練されたニューラルネットワークベースのエージェントについて、シミュレートされた世界で言語のようなコマンドを実行する方法が紹介されている。 しかし、ディープrlによるマルチゴールモーター政策の最適化には、多くの経験を必要とする。 したがって、deep rlによる命令追跡は、通常、実際のユーザの多種多様な表現やあいまいな表現を反映しないテンプレート(環境シミュレータによる)から生成される言語を伴う。 本稿では,人間の自然な指示にロバストな深層rlを用いた命令追従エージェントの訓練手法を提案する。 本手法を最先端のテキストベース言語モデル (BERT) を用いて適用することにより, エージェントが自然主義的な3Dシミュレーション室内において, 日常の物体を識別・位置決めする必要があるタスクに対して, 合成テンプレートコマンドから人間の指示する自然な指示へのほぼ短いゼロショット転送を実証する。 我々のアプローチは、人間と対話するための深いRLベースのシステムを訓練するための一般的なレシピであり、エージェント中心の運動行動とテキストベースの表現学習という2つの研究方向のギャップを埋めるものである。

Recent work has described neural-network-based agents that are trained with reinforcement learning (RL) to execute language-like commands in simulated worlds, as a step towards an intelligent agent or robot that can be instructed by human users. However, the optimisation of multi-goal motor policies via deep RL from scratch requires many episodes of experience. Consequently, instruction-following with deep RL typically involves language generated from templates (by an environment simulator), which does not reflect the varied or ambiguous expressions of real users. Here, we propose a conceptually simple method for training instruction-following agents with deep RL that are robust to natural human instructions. By applying our method with a state-of-the-art pre-trained text-based language model (BERT), on tasks requiring agents to identify and position everyday objects relative to other objects in a naturalistic 3D simulated room, we demonstrate substantially-above-chance zero-shot transfer from synthetic template commands to natural instructions given by humans. Our approach is a general recipe for training any deep RL-based system to interface with human users, and bridges the gap between two research directions of notable recent success: agent-centric motor behavior and text-based representation learning.
翻訳日:2022-12-01 13:57:53 公開日:2020-05-19
# シーケンシャルタスクのためのマルチモーダルアライメントデータセット作成のためのレシピ

A Recipe for Creating Multimodal Aligned Datasets for Sequential Tasks ( http://arxiv.org/abs/2005.09606v1 )

ライセンス: Link先を確認
Angela S. Lin, Sudha Rao, Asli Celikyilmaz, Elnaz Nouri, Chris Brockett, Debadeepta Dey, Bill Dolan(参考訳) 多くのハイレベルな手続きタスクは、その順序やツールの選択によって異なる命令列に分解することができる。 調理領域では、Webは、同じ料理(すなわちハイレベルなタスク)を作る方法を記述したテキストとビデオのレシピ(すなわちプロシージャ)を多数提供している。 異なるソースにまたがる同じ料理の指示を調整することで、従来のテキストの指示よりもはるかに豊かな説明的な視覚的説明が得られる。 これらの異なる命令セットを整列させる学習は困難です a) 異なるレシピは,指示の順序及び具材の使用によって異なります。 b) 映像指示は,うるさく,テキスト指示よりもはるかに多くの情報を含む傾向がある。 これらの課題に対処するために、まず、異なるレシピの命令間のペアアライメントを学習する教師なしアライメントアルゴリズムを使用する。 次に、グラフアルゴリズムを使用して、同一料理の複数のテキストと複数のビデオレシピの結合アライメントを導出する。 Microsoft Research Multimodal Aligned Recipe Corpusには,4,262料理のレシピ間で150Kのペアのアライメントと,豊富なコモンセンス情報が含まれている。

Many high-level procedural tasks can be decomposed into sequences of instructions that vary in their order and choice of tools. In the cooking domain, the web offers many partially-overlapping text and video recipes (i.e. procedures) that describe how to make the same dish (i.e. high-level task). Aligning instructions for the same dish across different sources can yield descriptive visual explanations that are far richer semantically than conventional textual instructions, providing commonsense insight into how real-world procedures are structured. Learning to align these different instruction sets is challenging because: a) different recipes vary in their order of instructions and use of ingredients; and b) video instructions can be noisy and tend to contain far more information than text instructions. To address these challenges, we first use an unsupervised alignment algorithm that learns pairwise alignments between instructions of different recipes for the same dish. We then use a graph algorithm to derive a joint alignment between multiple text and multiple video recipes for the same dish. We release the Microsoft Research Multimodal Aligned Recipe Corpus containing 150K pairwise alignments between recipes across 4,262 dishes with rich commonsense information.
翻訳日:2022-12-01 13:57:07 公開日:2020-05-19
# 衛星画像由来点雲による建物再建の深層学習

Deep Learning Guided Building Reconstruction from Satellite Imagery-derived Point Clouds ( http://arxiv.org/abs/2005.09223v1 )

ライセンス: Link先を確認
Bo Xu, Xu Zhang, Zhixin Li, Matt Leotta, Shih-Fu Chang, Jie Shan(参考訳) リモートセンシング画像による建築物の3次元都市復元は、過去20年間で大きな注目を集めている。 航空画像とlidarはより高い解像度を提供するが、衛星画像は大規模な需要のためにより安価で効率的である。 しかし、衛星観測の高軌道高度は、予測不可能な大気効果、多視点角、必要な複数のビューによる重要な放射測度差、様々な土地被覆と都市構造、小さなベースハイト比または狭い視野といった固有の課題をもたらし、これらは全て3D再構成の品質を低下させる可能性がある。 これらの課題に対処するため,多視点衛星画像から生成した点雲からモデル再構成を行うための信頼性が高く効果的な手法を提案する。 入力点クラウドに適合する複数のプリミティブ形状を利用する。 具体的には,建築屋根の形状を複雑かつ騒音の多い場面で区別するために,深層学習手法が採用されている。 同じ屋根形状に属する点に対しては,ビルディングポイントクラウドの効率的かつ信頼性の高いセグメンテーションと再構築のために,マルチキュー階層RANSACアプローチを提案する。 4つの都市(0.34~2.04平方キロメートル)における実験結果から,提案手法は騒音データ環境下で詳細な屋根構造を生成できることを示した。 建物形状認識の平均成功率は83.0%であり、全体の完全性と正確性は、空中ライダーによる地上の真理から70%以上である。 大規模都市モデル生成の公的なニーズに対処する最初の取り組みとして、開発はオープンソースソフトウェアとして展開される。

3D urban reconstruction of buildings from remotely sensed imagery has drawn significant attention during the past two decades. While aerial imagery and LiDAR provide higher resolution, satellite imagery is cheaper and more efficient to acquire for large scale need. However, the high, orbital altitude of satellite observation brings intrinsic challenges, like unpredictable atmospheric effect, multi view angles, significant radiometric differences due to the necessary multiple views, diverse land covers and urban structures in a scene, small base-height ratio or narrow field of view, all of which may degrade 3D reconstruction quality. To address these major challenges, we present a reliable and effective approach for building model reconstruction from the point clouds generated from multi-view satellite images. We utilize multiple types of primitive shapes to fit the input point cloud. Specifically, a deep-learning approach is adopted to distinguish the shape of building roofs in complex and yet noisy scenes. For points that belong to the same roof shape, a multi-cue, hierarchical RANSAC approach is proposed for efficient and reliable segmenting and reconstructing the building point cloud. Experimental results over four selected urban areas (0.34 to 2.04 sq km in size) demonstrate the proposed method can generate detailed roof structures under noisy data environments. The average successful rate for building shape recognition is 83.0%, while the overall completeness and correctness are over 70% with reference to ground truth created from airborne lidar. As the first effort to address the public need of large scale city model generation, the development is deployed as open source software.
翻訳日:2022-12-01 13:50:38 公開日:2020-05-19
# 点雲からの建物モデルの正則的パラメータ再構成

Holistic Parameteric Reconstruction of Building Models from Point Clouds ( http://arxiv.org/abs/2005.09226v1 )

ライセンス: Link先を確認
Zhixin Li, Wenyuan Zhang, Jie Shan(参考訳) 建物モデルは通常、屋根の点を平面分割し、トポロジーグラフを使って平面をグループ化することで再構築される。 ルーフエッジと頂点は数学的にセグメント化された平面に交差して表現される。 技術的には、このようなソリューションはシーケンシャルな局所的適合に基づいており、すなわち、1つの建物のデータ全体が同時にビルモデルの決定に関与していない。 その結果、解は位相的完全性と幾何学的厳密さの欠如である。 この従来のアプローチと根本的に異なるのは,1つの建物の点群全体を同時に考慮した全体的パラメトリック再構成手法を提案することである。 私たちの研究では、構築モデルは事前定義されたパラメトリック(roof)プリミティブから再構築されます。 まず、よく設計されたディープニューラルネットワークを使用して、所定のビルディングポイントクラウド内のプリミティブを識別します。 次に、セグメント化されたプリミティブのパラメータを同時に決定するために、全体最適化戦略を導入する。 最後のステップでは、最適なパラメータを使用して、CityGML形式で水密構築モデルを生成する。 既定屋根型を有する空中LiDARデータセットRoofN3Dを本試験に使用した。 データセット全体に適用したPointNet++は、プリミティブな分類で83%の精度を達成できることが示されている。 RoofN3Dの910の建物のサブセットに対して、全体論的アプローチはプリミティブのパラメータを決定し、建物を再構築するために使用される。 得られた全体の復元のクオリティは、入力lidar点の0.08mまたは0.7倍である。 本研究は,提案手法の効率と能力と,大規模都市点雲を扱う可能性を示す。

Building models are conventionally reconstructed by building roof points planar segmentation and then using a topology graph to group the planes together. Roof edges and vertices are then mathematically represented by intersecting segmented planes. Technically, such solution is based on sequential local fitting, i.e., the entire data of one building are not simultaneously participating in determining the building model. As a consequence, the solution is lack of topological integrity and geometric rigor. Fundamentally different from this traditional approach, we propose a holistic parametric reconstruction method which means taking into consideration the entire point clouds of one building simultaneously. In our work, building models are reconstructed from predefined parametric (roof) primitives. We first use a well-designed deep neural network to segment and identify primitives in the given building point clouds. A holistic optimization strategy is then introduced to simultaneously determine the parameters of a segmented primitive. In the last step, the optimal parameters are used to generate a watertight building model in CityGML format. The airborne LiDAR dataset RoofN3D with predefined roof types is used for our test. It is shown that PointNet++ applied to the entire dataset can achieve an accuracy of 83% for primitive classification. For a subset of 910 buildings in RoofN3D, the holistic approach is then used to determine the parameters of primitives and reconstruct the buildings. The achieved overall quality of reconstruction is 0.08 meters for point-surface-distance or 0.7 times RMSE of the input LiDAR points. The study demonstrates the efficiency and capability of the proposed approach and its potential to handle large scale urban point clouds.
翻訳日:2022-12-01 13:50:11 公開日:2020-05-19
# 適応重み選択によるマルチタスク学習による光電場顕微鏡からの集合アメーバ細胞分離の学習

Learning to segment clustered amoeboid cells from brightfield microscopy via multi-task learning with adaptive weight selection ( http://arxiv.org/abs/2005.09372v1 )

ライセンス: Link先を確認
Rituparna Sarkar, Suvadip Mukherjee, Elisabeth Labruy\`ere and Jean-Christophe Olivo-Marin(参考訳) 顕微鏡画像からの個々の細胞の検出とセグメンテーションは、様々な生命科学応用に不可欠である。 従来のセルセグメンテーションツールは、コントラストの低さと強度の不均一性のために、明るい磁場顕微鏡の応用には不適であり、クラスタ内のセグメントセルに適用できるサブセットはごくわずかである。 本稿では,マルチタスク学習パラダイムにおけるセルセグメンテーションのための新しい教師付き手法を提案する。 ネットワークの予測効率を向上させるために、領域とセル境界検出に基づくマルチタスク損失の組み合わせを用いる。 学習問題は、ハイパーパラメータを自動で適応的に推定できる新しいmin-maxフレームワークに設定される。 領域と細胞境界予測は形態学的操作と活性輪郭モデルによって結合され、個々の細胞を分割する。 提案手法は,手動による介入を伴わずに,明視野顕微鏡画像から触覚細胞を分離するのに特に適している。 検証セット上でのDiceスコアは0.93で、これは最近の教師なし手法では15.9%以上改善され、一般的な教師付きU-netアルゴリズムを平均5.8 %以上上回っている。

Detecting and segmenting individual cells from microscopy images is critical to various life science applications. Traditional cell segmentation tools are often ill-suited for applications in brightfield microscopy due to poor contrast and intensity heterogeneity, and only a small subset are applicable to segment cells in a cluster. In this regard, we introduce a novel supervised technique for cell segmentation in a multi-task learning paradigm. A combination of a multi-task loss, based on the region and cell boundary detection, is employed for an improved prediction efficiency of the network. The learning problem is posed in a novel min-max framework which enables adaptive estimation of the hyper-parameters in an automatic fashion. The region and cell boundary predictions are combined via morphological operations and active contour model to segment individual cells. The proposed methodology is particularly suited to segment touching cells from brightfield microscopy images without manual interventions. Quantitatively, we observe an overall Dice score of 0.93 on the validation set, which is an improvement of over 15.9% on a recent unsupervised method, and outperforms the popular supervised U-net algorithm by at least $5.8\%$ on average.
翻訳日:2022-12-01 13:49:17 公開日:2020-05-19
# 隠れマルコフ確率場と医療画像分割のためのカッコウ探索法

hidden markov random fields and cuckoo search method for medical image segmentation ( http://arxiv.org/abs/2005.09377v1 )

ライセンス: Link先を確認
EL-Hachemi Guerrout, Ramdane Mahiou, Dominique Michelucci, Boukabene Randa and Ouali Assia(参考訳) 医療画像のセグメンテーションは診断のプロセスにおいて不可欠な部分である。 医師は自動的で堅牢で有効な結果を必要とする。 隠れマルコフランダムフィールド(HMRF)は強力なモデルを提供する。 この後者はセグメンテーション問題をエネルギー関数の最小化としてモデル化する。 Cuckoo Search (CS)アルゴリズムは、最近の自然に触発されたメタヒューリスティックアルゴリズムの1つである。 多くのエンジニアリング最適化問題でその効率が示された。 本稿では,3つのcuckoo探索アルゴリズムを用いて医用画像分割を実現する。

Segmentation of medical images is an essential part in the process of diagnostics. Physicians require an automatic, robust and valid results. Hidden Markov Random Fields (HMRF) provide powerful model. This latter models the segmentation problem as the minimization of an energy function. Cuckoo search (CS) algorithm is one of the recent nature-inspired meta-heuristic algorithms. It has shown its efficiency in many engineering optimization problems. In this paper, we use three cuckoo search algorithm to achieve medical image segmentation.
翻訳日:2022-12-01 13:48:55 公開日:2020-05-19
# skincare projectは、悪性皮膚病変の鑑別診断のための対話型ディープラーニングシステムである。 技術報告

The Skincare project, an interactive deep learning system for differential diagnosis of malignant skin lesions. Technical Report ( http://arxiv.org/abs/2005.09448v1 )

ライセンス: Link先を確認
Daniel Sonntag, Fabrizio Nunnari, and Hans-J\"urgen Profitlich(参考訳) 皮膚科医の不足は、皮膚科医を求める患者に長い待ち時間をもたらす。 さらに、一般開業医の診断精度は、人工知能ソフトウェアの診断精度よりも低いと報告されている。 この記事では、Skincareプロジェクト(H2020, EIT Digital)について説明する。 コントリビューションには、インタラクティブ機械学習(IML)に基づく臨床意思決定支援技術、デジタルヨーロッパ医療インフラ(cf. EIT MCPS)への参照アーキテクチャ、デジタル化された患者情報を集約する技術コンポーネント、臨床テストベッド環境への意思決定支援技術の統合などが含まれる。 しかし,本研究の主な貢献は皮膚科における診断・意思決定支援システム,悪性皮膚病変の鑑別診断のための対話型深層学習システムである。 本稿では,人間の入力から機械学習を容易にするために,その機能とユーザインターフェースについて述べる。 皮膚科画像データベース(isic, dermatology image data base)から20000件程度の開発と検証を行う非特定ケースを用いて,最新の結果と一般実践者や皮膚科医を増強する可能性を提供するベースラインディープラーニングシステムを開発し,検証を行った。 ISICは、診断の曖昧さの一般的な設定で治療計画に使用される8つの診断のランクリストである差分診断を可能にする。 我々は,スキンケアプロジェクトの結果について全体像を示し,imlにおける人間と機械のコミュニケーションと協調を支援するステップに焦点を当てた。 これは医療領域における将来の認知アシスタントの開発において不可欠な部分であり、必要なインテリジェントユーザインタフェースについて述べる。

A shortage of dermatologists causes long wait times for patients who seek dermatologic care. In addition, the diagnostic accuracy of general practitioners has been reported to be lower than the accuracy of artificial intelligence software. This article describes the Skincare project (H2020, EIT Digital). Contributions include enabling technology for clinical decision support based on interactive machine learning (IML), a reference architecture towards a Digital European Healthcare Infrastructure (also cf. EIT MCPS), technical components for aggregating digitised patient information, and the integration of decision support technology into clinical test-bed environments. However, the main contribution is a diagnostic and decision support system in dermatology for patients and doctors, an interactive deep learning system for differential diagnosis of malignant skin lesions. In this article, we describe its functionalities and the user interfaces to facilitate machine learning from human input. The baseline deep learning system, which delivers state-of-the-art results and the potential to augment general practitioners and even dermatologists, was developed and validated using de-identified cases from a dermatology image data base (ISIC), which has about 20000 cases for development and validation, provided by board-certified dermatologists defining the reference standard for every case. ISIC allows for differential diagnosis, a ranked list of eight diagnoses, that is used to plan treatments in the common setting of diagnostic ambiguity. We give an overall description of the outcome of the Skincare project, and we focus on the steps to support communication and coordination between humans and machine in IML. This is an integral part of the development of future cognitive assistants in the medical domain, and we describe the necessary intelligent user interfaces.
翻訳日:2022-12-01 13:48:49 公開日:2020-05-19
# コア外GPUグラディエントブースティング

Out-of-Core GPU Gradient Boosting ( http://arxiv.org/abs/2005.09148v1 )

ライセンス: Link先を確認
Rong Ou(参考訳) gpuベースのアルゴリズムは多くの機械学習手法を大いに加速しているが、gpuメモリは通常メインメモリより小さく、トレーニングデータのサイズを制限している。 本稿では,XGBoostライブラリに実装されたGPUグラデーション高速化アルゴリズムについて述べる。 モデル精度やトレーニング時間を劣化させることなく、より大規模なデータセットを所定のGPUに適合させることができることを示す。 私たちの知る限りでは、これはグラデーションブースティングのGPU実装としては初めてのものです。 他の機械学習アルゴリズムにも同様のアプローチが適用できる。

GPU-based algorithms have greatly accelerated many machine learning methods; however, GPU memory is typically smaller than main memory, limiting the size of training data. In this paper, we describe an out-of-core GPU gradient boosting algorithm implemented in the XGBoost library. We show that much larger datasets can fit on a given GPU, without degrading model accuracy or training time. To the best of our knowledge, this is the first out-of-core GPU implementation of gradient boosting. Similar approaches can be applied to other machine learning algorithms
翻訳日:2022-12-01 13:40:25 公開日:2020-05-19
# 知識蒸留の効率化をめざした軽量教師の学習

Learning from a Lightweight Teacher for Efficient Knowledge Distillation ( http://arxiv.org/abs/2005.09163v1 )

ライセンス: Link先を確認
Yuang Liu, Wei Zhang, Jun Wang(参考訳) 知識蒸留(KD)は、学習モデルの圧縮に有効なフレームワークであり、訓練された教師が生み出すソフトターゲットを模倣するために、小さな学生ネットワークを必要とする学生-教師パラダイムによって実現されている。 しかし、教師は一般的に複雑であり、学生と同じデータセットで訓練する必要があると仮定される。 これは時間を要するトレーニングプロセスにつながります。 最近の研究では、バニラKDがラベルの平滑化と同じような役割を担い、教師なしKDを効率的に開発し、重質な教師からの学習を軽減している。 しかし、教師なしのKDは、同じクラスに属するすべてのデータインスタンスに対して、手作りの出力分布に依存しているため、その柔軟性と性能は比較的限られている。 以上の課題に対処するため,本論文では,軽量な知識蒸留のための,効率的な知識蒸留学習フレームワーク LW-KD を提案する。 まず、ターゲットデータセットと同じ調整可能なクラス番号で、合成された単純なデータセット上で軽量な教師ネットワークをトレーニングする。 そして、教師はソフトターゲットを生成し、強化されたkd損失は、教師の出力と区別できないkd損失と敵対的損失の組み合わせである学生学習を導くことができる。 異なるモダリティを持ついくつかの公開データセットの実験では、LWKDは効率的かつ効率的であることが示され、主要な設計原則の合理性を示している。

Knowledge Distillation (KD) is an effective framework for compressing deep learning models, realized by a student-teacher paradigm requiring small student networks to mimic the soft target generated by well-trained teachers. However, the teachers are commonly assumed to be complex and need to be trained on the same datasets as students. This leads to a time-consuming training process. The recent study shows vanilla KD plays a similar role as label smoothing and develops teacher-free KD, being efficient and mitigating the issue of learning from heavy teachers. But because teacher-free KD relies on manually-crafted output distributions kept the same for all data instances belonging to the same class, its flexibility and performance are relatively limited. To address the above issues, this paper proposes en efficient knowledge distillation learning framework LW-KD, short for lightweight knowledge distillation. It firstly trains a lightweight teacher network on a synthesized simple dataset, with an adjustable class number equal to that of a target dataset. The teacher then generates soft target whereby an enhanced KD loss could guide student learning, which is a combination of KD loss and adversarial loss for making student output indistinguishable from the output of the teacher. Experiments on several public datasets with different modalities demonstrate LWKD is effective and efficient, showing the rationality of its main design principles.
翻訳日:2022-12-01 13:32:09 公開日:2020-05-19
# 分配外テストの価値について--グッドハートの法則の例

On the Value of Out-of-Distribution Testing: An Example of Goodhart's Law ( http://arxiv.org/abs/2005.09241v1 )

ライセンス: Link先を確認
Damien Teney, Kushal Kafle, Robik Shrestha, Ehsan Abbasnejad, Christopher Kanan, Anton van den Hengel(参考訳) アウト・オブ・ディストリビューション(ood)テストは、トレーニングセットのバイアスを超えて一般化する機械学習システムの能力を評価するためにますます人気がある。 OODベンチマークは、トレーニングとテスト時間の間に異なるデータとラベルの結合分布を示すように設計されている。 VQA-CPは視覚的質問応答の標準的なOODベンチマークとなっているが、現状では3つの問題がある。 第一に、ほとんどの手法はOOD分割の構成に関する明示的な知識に依存している。 例えば、一般的なトレーニング回答が'no'である場合、ほとんど'yes'と答えるなどである。 第二に、OODテストセットはモデル選択に使用される。 第3に、モデルのドメイン内性能は、ラベルのよりバランスの取れた分布を示すドメイン内分割(VQA v2)で再トレーニングした後に評価される。 これら3つのプラクティスは、一般化を評価する目的を破り、このデータセットのために特別に設計されたメソッドの価値に疑問を投げかけた。 ランダムに回答を生成する手法を含む、恥ずかしいほど単純な手法が、いくつかの質問タイプで芸術の状態を上回っていることを示す。 我々は、これらの落とし穴を回避し、OOD評価の利点を実現するために、短期および長期のソリューションを提供する。

Out-of-distribution (OOD) testing is increasingly popular for evaluating a machine learning system's ability to generalize beyond the biases of a training set. OOD benchmarks are designed to present a different joint distribution of data and labels between training and test time. VQA-CP has become the standard OOD benchmark for visual question answering, but we discovered three troubling practices in its current use. First, most published methods rely on explicit knowledge of the construction of the OOD splits. They often rely on ``inverting'' the distribution of labels, e.g. answering mostly 'yes' when the common training answer is 'no'. Second, the OOD test set is used for model selection. Third, a model's in-domain performance is assessed after retraining it on in-domain splits (VQA v2) that exhibit a more balanced distribution of labels. These three practices defeat the objective of evaluating generalization, and put into question the value of methods specifically designed for this dataset. We show that embarrassingly-simple methods, including one that generates answers at random, surpass the state of the art on some question types. We provide short- and long-term solutions to avoid these pitfalls and realize the benefits of OOD evaluation.
翻訳日:2022-12-01 13:31:43 公開日:2020-05-19
# VAEとβ-VAEを用いた教師なし異常位置推定

Unsupervised anomaly localization using VAE and beta-VAE ( http://arxiv.org/abs/2005.10686v1 )

ライセンス: Link先を確認
Leixin Zhou, Wenxiang Deng, Xiaodong Wu(参考訳) 変分自動エンコーダ(VAE)はデータ分散の教師なし学習において大きな可能性を示している。 通常の画像で訓練されたvaeは、正常な画像のみを再構成することができ、vae elboロス内の情報を操作することで画像内の異常画素を局在化することができる。 ELBOはKL分散損失(画像ワイド)と再構成損失(画素ワイド)からなる。 後者を予測子として使うのは自然で簡単です。 しかし、通常、通常の画像に局所的な異常を加えると、全体の再構成画像が劣化し、単純なピクセルエラーのみを用いた分割が正確でない。 通常の領域/画素の再構成精度を向上させるために, エネルギーに基づく投影法が提案され, 単純自然画像における最先端の局在化精度が得られた。 もう1つの可能な予測器はELBOであり、各ピクセルに対するそのコンポーネント勾配である。 以前の研究は、KL勾配は堅牢な予測器であると主張した。 本稿では,医療画像におけるエネルギーに基づく投影は,自然画像ほど有用ではないと主張する。 さらに, KL勾配予測器の頑健性は, VAEとデータセットの設定に大きく依存している。 また,β-VAEにおけるKL損失の重み付けと予測アンサンブルが異常局在に及ぼす影響についても検討した。

Variational Auto-Encoders (VAEs) have shown great potential in the unsupervised learning of data distributions. An VAE trained on normal images is expected to only be able to reconstruct normal images, allowing the localization of anomalous pixels in an image via manipulating information within the VAE ELBO loss. The ELBO consists of KL divergence loss (image-wise) and reconstruction loss (pixel-wise). It is natural and straightforward to use the later as the predictor. However, usually local anomaly added to a normal image can deteriorate the whole reconstructed image, causing segmentation using only naive pixel errors not accurate. Energy based projection was proposed to increase the reconstruction accuracy of normal regions/pixels, which achieved the state-of-the-art localization accuracy on simple natural images. Another possible predictors are ELBO and its components gradients with respect to each pixels. Previous work claimed that KL gradient is a robust predictor. In this paper, we argue that the energy based projection in medical imaging is not as useful as on natural images. Moreover, we observe that the robustness of KL gradient predictor totally depends on the setting of the VAE and dataset. We also explored the effect of the weight of KL loss within beta-VAE and predictor ensemble in anomaly localization.
翻訳日:2022-12-01 13:31:23 公開日:2020-05-19
# 大規模メッセージングデータからのワード・エモジ埋め込みは、表現的アイコンの現実的意味的関連を反映する

Word-Emoji Embeddings from large scale Messaging Data reflect real-world Semantic Associations of Expressive Icons ( http://arxiv.org/abs/2006.01207v1 )

ライセンス: Link先を確認
Jens Helge Reelfs and Oliver Hohlfeld and Markus Strohmaier and Niklas Henckell(参考訳) オンラインソーシャルネットワークJodelから得られた大規模メッセージングデータに単語絵文字の埋め込みを訓練する。 私たちのデータセットには4000万以上の文が含まれており、そのうち1100万の文がUnicode 13.0標準絵文字リストのサブセットで注釈付けされています。 この埋め込みに含まれる意味的絵文字の関連を,絵文字とテキスト,およびテキストと絵文字の関連を分析して検討する。 本研究は,大規模メッセージングデータに基づく単語絵文字の埋め込みが,実世界の意味的関連を反映していることを示すものである。 さらなる研究を可能にするために、私たちは、jodel emoji embedded dataset (jeed1488)をリリースします。

We train word-emoji embeddings on large scale messaging data obtained from the Jodel online social network. Our data set contains more than 40 million sentences, of which 11 million sentences are annotated with a subset of the Unicode 13.0 standard Emoji list. We explore semantic emoji associations contained in this embedding by analyzing associations between emojis, between emojis and text, and between text and emojis. Our investigations demonstrate anecdotally that word-emoji embeddings trained on large scale messaging data can reflect real-world semantic associations. To enable further research we release the Jodel Emoji Embedding Dataset (JEED1488) containing 1488 emojis and their embeddings along 300 dimensions.
翻訳日:2022-12-01 13:30:38 公開日:2020-05-19
# 進化的アルゴリズムにおける実数値遺伝子型制限について

On Restricting Real-Valued Genotypes in Evolutionary Algorithms ( http://arxiv.org/abs/2005.09380v1 )

ライセンス: Link先を確認
J{\o}rgen Nordmoen, T{\o}nnes Frostad Nygaard, Eivind Samuelsen and Kyrre Glette(参考訳) 実数値ジェノタイプと変異演算子、突然変異および交叉は、進化的アルゴリズムの基本的な構成要素を構成する。 実数値ジェノタイプは、ニューラルネットワークの重みからロボット制御システムのパラメータまで、幅広い文脈で利用されている。 実数値ゲノムのほとんどの利用間で共有されるのは、個々のパラメータの範囲を許容範囲に制限する必要性である。 本稿では、実数値ゲノムのパラメータの制限と、これらの値を適切に制限する最も有望な方法の分析について述べる。 実験とベンチマークの両例を用いて提案手法の有効性を実証し,本論文の知見がフィールド内の他の研究にどのように影響するかを文献レビューを通じて示す。 提案手法は,進化的アルゴリズム実践者からの最小限の介入を必要とし,変分演算子の繰り返し適用下ではよく振る舞う。

Real-valued genotypes together with the variation operators, mutation and crossover, constitute some of the fundamental building blocks of Evolutionary Algorithms. Real-valued genotypes are utilized in a broad range of contexts, from weights in Artificial Neural Networks to parameters in robot control systems. Shared between most uses of real-valued genomes is the need for limiting the range of individual parameters to allowable bounds. In this paper we will illustrate the challenge of limiting the parameters of real-valued genomes and analyse the most promising method to properly limit these values. We utilize both empirical as well as benchmark examples to demonstrate the utility of the proposed method and through a literature review show how the insight of this paper could impact other research within the field. The proposed method requires minimal intervention from Evolutionary Algorithm practitioners and behaves well under repeated application of variation operators, leading to better theoretical properties as well as significant differences in well-known benchmarks.
翻訳日:2022-12-01 13:30:26 公開日:2020-05-19
# 動的環境のための分散クラスタリング粒子群最適化:複数最適点の位置と追跡

A Diverse Clustering Particle Swarm Optimizer for Dynamic Environment: To Locate and Track Multiple Optima ( http://arxiv.org/abs/2005.09551v1 )

ライセンス: Link先を確認
Zahid Iqbal, Waseem Shahzad(参考訳) 実生活では、ほとんどの問題は動的です。 静的な問題を扱うために多くのアルゴリズムが提案されているが、これらのアルゴリズムは動的環境の問題に対処したり、うまく処理しない。 しかし、動的問題を扱うために多くのアルゴリズムが提案されているが、全てのアルゴリズムには、粒子の多様性や既に見つかったオプティマの追跡に関する制限や欠点がある。 これらの制限/引き戻しを克服するため,複数の最適点の追跡と配置,アルゴリズムの多様性と収束速度の向上により,動的環境を効果的に処理するアルゴリズムを提案する。 このアルゴリズムでは,探索空間の未発見領域を探索し,アルゴリズムの多様性を高める新しい手法が提案されている。 このアルゴリズムはまた、重複した過密粒子を効果的に処理する手法を用いる。 ブランクは文学で一般的に使われるmbpの移動ピークベンチマークを提案した。 また、Moving Peak Benchmarkでさまざまな実験を行ないました。 実験結果と異なる状態のアルゴリズムを比較した結果,より効率的に動作することがわかった。

In real life, mostly problems are dynamic. Many algorithms have been proposed to handle the static problems, but these algorithms do not handle or poorly handle the dynamic environment problems. Although, many algorithms have been proposed to handle dynamic problems but still, there are some limitations or drawbacks in every algorithm regarding diversity of particles and tracking of already found optima. To overcome these limitations/drawbacks, we have proposed a new efficient algorithm to handle the dynamic environment effectively by tracking and locating multiple optima and by improving the diversity and convergence speed of algorithm. In this algorithm, a new method has been proposed which explore the undiscovered areas of search space to increase the diversity of algorithm. This algorithm also uses a method to effectively handle the overlapped and overcrowded particles. Branke has proposed moving peak benchmark which is commonly used MBP in literature. We also have performed different experiments on Moving Peak Benchmark. After comparing the experimental results with different state of art algorithms, it was seen that our algorithm performed more efficiently.
翻訳日:2022-12-01 13:30:08 公開日:2020-05-19
# リーマン近似政策最適化

Riemannian Proximal Policy Optimization ( http://arxiv.org/abs/2005.09195v1 )

ライセンス: Link先を確認
Shijun Wang, Baocheng Zhu, Chen Li, Mingzhe Wu, James Zhang, Wei Chu, Yuan Qi(参考訳) 本稿では,マルコフ決定過程(MDP)問題を解決するために,収束性を保証する一般リーマン近似最適化アルゴリズムを提案する。 MDPにおけるポリシー関数をモデル化するために、ガウス混合モデル(GMM)を用い、正半定値行列のリーマン空間における非凸最適化問題として定式化する。 2つの政策関数に対して,gmms のwasserstein距離から導出される境界を用いて,政策改善に関する下限を提供する。 予備実験は,提案したリーマン近似ポリシ最適化アルゴリズムの有効性を示す。

In this paper, We propose a general Riemannian proximal optimization algorithm with guaranteed convergence to solve Markov decision process (MDP) problems. To model policy functions in MDP, we employ Gaussian mixture model (GMM) and formulate it as a nonconvex optimization problem in the Riemannian space of positive semidefinite matrices. For two given policy functions, we also provide its lower bound on policy improvement by using bounds derived from the Wasserstein distance of GMMs. Preliminary experiments show the efficacy of our proposed Riemannian proximal policy optimization algorithm.
翻訳日:2022-12-01 13:23:03 公開日:2020-05-19
# クロスドメインFew-Shot学習における大規模マージン機構と擬似クエリセット

Large Margin Mechanism and Pseudo Query Set on Cross-Domain Few-Shot Learning ( http://arxiv.org/abs/2005.09218v1 )

ライセンス: Link先を確認
Jia-Fong Yeh and Hsin-Ying Lee and Bing-Chen Tsai and Yi-Rong Chen and Ping-Chia Huang and Winston H. Hsu(参考訳) 近年では、数発の学習問題に注目が集まっている。 以前のほとんどの作業のメソッドは、単一のドメインのデータセットでトレーニングとテストが行われたが、クロスドメインの少数ショット学習は、トレーニングフェーズとテストフェーズの間にあるさまざまなドメインのデータセットを処理する、少数ショット学習問題の真新しいブランチである。 本稿では,共通対象,衛星画像,医用画像など4つの異なる領域のデータセットを微調整しながら,単一のデータセット上で事前学習(メタ訓練)されているという問題を解決するために,支援画像から疑似クエリ画像を生成し,顔認識の手法に触発された大きなマージン機構で特徴抽出モジュールを微調整する,新しい大マージン微調整法(lmm-pqs)を提案する。 実験結果によると,LMM-PQSはベースラインモデルよりもかなりのマージンを越え,我々のアプローチが堅牢であり,事前学習されたモデルをデータが少ない新しい領域に容易に適応できることを示した。

In recent years, few-shot learning problems have received a lot of attention. While methods in most previous works were trained and tested on datasets in one single domain, cross-domain few-shot learning is a brand-new branch of few-shot learning problems, where models handle datasets in different domains between training and testing phases. In this paper, to solve the problem that the model is pre-trained (meta-trained) on a single dataset while fine-tuned on datasets in four different domains, including common objects, satellite images, and medical images, we propose a novel large margin fine-tuning method (LMM-PQS), which generates pseudo query images from support images and fine-tunes the feature extraction modules with a large margin mechanism inspired by methods in face recognition. According to the experiment results, LMM-PQS surpasses the baseline models by a significant margin and demonstrates that our approach is robust and can easily adapt pre-trained models to new domains with few data.
翻訳日:2022-12-01 13:22:53 公開日:2020-05-19
# クラスタリングのための2次元半負行列分解

Two-Dimensional Semi-Nonnegative Matrix Factorization for Clustering ( http://arxiv.org/abs/2005.09229v1 )

ライセンス: Link先を確認
Chong Peng, Zhilu Zhang, Zhao Kang, Chenglizhao Chen, Qiang Cheng(参考訳) 本稿では,TS-NMFという2次元(2次元)データに対する半負行列分解法を提案する。 前処理ステップで2次元データをベクトルに変換することで、データの空間情報に深刻なダメージを与える既存の手法の欠点を克服する。 特に、射影行列は、空間情報が保持され、射影がクラスタリングの目標によって強化されるように、新しいデータ表現を構築するためのガイダンスの下で求められ、最適な射影方向を構築するのに役立つ。 さらに、データの非線形構造を利用するために、射影部分空間内に多様体が構築され、射影に応じて適応的に更新され、データのノイズや外れ値に伴わないため、射影空間においてより代表的である。 したがって、プロジェクションの探索、新しいデータ表現の構築、学習多様体は単一のモデルにシームレスに統合され、互いに強化され、強力なデータ表現につながる。 複数の最先端アルゴリズムと比較してTS-NMFの有効性を総合実験により検証し,提案手法の有効性を示唆した。

In this paper, we propose a new Semi-Nonnegative Matrix Factorization method for 2-dimensional (2D) data, named TS-NMF. It overcomes the drawback of existing methods that seriously damage the spatial information of the data by converting 2D data to vectors in a preprocessing step. In particular, projection matrices are sought under the guidance of building new data representations, such that the spatial information is retained and projections are enhanced by the goal of clustering, which helps construct optimal projection directions. Moreover, to exploit nonlinear structures of the data, manifold is constructed in the projected subspace, which is adaptively updated according to the projections and less afflicted with noise and outliers of the data and thus more representative in the projected space. Hence, seeking projections, building new data representations, and learning manifold are seamlessly integrated in a single model, which mutually enhance other and lead to a powerful data representation. Comprehensive experimental results verify the effectiveness of TS-NMF in comparison with several state-of-the-art algorithms, which suggests high potential of the proposed method for real world applications.
翻訳日:2022-12-01 13:22:31 公開日:2020-05-19
# k-sums:k-meansの別の側面

k-sums: another side of k-means ( http://arxiv.org/abs/2005.09485v1 )

ライセンス: Link先を確認
Wan-Lei Zhao, Run-Qing Chen, Hui Ye and Chong-Wah Ngo(参考訳) 本稿では、数十年前のクラスタリング手法k-meansを再考する。 k平均の本来の歪み最小化モデルは、純粋確率最小化法によって対処される。 イテレーションの各ステップでは、あるサンプルが暫定的にクラスタから別のクラスタに再配置される。 再配置がサンプルを新しいセントロイドに近づける限り、別のクラスタに移動する。 この最適化手順はより高速にk平均や多くの変種よりも良い局所最小値に収束する。 このk-meansループに対する根本的な修正は、k-means変種族の再定義につながる。 さらに,クラスタ内の対距離の和を最小化する新たなターゲット関数を提案する。 同じ確率的最適化手順で解くことができることを示す。 この最小化手順は、2つの最小化モデルに基づいて構築され、k平均とその変種を異なる設定と異なるデータセットで大幅に上回る。

In this paper, the decades-old clustering method k-means is revisited. The original distortion minimization model of k-means is addressed by a pure stochastic minimization procedure. In each step of the iteration, one sample is tentatively reallocated from one cluster to another. It is moved to another cluster as long as the reallocation allows the sample to be closer to the new centroid. This optimization procedure converges faster to a better local minimum over k-means and many of its variants. This fundamental modification over the k-means loop leads to the redefinition of a family of k-means variants. Moreover, a new target function that minimizes the summation of pairwise distances within clusters is presented. We show that it could be solved under the same stochastic optimization procedure. This minimization procedure built upon two minimization models outperforms k-means and its variants considerably with different settings and on different datasets.
翻訳日:2022-12-01 13:22:11 公開日:2020-05-19
# 確率ケージのない正規化注意

Normalized Attention Without Probability Cage ( http://arxiv.org/abs/2005.09561v1 )

ライセンス: Link先を確認
Oliver Richter and Roger Wattenhofer(参考訳) 注意アーキテクチャは広く使われており、最近、トランスフォーマーがアート結果の多くの状態をもたらすことで、再び人気を博した。 しかし、ソフトマックス・アテンションの幾何学的含意はほとんど解明されていない。 本稿では,注意重みを確率的単純度に制限する限界と値ベクトルの凸包について述べる。 トランスフォーマは,初期化時のトークン分離やコントラストトランスフォーマから単純なmaxおよびsumプールへ,シーケンス長依存の偏りを示す。 本稿では,自己着脱のソフトマックスを正規化に置き換え,ハイパーパラメータとデータバイアスロバストで汎用的なアーキテクチャを実現することを提案する。 25,000以上のトレーニングモデルから得られた経験的な結果によって、私たちの洞察を支持します。 すべての結果と実装が利用可能です。

Attention architectures are widely used; they recently gained renewed popularity with Transformers yielding a streak of state of the art results. Yet, the geometrical implications of softmax-attention remain largely unexplored. In this work we highlight the limitations of constraining attention weights to the probability simplex and the resulting convex hull of value vectors. We show that Transformers are sequence length dependent biased towards token isolation at initialization and contrast Transformers to simple max- and sum-pooling - two strong baselines rarely reported. We propose to replace the softmax in self-attention with normalization, yielding a hyperparameter and data-bias robust, generally applicable architecture. We support our insights with empirical results from more than 25,000 trained models. All results and implementations are made available.
翻訳日:2022-12-01 13:21:59 公開日:2020-05-19
# 誤り修復を伴う自己回復モデル

Self-Updating Models with Error Remediation ( http://arxiv.org/abs/2005.09787v1 )

ライセンス: Link先を確認
Justin E. Doak, Michael R. Smith, Joey B. Ingram(参考訳) 現在、多くの環境は、限られた数のトレーニングデータポイントを使用して構築されたデータ処理と分析に機械学習モデルを採用している。 一度デプロイされると、モデルは大量の未確認データに晒され、そのすべてがオリジナルの限られたトレーニングデータを表しているわけではない。 しかし、ロジスティック、帯域幅、時間、ハードウェア、および/またはデータ感度制約のために、これらのデプロイされたモデルを更新することは困難である。 我々は、デプロイされたモデルが新しいデータが利用可能になると、自身を更新するフレームワーク、Self-Updating Models with Error Remediation (SUMER)を提案する。 SUMERは、半教師付き学習とノイズ修復のテクニックを使用して、新しいトレーニングイテレーションのラベルとして、モデルからのインテリジェントな予測を使用して、デプロイされたモデルを反復的に再トレーニングする。 SUMERの重要な構成要素は、自己ラベル付きデータがエラーの伝播に影響を受けやすいため、エラー修正の概念である。 各種データセットおよびイテレーションにおけるSUMERの使用について検討する。 自己更新モデル(sums)は,事前確認済みのデータで自己更新を行なわないモデルよりも,一般的にパフォーマンスがよいことが分かりました。 この性能ギャップは、初期訓練データ量が限られている場合に強調される。 また、sumerのパフォーマンスはsumのパフォーマンスよりも一般的に優れており、エラー修復を適用する利点を示しています。 これにより、SUMERは動的環境のモデルをインテリジェントに更新することで、既存のデータ処理システムの運用能力を自律的に向上させることができる。

Many environments currently employ machine learning models for data processing and analytics that were built using a limited number of training data points. Once deployed, the models are exposed to significant amounts of previously-unseen data, not all of which is representative of the original, limited training data. However, updating these deployed models can be difficult due to logistical, bandwidth, time, hardware, and/or data sensitivity constraints. We propose a framework, Self-Updating Models with Error Remediation (SUMER), in which a deployed model updates itself as new data becomes available. SUMER uses techniques from semi-supervised learning and noise remediation to iteratively retrain a deployed model using intelligently-chosen predictions from the model as the labels for new training iterations. A key component of SUMER is the notion of error remediation as self-labeled data can be susceptible to the propagation of errors. We investigate the use of SUMER across various data sets and iterations. We find that self-updating models (SUMs) generally perform better than models that do not attempt to self-update when presented with additional previously-unseen data. This performance gap is accentuated in cases where there is only limited amounts of initial training data. We also find that the performance of SUMER is generally better than the performance of SUMs, demonstrating a benefit in applying error remediation. Consequently, SUMER can autonomously enhance the operational capabilities of existing data processing systems by intelligently updating models in dynamic environments.
翻訳日:2022-12-01 13:21:28 公開日:2020-05-19
# LALR:回帰とニューラルネットワークにおけるリプシッツ適応学習の理論的および実験的検証

LALR: Theoretical and Experimental validation of Lipschitz Adaptive Learning Rate in Regression and Neural Networks ( http://arxiv.org/abs/2006.13307v1 )

ライセンス: Link先を確認
Snehanshu Saha, Tejas Prashanth, Suraj Aralihalli, Sumedh Basarkod, T.S.B Sudarshan, Soma S Dhavala(参考訳) 本稿では,平均絶対誤差損失関数と量子損失関数に対する適応学習率ポリシーの理論的枠組みを提案し,その回帰タスクの有効性を評価する。 この枠組みは、特に損失関数の学習率とリプシッツ定数の関係を利用して、リプシッツ連続性の理論に基づいている。 実験の結果,適応学習率政策は一定の学習率政策に比べて最大20倍の収束が可能であることがわかった。

We propose a theoretical framework for an adaptive learning rate policy for the Mean Absolute Error loss function and Quantile loss function and evaluate its effectiveness for regression tasks. The framework is based on the theory of Lipschitz continuity, specifically utilizing the relationship between learning rate and Lipschitz constant of the loss function. Based on experimentation, we have found that the adaptive learning rate policy enables up to 20x faster convergence compared to a constant learning rate policy.
翻訳日:2022-12-01 13:20:51 公開日:2020-05-19
# 時空間参照による検索とハイライト行動

Retrieving and Highlighting Action with Spatiotemporal Reference ( http://arxiv.org/abs/2005.09183v1 )

ライセンス: Link先を確認
Seito Kasai, Yuchi Ishikawa, Masaki Hayashi, Yoshimitsu Aoki, Kensho Hara, Hirokatsu Kataoka(参考訳) 本稿では,映像中の動作を同時検索し,時空間的に強調する枠組みを提案する。 我々の研究はアクションハイライトという新しいタスクに焦点を合わせ、トリミングされていないビデオ環境でのアクションの発生場所とタイミングを視覚化する。 アクションハイライトは、分類やウィンドウベースのローカライゼーションに焦点を当てた従来のアクション認識タスクと比較して、きめ細かいタスクである。 注釈付きキャプションからの弱い監督を活用し,時空間関連マップを取得し,キャプション中の名詞や動詞に関連する局所埋め込みを生成する。 実験により,従来の視覚的推論手法は,一つの決定論的サリエンシマップを示す限り,様々な動作を条件に様々なマップを生成することを示す。 また,MSR-VTTデータセット上でのアライメントを2-3%向上させることなく,ベースライン上での検索リコールを改善する。

In this paper, we present a framework that jointly retrieves and spatiotemporally highlights actions in videos by enhancing current deep cross-modal retrieval methods. Our work takes on the novel task of action highlighting, which visualizes where and when actions occur in an untrimmed video setting. Action highlighting is a fine-grained task, compared to conventional action recognition tasks which focus on classification or window-based localization. Leveraging weak supervision from annotated captions, our framework acquires spatiotemporal relevance maps and generates local embeddings which relate to the nouns and verbs in captions. Through experiments, we show that our model generates various maps conditioned on different actions, in which conventional visual reasoning methods only go as far as to show a single deterministic saliency map. Also, our model improves retrieval recall over our baseline without alignment by 2-3% on the MSR-VTT dataset.
翻訳日:2022-12-01 13:20:42 公開日:2020-05-19
# 自動会話診断のためのQネットワークとFew-Shot新病適応

Prototypical Q Networks for Automatic Conversational Diagnosis and Few-Shot New Disease Adaption ( http://arxiv.org/abs/2005.11153v1 )

ライセンス: Link先を確認
Hongyin Luo, Shang-Wen Li, James Glass(参考訳) 音声対話システムは、自動会話診断のための医療を含む多くの領域で応用されている。 最先端のダイアログマネージャは通常、ディープQネットワーク(DQN)のような深い強化学習モデルによって駆動される。 しかし、dqnベースの自動診断モデルは、少数のトレーニングサンプルしか持たない新しい未発見疾患に適応しても、満足できる性能を得られない。 本稿では,自動診断システムのためのダイアログマネージャとして,プロトタイプQネットワーク(ProtoQN)を提案する。 このモデルは、医師と患者との実際の会話によるプロトタイプの埋め込みを計算し、そこから学習し、シミュレータ拡張ダイアログをより効率的に行う。 我々はMuzhiコーパスを用いて教師付きおよび数発の学習タスクを作成する。 実験により、protoqnは教師付きおよび少数ショットの学習シナリオでベースラインdqnモデルを大きく上回り、最先端の少数ショット学習性能を達成した。

Spoken dialog systems have seen applications in many domains, including medical for automatic conversational diagnosis. State-of-the-art dialog managers are usually driven by deep reinforcement learning models, such as deep Q networks (DQNs), which learn by interacting with a simulator to explore the entire action space since real conversations are limited. However, the DQN-based automatic diagnosis models do not achieve satisfying performances when adapted to new, unseen diseases with only a few training samples. In this work, we propose the Prototypical Q Networks (ProtoQN) as the dialog manager for the automatic diagnosis systems. The model calculates prototype embeddings with real conversations between doctors and patients, learning from them and simulator-augmented dialogs more efficiently. We create both supervised and few-shot learning tasks with the Muzhi corpus. Experiments showed that the ProtoQN significantly outperformed the baseline DQN model in both supervised and few-shot learning scenarios, and achieves state-of-the-art few-shot learning performances.
翻訳日:2022-12-01 13:14:07 公開日:2020-05-19
# AI/MLアプリケーションのためのオンチップトレーニングおよびスケーラブルANNのインメモリ実装

In-memory Implementation of On-chip Trainable and Scalable ANN for AI/ML Applications ( http://arxiv.org/abs/2005.09526v1 )

ライセンス: Link先を確認
Abhash Kumar, Jawar Singh, Sai Manohar Beeraka, and Bharat Gupta(参考訳) 従来のフォン・ノイマンアーキテクチャに基づくプロセッサは、別個の処理とメモリユニット(-\textit{Memory wall} とも呼ばれる)を含むため、エネルギーとスループットの面で非効率になる。 多数のインテリジェントなアプリケーションを可能にするニューラルネットワーク(ann)のリアルタイム実装のために、処理ユニットとメモリユニット間での大規模並列性と頻繁なデータ移動が必要な場合、メモリウォールの問題はさらに悪化する。 メモリウォール問題に対処する最も有望なアプローチの1つは、メモリコア内部で計算を行い、広範な計算のためにメモリ帯域幅とエネルギー効率を高めることである。 本稿では,人工知能 (ai) と機械学習 (ml) アプリケーションを実現する ann のためのインメモリコンピューティングアーキテクチャを提案する。 提案アーキテクチャは,多層パーセプトロンの実装に標準6トランジスタ (6T) 静的ランダムアクセスメモリ (SRAM) コアをベースとしたディープインメモリアーキテクチャを利用する。 提案するオンチップ・トレーニングおよび推論インメモリ・アーキテクチャは,プリチャージサイクル毎に複数行のsramアレイに同時アクセスし,データの頻繁なアクセスをなくし,エネルギーコストを削減し,スループットを向上させる。 提案アーキテクチャは、重み付け、アナログ乗算、エラー計算、デジタル変換への符号付きアナログ、その他の必要な信号制御ユニットなど、新たなビルディングブロックを用いて、ネットワークトレーニングの鍵となるバックプロパゲーションを実現する。 提案したアーキテクチャは、以前の分類器と比較してMAC当たりのエネルギー効率(複数および蓄積)を$\approx46\times$高めるIRISデータセットでトレーニングされ、テストされた。

Traditional von Neumann architecture based processors become inefficient in terms of energy and throughput as they involve separate processing and memory units, also known as~\textit{memory wall}. The memory wall problem is further exacerbated when massive parallelism and frequent data movement are required between processing and memory units for real-time implementation of artificial neural network (ANN) that enables many intelligent applications. One of the most promising approach to address the memory wall problem is to carry out computations inside the memory core itself that enhances the memory bandwidth and energy efficiency for extensive computations. This paper presents an in-memory computing architecture for ANN enabling artificial intelligence (AI) and machine learning (ML) applications. The proposed architecture utilizes deep in-memory architecture based on standard six transistor (6T) static random access memory (SRAM) core for the implementation of a multi-layered perceptron. Our novel on-chip training and inference in-memory architecture reduces energy cost and enhances throughput by simultaneously accessing the multiple rows of SRAM array per precharge cycle and eliminating the frequent access of data. The proposed architecture realizes backpropagation which is the keystone during the network training using newly proposed different building blocks such as weight updation, analog multiplication, error calculation, signed analog to digital conversion, and other necessary signal control units. The proposed architecture was trained and tested on the IRIS dataset which exhibits $\approx46\times$ more energy efficient per MAC (multiply and accumulate) operation compared to earlier classifiers.
翻訳日:2022-12-01 13:13:49 公開日:2020-05-19
# 系列タグ改善のための補助言語の選択について

On the Choice of Auxiliary Languages for Improved Sequence Tagging ( http://arxiv.org/abs/2005.09389v1 )

ライセンス: Link先を確認
Lukas Lange, Heike Adel, Jannik Str\"otgen(参考訳) 最近の研究により、関連する言語からの埋め込みは、単言語モデルでもシーケンスタグ付けのパフォーマンスを向上させることが示されている。 本稿では,最良補助言語が言語距離に基づいて予測可能かどうかについて検討し,最上位言語が必ずしも最良補助言語ではないことを示す。 さらに,注意に基づくメタ埋め込みは,異なる言語からの事前学習された埋め込みを効果的に組み合わせ,シーケンスタグ付けを行い,5つの言語でパート・オブ・スパイチタグ付けを行うための新たな最新結果を設定できることを示した。

Recent work showed that embeddings from related languages can improve the performance of sequence tagging, even for monolingual models. In this analysis paper, we investigate whether the best auxiliary language can be predicted based on language distances and show that the most related language is not always the best auxiliary language. Further, we show that attention-based meta-embeddings can effectively combine pre-trained embeddings from different languages for sequence tagging and set new state-of-the-art results for part-of-speech tagging in five languages.
翻訳日:2022-12-01 13:13:13 公開日:2020-05-19
# テキストから時間表現を抽出する多言語モデルの逆アライメント

Adversarial Alignment of Multilingual Models for Extracting Temporal Expressions from Text ( http://arxiv.org/abs/2005.09392v1 )

ライセンス: Link先を確認
Lukas Lange, Anastasiia Iurshina, Heike Adel, Jannik Str\"otgen(参考訳) 時間的タギングは依然としてルールに基づくシステムで支配されているが、近年はニューラルネットワークによる時間的タギングが試みられている。 しかし、いずれも単言語的設定に特化している。 本稿では,テキストから時間表現を抽出する多言語手法について検討し,埋め込み空間を1つの共通空間に整列させるための対角訓練について検討する。 これにより,未熟な言語にも変換可能な単一多言語モデルを作成し,それらの言語間伝達実験における新たな技術状態を設定する。

Although temporal tagging is still dominated by rule-based systems, there have been recent attempts at neural temporal taggers. However, all of them focus on monolingual settings. In this paper, we explore multilingual methods for the extraction of temporal expressions from text and investigate adversarial training for aligning embedding spaces to one common space. With this, we create a single multilingual model that can also be transferred to unseen languages and set the new state of the art in those cross-lingual transfer experiments.
翻訳日:2022-12-01 13:13:05 公開日:2020-05-19
# 臨床領域における共同診断と概念抽出

Closing the Gap: Joint De-Identification and Concept Extraction in the Clinical Domain ( http://arxiv.org/abs/2005.09397v1 )

ライセンス: Link先を確認
Lukas Lange, Heike Adel, Jannik Str\"otgen(参考訳) 臨床領域での自然言語処理の活用には、非識別、すなわちテキストにおける個人情報の匿名化が必要である。 しかし,近年の研究では,概念抽出などの非識別や下流課題は単独でのみ考慮され,非識別が他のタスクに与える影響は研究されていない。 本稿では,自動匿名化データに対する概念抽出性能を報告し,非同定と概念抽出のための共同モデルを検討することにより,このギャップを解消する。 特に,プライバシに敏感な情報へのアクセスを制限するスタックモデルとマルチタスクモデルを提案する。 我々は、この技術の新たな状態を、英語のベンチマークデータセット(非識別の96.1% F1、概念抽出の88.9% F1)とスペイン語(概念抽出の91.4% F1)に設定した。

Exploiting natural language processing in the clinical domain requires de-identification, i.e., anonymization of personal information in texts. However, current research considers de-identification and downstream tasks, such as concept extraction, only in isolation and does not study the effects of de-identification on other tasks. In this paper, we close this gap by reporting concept extraction performance on automatically anonymized data and investigating joint models for de-identification and concept extraction. In particular, we propose a stacked model with restricted access to privacy-sensitive information and a multitask model. We set the new state of the art on benchmark datasets in English (96.1% F1 for de-identification and 88.9% F1 for concept extraction) and Spanish (91.4% F1 for concept extraction).
翻訳日:2022-12-01 13:12:55 公開日:2020-05-19
# Sketch-BERT:Sketch Gestaltの自己教師学習による変換器からのスケッチ双方向エンコーダ表現の学習

Sketch-BERT: Learning Sketch Bidirectional Encoder Representation from Transformers by Self-supervised Learning of Sketch Gestalt ( http://arxiv.org/abs/2005.09159v1 )

ライセンス: Link先を確認
Hangyu Lin, Yanwei Fu, Yu-Gang Jiang, Xiangyang Xue(参考訳) 以前のスケッチの研究は、しばしばピクセル形式のスケッチを考慮し、スケッチ理解においてCNNベースのモデルを活用していた。 基本的に、スケッチはピクセルのフォトリアリスティック画像ではなく、ベクトル形式表現であるデータポイントのシーケンスとして保存される。 SketchRNNは、Long Short Term Memory Network (LSTM) によるベクトルフォーマットのスケッチのための生成ニューラル表現を研究した。 残念ながら、SketchRNNが学んだ表現は主に、スケッチの認識と検索の他のタスクではなく、生成タスクのためのものである。 この目的のために、最近のBERTモデルに触発されて、Transformer (Sketch-BERT) から Sketch Bidirectional Encoder Representation を学ぶモデルを提案する。 我々は,新たに設計されたスケッチ埋め込みネットワークや,スケッチゲットの自己教師型学習を含む,新しいコンポーネントと事前学習アルゴリズムを用いて,BERTをスケッチドメインに一般化する。 特に,事前学習課題に向けて,スケッチベルトの訓練を支援する新しいスケッチジェスタルトモデル(sgm)を提案する。 実験により,Sketch-BERTの学習表現は,スケッチ認識,スケッチ検索,スケッチゲットといった下流タスクの性能向上に有効であることを示す。

Previous researches of sketches often considered sketches in pixel format and leveraged CNN based models in the sketch understanding. Fundamentally, a sketch is stored as a sequence of data points, a vector format representation, rather than the photo-realistic image of pixels. SketchRNN studied a generative neural representation for sketches of vector format by Long Short Term Memory networks (LSTM). Unfortunately, the representation learned by SketchRNN is primarily for the generation tasks, rather than the other tasks of recognition and retrieval of sketches. To this end and inspired by the recent BERT model, we present a model of learning Sketch Bidirectional Encoder Representation from Transformer (Sketch-BERT). We generalize BERT to sketch domain, with the novel proposed components and pre-training algorithms, including the newly designed sketch embedding networks, and the self-supervised learning of sketch gestalt. Particularly, towards the pre-training task, we present a novel Sketch Gestalt Model (SGM) to help train the Sketch-BERT. Experimentally, we show that the learned representation of Sketch-BERT can help and improve the performance of the downstream tasks of sketch recognition, sketch retrieval, and sketch gestalt.
翻訳日:2022-12-01 13:12:38 公開日:2020-05-19
# 敵対的機械学習のための固有データセット特性について

On Intrinsic Dataset Properties for Adversarial Machine Learning ( http://arxiv.org/abs/2005.09170v1 )

ライセンス: Link先を確認
Jeffrey Z. Pan, Nicholas Zufelt(参考訳) ディープニューラルネットワーク(DNN)は、幅広い機械学習アプリケーションにおいて重要な役割を果たしている。 しかし、DNN分類器は人間の知覚できない逆境の摂動に弱いため、高い信頼性で入力を誤分類する可能性がある。 したがって、悪意のある例に対して防御できる堅牢なDNNを作成することは、セキュリティが重要な役割を果たすアプリケーションにおいて重要である。 本稿では,MNIST, Fashion-MNIST, CIFAR10/CIFAR100, ImageNetの5つの画像分類データセットを用いて,本質的なデータセット特性が敵攻撃・防御手法の性能に及ぼす影響について検討する。 入力サイズと画像コントラストが攻撃および防御の成功に重要な役割を果たすことがわかった。 我々の発見は、データセットの設計とデータ前処理がDNNの敵の堅牢性を高めるために重要であることを強調している。 私たちの知る限りでは、これは内在的なデータセット特性が敵対的機械学習に与える影響を研究する最初の包括的な研究です。

Deep neural networks (DNNs) have played a key role in a wide range of machine learning applications. However, DNN classifiers are vulnerable to human-imperceptible adversarial perturbations, which can cause them to misclassify inputs with high confidence. Thus, creating robust DNNs which can defend against malicious examples is critical in applications where security plays a major role. In this paper, we study the effect of intrinsic dataset properties on the performance of adversarial attack and defense methods, testing on five popular image classification datasets - MNIST, Fashion-MNIST, CIFAR10/CIFAR100, and ImageNet. We find that input size and image contrast play key roles in attack and defense success. Our discoveries highlight that dataset design and data preprocessing steps are important to boost the adversarial robustness of DNNs. To our best knowledge, this is the first comprehensive work that studies the effect of intrinsic dataset properties on adversarial machine learning.
翻訳日:2022-12-01 13:12:04 公開日:2020-05-19
# 近位演算子に基づくリーマン原始双対アルゴリズムとその計量学習への応用

A Riemannian Primal-dual Algorithm Based on Proximal Operator and its Application in Metric Learning ( http://arxiv.org/abs/2005.09194v1 )

ライセンス: Link先を確認
Shijun Wang, Baocheng Zhu, Lintao Ma, Yuan Qi(参考訳) 本稿では,制約付きリーマン空間における滑らかで凸な半連続関数の最適化を検討する。 この問題を解くために,まず双対問題に変換し,その後,一次変数と双対変数を反復的に最適化する一般原始双対アルゴリズムを提案する。 各最適化イテレーションにおいて、原始空間における最適解を探索するために近似演算子を用いる。 提案アルゴリズムの収束を証明し,その非漸近収束率を示す。 提案手法を用いて,正定値行列のリーマン空間における最適特徴変換行列を学習する新しい距離学習アルゴリズムを提案する。 定量投資のためのファンド・オブ・ファンド(FOF)管理における最適ファンド選択問題に関する予備実験の結果,有効性を示した。

In this paper, we consider optimizing a smooth, convex, lower semicontinuous function in Riemannian space with constraints. To solve the problem, we first convert it to a dual problem and then propose a general primal-dual algorithm to optimize the primal and dual variables iteratively. In each optimization iteration, we employ a proximal operator to search optimal solution in the primal space. We prove convergence of the proposed algorithm and show its non-asymptotic convergence rate. By utilizing the proposed primal-dual optimization technique, we propose a novel metric learning algorithm which learns an optimal feature transformation matrix in the Riemannian space of positive definite matrices. Preliminary experimental results on an optimal fund selection problem in fund of funds (FOF) management for quantitative investment showed its efficacy.
翻訳日:2022-12-01 13:11:47 公開日:2020-05-19
# 強化学習における予備情報ドロップアウト

Privileged Information Dropout in Reinforcement Learning ( http://arxiv.org/abs/2005.09220v1 )

ライセンス: Link先を確認
Pierre-Alexandre Kamienny, Kai Arulkumaran, Feryal Behbahani, Wendelin Boehmer, Shimon Whiteson(参考訳) トレーニング中に特権情報を使用すると、機械学習システムのサンプル効率とパフォーマンスが向上する。 このパラダイムは、主に蒸留や補助的なタスクの形で強化学習(RL)に適用され、エージェントの入力を増強する形では一般的ではない。 本稿では、価値ベースおよびポリシーベースのrlアルゴリズムに等しく適用可能な後者を実現するための特権的情報ドロップアウト(\pid)について検討する。 簡単な部分保存環境下では,蒸留や補助的なタスクを含む特権情報を活用する代替手段よりも優れており,異なる種類の特権情報の利用に成功していることを示す。 最後に,その学習表現への影響について分析する。

Using privileged information during training can improve the sample efficiency and performance of machine learning systems. This paradigm has been applied to reinforcement learning (RL), primarily in the form of distillation or auxiliary tasks, and less commonly in the form of augmenting the inputs of agents. In this work, we investigate Privileged Information Dropout (\pid) for achieving the latter which can be applied equally to value-based and policy-based RL algorithms. Within a simple partially-observed environment, we demonstrate that \pid outperforms alternatives for leveraging privileged information, including distillation and auxiliary tasks, and can successfully utilise different types of privileged information. Finally, we analyse its effect on the learned representations.
翻訳日:2022-12-01 13:05:39 公開日:2020-05-19
# 時空間予測におけるトレーニングと推論のギャップの橋渡し

Bridging the Gap Between Training and Inference for Spatio-Temporal Forecasting ( http://arxiv.org/abs/2005.09343v1 )

ライセンス: Link先を確認
Hong-Bin Liu, Ickjai Lee(参考訳) 時空間系列予測は時空間データマイニングにおける基本的なタスクの一つである。 降水量予測、都市全体の群衆流量予測、大気汚染予測など、現実世界の多くの応用を促進する。 近年、Seq2Seqベースのアプローチがいくつか提案されているが、Seq2Seqモデルの欠点の1つは、トレーニングと推論フェーズの異なる分布により、推論段階で生成されたシーケンスに沿って小さなエラーが迅速に蓄積できることである。 これは、seq2seqモデルがトレーニング中にのみ1ステップのエラーを最小化するためであるが、トレーニングと推論の相違を発生させる推論フェーズ中にシーケンス全体を生成する必要があるためである。 そこで本研究では, 時空間系列予測のためのトレーニングと推論のギャップを, 学習過程を全教師ありから非教師ありに変換し, 教師なしの手法に置き換えることで, 時空間系列予測のトレーニングと推論のギャップを効果的に橋渡しする, 時空間進行サンプリングという新しいカリキュラム学習戦略を提案する。 そこで我々は、より大規模な時間スケールで訓練された中間モデルの中間出力から、慎重に設計された減衰戦略を用いて目標シーケンスをサンプリングする。 実験結果から,提案手法は長期依存をモデル化し,2つの競合データセットに対するベースラインアプローチより優れていることが示された。

Spatio-temporal sequence forecasting is one of the fundamental tasks in spatio-temporal data mining. It facilitates many real world applications such as precipitation nowcasting, citywide crowd flow prediction and air pollution forecasting. Recently, a few Seq2Seq based approaches have been proposed, but one of the drawbacks of Seq2Seq models is that, small errors can accumulate quickly along the generated sequence at the inference stage due to the different distributions of training and inference phase. That is because Seq2Seq models minimise single step errors only during training, however the entire sequence has to be generated during the inference phase which generates a discrepancy between training and inference. In this work, we propose a novel curriculum learning based strategy named Temporal Progressive Growing Sampling to effectively bridge the gap between training and inference for spatio-temporal sequence forecasting, by transforming the training process from a fully-supervised manner which utilises all available previous ground-truth values to a less-supervised manner which replaces some of the ground-truth context with generated predictions. To do that we sample the target sequence from midway outputs from intermediate models trained with bigger timescales through a carefully designed decaying strategy. Experimental results demonstrate that our proposed method better models long term dependencies and outperforms baseline approaches on two competitive datasets.
翻訳日:2022-12-01 13:05:24 公開日:2020-05-19
# 効率的な交通信号最適化のためのバッチ強化マルチエージェント強化学習

Batch-Augmented Multi-Agent Reinforcement Learning for Efficient Traffic Signal Optimization ( http://arxiv.org/abs/2005.09624v1 )

ライセンス: Link先を確認
Yueh-Hua Wu, I-Hau Yeh, David Hu, Hong-Yuan Mark Liao(参考訳) この研究の目的は、交通信号制御問題に対する強化学習に基づく実行可能なソリューションを提供することである。 最先端の強化学習アプローチは様々なドメインで大きな成功を収めているが、高いサンプル効率とトレーニングデータの収集方法の要件を考慮すると、トラフィックの軽減に直接適用することは困難である。 そこで本研究では,首都圏で発生した交通渋滞の軽減を図るため,いくつかの課題に対処した。 具体的には、(1)強化学習のための情報を取得する監視カメラがダウンしたときの信号制御を処理できるソリューション、(2)交通シミュレータを使わずにバッチデータから学習し、(3)交差点をまたいだ情報を共有することなく制御決定を行う必要がある。 上記の状況に対処するための2段階のフレームワークを提案する。 このフレームワークは、固定時間トラフィック信号制御スケジュールとマルチエージェントオフポリシー強化学習を提供する進化戦略アプローチに分解することができ、提案する3つのコンポーネント、境界アクション、バッチ拡張、サロゲート報酬クリップの助けを借りて、バッチデータから学習することができる。 提案手法は,現在使用されている固定時間信号計画と比較して,待ち時間において渋滞を36%低減することを示す。 さらに、このフレームワークは結果を得るためにシミュレータに600クエリしか必要としない。

The goal of this work is to provide a viable solution based on reinforcement learning for traffic signal control problems. Although the state-of-the-art reinforcement learning approaches have yielded great success in a variety of domains, directly applying it to alleviate traffic congestion can be challenging, considering the requirement of high sample efficiency and how training data is gathered. In this work, we address several challenges that we encountered when we attempted to mitigate serious traffic congestion occurring in a metropolitan area. Specifically, we are required to provide a solution that is able to (1) handle the traffic signal control when certain surveillance cameras that retrieve information for reinforcement learning are down, (2) learn from batch data without a traffic simulator, and (3) make control decisions without shared information across intersections. We present a two-stage framework to deal with the above-mentioned situations. The framework can be decomposed into an Evolution Strategies approach that gives a fixed-time traffic signal control schedule and a multi-agent off-policy reinforcement learning that is capable of learning from batch data with the aid of three proposed components, bounded action, batch augmentation, and surrogate reward clipping. Our experiments show that the proposed framework reduces traffic congestion by 36% in terms of waiting time compared with the currently used fixed-time traffic signal plan. Furthermore, the framework requires only 600 queries to a simulator to achieve the result.
翻訳日:2022-12-01 13:04:57 公開日:2020-05-19
# 動的変動環境における強化学習アルゴリズムの検討

A Survey of Reinforcement Learning Algorithms for Dynamically Varying Environments ( http://arxiv.org/abs/2005.10619v1 )

ライセンス: Link先を確認
Sindhu Padakandla(参考訳) 強化学習(rl)アルゴリズムは、在庫管理、推奨システム、車両交通管理、クラウドコンピューティング、ロボット工学のアプリケーションを見つける。 これらの領域で生じる多くのタスクの現実的な複雑さは、古典的RLアルゴリズムの基礎となる基本的な仮定で解くのを難しくする。 これらのアプリケーションにおけるRLエージェントは、しばしば、変化する操作条件に反応し適応する必要がある。 単一エージェントRL技術に関する研究の重要な部分は、定常環境モデルの仮定が緩和された場合のアルゴリズムの開発に焦点を当てている。 本稿では,動的に変化する環境モデルを扱うためのrl手法について検討する。 定常性仮定に制限されない手法の目的は、自律エージェントが様々な運用条件に適応するのを助けることである。 これは、RLエージェントが学習中に失った報酬を最小化するか、または基礎となるシステムの効率的な操作につながるRLエージェントに適したポリシーを見つけることによって可能となる。 これらのアルゴリズムの代表的コレクションは、それらの分類と相対的なメリットとデメリットと共に、この研究で詳細に議論されている。 さらに、アプリケーションドメインに合わせた作業もレビューします。 最後に、この分野の今後の拡張について論じる。

Reinforcement learning (RL) algorithms find applications in inventory control, recommender systems, vehicular traffic management, cloud computing and robotics. The real-world complications of many tasks arising in these domains makes them difficult to solve with the basic assumptions underlying classical RL algorithms. RL agents in these applications often need to react and adapt to changing operating conditions. A significant part of research on single-agent RL techniques focuses on developing algorithms when the underlying assumption of stationary environment model is relaxed. This paper provides a survey of RL methods developed for handling dynamically varying environment models. The goal of methods not limited by the stationarity assumption is to help autonomous agents adapt to varying operating conditions. This is possible either by minimizing the rewards lost during learning by RL agent or by finding a suitable policy for the RL agent which leads to efficient operation of the underlying system. A representative collection of these algorithms is discussed in detail in this work along with their categorization and their relative merits and demerits. Additionally we also review works which are tailored to application domains. Finally, we discuss future enhancements for this field.
翻訳日:2022-12-01 13:04:34 公開日:2020-05-19
# 制約に基づくドメイン知識によるディープラーニングモデルの改善: 簡単な調査

Improving Deep Learning Models via Constraint-Based Domain Knowledge: a Brief Survey ( http://arxiv.org/abs/2005.10691v1 )

ライセンス: Link先を確認
Andrea Borghesi, Federico Baldo, Michela Milano(参考訳) ディープラーニング(DL)モデルは、大規模なデータセットから有用なパターンを学ぶことができるため、幅広い学習タスクで非常にうまく機能することが証明された。 しかし、純粋データ駆動モデルは、非常に難しい関数を学習する必要がある場合や、十分なトレーニングデータがない場合に苦労する可能性がある。 幸いなことに、多くのドメインで事前情報を検索し、DLモデルの性能を高めるために使用することができる。 本稿では,制約形式で表現されたドメイン知識をDL学習モデルに組み込むことによって,その性能向上,特に深層ニューラルネットワークを対象とするアプローチについて,最初の調査を行った。 ドメイン知識を注入する主要なアプローチを含む5つのカテゴリを識別する。 1)特徴空間に作用すること 2)仮説空間の変更 3)データ拡張 4)正規化スキーム, 5) 制約学習。

Deep Learning (DL) models proved themselves to perform extremely well on a wide variety of learning tasks, as they can learn useful patterns from large data sets. However, purely data-driven models might struggle when very difficult functions need to be learned or when there is not enough available training data. Fortunately, in many domains prior information can be retrieved and used to boost the performance of DL models. This paper presents a first survey of the approaches devised to integrate domain knowledge, expressed in the form of constraints, in DL learning models to improve their performance, in particular targeting deep neural networks. We identify five (non-mutually exclusive) categories that encompass the main approaches to inject domain knowledge: 1) acting on the features space, 2) modifications to the hypothesis space, 3) data augmentation, 4) regularization schemes, 5) constrained learning.
翻訳日:2022-12-01 13:03:58 公開日:2020-05-19
# 生成モデルを用いた非拘束的偽正逆物体の合成

Synthesizing Unrestricted False Positive Adversarial Objects Using Generative Models ( http://arxiv.org/abs/2005.09294v1 )

ライセンス: Link先を確認
Martin Kotuliak, Sandro E. Schoenborn, Andrei Dan(参考訳) 逆向きの例は、ニューラルネットワークによって誤分類されたデータポイントである。 当初、敵対的な例は、与えられた画像に小さな摂動を追加することに限定されていた。 近年の研究では、加えられた摂動の制限なく、制限のない逆境例の一般化概念が導入された。 本稿では,オブジェクト検出の非制限的な逆行例を生成する攻撃の新たなカテゴリを提案する。 私たちのキーとなるアイデアは、ターゲットオブジェクト検出器によって識別されるクラスとは無関係な敵オブジェクトを生成することです。 これまでの攻撃とは違って、我々はさらなる訓練や修正を必要とせず、既製のジェネレーティブ・アドバイサル・ネットワーク(GAN)を使用している。 本手法は,ターゲット物体検出器によって誤って識別される敵物体に対して,ganの潜在正規空間を探索するものである。 CIFAR-10 で訓練したロゴ生成 iWGAN-LC と SNGAN を用いて, 一般的に使用されている高速 R-CNN ResNet-101, Inception v2, SSD Mobilenet v1 オブジェクト検出器について評価を行った。 実験の結果, 生成した対向物体は, GANが生成する非対向物体と区別できず, 物体検出器間で移動可能であり, 物理世界では堅牢であることがわかった。 これは、オブジェクト検出の非制限的偽正逆例を研究する最初の研究である。

Adversarial examples are data points misclassified by neural networks. Originally, adversarial examples were limited to adding small perturbations to a given image. Recent work introduced the generalized concept of unrestricted adversarial examples, without limits on the added perturbations. In this paper, we introduce a new category of attacks that create unrestricted adversarial examples for object detection. Our key idea is to generate adversarial objects that are unrelated to the classes identified by the target object detector. Different from previous attacks, we use off-the-shelf Generative Adversarial Networks (GAN), without requiring any further training or modification. Our method consists of searching over the latent normal space of the GAN for adversarial objects that are wrongly identified by the target object detector. We evaluate this method on the commonly used Faster R-CNN ResNet-101, Inception v2 and SSD Mobilenet v1 object detectors using logo generative iWGAN-LC and SNGAN trained on CIFAR-10. The empirical results show that the generated adversarial objects are indistinguishable from non-adversarial objects generated by the GANs, transferable between the object detectors and robust in the physical world. This is the first work to study unrestricted false positive adversarial examples for object detection.
翻訳日:2022-12-01 13:03:45 公開日:2020-05-19
# 動的部分的除去:大規模近傍探索のためのニューラルネットワークヒューリスティック

Dynamic Partial Removal: A Neural Network Heuristic for Large Neighborhood Search ( http://arxiv.org/abs/2005.09330v1 )

ライセンス: Link先を確認
Mingxiang Chen, Lei Gao, Qichang Chen, Zhixin Liu(参考訳) 本稿では,Large Neighborhood Search (LNS) のヒューリスティックを学習するニューラルネットワーク設計を提案する。 LNSは破壊演算子と修理演算子から構成され、コンビニアル最適化の問題を解決するために近隣探索を実行する方法を指定する。 本稿では,階層的リカレントグラフ畳み込みネットワーク(HRGCN)をLNSヒューリスティック,すなわち動的部分的除去に応用し,適応的破壊と大規模探索の可能性,空間的,時間的両面の文脈認識性を生かした。 このモデルは、特に比較的厳密な制約のある問題に対して、異なる組合せ最適化問題に対する効率的なヒューリスティックなアプローチとして一般化される。 本稿では,このモデルを車載ルーティング問題 (VRP) に適用する。 実験の結果、このアプローチは従来のlsnのヒューリスティックよりも優れていることがわかった。 ソースコードは \href{https://github.com/water-mirror/dpr}{https://github.com/water-mirror/dpr} で入手できる。

This paper presents a novel neural network design that learns the heuristic for Large Neighborhood Search (LNS). LNS consists of a destroy operator and a repair operator that specify a way to carry out the neighborhood search to solve the Combinatorial Optimization problems. The proposed approach in this paper applies a Hierarchical Recurrent Graph Convolutional Network (HRGCN) as a LNS heuristic, namely Dynamic Partial Removal, with the advantage of adaptive destruction and the potential to search across a large scale, as well as the context-awareness in both spatial and temporal perspective. This model is generalized as an efficient heuristic approach to different combinatorial optimization problems, especially to the problems with relatively tight constraints. We apply this model to vehicle routing problem (VRP) in this paper as an example. The experimental results show that this approach outperforms the traditional LNS heuristics on the same problem as well. The source code is available at \href{https://github.com/water-mirror/DPR}{https://github.com/water-mirror/DPR}.
翻訳日:2022-12-01 13:03:06 公開日:2020-05-19
# 象徴音楽の表現としての埋め込み

Embeddings as representation for symbolic music ( http://arxiv.org/abs/2005.09406v1 )

ライセンス: Link先を確認
Sebastian Garcia-Valencia(参考訳) 音楽的意味を含む方法で音楽のエンコーディングを可能にする表現技術は、メロディの生成や品質の調和といったコンピュータ音楽タスクのために訓練されたモデルの結果を改善する。 自然言語処理の分野は、単語と文の意味的意味を捉える方法を見つけるために多くの作業を行い、単語埋め込みは、そのようなタスクの能力を示すことに成功した。 本稿では,データセットの3種類のバリエーションから音符を表現する埋め込みを実験し,モデルが有用な音楽パターンをキャプチャできるかどうかを解析する。 これを実現するために、t-SNE技術を用いて、結果の埋め込みを投影に可視化する。

A representation technique that allows encoding music in a way that contains musical meaning would improve the results of any model trained for computer music tasks like generation of melodies and harmonies of better quality. The field of natural language processing has done a lot of work in finding a way to capture the semantic meaning of words and sentences, and word embeddings have successfully shown the capabilities for such a task. In this paper, we experiment with embeddings to represent musical notes from 3 different variations of a dataset and analyze if the model can capture useful musical patterns. To do this, the resulting embeddings are visualized in projections using the t-SNE technique.
翻訳日:2022-12-01 13:02:46 公開日:2020-05-19
# 規則に基づくテキスト分類器の精度推定の不確かさの定量化

Quantifying the Uncertainty of Precision Estimates for Rule based Text Classifiers ( http://arxiv.org/abs/2005.09198v1 )

ライセンス: Link先を確認
James Nutaro and Ozgur Ozmen(参考訳) キーサブストリングの存在と欠如を利用して分類決定を行うルールベースの分類器は、それらの精度の不確かさを定量化する自然なメカニズムを持つ。 バイナリ分類器にとって重要な洞察は、文書によって誘導される部分弦集合の分割をベルヌーイ確率変数として扱うことである。 各確率変数の平均値は、その分割を誘導する文書で示される場合の分類器の精度の推定値である。 これらの手段は、標準的な統計検査を用いて、望ましいまたは期待される分類器の精度と比較することができる。 バイナリ分類器の集合は、証拠のデンプスター・シェーファー理論の適用により単一の多ラベル分類器に結合することができる。 この手法の有用性はベンチマーク問題によって実証される。

Rule based classifiers that use the presence and absence of key sub-strings to make classification decisions have a natural mechanism for quantifying the uncertainty of their precision. For a binary classifier, the key insight is to treat partitions of the sub-string set induced by the documents as Bernoulli random variables. The mean value of each random variable is an estimate of the classifier's precision when presented with a document inducing that partition. These means can be compared, using standard statistical tests, to a desired or expected classifier precision. A set of binary classifiers can be combined into a single, multi-label classifier by an application of the Dempster-Shafer theory of evidence. The utility of this approach is demonstrated with a benchmark problem.
翻訳日:2022-12-01 12:56:15 公開日:2020-05-19
# スコープ・ローカライゼーションを用いた多ラベル臨床テキストの挿入検出

Assertion Detection in Multi-Label Clinical Text using Scope Localization ( http://arxiv.org/abs/2005.09246v1 )

ライセンス: Link先を確認
Rajeev Bhatt Ambati, Ahmed Ada Hanifi, Ramya Vunikili, Puneet Sharma, and Oladimeji Farri(参考訳) 臨床領域における多ラベル文(テキスト)は、患者ケアにおけるシナリオの豊富な記述から生じる。 アサーション検出のための最先端の手法は、主に文毎のアサーションラベル(テキスト)の設定でこのタスクに対処する。 さらに,ルールベースや深層学習手法が単一ラベルテキスト上で否定・補助範囲検出を行う場合も少なくない。 性能を低下させることなく、これらの手法を複数ラベル文に拡張することは大きな課題である。 そこで我々は,複数のラベルとそのスコープを単一段階のエンドツーエンドでローカライズする畳み込みニューラルネットワーク(CNN)アーキテクチャを開発した。

Multi-label sentences (text) in the clinical domain result from the rich description of scenarios during patient care. The state-of-theart methods for assertion detection mostly address this task in the setting of a single assertion label per sentence (text). In addition, few rules based and deep learning methods perform negation/assertion scope detection on single-label text. It is a significant challenge extending these methods to address multi-label sentences without diminishing performance. Therefore, we developed a convolutional neural network (CNN) architecture to localize multiple labels and their scopes in a single stage end-to-end fashion, and demonstrate that our model performs atleast 12% better than the state-of-the-art on multi-label clinical text.
翻訳日:2022-12-01 12:56:04 公開日:2020-05-19
# ファジィ確率的C平均クラスタリングのための新しい妥当性指標

A New Validity Index for Fuzzy-Possibilistic C-Means Clustering ( http://arxiv.org/abs/2005.09162v1 )

ライセンス: Link先を確認
Mohammad Hossein Fazel Zarandi, Shahabeddin Sotudian, Oscar Castillo(参考訳) いくつかの複雑なデータセットでは、ノイズの多いデータポイントと外れ値が存在するため、クラスタの妥当性指標は最適なクラスタ数を決定するために矛盾する結果をもたらす。 本稿では, ファジィ・ポジビリスティック(FP)指数と呼ばれる, ファジィ・ポジビリスティック(FP)クラスタリングのための新しい妥当性指標を提案する。 さらに、ほとんどのクラスタリングアルゴリズムと同様、FPCMは初期パラメータの影響を受けやすい。 この点において、クラスタの数に加えて、FPCMはファジィの度合いと典型性の度合いの優先順位の選択を必要とする。 そこで本稿では,最適な値を決定するための効率的な手法を提案する。 提案手法は,複数の合成および実世界のデータセットを用いて評価されている。 最終計算結果から,提案手法の有効性と信頼性を文献でよく知られたファジィ妥当性指標と比較した。 さらに,提案手法の実際の応用性を明らかにするため,マイクロアレイ遺伝子発現データクラスタリングと医用画像セグメンテーションに提案手法を実装した。

In some complicated datasets, due to the presence of noisy data points and outliers, cluster validity indices can give conflicting results in determining the optimal number of clusters. This paper presents a new validity index for fuzzy-possibilistic c-means clustering called Fuzzy-Possibilistic (FP) index, which works well in the presence of clusters that vary in shape and density. Moreover, FPCM like most of the clustering algorithms is susceptible to some initial parameters. In this regard, in addition to the number of clusters, FPCM requires a priori selection of the degree of fuzziness and the degree of typicality. Therefore, we presented an efficient procedure for determining their optimal values. The proposed approach has been evaluated using several synthetic and real-world datasets. Final computational results demonstrate the capabilities and reliability of the proposed approach compared with several well-known fuzzy validity indices in the literature. Furthermore, to clarify the ability of the proposed method in real applications, the proposed method is implemented in microarray gene expression data clustering and medical image segmentation.
翻訳日:2022-12-01 12:55:52 公開日:2020-05-19
# 生成型adversarial networkの正規化法:最近の研究の概要

Regularization Methods for Generative Adversarial Networks: An Overview of Recent Studies ( http://arxiv.org/abs/2005.09165v1 )

ライセンス: Link先を確認
Minhyeok Lee, Junhee Seok(参考訳) その短い歴史にもかかわらず、GAN(Generative Adversarial Network)は、その本来の目的、すなわち合成サンプル生成を含む様々なタスクに広く研究され、利用されている。 しかし、さまざまなニューラルネットワークアーキテクチャを持つ異なるデータタイプにGANを適用することは、トレーニングの制限によって妨げられ、モデルが容易に分岐する。 このような悪名高いガンの訓練はよく知られており、多くの研究で取り扱われている。 その結果, GANのトレーニングを安定させるために, 近年, 多数の正規化手法が提案されている。 本稿では,最近導入された正規化手法について概説する。 具体的には、ニューラルネットワークアーキテクチャに関係なく、一般的に使用できる一般的な手法に焦点を当てる。 GANの正規化における最新の研究動向を探るため,これらの手法を運用原則によって複数のグループに分類し,その違いを分析した。 さらに,これらの手法の実践的知識を提供するために,現在最先端のGANでよく使われている一般的な手法について検討する。 また,既存手法の限界について考察し,今後の研究方向性を提案する。

Despite its short history, Generative Adversarial Network (GAN) has been extensively studied and used for various tasks, including its original purpose, i.e., synthetic sample generation. However, applying GAN to different data types with diverse neural network architectures has been hindered by its limitation in training, where the model easily diverges. Such a notorious training of GANs is well known and has been addressed in numerous studies. Consequently, in order to make the training of GAN stable, numerous regularization methods have been proposed in recent years. This paper reviews the regularization methods that have been recently introduced, most of which have been published in the last three years. Specifically, we focus on general methods that can be commonly used regardless of neural network architectures. To explore the latest research trends in the regularization for GANs, the methods are classified into several groups by their operation principles, and the differences between the methods are analyzed. Furthermore, to provide practical knowledge of using these methods, we investigate popular methods that have been frequently employed in state-of-the-art GANs. In addition, we discuss the limitations in existing methods and propose future research directions.
翻訳日:2022-12-01 12:54:28 公開日:2020-05-19
# ISeeU2:ディープラーニングと自由テキスト医療ノートを用いた視覚的ICU死亡予測

ISeeU2: Visually Interpretable ICU mortality prediction using deep learning and free-text medical notes ( http://arxiv.org/abs/2005.09284v1 )

ライセンス: Link先を確認
William Caicedo-Torres, Jairo Gutierrez(参考訳) 正確な死亡予測により、ICU(Intensive Care Units)は、臨床実践を適切にベンチマークし、予期しない結果の患者を特定することができる。 伝統的に、単純な統計モデルは患者の死亡リスクを評価するのに使われてきた。 一方で、深層学習は、死亡予測を含む診断と予測を支援するために医療データを活用することで、臨床実践に積極的に影響を与えることを約束している。 しかしながら、強力なディープラーニングモデルが、予測を生成する際に適切な医療知識によって裏付けられた相関に合致するかどうかという疑問は、さらなる解釈ツールが必要であり、臨床医によるaiの利用を促進する。 本研究は,MIMIC-IIIを用いた深層学習モデルを用いて,生の看護ノートを用いた死亡予測を行い,単語の重要性を視覚的に説明する。 我々のモデルは0.8629(+/-0.0058)に達し、従来のSAPS-IIスコアよりも優れ、類似のディープラーニングアプローチと比較して高い解釈性を提供する。

Accurate mortality prediction allows Intensive Care Units (ICUs) to adequately benchmark clinical practice and identify patients with unexpected outcomes. Traditionally, simple statistical models have been used to assess patient death risk, many times with sub-optimal performance. On the other hand deep learning holds promise to positively impact clinical practice by leveraging medical data to assist diagnosis and prediction, including mortality prediction. However, as the question of whether powerful Deep Learning models attend correlations backed by sound medical knowledge when generating predictions remains open, additional interpretability tools are needed to foster trust and encourage the use of AI by clinicians. In this work we show a Deep Learning model trained on MIMIC-III to predict mortality using raw nursing notes, together with visual explanations for word importance. Our model reaches a ROC of 0.8629 (+/-0.0058), outperforming the traditional SAPS-II score and providing enhanced interpretability when compared with similar Deep Learning approaches.
翻訳日:2022-12-01 12:53:58 公開日:2020-05-19