このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200728となっている論文です。

PDF登録状況(公開日: 20200728)

TitleAuthorsAbstract論文公表日・翻訳日
# カオス多体系における絡み合い膜

The entanglement membrane in chaotic many-body systems ( http://arxiv.org/abs/1912.12311v2 )

ライセンス: Link先を確認
Tianci Zhou, Adam Nahum(参考訳) ある解析的引き込み可能な量子カオス系では、時間外の相関関数の計算、クエンチ後のエンタングルメントエントロピー、その他の関連する動的観測性は、時空における「エンタングルメント膜」の有効理論に還元される。 これらの扱いやすいシステムには、動的進化を定義するランダムな局所ユニタリの平均が含まれる。 ここでは、ランダムなユニタリ平均を含まない、より現実的なモデルでこの膜を理解する方法を示す。 我々のアプローチは、時空に効果的なペアリングの自由度を導入することに依存しており、ランダムユニタリ回路に現れる構造に触発された前方および後方のファインマン軌道のペアリングを記述する。 これはカオスシステムの動的量に粗粒化のアイデアを適用するためのフレームワークを提供する。 文献で研究されたいくつかの変換不変なフロケスピン鎖にアプローチを適用する。 エンタングルメント膜では、一貫した線張力が定義でき、この張力にはジェネリックモデルと'dual-unitary'回路の間には定性的な違いがあることを示した。 これらの結果は、時間外コリケータのスケーリングと、ランダム回路から非ランダムフローケットモデルへの絡み合いを可能にする。 また, 1+1次元の絡み合い線張力を求めるための効率的な数値解法を提案する。

In certain analytically-tractable quantum chaotic systems, the calculation of out-of-time-order correlation functions, entanglement entropies after a quench, and other related dynamical observables, reduces to an effective theory of an ``entanglement membrane'' in spacetime. These tractable systems involve an average over random local unitaries defining the dynamical evolution. We show here how to make sense of this membrane in more realistic models, which do not involve an average over random unitaries. Our approach relies on introducing effective pairing degrees of freedom in spacetime, describing a pairing of forward and backward Feynman trajectories, inspired by the structure emerging in random unitary circuits. This provides a framework for applying ideas of coarse-graining to dynamical quantities in chaotic systems. We apply the approach to some translationally invariant Floquet spin chains studied in the literature. We show that a consistent line tension may be defined for the entanglement membrane, and that there are qualitative differences in this tension between generic models and ``dual-unitary'' circuits. These results allow scaling pictures for out-of-time-order correlators and for entanglement to be taken over from random circuits to non-random Floquet models. We also provide an efficient numerical algorithm for determining the entanglement line tension in 1+1D.
翻訳日:2023-06-09 23:07:02 公開日:2020-07-28
# フィルタ共鳴蛍光の光子統計

Photon Statistics of Filtered Resonance Fluorescence ( http://arxiv.org/abs/2002.08192v2 )

ライセンス: Link先を確認
Catherine L. Phillips, Alistair J. Brash, Dara P. S. McCutcheon, Jake Iles-Smith, Edmund Clarke, Benjamin Royall, Maurice S. Skolnick, A. Mark Fox, and Ahsan Nazir(参考訳) 共鳴蛍光のスペクトルフィルタリングは、望ましくない背景を除去することで単一光子純度と識別性を改善するために広く用いられている。 エミッタ線幅に接近するフィルタ帯域では、光子統計量が異なる成分の優先伝送により複雑な挙動が予測される。 我々は、弱い励起限界と強い励起限界の両方においてパーセルの量子ドットを用いてこの状態を調査し、拡張センサー理論モデルとの良好な一致を見出した。 フィルタ幅だけを変更することで、フォトン統計は反バンドル、束縛、ポアソニアンの間で変換できる。 以上の結果から,強い反ばねと非自然線幅を同時に観測できないことが確認され,コヒーレント散乱の性質に関する新たな知見が得られた。

Spectral filtering of resonance fluorescence is widely employed to improve single photon purity and indistinguishability by removing unwanted backgrounds. For filter bandwidths approaching the emitter linewidth, complex behaviour is predicted due to preferential transmission of components with differing photon statistics. We probe this regime using a Purcell-enhanced quantum dot in both weak and strong excitation limits, finding excellent agreement with an extended sensor theory model. By changing only the filter width, the photon statistics can be transformed between antibunched, bunched, or Poissonian. Our results verify that strong antibunching and a sub-natural linewidth cannot simultaneously be observed, providing new insight into the nature of coherent scattering.
翻訳日:2023-06-03 04:57:25 公開日:2020-07-28
# 高調波遮断の想像上の部分

The imaginary part of the high-harmonic cutoff ( http://arxiv.org/abs/2003.00277v2 )

ライセンス: Link先を確認
Emilio Pisanty, Marcelo F. Ciappina and Maciej Lewenstein(参考訳) 高調波発生 - 強いレーザー磁場によって駆動される原子電子のイオン化とその後の再結合による高周波放射 - は、サドル点近似から導かれる準古典的軌道形式を用いて広く理解されており、各サドルは高調波放出に寄与する複素値軌道に対応する。 しかし、これらの鞍点を個々の量子軌道に分類することは、形式論の高摩擦部分である。 ここでは、高調波遮断に対応する(複素)時間の自然な同定に基づいて、これらの軌跡を分類するスキームを提案する。 この同定はまた、カットオフエネルギーに対して自然な複素値を与え、その虚部はカットオフで交わる量子軌道間の量子パス干渉の強度を制御する。 本手法は,単一のサドルポイント方程式を解き,ドライバ波形の幅広いクラスにおけるカットオフの位置と輝度を評価する効率的な手法である。 これはまた、非自明な波形によって引き起こされる量子軌道によって形成されるリーマン面の複雑な位相を探索することを可能にする。

High-harmonic generation - the emission of high-frequency radiation by the ionization and subsequent recombination of an atomic electron driven by a strong laser field - is widely understood using a quasiclassical trajectory formalism, derived from a saddle-point approximation, where each saddle corresponds to a complex-valued trajectory whose recombination contributes to the harmonic emission. However, the classification of these saddle-points into individual quantum orbits remains a high-friction part of the formalism. Here we present a scheme to classify these trajectories, based on a natural identification of the (complex) time that corresponds to the harmonic cutoff. This identification also provides a natural complex value for the cutoff energy, whose imaginary part controls the strength of quantum-path interference between the quantum orbits that meet at the cutoff. Our construction gives an efficient method to evaluate the location and brightness of the cutoff for a wide class of driver waveforms by solving a single saddle-point equation. It also allows us to explore the intricate topologies of the Riemann surfaces formed by the quantum orbits induced by nontrivial waveforms.
翻訳日:2023-06-01 05:36:27 公開日:2020-07-28
# 任意の二部類高次元系における非局所直交積状態の構成法

Novel methods to construct nonlocal sets of orthogonal product states in arbitrary bipartite high-dimensional system ( http://arxiv.org/abs/2003.08291v2 )

ライセンス: Link先を確認
G. B. Xu, D. H. Jiang(参考訳) 直交積状態の非局所集合(OPSs)は、その性質から量子プロトコルにおいて広く用いられている。 したがって、難しい問題ではあるが、非局所的な直交積状態を構成する方法に多くの注意が払われる。 本稿では,$d\geq3$ に対して $\mathbb{c}^{d} \otimes \mathbb{c}^{d}$ で直交積状態の非局所集合を構成する新しい一般法を提案する。 それらの積状態の局所的不明瞭性を示す巧妙な証明を与える。 我々の方法によって構成された積状態の集合は、非常によい構造を持つ。 その後、より小さなメンバーを持つ非局所 ops の集合を $d\geq3$ に対して $\mathbb{c}^{d} \otimes \mathbb{c}^{d}$ で構成する。 一方,非局所 ops の 2 つの構成法を $\mathbb{c}^{m} \otimes \mathbb{c}^{n}$,ただし $m\geq3$ と $n\geq3.$ で提示し,さらに 2 つの非局所 ops の同型の概念を提案する。 私たちの仕事は、ローカルに区別できないopsの構造と分類を理解するのにとても役立ちます。

Nonlocal sets of orthogonal product states (OPSs) are widely used in quantum protocols owing to their good property. Thus a lot of attention are paid to how to construct a nonlocal set of orthogonal product states though it is a difficult problem. In this paper, we propose a novel general method to construct a nonlocal set of orthogonal product states in $\mathbb{C}^{d} \otimes \mathbb{C}^{d}$ for $d\geq3$. We give an ingenious proof for the local indistinguishability of those product states. The set of product states, which are constructed by our method, has a very good structure. Subsequently, we give a construction of nonlocal set of OPSs with smaller members in $\mathbb{C}^{d} \otimes \mathbb{C}^{d}$ for $d\geq3$. On the other hand, we present two construction methods of nonlocal sets of OPSs in $\mathbb{C}^{m} \otimes \mathbb{C}^{n}$, where $m\geq3$ and $n\geq3.$ Furthermore, we propose the concept of isomorphism for two nonlocal sets of OPSs. Our work is of great help to understand the structure and classification of locally indistinguishable OPSs.
翻訳日:2023-05-29 00:16:02 公開日:2020-07-28
# 移動エミッタを用いた導波路qedの理論

Theory of waveguide-QED with moving emitters ( http://arxiv.org/abs/2003.09221v2 )

ライセンス: Link先を確認
Eduardo S\'anchez-Burillo, Alejandro Gonz\'alez-Tudela, Carlos Gonzalez-Ballestero(参考訳) 単一励起部分空間における導波路と移動量子エミッタからなる系を理論的に研究し、エミッタの運動度を機械的に扱う。 まず、単一移動量子エミッタからの単一光子散乱を特徴付け、非相互伝達と反動誘起量子エミッタ運動エネルギーの低減の両方を示す。 次に、実空間における運動誘起非対称位相を示すバンドギャップ内の有界状態を特徴付ける。 また,これらの境界状態がエキゾチックな分散関係を持つ連続バンドを形成する方法を示す。 最後に, 様々な初期運動量分布を持つ初期励起量子エミッタの自発的放出について検討し, 占有ダイナミクスと発光光子の空間分布の両方において, 静的エミッタに対する強い偏差を見出した。 我々の研究は導波路-QEDツールボックスを拡張し、数光子力学への影響を量子技術に応用できるエミッターの自由の量子運動度を含む。

We theoretically study a system composed by a waveguide and a moving quantum emitter in the single excitation subspace, treating the emitter motional degree of freedom quantum mechanically. We first characterize single-photon scattering off a single moving quantum emitter, showing both nonreciprocal transmission and recoil-induced reduction of the quantum emitter motional energy. We then characterize the bound states within the bandgap, which display a motion-induced asymmetric phase in real space. We also demonstrate how these bound states form a continuous band with exotic dispersion relations. Finally, we study the spontaneous emission of an initially excited quantum emitter with various initial momentum distributions, finding strong deviations with respect to the static emitter counterpart both in the occupation dynamics and in the spatial distribution of the emitted photons. Our work extends the waveguide-QED toolbox by including the quantum motional degree of freedom of emitters, whose impact in the few-photon dynamics could be harnessed for quantum technologies.
翻訳日:2023-05-28 15:48:41 公開日:2020-07-28
# 新型コロナウイルス(COVID-19)による韓国、イタリア、イランのコロナウイルスに対する世界第2の関心の波:Googleトレンド調査

The Second Worldwide Wave of Interest in Coronavirus since the COVID-19 Outbreaks in South Korea, Italy and Iran: A Google Trends Study ( http://arxiv.org/abs/2003.10998v3 )

ライセンス: Link先を確認
Artur Strzelecki(参考訳) 新型コロナウイルス(COVID-19)の流行は、メディアや世界的なニュースで広く報道されている。 2020年3月24日現在、このウイルスは中国・武漢で数万人、他の184カ国や地域で数千人のウイルス性肺炎を引き起こしている。 この研究は、新型コロナウイルス感染症の世界的な関心をモニターするために、Google Trends(GT)の可能性を探求する。 GTはこのトピックに関心があるため、リバースエンジニアリングデータのソースとして選ばれた。 新型コロナウイルスに関する現在のデータは、主要な検索トピックであるコロナウイルスを用いて(GT)から検索される。 GTの地理的設定は、世界、中国、韓国、イタリア、イランである。 報告期間は2020年1月15日から3月24日まで。 その結果、情報需要の第1波が2020年1月31日だったことが判明した。 最初のピーク後、毎日の新規感染者数は6日間増加した。 第2波は2020年2月21日にイタリアで発生が報告され、ピークは2020年3月16日だった。 第2波は第1波の6倍の大きさである。 毎日報告される新規感染者は日ごとに増えている。 この短いコミュニケーションは、GTを通じて新型コロナウイルスに関する情報の需要がどのように報告されるかを簡単に紹介する。

The recent emergence of a new coronavirus, COVID-19, has gained extensive coverage in public media and global news. As of 24 March 2020, the virus has caused viral pneumonia in tens of thousands of people in Wuhan, China, and thousands of cases in 184 other countries and territories. This study explores the potential use of Google Trends (GT) to monitor worldwide interest in this COVID-19 epidemic. GT was chosen as a source of reverse engineering data, given the interest in the topic. Current data on COVID-19 is retrieved from (GT) using one main search topic: Coronavirus. Geographical settings for GT are worldwide, China, South Korea, Italy and Iran. The reported period is 15 January 2020 to 24 March 2020. The results show that the highest worldwide peak in the first wave of demand for information was on 31 January 2020. After the first peak, the number of new cases reported daily rose for 6 days. A second wave started on 21 February 2020 after the outbreaks were reported in Italy, with the highest peak on 16 March 2020. The second wave is six times as big as the first wave. The number of new cases reported daily is rising day by day. This short communication gives a brief introduction to how the demand for information on coronavirus epidemic is reported through GT.
翻訳日:2023-05-28 01:07:03 公開日:2020-07-28
# スクイーズド貯水池下の準定常状態から遠く離れた単位効率で作動する2段量子オットー熱エンジン

Two-level quantum Otto heat engine operating with unit efficiency far from the quasi-static regime under a squeezed reservoir ( http://arxiv.org/abs/2003.12664v2 )

ライセンス: Link先を確認
Rog\'erio J. de Assis, J. S. Sales, Udson C. Mendes, and Norton G. de Almeida(参考訳) 量子熱エンジンにおける最近の理論的および実験的研究は、準定常状態においてはカルノットによって課される限界よりも高い効率を持つことができることを示した。 しかし、準静電状態はサイクルを完了するのに無限に長い時間を要するため、熱エンジンの動作に強い制限がある。 本稿では, 冷却熱貯留層と硬化熱貯留層に囲まれた量子オットー熱エンジンを実現するための, 作動物質としての2レベルモデルを提案する。 このモデルを利用することで、非ヌルパワーにおいてもユニタリ効率を達成するという、目覚ましい成果を示す。

Recent theoretical and experimental studies in quantum heat engines show that, in the quasi-static regime, it is possible to have higher efficiency than the limit imposed by Carnot, provided that engineered reservoirs are used. The quasi-static regime, however, is a strong limitation to the operation of heat engines, since infinitely long time is required to complete a cycle. In this paper we propose a two-level model as the working substance to perform a quantum Otto heat engine surrounded by a cold thermal reservoir and a squeezed hot thermal reservoir. Taking advantage of this model we show a striking achievement, that is to attain unity efficiency even at non null power.
翻訳日:2023-05-27 18:15:24 公開日:2020-07-28
# 最適化高速変調による分光再構成可能な量子エミッタ

Spectrally reconfigurable quantum emitters enabled by optimized fast modulation ( http://arxiv.org/abs/2003.12591v3 )

ライセンス: Link先を確認
Daniil M. Lukin, Alexander D. White, Rahul Trivedi, Melissa A. Guidry, Naoya Morioka, Charles Babin, \"Oney O. Soykal, Jawad Ul Hassan, Nguyen Tien Son, Takeshi Ohshima, Praful K. Vasireddy, Mamdouh H. Nasr, Shuo Sun, Jean-Phillipe W. MacLean, Constantin Dory, Emilio A. Nanni, J\"org Wrachtrup, Florian Kaiser, and Jelena Vu\v{c}kovi\'c(参考訳) 光子放出を形作る能力は、異なる物理システム間の強い光子媒介相互作用を促進し、量子情報処理、シミュレーション、通信への応用を可能にする。 カラーセンター、希土類イオン、量子ドットなどの固体プラットフォームにおけるスペクトル制御は、チップ上での応用を実現する上で特に魅力的である。 本稿では、単一光子放射のスペクトル工学における周波数変調光遷移の利用を提案する。 散乱行列形式を用いることで、光寿命よりも高速に変調された2レベルシステムは、標準の数値最適化手法に適合する広い再構成可能な光子スペクトルを持つ単一光子源として扱うことができる。 このスペクトル制御方式を実験的に実証するために,光量子情報処理技術に期待できるカラーセンタである炭化ケイ素中のシリコン空隙の強烈なチューニング特性について検討する。 シリコン空孔は優れたスペクトル安定性とチューニング特性を有しており、高速変調機構を探索し、理論的に予測された2光子相関を観測し、スペクトル工学を実証することができる。 その結果、周波数変調は単一光子のスペクトルと時間特性を前例のない制御で新しい光状態を生成するための強力な技術であることが示唆された。

The ability to shape photon emission facilitates strong photon-mediated interactions between disparate physical systems, thereby enabling applications in quantum information processing, simulation and communication. Spectral control in solid state platforms such as color centers, rare earth ions, and quantum dots is particularly attractive for realizing such applications on-chip. Here we propose the use of frequency-modulated optical transitions for spectral engineering of single photon emission. Using a scattering-matrix formalism, we find that a two-level system, when modulated faster than its optical lifetime, can be treated as a single-photon source with a widely reconfigurable photon spectrum that is amenable to standard numerical optimization techniques. To enable the experimental demonstration of this spectral control scheme, we investigate the Stark tuning properties of the silicon vacancy in silicon carbide, a color center with promise for optical quantum information processing technologies. We find that the silicon vacancy possesses excellent spectral stability and tuning characteristics, allowing us to probe its fast modulation regime, observe the theoretically-predicted two-photon correlations, and demonstrate spectral engineering. Our results suggest that frequency modulation is a powerful technique for the generation of new light states with unprecedented control over the spectral and temporal properties of single photons.
翻訳日:2023-05-27 18:14:35 公開日:2020-07-28
# 開境界駆動ハイゼンベルクスピン格子における長距離相互作用:平衡から弾道輸送への遠距離遷移

Long-range interaction in an open boundary-driven Heisenberg spin lattice: A far-from-equilibrium transition to ballistic transport ( http://arxiv.org/abs/2004.12738v2 )

ライセンス: Link先を確認
Manuel Katzer, Willy Knorr, Regina Finsterh\"olzl and Alexander Carmele(参考訳) 我々は, 長距離Ising型相互作用を持つ開Heisenberg XXZスピン鎖について検討し, 境界線で不整合に駆動され, 遠方平衡定常電流が誘導されることを示した。 量子モンテカルロ法は、拡散体から弾道輸送体への遷移を調べるのに十分な大きさのシステムサイズを持つレジームをアクセス可能にする。 この転移の鎖長は、遠くのスピン間のイジング型相互作用の範囲が減少するにつれて増加するが、非一貫性駆動の強さは輸送遷移に関係しない。 この遷移は、鎖の端における強磁性領域の抑制によって説明できる。

We study an open Heisenberg XXZ spin chain with long-range Ising-type interaction, which is incoherently driven at its boundaries and therefore a far-from-equilibrium steady state current is induced. Quantum Monte Carlo techniques make a regime accessible, where the system size is large enough to examine the transition from a diffusive to a ballistic transport regime. We find that the chain lengths for this transition are increasing with decreasing range of the Ising-type interactions between distant spins, while the strength of the incoherent driving does not have a relevant effect on the transport transition. The transition can be explained by the suppression of ferromagnetic domains at the edges of the chain.
翻訳日:2023-05-22 00:22:03 公開日:2020-07-28
# 集合応答原子配列における放射性トロイダルジポールとアナポール励起

Radiative toroidal dipole and anapole excitations in collectively responding arrays of atoms ( http://arxiv.org/abs/2005.05918v3 )

ライセンス: Link先を確認
Kyle E. Ballantine and Janne Ruostekoski(参考訳) トロイダル双極子 (toroidal dipole) は、標準電気および磁気多極子展開とは異なるしばしば見過ごされる電磁励起を表す。 強放射結合原子の単純な配置を用いてトロイダル双極子を合成し、トロイダルトポロジーはトロイダルの周囲に巻かれた効果的なポロロイド電流を形成する放射遷移によって生成される。 このようなトロイダル双極子の合成格子と、非放射で振動する電荷電流配置である動的アナポールからなる非局在集合励起モードを作成するための方法のプロトコルを拡張し、トロイダル双極子の遠方界放射を電気双極子によって同一にキャンセルする。

A toroidal dipole represents an often overlooked electromagnetic excitation distinct from the standard electric and magnetic multipole expansion. We show how a simple arrangement of strongly radiatively coupled atoms can be used to synthesize a toroidal dipole where the toroidal topology is generated by radiative transitions forming an effective poloidal electric current wound around a torus. We extend the protocol for methods to prepare a delocalized collective excitation mode consisting of a synthetic lattice of such toroidal dipoles and a non-radiating, yet oscillating charge-current configuration, dynamic anapole, for which the far-field radiation of a toroidal dipole is identically canceled by an electric dipole.
翻訳日:2023-05-20 11:50:02 公開日:2020-07-28
# ダイヤモンド導波路の狭線幅スズ空洞中心

Narrow-linewidth tin-vacancy centers in a diamond waveguide ( http://arxiv.org/abs/2005.10385v2 )

ライセンス: Link先を確認
Alison E. Rugar, Constantin Dory, Shahriar Aghaeimeibodi, Haiyu Lu, Shuo Sun, Sattwik Deb Mishra, Zhi-Xun Shen, Nicholas A. Melosh, Jelena Vu\v{c}kovi\'c(参考訳) 固体量子エミッタとフォトニック回路を統合することは、大規模量子フォトニックプロセッサの実現に不可欠である。 ダイヤモンド中の負電荷のスズ空孔(SnV$^-$)中心は、狭い線幅の放出や長いスピンコヒーレンス時間を含む優れた光学特性とスピン特性のために量子エミッタの候補として期待されている。 SnV$^-$センターは、光子の効率的なオンチップルーティングのために光導波路に組み込まれる必要がある。 しかし、そのような統合はまだ実現されていない。 このレターでは、SnV$^-$中心とナノフォトニック導波路との結合を実証する。 本装置は,最近開発した浅層イオン注入・成長法による高品質snv$^-$センターの生成と,高度準等方性ダイヤモンド製造技術を用いて実現している。 狭線幅SnV$^-$センター(3,6\pm2$MHz)とダイヤモンド導波路とのカップリングに成功したことにより,これらの技術との互換性と堅牢性を確認した。 さらに,共振励起による導波路結合snv$^-$中心の安定性について検討した。 我々の結果は、SnV$^-$-オンチップスピン光子界面、単光子非線形性、光子を介するスピン相互作用への重要な一歩である。

Integrating solid-state quantum emitters with photonic circuits is essential for realizing large-scale quantum photonic processors. Negatively charged tin-vacancy (SnV$^-$) centers in diamond have emerged as promising candidates for quantum emitters because of their excellent optical and spin properties including narrow-linewidth emission and long spin coherence times. SnV$^-$ centers need to be incorporated in optical waveguides for efficient on-chip routing of the photons they generate. However, such integration has yet to be realized. In this Letter, we demonstrate the coupling of SnV$^-$ centers to a nanophotonic waveguide. We realize this device by leveraging our recently developed shallow ion implantation and growth method for generation of high-quality SnV$^-$ centers and the advanced quasi-isotropic diamond fabrication technique. We confirm the compatibility and robustness of these techniques through successful coupling of narrow-linewidth SnV$^-$ centers (as narrow as $36\pm2$ MHz) to the diamond waveguide. Furthermore, we investigate the stability of waveguide-coupled SnV$^-$ centers under resonant excitation. Our results are an important step toward SnV$^-$-based on-chip spin-photon interfaces, single-photon nonlinearity, and photon-mediated spin interactions.
翻訳日:2023-05-19 05:43:42 公開日:2020-07-28
# 量子インターネットに向けたテレポーテーションシステム

Teleportation Systems Towards a Quantum Internet ( http://arxiv.org/abs/2007.11157v2 )

ライセンス: Link先を確認
Raju Valivarthi, Samantha Davis, Cristian Pena, Si Xie, Nikolai Lauk, Lautaro Narvaez, Jason P. Allmaras, Andrew D. Beyer, Yewon Gim, Meraj Hussein, George Iskander, Hyunseong Linus Kim, Boris Korzh, Andrew Mueller, Mandy Rominsky, Matthew Shaw, Dawn Tang, Emma E. Wollman, Christoph Simon, Panagiotis Spentzouris, Neil Sinclair, Daniel Oblak, and Maria Spiropulu(参考訳) 量子テレポーテーションは長距離量子ネットワークを含む多くの量子情報技術にとって不可欠である。 最先端の低ノイズ超伝導ナノワイヤ単光子検出器やオフザシェルフ光学装置を含むファイバカップリングデバイスを用いて、1536.5nmの通信波長で時間ビン量子ビットの量子テレポーテーションを実現する。 我々は,現実的な不完全性を含むシステムの解析モデルと一致した>=90%のテレポーテーション忠実度を測定する。 展開された量子ネットワークとの整合性を実証するため,22km以上の単一モードファイバを伝送し,さらに22kmのファイバーを伝送した。 我々のシステムは、新興の固体量子デバイスと互換性があり、実用的なデバイスを用いた高忠実な量子インターネットの現実的な基盤を提供する。

Quantum teleportation is essential for many quantum information technologies including long-distance quantum networks. Using fiber-coupled devices, including state-of-the-art low-noise superconducting nanowire single photon detectors and off-the-shelf optics, we achieve quantum teleportation of time-bin qubits at the telecommunication wavelength of 1536.5 nm. We measure teleportation fidelities of >=90% that are consistent with an analytical model of our system, which includes realistic imperfections. To demonstrate the compatibility of our setup with deployed quantum networks, we teleport qubits over 22 km of single-mode fiber while transmitting qubits over an additional 22 km of fiber. Our systems, which are compatible with emerging solid-state quantum devices, provide a realistic foundation for a high-fidelity quantum internet with practical devices.
翻訳日:2023-05-08 18:47:45 公開日:2020-07-28
# 対話型空間音環境による屋外の再生効果の代替

Substituting Restorative Benefits of Being Outdoors through Interactive Augmented Spatial Soundscapes ( http://arxiv.org/abs/2007.13188v2 )

ライセンス: Link先を確認
Swapna Joshi, Kostas Stavrianakis, Sanchari Das(参考訳) 老年病は、米国の高齢者の大半に影響を及ぼす一般的な精神疾患である。 注意回復理論(ART)によれば、屋外活動への参加はうつ病を減らし、回復的利益をもたらすことが知られている。 しかし、うつ病に苦しむ高齢者、特に組織環境においてケアを受ける高齢者の多くは、屋外の自然環境に対する感覚経験が不足している。 これは、身体的または認知的な制限や、野外活動を支援するための組織的リソースの欠如によることが多い。 これに対処するために,我々は,屋外の修復的利益を室内環境にもたらす技術について,空間的自然音環境の拡張を通じて検討する。 そこで本研究では,野外の復元的,社会的,経験的便益に音環境がどう替わるかを評価するために,生活支援施設におけるインタビュアーと観察に基づく研究を提案する。 本研究の目的は,これらの知見を最小限の侵入的かつ直感的な,インタラクティブな拡張サウンドスケープの設計に組み込むことである。

Geriatric depression is a common mental health condition affecting majority of older adults in the US. As per Attention Restoration Theory (ART), participation in outdoor activities is known to reduce depression and provide restorative benefits. However, many older adults, who suffer from depression, especially those who receive care in organizational settings, have less access to sensory experiences of the outdoor natural environment. This is often due to their physical or cognitive limitations and from lack of organizational resources to support outdoor activities. To address this, we plan to study how technology can bring the restorative benefits of outdoors to the indoor environments through augmented spatial natural soundscapes. Thus, we propose an interview and observation-based study at an assisted living facility to evaluate how augmented soundscapes substitute for outdoor restorative, social, and experiential benefits. We aim to integrate these findings into a minimally intrusive and intuitive design of an interactive augmented soundscape, for indoor organizational care settings.
翻訳日:2023-05-08 04:40:55 公開日:2020-07-28
# 行列積状態のワンサイト時間依存変分原理法における結合次元の動的発展:非平衡開量子力学の効率的なシミュレーションに向けて

Dynamically Evolving Bond-Dimensions within the one-site Time-Dependent-Variational-Principle method for Matrix Product States: Towards efficient simulation of non-equilibrium open quantum dynamics ( http://arxiv.org/abs/2007.13528v2 )

ライセンス: Link先を確認
Angus J. Dunnett and Alex W. Chin(参考訳) 非マルコフ的および非摂動的オープンシステムにおける創発的システム-バス相関を理解することは、マトリックス製品状態(MPS)法の適用から大きな恩恵を受けている理論的課題である。 本稿では,局所結合二分法が発展し,成長する絡み合いを「オンザフライ」で捉えることができる多体mps波動関数に対して,ワンサイト時間依存変分原理(1tdvp)法の自動適応型を提案する。 我々は,各動的時間ステップに先立って各MPS結合径を増大させる効果を効率よく検討し,動的かつ不均一に再構成できるMPSを時間的・空間的に増大させることにより実現した。 このことは自然により効率的なシミュレーションをもたらし、多重収束の実行の必要性を緩和し、また、我々が証明したように、複数の環境に接続されたオープン量子システムを記述する典型的な有限温度の「不純物」問題に理想的に適合する。

Understanding the emergent system-bath correlations in non-Markovian and non-perturbative open systems is a theoretical challenge that has benefited greatly from the application of Matrix Product State (MPS) methods. Here, we propose an autonmously adapative variant of the one-site Time-Dependent-Variational-Principle (1TDVP) method for many-body MPS wave-functions in which the local bond-dimensions can evolve to capture growing entanglement 'on the fly'. We achieve this by efficiently examining the effect of increasing each MPS bond-dimension in advance of each dynamic timestep, resulting in an MPS that can dynamically and inhomogeneously restructure itself as the complexity of the dynamics grows across time and space. This naturally leads to more efficient simulations, oviates the need for multiple convergence runs, and, as we demonstrate, is ideally suited to the typical, finite-temperature 'impurity' problems that describe open quantum system connected to multiple environments.
翻訳日:2023-05-08 02:49:21 公開日:2020-07-28
# 分散つぶやきを用いたユニバーサルフェイクニュース収集システム

Universal Fake News Collection System using Debunking Tweets ( http://arxiv.org/abs/2007.14083v1 )

ライセンス: Link先を確認
Taichi Murayama and Shoko Wakamiya and Eiji Aramaki(参考訳) SNS(Social Networking Services)は様々なニュースに簡単にアクセスできるサービスだが、偽情報を持って「フェイクニュース」を入手して共有する機会が増えている。 フェイクニュースに対抗するために、Snopes や PolitiFact などいくつかのファクトチェックサイトが設立された。 しかし、これらのサイトは時間と労働集約的なタスクに依存している。 さらに、利用可能な言語は広くない。 これらの問題に対処するために,様々な言語に対して容易に拡張可能なルールベース(教師なし)フレームワークに基づく新しいフェイクニュース収集システムを提案する。 このシステムは、ユーザーのツイートを削除して偽ニュースになる確率の高いニュースを収集し、注目を集めるイベントクラスタを提示する。 現在、我々のシステムは英語と日本語の2言語で機能している。 これはイベントクラスタを示し、その65\%は実際にはフェイクである。 今後の研究では、他の言語にも適用され、大規模なフェイクニュースデータセットで公開される予定だ。

Large numbers of people use Social Networking Services (SNS) for easy access to various news, but they have more opportunities to obtain and share ``fake news'' carrying false information. Partially to combat fake news, several fact-checking sites such as Snopes and PolitiFact have been founded. Nevertheless, these sites rely on time-consuming and labor-intensive tasks. Moreover, their available languages are not extensive. To address these difficulties, we propose a new fake news collection system based on rule-based (unsupervised) frameworks that can be extended easily for various languages. The system collects news with high probability of being fake by debunking tweets by users and presents event clusters gathering higher attention. Our system currently functions in two languages: English and Japanese. It shows event clusters, 65\% of which are actually fake. In future studies, it will be applied to other languages and will be published with a large fake news dataset.
翻訳日:2023-05-07 23:27:48 公開日:2020-07-28
# ハイブリッドディジタルアナログ法による位相制御ダイナミクスの実験的実現

Experimental realization of phase-controlled dynamics with hybrid digital-analog approach ( http://arxiv.org/abs/2007.14076v1 )

ライセンス: Link先を確認
Ziyu Tao, Libo Zhang, Xiaole Li, Jingjing Niu, Kai Luo, Kangyuan Yi, Yuxuan Zhou, Hao Jia, Song Liu, Tongxing Yan, Yuanzhen Chen, Dapeng Yu(参考訳) 量子シミュレーションは、純粋にデジタルまたはアナログな方法で実装でき、それぞれに長所と短所がある。 ディジタル経路の普遍性とアナログシミュレーションの効率を活用することで、ハイブリッドデジタルアナログアプローチは量子シミュレーションの可能性を高めることができる。 超伝導量子回路における特定の多レベル系内の閉輪相互作用(cci)による位相制御ダイナミクスの量子シミュレーションを実験的に行うために,一意なハイブリッド手法を用いる。 対称性の制約のため、そのようなシステムは固有の cci をホストできない。 それでも、それらの自然な進化に対応するアナログモジュールと、標準量子論理ゲートから構築された特別に設計されたデジタルモジュールを組み立てることで、そのような制約を回避し、これらのシステムにおいて効果的なCCIを実現することができる。 この実現に基づいて, 相制御キラルダイナミクス, キラルエナンチオマーの分離, およびCCIに基づく絡み合い状態の生成機構など, 関連性および興味深い諸現象が示された。

Quantum simulation can be implemented in pure digital or analog ways, each with their pros and cons. By taking advantage of the universality of a digital route and the efficiency of analog simulation, hybrid digital-analog approaches can enrich the possibilities for quantum simulation. We use a unique hybrid approach to experimentally perform a quantum simulation of phase-controlled dynamics resulting from a closed-contour interaction (CCI) within certain multi-level systems in superconducting quantum circuits. Due to symmetry constraints, such systems cannot host an inherent CCI. Nevertheless, by assembling analog modules corresponding to their natural evolutions and specially designed digital modules constructed from standard quantum logic gates, we can bypass such constraints and realize an effective CCI in these systems. Based on this realization, we demonstrate a variety of related and interesting phenomena, including phase-controlled chiral dynamics, separation of chiral enantiomers, and a new mechanism to generate entangled states based on CCI.
翻訳日:2023-05-07 23:27:33 公開日:2020-07-28
# 多進量子分類器

Polyadic Quantum Classifier ( http://arxiv.org/abs/2007.14044v1 )

ライセンス: Link先を確認
William Cappelletti, Rebecca Erbanni and Joaqu\'in Keller(参考訳) NISQアーキテクチャのマルチクラス分類のための教師付き量子機械学習アルゴリズムを紹介する。 パラメトリック量子回路は、入力データポイントのクラスに対応する特定のビット列を出力するように訓練される。 我々は、IBMq 5量子ビット量子コンピュータでそれをトレーニングし、そのアルゴリズムは、Irisデータセットの3次分類とXOR問題の拡張のために、従来の機械学習モデルと比較して、優れた精度を示す。 さらに,アルゴリズムの2進法と4次分類をrespを用いてシミュレーションして評価する。 既知のバイナリデータセットと合成データセット。

We introduce here a supervised quantum machine learning algorithm for multi-class classification on NISQ architectures. A parametric quantum circuit is trained to output a specific bit string corresponding to the class of the input datapoint. We train and test it on an IBMq 5-qubit quantum computer and the algorithm shows good accuracy --compared to a classical machine learning model-- for ternary classification of the Iris dataset and an extension of the XOR problem. Furthermore, we evaluate with simulations how the algorithm fares for a binary and a quaternary classification on resp. a known binary dataset and a synthetic dataset.
翻訳日:2023-05-07 23:26:37 公開日:2020-07-28
# 量子物質におけるビオット・サーバルト則

Biot-Savart law in quantum matter ( http://arxiv.org/abs/2007.14017v1 )

ライセンス: Link先を確認
X. M. Yang and Z. Song(参考訳) 補助空間における2つの独立周期ベクトル関数(結び目)の差としてブロッホベクトルを表現できる格子系のクラスにおける位相的性質について検討する。 縮退線としての各ループが、Biot-Savart法則に従って偏極場を生成することを正確に示す: 縮退線は電流搬送線として作用し、偏極場は生成された磁場に対応する。 非自明な位相系にアンペアの回路法則を適用すると、2つのブロッホ結び目が互いに絡み合っており、エネルギーバンドのチャーン数の値である連結数とのリンクを形成することが分かる。 さらに,2つの格子モデル,拡張QWZモデルと磁束を持つ準1Dモデルを提案し,本手法の適用例を示した。 バイオト・サバールの法則の助けを借りて、チャーン数の動的測度としての揚水電荷を準断熱過程から数値的に求める。

We study the topological nature of a class of lattice systems, whose Bloch vector can be expressed as the difference of two independent periodic vector functions (knots) in an auxiliary space. We show exactly that each loop as a degeneracy line generates a polarization field, obeying the Biot-Savart law: The degeneracy line acts as a current-carrying wire, while the polarization field corresponds to the generated magnetic field. Applying the Ampere's circuital law on a nontrivial topological system, we find that two Bloch knots entangle with each other, forming a link with the linking number being the value of Chern number of the energy band. In addition, two lattice models, an extended QWZ model and a quasi-1D model with magnetic flux, are proposed to exemplify the application of our approach. In the aid of the Biot-Savart law, the pumping charge as a dynamic measure of Chern number is obtained numerically from quasi-adiabatic processes.
翻訳日:2023-05-07 23:26:27 公開日:2020-07-28
# ポイントプロセスで抽出した時間特徴を用いたフェイクニュース検出

Fake News Detection using Temporal Features Extracted via Point Process ( http://arxiv.org/abs/2007.14013v1 )

ライセンス: Link先を確認
Taichi Murayama, Shoko Wakamiya and Eiji Aramaki(参考訳) 多くの人が様々なニュースに簡単にアクセスするためにSNS(Social Network Service)を使っている。 偽情報を載せたニュースである「フェイクニュース」を入手し、共有する方法は多数ある。 偽ニュースに対処するため,SNS抽出機能を用いて偽ニュースを検出する研究がいくつか行われている。 本研究では,実ニュースから偽ニュースを識別するポイントプロセスアルゴリズムを用いて,SNS投稿から発生する時間的特徴を利用する。 フェイクニュース検出における時間的特徴は、フェイクニュースプロパゲータに最小限依存しているため、既存の特徴よりも堅牢である。 さらに,SNSの投稿から偽ニュースを検出するための,言語的特徴とユーザ的特徴を同時に含む新しいマルチモーダルアテンションベース手法を提案する。 3つの公開データセットから得られた結果は,提案モデルが既存手法よりも優れた性能を示し,フェイクニュース検出における時間的特徴の有効性を示した。

Many people use social networking services (SNSs) to easily access various news. There are numerous ways to obtain and share ``fake news,'' which are news carrying false information. To address fake news, several studies have been conducted for detecting fake news by using SNS-extracted features. In this study, we attempt to use temporal features generated from SNS posts by using a point process algorithm to identify fake news from real news. Temporal features in fake news detection have the advantage of robustness over existing features because it has minimal dependence on fake news propagators. Further, we propose a novel multi-modal attention-based method, which includes linguistic and user features alongside temporal features, for detecting fake news from SNS posts. Results obtained from three public datasets indicate that the proposed model achieves better performance compared to existing methods and demonstrate the effectiveness of temporal features for fake news detection.
翻訳日:2023-05-07 23:26:12 公開日:2020-07-28
# 繰り返し測定と大時間限界による格子フェルミオン系からの確率過程

Stochastic process emerged from lattice fermion systems by repeated measurements and large-time limit ( http://arxiv.org/abs/2007.13940v1 )

ライセンス: Link先を確認
Kazuki Yamaga(参考訳) 量子論では、測定が系のハミルトン力学を抑制することが知られている。 有名な例が「量子禅王効果」である。 この現象は、システムが固定された測定時間までの初期時刻に同じ状態であるかどうかを何度も尋ねると、その測定間隔を0にすることで生存確率が1になる傾向があるという現象である。 これは固定的な測定時間の場合です。 適切なスケーリングで測定時間を無限にすると、'Quantum Zeno Effect' が発生しず、ハミルトン力学の影響が現れることが知られている(Facchi and Ligabo 2017)。 本稿では,測定と力学の効果のバランスをとるスケーリングにおける,長時間繰り返し測定と量子多体系のダイナミクスについて考察する。 本研究では, 有限格子フェルミオン系における粒子配置の繰り返し, 長時間の計測から, 対称単純排除過程 (SSEP) と呼ばれる確率過程が得られたことを示す。 出現する確率過程は、系の基盤となるハミルトニアンのポテンシャルと相互作用とは独立である。

It is known that in quantum theory, measurements may suppress Hamiltonian dynamics of a system. A famous example is the `Quantum Zeno Effect'. This is the phenomena that if one repeats the measurements many times asking whether the system is in the same state as the one at the initial time until the fixed measurement time, then survival probability tends to 1 by taking the measurement interval to 0. This is the case for fixed measurement time. It is known that if one takes measurement time infinite at appropriate scaling, `Quantum Zeno Effect' does not occur and the effect of Hamiltonian dynamics emerges (Facchi and Ligabo 2017). In the present paper, we consider the long time repeated measurements and the dynamics of quantum many body systems in the scaling where the effect of measurements and dynamics are balanced. We show that the stochastic process, called symmetric simple exclusion process (SSEP), is obtained from the repeated and long time measurements of configuration of particles in finite lattice fermion systems. The emerging stochastic process is independent of potential and interaction of the underlying Hamiltonian of the system.
翻訳日:2023-05-07 23:25:39 公開日:2020-07-28
# 量子絡み合いの簡易化のコスト

Cost of quantum entanglement simplified ( http://arxiv.org/abs/2007.14270v1 )

ライセンス: Link先を確認
Xin Wang, Mark M. Wilde(参考訳) 量子エンタングルメント(quantum entanglement)は、量子情報処理における重要な物理資源であり、従来の世界では不可能なテレポーテーションや量子鍵分布といった基本的な量子タスクを実行することができる。 量子情報理論の台頭以来、情報理論上有意義な方法で絡み合いを定量化することはオープンな問題であった。 特に、正確な情報理論的な意味を持つ事前定義されたすべての絡み合い尺度は、効率的に計算可能であること、あるいは効率的に計算可能であれば、正確な情報理論的な意味を持つことは分かっていない。 本稿では,この課題に対処するため,部分的転置の正当性を完全に保存する量子演算を2つの遠方部で行うことを許された場合に,絡み合った状態を作成するのに必要な正確なコストとして,正確な情報理論的意味を持つ絡み合い尺度を導入する。 さらに、この絡み合い測度は半定値プログラムによって効率的に計算可能であり、加法性や忠実性など多くの有用な特性を有する。 この結果は、任意の量子状態の基本的な絡み合い構造に重要な洞察をもたらし、量子物理実験で生じる絡み合いを直接的に評価し定量化することができる。

Quantum entanglement is a key physical resource in quantum information processing that allows for performing basic quantum tasks such as teleportation and quantum key distribution, which are impossible in the classical world. Ever since the rise of quantum information theory, it has been an open problem to quantify entanglement in an information-theoretically meaningful way. In particular, every previously defined entanglement measure bearing a precise information-theoretic meaning is not known to be efficiently computable, or if it is efficiently computable, then it is not known to have a precise information-theoretic meaning. In this Letter, we meet this challenge by introducing an entanglement measure that has a precise information-theoretic meaning as the exact cost required to prepare an entangled state when two distant parties are allowed to perform quantum operations that completely preserve the positivity of the partial transpose. Additionally, this entanglement measure is efficiently computable by means of a semidefinite program, and it bears a number of useful properties such as additivity and faithfulness. Our results bring key insights into the fundamental entanglement structure of arbitrary quantum states, and they can be used directly to assess and quantify the entanglement produced in quantum-physical experiments.
翻訳日:2023-05-07 23:19:41 公開日:2020-07-28
# 区別がつかない」という概念

The Concept 'Indistinguishable' ( http://arxiv.org/abs/2007.14214v1 )

ライセンス: Link先を確認
Simon Saunders(参考訳) 量子論における識別不能粒子の概念はオントロジーの問題に基礎を置いている。 通常の物質はすべて電子、陽子、中性子、光子でできており、これらは全て区別できない粒子である。 しかし、その概念そのものは、部分的には量子理論を非常に一般的に苦しめている解釈上の難しさと、1900年のプランクによる量子自体の発見の中心であったこともあって、解明されている。 私は、ギブスの概念である「一般位相」と同一の「区別不能」の概念のデフレ読解を提供し、境界体積とエネルギーの有限個の状態(量子力学において有限個の直交状態)を持つ状態空間に対して定義されることを保存する。 それだけで、量子とギブスの区別がつかない概念の違いが生まれます。 この主張はいくつかの数について異論があるが、ここでは主張の内容と量子論の初期の歴史を、粒子の区別不可能性や置換対称性に関する現代の議論よりも考慮する。 それはその歴史を強力に照らす。

The concept of indistinguishable particles in quantum theory is fundamental to questions of ontology. All ordinary matter is made of electrons, protons, neutrons, and photons and they are all indistinguishable particles. Yet the concept itself has proved elusive, in part because of the interpretational difficulties that afflict quantum theory quite generally, and in part because the concept was so central to the discovery of the quantum itself, by Planck in 1900; it came encumbered with revolution. I offer a deflationary reading of the concept "indistinguishable" that is identical to the Gibbs concept of "generic phase", save that it is defined for state spaces with only finitely-many states of bounded volume and energy (finitely-many orthogonal states, in quantum mechanics). That, and that alone, makes for the difference between the quantum and Gibbs concepts of indistinguishability. This claim is heretical on several counts, but here we consider only the content of the claim itself, and its bearing on the early history of quantum theory rather than in relation to contemporary debates about particle indistinguishability and permutation symmetry. It powerfully illuminates that history.
翻訳日:2023-05-07 23:18:51 公開日:2020-07-28
# 産業領域におけるスマートコントラクトによる企業間の合意 4.0

Agreements between Enterprises digitized by Smart Contracts in the Domain of Industry 4.0 ( http://arxiv.org/abs/2007.14181v1 )

ライセンス: Link先を確認
Kevin Wallis, Jan Stodt, Eugen Jastremskoj and Christoph Reich(参考訳) 企業のデジタルトランスフォーメーションは、最適化されたカスタマイズされたハイブリッドビジネスモデルを開発するために、さまざまな企業間のデジタルインターコネクトを強化することが期待されている。 これらのクロスコンプライヤビジネスモデルは、マシンツール、オペレータ、サービスプロバイダ間の契約で合意された情報共有のセキュアで信頼性があり、トレース可能なロギングと監視を必要とする。 本稿では、デジタル契約のための信頼の連鎖とスマートコントラクトを構築するブロックチェーンによって、ハイブリッドビジネスモデルを構築するための主要な要件にどう取り組むかについて議論する。 マシンメンテナンスユースケースは、コントラクトで定義されたワークフローの自動化のためのスマートコントラクトの準備性について議論するために使用される。 さらに、これらのコントラクトとブロックチェーンを使用することで、障害数を大幅に改善することが示されている。

The digital transformation of companies is expected to increase the digital interconnection between different companies to develop optimized, customized, hybrid business models. These cross-company business models require secure, reliable, and traceable logging and monitoring of contractually agreed information sharing between machine tools, operators, and service providers. This paper discusses how the major requirements for building hybrid business models can be tackled by the blockchain for building a chain of trust and smart contracts for digitized contracts. A machine maintenance use case is used to discuss the readiness of smart contracts for the automation of workflows defined in contracts. Furthermore, it is shown that the number of failures is significantly improved by using these contracts and a blockchain.
翻訳日:2023-05-07 23:18:31 公開日:2020-07-28
# フォトニックブラックボックスにおける単一分子のコヒーレント特性

Coherent characterisation of a single molecule in a photonic black box ( http://arxiv.org/abs/2007.14133v1 )

ライセンス: Link先を確認
Sebastien Boissier, Ross C. Schofield, Lin Jin, Anna Ovvyan, Salahuddin Nur, Frank H. L. Koppens, Costanza Toninelli, Wolfram H. P. Pernice, Kyle D. Major, E. A. Hinds, Alex S. Clark(参考訳) 消滅分光法は、単一量子エミッタとフォトニック構造との結合を示す強力なツールである。 しかし、測定されたスペクトルから結合効率の正確な値を推測するには、最も単純なジオメトリ以外は困難である。 ここでは,光環境を正確に知ることなく,測定した透過スペクトルと反射スペクトルから結合効率を推定する理論的枠組みを開発する。 次に、エミッタが配置された横切片によって中断された導波路の場合を考える。 この理論を、ジベンゾテレレン分子をドープしたアントラセンで満たされたギャップによって中断された窒化ケイ素導波路に適用する。 これらのデバイスの作製について述べるとともに、ギャップ内の単一分子の導波路結合を実験的に特徴づける。

Extinction spectroscopy is a powerful tool for demonstrating the coupling of a single quantum emitter to a photonic structure. However, it can be challenging in all but the simplest of geometries to deduce an accurate value of the coupling efficiency from the measured spectrum. Here we develop a theoretical framework to deduce the coupling efficiency from the measured transmission and reflection spectra without precise knowledge of the photonic environment. We then consider the case of a waveguide interrupted by a transverse cut in which an emitter is placed. We apply that theory to a silicon nitride waveguide interrupted by a gap filled with anthracene that is doped with dibenzoterrylene molecules. We describe the fabrication of these devices, and experimentally characterise the waveguide coupling of a single molecule in the gap.
翻訳日:2023-05-07 23:18:02 公開日:2020-07-28
# スピン軌道結合スピン-1ボース気体の動的ゼーマン共鳴

Dynamical Zeeman resonance in spin-orbit-coupled spin-1 Bose gases ( http://arxiv.org/abs/2007.14131v1 )

ライセンス: Link先を確認
Jingtao Fan, Gang Chen, Suotang Jia(参考訳) 我々は,スピン軌道結合したスピン-1 ボース-アインシュタイン凝縮体において,外部応用線形および二次ゼーマン場によって駆動される動的共振効果を予測する。 ボース=アインシュタイン凝縮はゼーマン準位の重ね合わせ状態において初期化され、トラップポテンシャルの突然のシフトを受けると仮定される。 ボース・アインシュタイン凝縮体の平均質量振動とスピン偏極はゼーマン場が一定の強度に調整されたときに顕著な共鳴ピークを示す。 この共鳴の背後にある物理は、異なるスピンビット状態によって運ばれる動的位相の位相外干渉まで遡ることができる。 単一粒子スペクトルを解析することにより、共鳴条件は単純な代数的関係としてまとめられ、線型および二次ゼーマン場の強さを結びつける。 この性質は量子情報や量子精度測定に応用できる可能性がある。

We predict a dynamical resonant effect, which is driven by externally applied linear and quadratic Zeeman fields, in a spin-orbit-coupled spin-1 Bose-Einstein condensate. The Bose-Einstein condensate is assumed to be initialized in some superposed state of Zeeman sublevels and subject to a sudden shift of the trapping potential. It is shown that the time-averaged center-of-mass oscillation and the spin polarizations of the Bose-Einstein condensate exhibit remarkable resonant peaks when the Zeeman fields are tuned to certain strengths. The underlying physics behind this resonance can be traced back to the out-of-phase interference of the dynamical phases carried by different spinorbit states. By analyzing the single particle spectrum, the resonant condition is summarized as a simple algebraic relation, connecting the strengths of the linear and quadratic Zeeman fields. This property is potentially applicable in quantum information and quantum precision measurement.
翻訳日:2023-05-07 23:17:51 公開日:2020-07-28
# 赤外線による非線形干渉計測

Nonlinear interferometry with infrared metasurfaces ( http://arxiv.org/abs/2007.14117v1 )

ライセンス: Link先を確認
Anna V. Paterova, Dmitry A. Kalashnikov, Egor Khaidarov, Hongzhi Yang, Tobias W. W. Mass, Ramon Paniagua-Dominguez, Arseniy I. Kuznetsov, and Leonid A. Krivitsky(参考訳) 準拡散光散乱体(メタサーフェス)からなる光学素子は、光学素子のフットプリントを減らし、新しい機能を広げることを約束する。 特に興味を持つのは、光の位相と振幅を操作するための準曲面である。 メタサーフェスのキャラクタリゼーションは干渉法(interferometry)を用いて行うことができるが、これは特に赤外線(ir)範囲では厄介である。 本稿では,可視光に可視光成分を用いる非線形干渉に基づくirメタサーフェスを特徴付ける新しい手法を実現する。 相関されたirと可視光子は非線形干渉計に打ち上げられ、ir光子のメタサーフェスによって課される位相プロファイルは可視光子の波長での干渉を変化させる。 さらに,この概念は,可視光の強度プロファイルを1つの赤外線メタサーフェスを用いてブロードバンド操作するためにも利用できることを示す。 本手法は、先進光学素子のキャラクタリゼーションのための量子干渉法の可能性を広げる。

The optical elements comprised of sub-diffractive light scatterers, or metasurfaces, hold a promise to reduce the footprint and unfold new functionalities of optical devices. A particular interest is focused on metasurfaces for manipulation of phase and amplitude of light beams. Characterisation of metasurfaces can be performed using interferometry, which, however, may be cumbersome, specifically in the infrared (IR) range. Here, we realise a new method for characterising IR metasurfaces based on nonlinear interference, which uses accessible components for visible light. Correlated IR and visible photons are launched into a nonlinear interferometer so that the phase profile, imposed by the metasurface on the IR photons, modifies the interference at the visible photon wavelength. Furthermore, we show that this concept can be used for broadband manipulation of the intensity profile of a visible beam using a single IR metasurface. Our method unfolds the potential of quantum interferometry for the characterization of advanced optical elements.
翻訳日:2023-05-07 23:17:36 公開日:2020-07-28
# 非マルコフ系における初期系相関によるサイドバンド冷却の最適化

Optimized sideband cooling with initial system correlations in non-Markovian regime ( http://arxiv.org/abs/2007.14094v1 )

ライセンス: Link先を確認
Wen-Zhao Zhang, Ting Tan, Jie Zhao, Wenlin Li, and Jiong Cheng(参考訳) 一般機械式非マルコフ型貯水池と結合した標準光力学系において,初期系相関の存在下でのサイドバンド冷却を最適化した。 本研究では,初期相関の効果をハイゼンベルク方程式の時間依存係数に組み込むことで,フォノン数の進化を研究する。 冷却速度の概念を導入し,非マルコフ系におけるサイドバンド冷却効果を記述するために,平均フォノン還元関数を定義する。 その結果,パラメトリック増幅型とビームスプリッター型の初期相関を導入することにより,瞬時フォノン数を大幅に削減できることがわかった。 また,ビームスプリッタ型の初期相関を高めることにより,地中冷却速度を向上することができる。 システムの初期状態を最適化し、Q変調技術を活用することにより、非常に短時間で安定した機械的地盤状態を得ることができる。 我々の最適化冷却プロトコルは固体系のフォノン操作と量子情報処理のための魅力的なプラットフォームを提供する。

An optimized sideband cooling in the presence of initial system correlations is investigated for a standard optomechanical system coupled to a general mechanical non-Markovian reservoir. We study the evolution of phonon number by incorporating the effects of initial correlations into the time-dependent coefficients in the Heisenberg equation. We introduce the concept of cooling rate and define an average phonon reduction function to describe the sideband cooling effect in non-Markovian regime. Our results show that the instantaneous phonon number can be significantly reduced by introducing either the parametric-amplification type or the beam-splitter type initial correlations. In addition, the ground state cooling rate can be accelerated by enhancing the initial correlation of beam-splitter type. By optimizing the initial state of the system and utilizing Q-modulation technology, a stable mechanical ground state can be obtained in a very short time. Our optimized cooling protocol provides an appealing platform for phonon manipulation and quantum information processing in solid-state systems.
翻訳日:2023-05-07 23:17:20 公開日:2020-07-28
# 非相反結合を持つ二重キャビティ光機械系における光子遮断

Photon blockade in a double-cavity optomechanical system with nonreciprocal coupling ( http://arxiv.org/abs/2007.14091v1 )

ライセンス: Link先を確認
Dong-Yang Wang, Cheng-Hua Bai, Shutian Liu, Shou Zhang, and Hong-Fu Wang(参考訳) 光子遮断は単一光子を生成する効果的な方法であり、量子状態形成と量子情報処理において非常に重要である。 本研究では,非相反結合を有する二重キャビティ光力学系における光子の統計特性を調べ,弱結合領域と強結合領域における光子遮断について検討する。 強い光子遮蔽を達成するために、異なる遮蔽機構の下で最適なパラメータ関係を与える。 さらに, それぞれの機構下での光子遮断は非相互結合の変化とは全く異なる挙動を示し, 完全光子遮断は過度に大きな光子結合を伴わずに実現可能であること, すなわち, 光子遮断は従来の認知を破る機械周波数よりもはるかに小さいことが判明した。 本提案は単一光子源を実現するための実現可能で柔軟なプラットフォームを提供する。

Photon blockade is an effective way to generate single photon, which is of great significance in quantum state preparation and quantum information processing. Here we investigate the statistical properties of photons in a double-cavity optomechanical system with nonreciprocal coupling, and explore the photon blockade in the weak and strong coupling regions respectively. To achieve the strong photon blockade, we give the optimal parameter relations under different blockade mechanisms. Moreover, we find that the photon blockades under their respective mechanisms exhibit completely different behaviors with the change of nonreciprocal coupling, and the perfect photon blockade can be achieved without an excessively large optomechanical coupling, i.e., the optomechanical coupling is much smaller than the mechanical frequency, which breaks the traditional cognition. Our proposal provides a feasible and flexible platform for the realization of single-photon source.
翻訳日:2023-05-07 23:17:06 公開日:2020-07-28
# 単層遷移金属シアルコゲナイド半導体の量子欠陥におけるフォノン支援遷移の動的変調

Dynamic modulation of phonon-assisted transitions in quantum defects in monolayer transition-metal dichalcogenide semiconductors ( http://arxiv.org/abs/2007.14399v1 )

ライセンス: Link先を確認
Chitraleema Chakraborty, Christopher J. Ciccarino and Prineha Narang(参考訳) 半導体における原子点欠陥による量子局在は重要な基礎的・技術的重要性を持つ。 単層遷移金属ジカルコゲナイド半導体の量子欠陥は、安定でスケーラブルなスピン量子ビットとして提案されている。 しかし、例えば光学励起下での動的応答に対する強いスピン軌道結合の影響は、いまだに解明されていない。 本研究では, 単層遷移金属ジアルコゲナイド, モリブデンジスルフィド (MoS$_2$), タングステンジスルフィド (WS$_2$) における単一カルコゲン空孔欠陥の電子-フォノン相互作用に及ぼすスピン軌道カップリングの効果について検討した。 ab 電子構造理論の計算から、スピン軌道相互作用は欠陥の光学的および電荷的遷移における電子-フォノン結合の大きさを調整し、それぞれの効率を変調する。 この観察は、量子欠陥の局所的挙動を調整するために動的に材料特性を変調する有望なスキームを開く。

Quantum localization via atomic point defects in semiconductors is of significant fundamental and technological importance. Quantum defects in monolayer transition-metal dichalcogenide semiconductors have been proposed as stable and scalable optically-addressable spin qubits. Yet, the impact of strong spin-orbit coupling on their dynamical response, for example under optical excitation, has remained elusive. In this context, we study the effect of spin-orbit coupling on the electron-phonon interaction in a single chalcogen vacancy defect in monolayer transition metal dichalcogenides, molybdenum disulfide (MoS$_2$) and tungsten disulfide (WS$_2$). From ab initio electronic structure theory calculations, we find that spin-orbit interactions tune the magnitude of the electron-phonon coupling in both optical and charge-state transitions of the defect, modulating their respective efficiencies. This observation opens up a promising scheme of dynamically modulating material properties to tune the local behavior of a quantum defect.
翻訳日:2023-05-07 23:08:55 公開日:2020-07-28
# ハイブリッドチャネルと自然乱数を用いた量子鍵分布の強化

Enhanced Quantum Key Distribution using Hybrid Channels and Natural Random Numbers ( http://arxiv.org/abs/2007.14298v1 )

ライセンス: Link先を確認
Hemant Rana, Nitin Verma(参考訳) 1982年にリチャード・ファインマンによって量子計算が導入されてから、量子計算は非構造化データベース探索、因子分解、分子シミュレーションなど、コンピュータ科学の様々な応用における模範的な結果を示している。 最近の開発には、量子機械学習、量子ニューラルネットワーク、グラフ上の量子ウォーク、エラー訂正コードを用いたフォールトトレラントなスケーラブル量子コンピュータなどがある。 量子情報の重要な応用の1つは量子暗号と量子チャネル上の安全な鍵分布であり、古典的チャネル、特に盗聴の検出よりもいくつかの利点がある。 本稿では、量子システムと量子チャネルの特性に基づいて、古典的および量子的チャネルの混合に基づく3つのセキュアな鍵分布プロトコルを提案する。 また、提案プロトコルは、量子コンピュータの特性を利用して、量子チャネル上の単一キュービットで簡単に送信できる自然乱数を生成し、通信ネットワーク内の関係者に鍵を配布するためにも使用できる。

Since the introduction of quantum computation by Richard Feynman in 1982, Quantum computation has shown exemplary results in various applications of computer science including unstructured database search, factorization, molecular simulations to name a few. Some of the recent developments include quantum machine learning, quantum neural networks, quantum walks on graphs, fault tolerant scalable quantum computers using error correction codes etc. One of the crucial modern applications of quantum information is quantum cryptography and secure key distribution over quantum channels which have several advantages over classical channels, especially detection of eavesdropping. Based on such properties of quantum systems and quantum channels, In this paper we propose three secure key distribution protocols based on a blend of classical and quantum channels. Also the proposed protocols exploits the property of quantum computers to generate natural random numbers that can be easily transmitted using a single qubit over a quantum channel and can be used for distributing keys to the involved parties in a communication network.
翻訳日:2023-05-07 23:07:34 公開日:2020-07-28
# 連続的な入力データを持つ人工ニューロンの量子計算モデル

Quantum computing model of an artificial neuron with continuously valued input data ( http://arxiv.org/abs/2007.14288v1 )

ライセンス: Link先を確認
Stefano Mangini, Francesco Tacchino, Dario Gerace, Chiara Macchiavello, Daniele Bajoni(参考訳) 量子コンピュータ上での実装と実行の恩恵を受ける可能性のあるアルゴリズムとして、人工ニューラルネットワークが提案されている。 特に、画像の精巧化やパターン認識など、人工知能のタスクを大幅に強化すると約束している。 ニューラルネットワークの基本構築ブロックは、入力ベクトルの形でデータの集合に対して単純な数学的操作を行う計算単位である人工ニューロンである。 本稿では,以前に導入した量子人工ニューロン(npj quant)の実装設計について述べる。 インフ。 バイナリ値の入力データをエンコードするために重ね合わせ状態を使用する$\textbf{5}$, 26]は、キュービット数を増加せずに、離散値の入力ベクトルではなく、連続的な入力を受け入れるようにさらに一般化することができる。 このさらなるステップは、バイナリ値のデータエンコーディングと互換性のない自動微分学習手順の直接的な適用を可能にするために重要である。

Artificial neural networks have been proposed as potential algorithms that could benefit from being implemented and run on quantum computers. In particular, they hold promise to greatly enhance Artificial Intelligence tasks, such as image elaboration or pattern recognition. The elementary building block of a neural network is an artificial neuron, i.e. a computational unit performing simple mathematical operations on a set of data in the form of an input vector. Here we show how the design for the implementation of a previously introduced quantum artificial neuron [npj Quant. Inf. $\textbf{5}$, 26], which fully exploits the use of superposition states to encode binary valued input data, can be further generalized to accept continuous -- instead of discrete-valued input vectors, without increasing the number of qubits. This further step is crucial to allow for a direct application of an automatic differentiation learning procedure, which would not be compatible with binary-valued data encoding.
翻訳日:2023-05-07 23:07:17 公開日:2020-07-28
# オンラインウェルビーイングとユーザ信頼の尺度の開発

Developing a measure of online wellbeing and user trust ( http://arxiv.org/abs/2007.14273v1 )

ライセンス: Link先を確認
Liz Dowthwaite, Elvira Perez Vallejos, Helen Creswick, Virginia Portillo, Menisha Patel, Jun Zhao(参考訳) 本稿では,高齢者と高齢者の一連のワークショップの結果をもとに,オンラインの幸福度と信頼度を測定する2つの尺度の開発の第1段階について述べる。 ひとつは、オンライン・ウェルビーイング・スケール(Online Wellbeing Scale)で、心理的、ユーダモニック、ウェルビーイング、主観的、ヘドニック、ウェルビーイング、デジタルリテラシー、オンライン活動の両方をカバーするサブスケールを含む。 第2の尺度であるTrust Indexには、ユーザへの信頼の重要性、信条の信頼、文脈的要因をカバーする3つのサブスケールが含まれており、このスケールの目的は、オンラインアルゴリズム駆動システムにおける信頼を調べることである。 この尺度は、研究者が信頼(あるいは信頼の欠如)がオンライン全体の幸福とどのように関係しているかを理解するのに役立つ。 また、オンラインアルゴリズム駆動システムの開発において、信頼の問題をオンライン上で交渉するためのツールセットの開発や、信頼の考慮事項を含むためのガイドラインの設計にも貢献する。 次のステップは、このパイロットの結果として開発されたプロトタイプスケールを大規模なオンライン研究で公開し、測定値を検証することだ。

This paper describes the first stage of the ongoing development of two scales to measure online wellbeing and trust, based on the results of a series of workshops with younger and older adults. The first, the Online Wellbeing Scale includes subscales covering both psychological, or eudaimonic, wellbeing and subjective, or hedonic, wellbeing, as well as digital literacy and online activity; the overall aim is to understand how a user's online experiences affect their wellbeing. The second scale, the Trust Index includes three subscales covering the importance of trust to the user, trusting beliefs, and contextual factors; the aim for this scale is to examine trust in online algorithm-driven systems. The scales will be used together to aid researchers in understanding how trust (or lack of trust) relates to overall wellbeing online. They will also contribute to the development of a suite of tools for empowering users to negotiate issues of trust online, as well as in designing guidelines for the inclusion of trust considerations in the development of online algorithm-driven systems. The next step is to release the prototype scales developed as a result of this pilot in a large online study in to validate the measures.
翻訳日:2023-05-07 23:06:42 公開日:2020-07-28
# 人工知能におけるデータ、パワー、バイアス

Data, Power and Bias in Artificial Intelligence ( http://arxiv.org/abs/2008.07341v1 )

ライセンス: Link先を確認
Susan Leavy, Barry O'Sullivan, Eugenia Siapera(参考訳) 人工知能は社会的な偏見を悪化させ、平等な権利と市民の自由の何十年もの進歩をもたらした。 機械学習アルゴリズムのトレーニングに使用されるデータは、社会で学習され、持続される社会的不正、不平等、差別的態度を捉えることができる。 この問題に対処しようとする試みは、技術的ソリューション、社会正義、データガバナンスの措置を含むさまざまな観点から急速に現れています。 これらのアプローチは、包括的なソリューションの開発に不可欠であるが、それぞれに関連する議論はしばしば異なって見える。 本稿では、異なる分野のaiシステムにおけるデータの公正性、公平性、バイアス緩和の確保に向けた取り組みをレビューし、aiトレーニングデータにおけるバイアスの必然性が実際に社会の利益に利用できるかどうかを検討する。 偏見に対処するポリシーの定義に関連する複雑さを強調します。 また,社会バイアス問題に対する技術的課題についても考察する。

Artificial Intelligence has the potential to exacerbate societal bias and set back decades of advances in equal rights and civil liberty. Data used to train machine learning algorithms may capture social injustices, inequality or discriminatory attitudes that may be learned and perpetuated in society. Attempts to address this issue are rapidly emerging from different perspectives involving technical solutions, social justice and data governance measures. While each of these approaches are essential to the development of a comprehensive solution, often discourse associated with each seems disparate. This paper reviews ongoing work to ensure data justice, fairness and bias mitigation in AI systems from different domains exploring the interrelated dynamics of each and examining whether the inevitability of bias in AI training data may in fact be used for social good. We highlight the complexity associated with defining policies for dealing with bias. We also consider technical challenges in addressing issues of societal bias.
翻訳日:2023-05-07 22:59:50 公開日:2020-07-28
# 新型コロナウイルス(covid-19)の非接触センシング技術の現状

A Review on the State of the Art in Non Contact Sensing for COVID-19 ( http://arxiv.org/abs/2007.16063v1 )

ライセンス: Link先を確認
William Taylor, Qammer H. Abbasi, Kia Dashtipour, Shuja Ansari, Aziz Shah, Arslan Khan and Muhammad Ali Imran(参考訳) SARS-CoV-2による新型コロナウイルス感染症は、最近世界的なパンデミックを引き起こしている。 予防接種や治療が承認されていないため、世界中の政府は感染拡大を抑制するため、国民に自宅に留まるよう指導している。 ウイルスの感染拡大を制御する目的は、病院でのウイルス感染を予防することである。 本稿では,非侵襲的方法を用いて新型コロナウイルスの検出と医療従事者のケアを支援することに焦点を当てた。 新型コロナウイルスの早期検出は、感染拡大を早期に防ぐことができる。 本研究は,現状のアプローチで適用されている手法の利点と欠点を概説する。 さらに本論文は,このパンデミックを制御するための革新的な技術を見出すために,さらに検討する必要がある今後の研究の方向性を浮き彫りにする。

COVID-19 disease, caused by SARS-CoV-2, has resulted in a global pandemic recently. With no approved vaccination or treatment, governments around the world have issued guidance to their citizens to remain at home in efforts to control the spread of the disease. The goal of controlling the spread of the virus is to prevent strain on hospital. In this paper, we have focus on how non-invasive methods are being used to detect the COVID-19 and assist healthcare workers in caring for COVID-19 patients. Early detection of the COVID-19 virus can allow for early isolation to prevent further spread. This study outlines the advantages and disadvantages and a breakdown of the methods applied in the current state-of-the-art approaches. In addition, the paper highlights some future research directions, which are required to be explored further to come up with innovative technologies to control this pandemic.
翻訳日:2023-05-07 22:59:34 公開日:2020-07-28
# フリッカーノイズの量子理論:電圧パワースペクトルの低界としての1/f法則

Quantum theory of flicker noise: the 1/f law as a lower bound on the voltage power spectrum ( http://arxiv.org/abs/2007.14481v1 )

ライセンス: Link先を確認
Kirill A. Kazakov(参考訳) フーリエ変換信号の不確かさ関係に基づいて、全導電媒体で観測される1/f電圧雑音問題へのアプローチを開発した。 異なる時間に観測可能の非可換性に起因する量子不確定性は、電圧変動のパワースペクトルに低いバウンドを与えることを示した。 シュウィンガー・ケルディッシュ法を用いて、この境界は非分極自由型電荷キャリアの場合には明示的に計算され、1/fの低周波漸近性を持つ。 また,電荷キャリアとフォノンの相互作用を考慮すれば,周波数指数が一元からシフトすることを示した。 InGaAs量子井戸と高温超伝導体の1/fノイズに関する実験データとの比較を行い、観測されたノイズレベルが確立された限界のわずか数倍であることを示した。

An approach to the problem of 1/f voltage noise observed in all conducting media is developed based on an uncertainty relation for the Fourier-transformed signal. It is shown that the quantum indeterminacy caused by non-commutativity of observables at different times sets a lower bound on the power spectrum of voltage fluctuations. Using the Schwinger-Keldysh method, this bound is calculated explicitly in the case of unpolarized free-like charge carriers, and is found to have a 1/f low-frequency asymptotic. It is demonstrated also that account of the charge carrier interaction with phonons results in a shift of the frequency exponent from unity. A comparison with the experimental data on 1/f noise in InGaAs quantum wells and high-temperature superconductors is made which shows that the observed noise levels are only a few times as high as the bound established.
翻訳日:2023-05-07 22:59:03 公開日:2020-07-28
# 加速量子系における絡み合いの損失の抑制と量子コヒーレンスの非局所的優位性

Restrain the losses of the entanglement and the non-local advantage of quantum coherence for accelerated quantum systems ( http://arxiv.org/abs/2007.14470v1 )

ライセンス: Link先を確認
A. R. Mohammed, T. M. El-Shahat and N. Metwally(参考訳) 局所対称演算を用いて,絡み合いの損失と非局所優位性を回復する可能性を検討した。 両キュービットに対称演算を適用することにより改善効率を高めることができる。 両現象の回復過程は、1量子ビットのみを加速し、対称演算を両量子ビットに適用した場合に明確に示される。 大規模加速の場合、非局所コヒーレントな利点は、これらの対称演算を用いて再発生することが示されている。

We examined the possibility of recovering the losses of entanglement and the non-local advantage by using the local symmetric operations. The improvement efficiency may be increased by applying the symmetric operations on both qubits. The recovering process of both phenomenon is exhibited clearly when only one qubit is accelerated and the symmetric operations is applied on both qubits. It is shown that, for large acceleration, the non-local coherent advantage may be re-birthed by using these symmetric operations.
翻訳日:2023-05-07 22:58:24 公開日:2020-07-28
# 実験データプラットフォームの設計におけるユーザ中心のアプローチ

A user-centered approach to designing an experimental laboratory data platform ( http://arxiv.org/abs/2007.14443v1 )

ライセンス: Link先を確認
Ha-Kyung Kwon, Chirranjeevi Balaji Gopal, Jared Kirschner, Santiago Caicedo, and Brian D. Storey(参考訳) 自動実験と高スループットの手法は、データの時代においてより主流になりつつあるが、個々の研究者がデータをより速く、より再現的に取得し、照合し、コンテキスト化できるようにすることは、科学の課題である。 科学情報のデジタル化と組織化を支援するソフトウェア製品が豊富にあるにもかかわらず、科学コミュニティにおける彼らの広範な採用は、研究者の多様なニーズと実験過程の全体的理解の欠如によって妨げられている。 本研究では,実験データプラットフォームにおける設計と機能(化学・材料科学)の本質的要素が,実験プロセスにおけるデータキャプチャの問題にどう対処するかを理解するために,ユーザ中心のアプローチを採用する。 リッチで複雑な実験データセットをコンテキスト化できる能力を持つことが、ユーザの主な要件であることがわかった。 潜在的なソリューションの設計基準に、これとその他の重要な知見を合成する。

While automated experiments and high-throughput methods are becoming more mainstream in the age of data, empowering individual researchers to capture, collate, and contextualize their data faster and more reproducibly still remains a challenge in science. Despite the abundance of software products to help digitize and organize scientific information, their broader adoption in the scientific community has been hindered by the lack of a holistic understanding of the diverse needs of researchers and their experimental processes. In this work, we take a user-centered approach to understand what essential elements of design and functionality researchers (in chemical and materials science) want in an experimental data platform to address the problem of data capture in their experimental processes. We found that having the capability to contextualize rich, complex experimental datasets is the primary user requirement. We synthesize this and other key findings into design criteria for a potential solution.
翻訳日:2023-05-07 22:57:32 公開日:2020-07-28
# 過去を忘れるな:単眼ビデオからの繰り返しの深さ推定

Don't Forget The Past: Recurrent Depth Estimation from Monocular Video ( http://arxiv.org/abs/2001.02613v2 )

ライセンス: Link先を確認
Vaishakh Patil, Wouter Van Gansbeke, Dengxin Dai, Luc Van Gool(参考訳) 自動運転車は深度情報を継続的に更新する必要がある。 これまでのところ、この手法がビデオ入力から始まっても、深さは1フレームずつ独立して推定される。 本手法は,オンライン学習手法の最適候補として,時系列の深度マップを生成する。 特に,3種類の深さ推定(教師付き深さ予測,自己教師付き深さ予測,自己教師付き深さ完了)を共通の枠組みとした。 対応するネットワークをConvLSTMと統合し、フレーム間の深さの時空間構造を利用してより正確な深さ推定を行う。 私たちの方法は柔軟です。 モノクロビデオにのみ適用したり、異なる種類のスパース深度パターンと組み合わせたりすることができる。 我々は,リカレントネットワークのアーキテクチャとそのトレーニング戦略を慎重に検討する。 まず,実時間自己教師付き単眼深度推定と完了のための再帰ネットワークの活用に成功した。 大規模な実験により, 再帰的手法は, 双方の自己監督シナリオにおいて, 画像ベースよりも一貫して, 著しく優れていた。 また、従来の3つのポピュラーグループの深さ推定法を上回っている。 詳細はhttps://www.trace.ethz.ch/publications/2020/rec_depth_estimation/を参照。

Autonomous cars need continuously updated depth information. Thus far, depth is mostly estimated independently for a single frame at a time, even if the method starts from video input. Our method produces a time series of depth maps, which makes it an ideal candidate for online learning approaches. In particular, we put three different types of depth estimation (supervised depth prediction, self-supervised depth prediction, and self-supervised depth completion) into a common framework. We integrate the corresponding networks with a ConvLSTM such that the spatiotemporal structures of depth across frames can be exploited to yield a more accurate depth estimation. Our method is flexible. It can be applied to monocular videos only or be combined with different types of sparse depth patterns. We carefully study the architecture of the recurrent network and its training strategy. We are first to successfully exploit recurrent networks for real-time self-supervised monocular depth estimation and completion. Extensive experiments show that our recurrent method outperforms its image-based counterpart consistently and significantly in both self-supervised scenarios. It also outperforms previous depth estimation methods of the three popular groups. Please refer to https://www.trace.ethz.ch/publications/2020/rec_depth_estimation/ for details.
翻訳日:2023-01-13 10:10:22 公開日:2020-07-28
# MCSAE: 話者埋め込みのためのクロス・アテンティブ・エンコーディング

MCSAE: Masked Cross Self-Attentive Encoding for Speaker Embedding ( http://arxiv.org/abs/2001.10817v4 )

ライセンス: Link先を確認
Soonshin Seo, Ji-Hwan Kim(参考訳) 一般に、話者埋め込み符号化に自己注意機構が適用されている。 以前の研究では、最後のプーリング層のような高レベルの層における自己注意のトレーニングに焦点が当てられていた。 しかし, 話者埋め込み符号化では低レベル特徴の影響が小さくなった。 そこで,我々はresnetを用いたマスク付きクロス・セルフ・アテンティブ・エンコーディング(mcsae)を提案する。 高レベル層と低レベル層の両方の機能に焦点を当てている。 多層アグリゲーションに基づいて、各残留層の出力特性をMCSAEに使用する。 MCSAEでは、各入力特徴の相互依存性について、クロス自己注意モジュールを訓練する。 ランダムマスク正規化モジュールもオーバーフィッティング問題を防止するために適用された。 このため、MCSAEは、話者情報を表すフレームの重量を増大させる。 そして、出力特徴を連結し、スピーカ埋め込みに符号化する。 したがって、より情報性の高い話者埋め込みをMCSAEを用いて符号化する。 実験の結果、VoxCeleb1評価データセットを用いて、2.63%の誤差率と0.1453の最小検出コスト関数が得られた。 これらは従来の自己注意エンコーディングや最先端エンコーディングに比べて性能が向上した。

In general, a self-attention mechanism has been applied for speaker embedding encoding. Previous studies focused on training the self-attention in a high-level layer, such as the last pooling layer. However, the effect of low-level features was reduced in the speaker embedding encoding. Therefore, we propose masked cross self-attentive encoding (MCSAE) using ResNet. It focuses on the features of both high-level and lowlevel layers. Based on multi-layer aggregation, the output features of each residual layer are used for the MCSAE. In the MCSAE, cross self-attention module is trained the interdependence of each input features. A random masking regularization module also applied to preventing overfitting problem. As such, the MCSAE enhances the weight of frames representing the speaker information. Then, the output features are concatenated and encoded to the speaker embedding. Therefore, a more informative speaker embedding is encoded by using the MCSAE. The experimental results showed an equal error rate of 2.63% and a minimum detection cost function of 0.1453 using the VoxCeleb1 evaluation dataset. These were improved performances compared with the previous self-attentive encoding and state-of-the-art encoding methods.
翻訳日:2023-01-06 02:34:19 公開日:2020-07-28
# Wasserstein Barycenter を用いた教師なし多言語アライメント

Unsupervised Multilingual Alignment using Wasserstein Barycenter ( http://arxiv.org/abs/2002.00743v2 )

ライセンス: Link先を確認
Xin Lian, Kshitij Jain, Jakub Truszkowski, Pascal Poupart, and Yaoliang Yu(参考訳) 並列データを用いずに複数の言語間で単語間翻訳を行う問題である,教師なし多言語アライメントについて検討する。 一般的な戦略の1つは、入力言語のうちの1つを通過する重要な言語として選択することで、より単純化されたバイリンガル設定に対する多言語アライメントを減らすことである。 しかし、不適切な選択されたピボット言語(英語など)を通すと翻訳品質が著しく低下する可能性があることはよく知られている。 任意に選択されたピボット言語を通す代わりに、wasserstein barycenterをより有意義な"平均"言語として使うことを提案している。 本手法を標準ベンチマークで評価し,最新性能を示す。

We study unsupervised multilingual alignment, the problem of finding word-to-word translations between multiple languages without using any parallel data. One popular strategy is to reduce multilingual alignment to the much simplified bilingual setting, by picking one of the input languages as the pivot language that we transit through. However, it is well-known that transiting through a poorly chosen pivot language (such as English) may severely degrade the translation quality, since the assumed transitive relations among all pairs of languages may not be enforced in the training process. Instead of going through a rather arbitrarily chosen pivot language, we propose to use the Wasserstein barycenter as a more informative "mean" language: it encapsulates information from all languages and minimizes all pairwise transportation costs. We evaluate our method on standard benchmarks and demonstrate state-of-the-art performances.
翻訳日:2023-01-06 01:57:49 公開日:2020-07-28
# 非支配的ソーティングに基づく二目的走行肉問題のためのカスタマイズランダムキー遺伝的アルゴリズム

A Non-Dominated Sorting Based Customized Random-Key Genetic Algorithm for the Bi-Objective Traveling Thief Problem ( http://arxiv.org/abs/2002.04303v3 )

ライセンス: Link先を確認
Jonatas B. C. Chagas and Julian Blank and Markus Wagner and Marcone J. F. Souza and Kalyanmoy Deb(参考訳) 本稿では,よく研究されたトラベリングティーフ問題 (TTP) の2目的変異を解く方法を提案する。 TTPは、トラベリングセールスマン問題(TSP)とクナプサック問題(KP)の2つの古典的な組合せ問題を組み合わせた多成分問題である。 BI-TTP(BI-TTP)は,TTPの2目的バージョンであり,総走行時間を最小化し,収集したアイテムの利益を最大化する。 提案手法は,問題固有の特徴をカスタマイズしたバイアスランダム鍵遺伝的アルゴリズムに基づく。 初期個体群における各サブプロブレムの近最適解の組み合わせによりドメイン知識を取り入れ, 適用不可能解の評価を避けるために, カスタム修復演算子を用いる。 この問題の両目的的側面は、非支配階級と群集距離に基づいて抽出されたエリート集団を通して解決される。 さらに,各パラメータが性能に与える影響を包括的に検討した。 最後に,提案手法がそれぞれ第1位,第2位を獲得したEMO-2019およびGECCO-2019のBI-TTPコンペティションの結果について述べる。

In this paper, we propose a method to solve a bi-objective variant of the well-studied Traveling Thief Problem (TTP). The TTP is a multi-component problem that combines two classic combinatorial problems: Traveling Salesman Problem (TSP) and Knapsack Problem (KP). We address the BI-TTP, a bi-objective version of the TTP, where the goal is to minimize the overall traveling time and to maximize the profit of the collected items. Our proposed method is based on a biased-random key genetic algorithm with customizations addressing problem-specific characteristics. We incorporate domain knowledge through a combination of near-optimal solutions of each subproblem in the initial population and use a custom repair operator to avoid the evaluation of infeasible solutions. The bi-objective aspect of the problem is addressed through an elite population extracted based on the non-dominated rank and crowding distance. Furthermore, we provide a comprehensive study showing the influence of each parameter on the performance. Finally, we discuss the results of the BI-TTP competitions at EMO-2019 and GECCO-2019 conferences where our method has won first and second places, respectively, thus proving its ability to find high-quality solutions consistently.
翻訳日:2023-01-02 01:45:50 公開日:2020-07-28
# proxemo:ソーシャルアウェアロボットナビゲーションのための歩行に基づく感情学習と多視点プロキシミクス融合

ProxEmo: Gait-based Emotion Learning and Multi-view Proxemic Fusion for Socially-Aware Robot Navigation ( http://arxiv.org/abs/2003.01062v2 )

ライセンス: Link先を確認
Venkatraman Narayanan, Bala Murali Manoghar, Vishnu Sashank Dorbala, Dinesh Manocha, Aniket Bera(参考訳) 本稿では,歩行者間のロボットナビゲーションをソーシャルに認識するための,エンドツーエンドの感情予測アルゴリズムであるProxEmoを紹介する。 提案手法は,歩行者の歩行から知覚される感情を予測し,社会的・近視的制約を考慮した感情誘導ナビゲーションに応用する。 感情を分類するために,移動ロボットに搭載されたコモディティカメラで動作する多視点スケルトングラフ畳み込みモデルを提案する。 我々の感情認識は地図のないナビゲーション方式に統合され、歩行者の動きの環境について仮定することができない。 Emotion-Gaitベンチマークデータセットの平均感情予測精度は82.47%である。 感情認識のための現在の最先端アルゴリズムを3d歩行で上回っている。 我々は、clearpath jackalロボットを用いた屋内シーンのナビゲーションの利点を強調する。

We present ProxEmo, a novel end-to-end emotion prediction algorithm for socially aware robot navigation among pedestrians. Our approach predicts the perceived emotions of a pedestrian from walking gaits, which is then used for emotion-guided navigation taking into account social and proxemic constraints. To classify emotions, we propose a multi-view skeleton graph convolution-based model that works on a commodity camera mounted onto a moving robot. Our emotion recognition is integrated into a mapless navigation scheme and makes no assumptions about the environment of pedestrian motion. It achieves a mean average emotion prediction precision of 82.47% on the Emotion-Gait benchmark dataset. We outperform current state-of-art algorithms for emotion recognition from 3D gaits. We highlight its benefits in terms of navigation in indoor scenes using a Clearpath Jackal robot.
翻訳日:2022-12-27 05:51:33 公開日:2020-07-28
# STEM-ECRデータセット:STEMScholarly ContentにおけるSTEM-ECRの科学的実体的参照

The STEM-ECR Dataset: Grounding Scientific Entity References in STEM Scholarly Content to Authoritative Encyclopedic and Lexicographic Sources ( http://arxiv.org/abs/2003.01006v4 )

ライセンス: Link先を確認
Jennifer D'Souza, Anett Hoppe, Arthur Brack, Mohamad Yaser Jaradeh, S\"oren Auer, Ralph Ewerth(参考訳) 本稿では,STEM (Science, Technology, Engineering, and Medicine) Dataset for Scientific Entity extract, Classification, and Resolution, Version 1.0 (STEM-ECR v1.0)を紹介する。 STEM-ECR v1.0データセットは、ドメインに依存しない方法で科学的実体抽出、分類、解決タスクの評価のためのベンチマークを提供するために開発された。 主要な出版プラットフォーム上で最も多用されていると判明した10のSTEM分野の抽象化を含んでいる。 このような多分野コーパスの作成について述べるとともに,以下の特徴から得られた知見を明らかにする。 1) 多分野の科学的文脈における科学的実体の総合的概念的形式主義 2) 一般形式主義に基づく科学的実体のドメイン非依存的人間的アノテーションの実現可能性 3) bert型ニューラルモデルを用いた多分野科学分野の自動抽出のための性能ベンチマーク 4) 百科事典的実体リンク及び語彙的単語感覚の曖昧化による科学的実体の人為的アノテーションの3段階的解決手続 5)Babelfyのヒト評価は,我々のエンティティに対する百科事典リンクと語彙感覚を返却した。 以上の結果から,多分野の科学的概念に対する人的アノテーションと自動学習が,STEMのように広範に散在する意味的曖昧さが妥当であることが示唆された。

We introduce the STEM (Science, Technology, Engineering, and Medicine) Dataset for Scientific Entity Extraction, Classification, and Resolution, version 1.0 (STEM-ECR v1.0). The STEM-ECR v1.0 dataset has been developed to provide a benchmark for the evaluation of scientific entity extraction, classification, and resolution tasks in a domain-independent fashion. It comprises abstracts in 10 STEM disciplines that were found to be the most prolific ones on a major publishing platform. We describe the creation of such a multidisciplinary corpus and highlight the obtained findings in terms of the following features: 1) a generic conceptual formalism for scientific entities in a multidisciplinary scientific context; 2) the feasibility of the domain-independent human annotation of scientific entities under such a generic formalism; 3) a performance benchmark obtainable for automatic extraction of multidisciplinary scientific entities using BERT-based neural models; 4) a delineated 3-step entity resolution procedure for human annotation of the scientific entities via encyclopedic entity linking and lexicographic word sense disambiguation; and 5) human evaluations of Babelfy returned encyclopedic links and lexicographic senses for our entities. Our findings cumulatively indicate that human annotation and automatic learning of multidisciplinary scientific concepts as well as their semantic disambiguation in a wide-ranging setting as STEM is reasonable.
翻訳日:2022-12-27 04:12:02 公開日:2020-07-28
# mmFall: 4次元MmWaveレーダとハイブリッド変分RNNオートエンコーダを用いた転倒検出

mmFall: Fall Detection using 4D MmWave Radar and a Hybrid Variational RNN AutoEncoder ( http://arxiv.org/abs/2003.02386v4 )

ライセンス: Link先を確認
Feng Jin, Arindam Sengupta, and Siyang Cao(参考訳) 本稿では,新しい転倒検出システムであるmmFallを提案する。 (i)人体中心体と共に人体の点雲を収集する新興ミリ波(ミリ波)レーダーセンサ (II) 取得した点雲に基づいて身体運動の異常レベルを算出するための変動リカレントオートエンコーダ(VRAE)。 異常レベルのスパイクと遠心高さの低下が同時に発生したとき、転倒が起こったとされる。 mmWaveレーダーセンサーは、従来のセンシング方式に比べて、プライバシーの遵守や動きに対する高感度といったいくつかの利点を提供している。 しかし、 (i)レーダーポイント雲データにおけるランダム性及び (II)従来型の転倒検出手法における転倒収集・ラベル付けの難しさが主な課題である。 レーダデータのランダム性を克服するために、提案したVRAEは、従来の決定論的アプローチよりも確率論的アプローチである変動推論を用いて、各フレームにおける身体の潜伏運動状態の後方確率を推定し、その後、リカレントニューラルネットワーク(RNN)を用いて複数のフレーム上の動作の時間的特徴を学習する。 また、転倒データ収集・ラベル付けの難しさを回避するため、VRAEは半教師付きアプローチでオートエンコーダアーキテクチャ上に構築され、推論段階では、転倒などの異常な動きが発生したときに異常レベルのスパイクが発生するように日常生活の正常な活動(ADL)のみに基づいて訓練される。 実験では、他の2つのベースラインとともにVRAEを実装し、アパートで収集したデータセットでテストした。 受信機動作特性(ROC)曲線は,提案したモデルが他の2つのベースラインより優れており,50件中98%が誤報を2件残さずに検出できることを示している。

In this paper we propose mmFall - a novel fall detection system, which comprises of (i) the emerging millimeter-wave (mmWave) radar sensor to collect the human body's point cloud along with the body centroid, and (ii) a variational recurrent autoencoder (VRAE) to compute the anomaly level of the body motion based on the acquired point cloud. A fall is claimed to have occurred when the spike in anomaly level and the drop in centroid height occur simultaneously. The mmWave radar sensor provides several advantages, such as privacycompliance and high-sensitivity to motion, over the traditional sensing modalities. However, (i) randomness in radar point cloud data and (ii) difficulties in fall collection/labeling in the traditional supervised fall detection approaches are the two main challenges. To overcome the randomness in radar data, the proposed VRAE uses variational inference, a probabilistic approach rather than the traditional deterministic approach, to infer the posterior probability of the body's latent motion state at each frame, followed by a recurrent neural network (RNN) to learn the temporal features of the motion over multiple frames. Moreover, to circumvent the difficulties in fall data collection/labeling, the VRAE is built upon an autoencoder architecture in a semi-supervised approach, and trained on only normal activities of daily living (ADL) such that in the inference stage the VRAE will generate a spike in the anomaly level once an abnormal motion, such as fall, occurs. During the experiment, we implemented the VRAE along with two other baselines, and tested on the dataset collected in an apartment. The receiver operating characteristic (ROC) curve indicates that our proposed model outperforms the other two baselines, and achieves 98% detection out of 50 falls at the expense of just 2 false alarms.
翻訳日:2022-12-26 06:41:16 公開日:2020-07-28
# LANCE: グラフィックス処理ユニットに基づくニューラルネットワークの高精度量子化Winograd畳み込み

LANCE: Efficient Low-Precision Quantized Winograd Convolution for Neural Networks Based on Graphics Processing Units ( http://arxiv.org/abs/2003.08646v3 )

ライセンス: Link先を確認
Guangli Li, Lei Liu, Xueying Wang, Xiu Ma, Xiaobing Feng(参考訳) 深層畳み込みニューラルネットワークの加速が活発な話題となり、アカデミックや産業への関心が高まっている。 本稿では,高速畳み込み法と量子化法の利点を組み合わせた,効率的な高精度量子化Winograd畳み込みアルゴリズムLANCEを提案する。 線形量子化演算をウィノグラード領域に埋め込むことで、高速な畳み込みをグラフィック処理ユニットの低精度計算で効率的に行うことができる。 SVHN, CIFAR, ImageNetなどの画像分類データセットを用いてLANCEを用いたニューラルネットワークモデルをテストする。 実験の結果,8ビットの量子化Winograd畳み込みにより,精度の低下を伴う完全精度畳み込みよりも最大2.40倍の性能向上が得られた。

Accelerating deep convolutional neural networks has become an active topic and sparked an interest in academia and industry. In this paper, we propose an efficient low-precision quantized Winograd convolution algorithm, called LANCE, which combines the advantages of fast convolution and quantization techniques. By embedding linear quantization operations into the Winograd-domain, the fast convolution can be performed efficiently under low-precision computation on graphics processing units. We test neural network models with LANCE on representative image classification datasets, including SVHN, CIFAR, and ImageNet. The experimental results show that our 8-bit quantized Winograd convolution improves the performance by up to 2.40x over the full-precision convolution with trivial accuracy loss.
翻訳日:2022-12-22 03:31:52 公開日:2020-07-28
# 逆行訓練とDeep Transfer Learningを用いたメラノーマ検出

Melanoma Detection using Adversarial Training and Deep Transfer Learning ( http://arxiv.org/abs/2004.06824v2 )

ライセンス: Link先を確認
Hasib Zunair and A. Ben Hamza(参考訳) 皮膚病変データセットは、ほとんどが正常なサンプルであり、異常なサンプルの割合は少ないため、クラス不均衡の問題を引き起こす。 また, 皮膚病変像はクラス間変動が低いため, 全体像にほぼ類似している。 本稿では,メラノーマ検出に向けて,逆行訓練とトランスファー学習を用いた皮膚病変画像の自動分類のための2段階の枠組みを提案する。 第1段階では、条件付き画像合成作業におけるデータ分布のクラス間変化を利用して、クラス間マッピングを学習し、未ペア画像から画像への変換を用いて、過剰表現されたクラスサンプルを合成する。 第2段階では, 皮膚病変分類のための深層畳み込みニューラルネットワークを, 新たに合成したクラスサンプルと組み合わされたトレーニングセットを用いて訓練する。 この分類器の訓練は、難しい例から学習する際にモデルを支援する焦点損失関数を最小化し、簡単なものを軽量化することで行われる。 dermatology image benchmarkで行った実験は、提案手法がいくつかの標準ベースライン法よりも優れていることを示し、大幅な性能改善を達成している。 興味深いことに, 本手法が皮膚科医のレベルに到達できるコンテキストベース病変評価に繋がる, 特徴の可視化と分析を通して示す。

Skin lesion datasets consist predominantly of normal samples with only a small percentage of abnormal ones, giving rise to the class imbalance problem. Also, skin lesion images are largely similar in overall appearance owing to the low inter-class variability. In this paper, we propose a two-stage framework for automatic classification of skin lesion images using adversarial training and transfer learning toward melanoma detection. In the first stage, we leverage the inter-class variation of the data distribution for the task of conditional image synthesis by learning the inter-class mapping and synthesizing under-represented class samples from the over-represented ones using unpaired image-to-image translation. In the second stage, we train a deep convolutional neural network for skin lesion classification using the original training set combined with the newly synthesized under-represented class samples. The training of this classifier is carried out by minimizing the focal loss function, which assists the model in learning from hard examples, while down-weighting the easy ones. Experiments conducted on a dermatology image benchmark demonstrate the superiority of our proposed approach over several standard baseline methods, achieving significant performance improvements. Interestingly, we show through feature visualization and analysis that our method leads to context based lesion assessment that can reach an expert dermatologist level.
翻訳日:2022-12-13 10:07:00 公開日:2020-07-28
# エンドツーエンド音声認識

End-to-end speech-to-dialog-act recognition ( http://arxiv.org/abs/2004.11419v2 )

ライセンス: Link先を確認
Viet-Trung Dang, Tianyu Zhao, Sei Ueno, Hirofumi Inaguma, Tatsuya Kawahara(参考訳) 発話における意図や意味概念を抽出する音声言語理解は,従来の音声認識の後処理として定式化されている。 通常はオラクル文字で訓練されるが、ASRでエラーに対処する必要がある。 また、意図と関係があるが、本文では表現されない音響的特徴がある。 本稿では,決定論的書き起こし過程を伴わずに音声を対話的動作に変換するエンド・ツー・エンドモデルを提案する。 提案モデルでは,単語レベルASR復号情報の分散表現を提供するソフトマックス層より前の潜在層において,対話行動認識ネットワークを音響対単語ASRモデルと結合する。 そして、ネットワーク全体がエンドツーエンドで微調整される。 これにより、安定したトレーニングと、ASRエラーに対する堅牢性が可能になる。 モデルはさらに拡張され、DAセグメンテーションが共同で実行される。 Switchboard corpus を用いた評価では,従来のパイプラインフレームワークからダイアログの動作認識精度を大幅に向上することが示された。

Spoken language understanding, which extracts intents and/or semantic concepts in utterances, is conventionally formulated as a post-processing of automatic speech recognition. It is usually trained with oracle transcripts, but needs to deal with errors by ASR. Moreover, there are acoustic features which are related with intents but not represented with the transcripts. In this paper, we present an end-to-end model which directly converts speech into dialog acts without the deterministic transcription process. In the proposed model, the dialog act recognition network is conjunct with an acoustic-to-word ASR model at its latent layer before the softmax layer, which provides a distributed representation of word-level ASR decoding information. Then, the entire network is fine-tuned in an end-to-end manner. This allows for stable training as well as robustness against ASR errors. The model is further extended to conduct DA segmentation jointly. Evaluations with the Switchboard corpus demonstrate that the proposed method significantly improves dialog act recognition accuracy from the conventional pipeline framework.
翻訳日:2022-12-10 10:04:23 公開日:2020-07-28
# 文書レベル関係抽出のための潜在構造リファインメントによる推論

Reasoning with Latent Structure Refinement for Document-Level Relation Extraction ( http://arxiv.org/abs/2005.06312v3 )

ライセンス: Link先を確認
Guoshun Nan, Zhijiang Guo, Ivan Sekuli\'c, Wei Lu(参考訳) 文書レベルの関係抽出には、文書の複数の文内および横断的な情報の統合と、文間エンティティ間の複雑な相互作用のキャプチャが必要である。 しかし、文書中の関連情報の効果的な集約は依然として困難な研究課題である。 既存のアプローチは、非構造化テキストから構文木、共参照、ヒューリスティックに基づいて静的な文書レベルグラフを構築し、依存関係をモデル化する。 推論のためのリッチな非局所的相互作用をキャプチャできない従来の手法とは異なり、潜在文書レベルグラフを自動生成することで文間の関係推論を強化する新しいモデルを提案する。 さらに,マルチホップ推論のための関連情報を段階的に集約する改良戦略を開発した。 具体的には、大規模文書レベルデータセット(DocRED)でF1スコア59.05を達成し、以前の結果よりも大幅に改善し、CDRおよびGDAデータセットで新たな最先端結果を得る。 さらに、広範囲な分析により、モデルがより正確な文間関係を発見できることが示されている。

Document-level relation extraction requires integrating information within and across multiple sentences of a document and capturing complex interactions between inter-sentence entities. However, effective aggregation of relevant information in the document remains a challenging research question. Existing approaches construct static document-level graphs based on syntactic trees, co-references or heuristics from the unstructured text to model the dependencies. Unlike previous methods that may not be able to capture rich non-local interactions for inference, we propose a novel model that empowers the relational reasoning across sentences by automatically inducing the latent document-level graph. We further develop a refinement strategy, which enables the model to incrementally aggregate relevant information for multi-hop reasoning. Specifically, our model achieves an F1 score of 59.05 on a large-scale document-level dataset (DocRED), significantly improving over the previous results, and also yields new state-of-the-art results on the CDR and GDA dataset. Furthermore, extensive analyses show that the model is able to discover more accurate inter-sentence relations.
翻訳日:2022-12-03 13:08:19 公開日:2020-07-28
# 社会的責任を負うAIに向けて:認知バイアスを意識した多目的学習

Towards Socially Responsible AI: Cognitive Bias-Aware Multi-Objective Learning ( http://arxiv.org/abs/2005.06618v2 )

ライセンス: Link先を確認
Procheta Sen, Debasis Ganguly(参考訳) 人間社会は、社会的偏見や集団的不正につながる認知バイアスに苦しむ長い歴史があった。 大量の歴史的データに認知バイアスが存在することは、そのようなデータに基づいて訓練されたAIシステムの出力として、非倫理的で一見非人間的な予測として表される恐れがある。 この問題を軽減するために,アイデンティティ属性(性別,民族性など)のセットと,予測出力の可能なクラスの機密カテゴリのサブセットを付与したバイアス対応多目的学習フレームワークを提案し,それらの組み合わせを予測する頻度,例えば「ほとんどの黒人は乱用言語を使用する」や「フェールは女性の徳である」といったステレオタイプを予測することを学ぶ。 バランスの取れたクラス先行の感情予測タスクで実施した実験では,男性の方が怒りやすいのに対して,女性は怖がる傾向にあるなど,性別に対する認知バイアスがベースラインバイアス非依存モデルで示されることが示された。 対照的に,提案するバイアス対応多目的学習手法は,予測された感情のバイアスを低減できることが示されている。

Human society had a long history of suffering from cognitive biases leading to social prejudices and mass injustice. The prevalent existence of cognitive biases in large volumes of historical data can pose a threat of being manifested as unethical and seemingly inhuman predictions as outputs of AI systems trained on such data. To alleviate this problem, we propose a bias-aware multi-objective learning framework that given a set of identity attributes (e.g. gender, ethnicity etc.) and a subset of sensitive categories of the possible classes of prediction outputs, learns to reduce the frequency of predicting certain combinations of them, e.g. predicting stereotypes such as `most blacks use abusive language', or `fear is a virtue of women'. Our experiments conducted on an emotion prediction task with balanced class priors shows that a set of baseline bias-agnostic models exhibit cognitive biases with respect to gender, such as women are prone to be afraid whereas men are more prone to be angry. In contrast, our proposed bias-aware multi-objective learning methodology is shown to reduce such biases in the predictied emotions.
翻訳日:2022-12-03 04:39:02 公開日:2020-07-28
# アライメントフリーな格子フリーMMIによるウェイクワード検出

Wake Word Detection with Alignment-Free Lattice-Free MMI ( http://arxiv.org/abs/2005.08347v3 )

ライセンス: Link先を確認
Yiming Wang, Hang Lv, Daniel Povey, Lei Xie, Sanjeev Khudanpur(参考訳) 音声言語インタフェース、例えばパーソナルデジタルアシスタントは、音声入力の処理を開始するためにウェイクワードに依存する。 本稿では,部分ラベル付き学習データからハイブリッドdnn/hmmウェイクワード検出システムを学習し,オンラインアプリケーションで使用する新しい手法を提案する。 i) LF-MMIトレーニングアルゴリズムにおけるフレームレベルのアライメントの前提条件を除去し、ウェイクワードの存在/存在のために注釈付けされた未転写トレーニング例の使用を可能にする。 (ii)古典的なキーワード/フィラーモデルは、優れたパフォーマンスを得るために明示的な非音声(サイレンス)モデルで補わなければならないことを示す。 3) オンライン検出を行うためのFSTベースのデコーダを提案する。 提案手法を2つの実データ集合上で評価し,事前特定誤報率の50%~90%の低減率を示し,第3(大)データセットで再検証した。

Always-on spoken language interfaces, e.g. personal digital assistants, rely on a wake word to start processing spoken input. We present novel methods to train a hybrid DNN/HMM wake word detection system from partially labeled training data, and to use it in on-line applications: (i) we remove the prerequisite of frame-level alignments in the LF-MMI training algorithm, permitting the use of un-transcribed training examples that are annotated only for the presence/absence of the wake word; (ii) we show that the classical keyword/filler model must be supplemented with an explicit non-speech (silence) model for good performance; (iii) we present an FST-based decoder to perform online detection. We evaluate our methods on two real data sets, showing 50%--90% reduction in false rejection rates at pre-specified false alarm rates over the best previously published figures, and re-validate them on a third (large) data set.
翻訳日:2022-12-02 05:52:43 公開日:2020-07-28
# 臨床治験資格基準の抽出

Information Extraction of Clinical Trial Eligibility Criteria ( http://arxiv.org/abs/2006.07296v6 )

ライセンス: Link先を確認
Yitong Tseo, M. I. Salkola, Ahmed Mohamed, Anuj Kumar, Freddy Abnousi(参考訳) 臨床試験は、患者の人口統計から食物アレルギーまで幅広い基準に関する対象の適格性を予測している。 試験は、彼らの要求を意味的に複雑で、構造化されていないフリーテキストとして投稿する。 コンピュータ解釈可能な構文へのトライアル基準の形式化は、適性判定を容易にする。 本稿では,臨床試験(dot)govにおける治験から共有知識ベースへの基準を接地するための情報抽出(ie)アプローチについて検討する。 我々は,この問題を新しい知識ベース集団タスクとみなし,機械学習と文脈自由文法を組み合わせたソリューションを実装した。 本研究は,名前付きエンティティ認識(ner)に注意に基づく条件付きランダムフィールドアーキテクチャを適用し,名前付きエンティティリンク(nel)にword2vec埋め込みクラスタリングを適用する最初の基準抽出システムである。 私たちはGitHubで、システムのリソースとコアコンポーネントをhttps://github.com/facebookresearch/Clinical-Trial-Parserでリリースしています。 そして最後に、モジュールごとの性能とエンドツーエンドのパフォーマンスを報告します。我々のシステムは、基準抽出における現在の最先端技術であるCriteria2Queryと競合していると結論付けます。

Clinical trials predicate subject eligibility on a diversity of criteria ranging from patient demographics to food allergies. Trials post their requirements as semantically complex, unstructured free-text. Formalizing trial criteria to a computer-interpretable syntax would facilitate eligibility determination. In this paper, we investigate an information extraction (IE) approach for grounding criteria from trials in ClinicalTrials(dot)gov to a shared knowledge base. We frame the problem as a novel knowledge base population task, and implement a solution combining machine learning and context free grammar. To our knowledge, this work is the first criteria extraction system to apply attention-based conditional random field architecture for named entity recognition (NER), and word2vec embedding clustering for named entity linking (NEL). We release the resources and core components of our system on GitHub at https://github.com/facebookresearch/Clinical-Trial-Parser. Finally, we report our per module and end to end performances; we conclude that our system is competitive with Criteria2Query, which we view as the current state-of-the-art in criteria extraction.
翻訳日:2022-11-22 04:19:02 公開日:2020-07-28
# CUHK at SemEval-2020 Task 4: CommonSense Explanation, Reasoning and Prediction with Multi-task Learning

CUHK at SemEval-2020 Task 4: CommonSense Explanation, Reasoning and Prediction with Multi-task Learning ( http://arxiv.org/abs/2006.09161v2 )

ライセンス: Link先を確認
Hongru Wang and Xiangru Tang and Sunny Lai and Kwong Sak Leung and Jia Zhu and Gabriel Pui Cheong Fung and Kam-Fai Wong(参考訳) 本稿では,3つのサブタスクからなるSemEval 2020: Commonsense Validation and Explanation (ComVE)のタスク4に提案するシステムについて述べる。 タスクは、与えられた文が意味があるかどうかを直接検証し、それを説明するためにモデルを必要とする。 マルチタスク設定によるBERTarchitectureに基づいて,コモンセンスに関する3つのサブタスクを解決するための,有効かつ解釈可能な"説明・推論・予測(ERP)システムを提案する。 (a)検証。 (b)合理化、及び c) 説明。 共通感覚の認知研究に着想を得て,本システムはまず文の理由や理解を生成し,その文のどの文が意味を持つかを選択し,マルチタスク学習によって達成する。 評価後、我々のシステムはサブタスクA(ランク11)で92.9%、サブタスクB(ランク9)で89.7%、サブタスクC(ランク8)で12.9に達している。

This paper describes our system submitted to task 4 of SemEval 2020: Commonsense Validation and Explanation (ComVE) which consists of three sub-tasks. The task is to directly validate the given sentence whether or not it makes sense and require the model to explain it. Based on BERTarchitecture with a multi-task setting, we propose an effective and interpretable "Explain, Reason and Predict" (ERP) system to solve the three sub-tasks about commonsense: (a) Validation, (b)Reasoning, and (c) Explanation. Inspired by cognitive studies of common sense, our system first generates a reason or understanding of the sentences and then chooses which one statement makes sense, which is achieved by multi-task learning. During the post-evaluation, our system has reached 92.9% accuracy in subtask A (rank 11), 89.7% accuracy in subtask B (rank 9), andBLEU score of 12.9 in subtask C (rank 8)
翻訳日:2022-11-22 02:06:08 公開日:2020-07-28
# 動的mr画像における深部低位先行

Deep Low-rank Prior in Dynamic MR Imaging ( http://arxiv.org/abs/2006.12090v4 )

ライセンス: Link先を確認
Ziwen Ke, Wenqi Huang, Jing Cheng, Zhuoxu Cui, Sen Jia, Haifeng Wang, Xin Liu, Hairong Zheng, Leslie Ying, Yanjie Zhu and Dong Liang(参考訳) 深層学習法は動的mrシネイメージングにおいて魅力的な性能を得た。 しかし、これらの手法は全てMR画像のスパースによりのみ駆動されるが、動的MRシネ画像に先行する重要な低ランク(LR)は探索されていないため、動的MR再構成のさらなる改善が制限される。 本稿では,動的MR画像に先立って深部低ランクを探索し,改良された再構成結果を得るための学習特異値しきい値しきい値(Learned-SVT)演算を提案する。 特に,学習可能な低ランクプリエントを,それぞれロールング方式とプラグアンドプレイ方式でディープネットワークアーキテクチャに導入する,新たな2つのスキームを考案した。 本研究では,SLR-Netと呼ばれるダイナミックMRイメージングのためのモデルベースアンローリングスパースとローランクネットワークを提案する。 SLR-Netは深層ネットワークフローグラフ上で定義されており、これはスパースおよび低ランクのダイナミックMRIモデルを最適化するための反復収縮閾値保持アルゴリズム(ISTA)の反復手順から外される。 プラグ・アンド・プレイ方式では,ネットワークパラダイムを変えることなく,他の動的MRニューラルネットワークに容易に組み込むことができる,プラグ・アンド・プレイ型LRネットワークモジュールを提案する。 実験結果から,k-t SLRのような最先端のCS手法と,DC-CNNやCRNNのような疎性駆動型深層学習手法を質的かつ定量的に改善できることが示唆された。

The deep learning methods have achieved attractive performance in dynamic MR cine imaging. However, all of these methods are only driven by the sparse prior of MR images, while the important low-rank (LR) prior of dynamic MR cine images is not explored, which limits the further improvements on dynamic MR reconstruction. In this paper, a learned singular value thresholding (Learned-SVT) operation is proposed to explore deep low-rank prior in dynamic MR imaging for obtaining improved reconstruction results. In particular, we come up with two novel and distinct schemes to introduce the learnable low-rank prior into deep network architectures in an unrolling manner and a plug-and-play manner respectively. In the unrolling manner, we put forward a model-based unrolling sparse and low-rank network for dynamic MR imaging, dubbed SLR-Net. The SLR-Net is defined over a deep network flow graph, which is unrolled from the iterative procedures in the Iterative Shrinkage-Thresholding Algorithm (ISTA) for optimizing a sparse and low-rank based dynamic MRI model. In the plug-and-play manner, we present a plug-and-play LR network module that can be easily embedded into any other dynamic MR neural networks without changing the network paradigm. Experimental results show that both schemes can further improve the state-of-the-art CS methods, such as k-t SLR, and sparsity-driven deep learning-based methods, such as DC-CNN and CRNN, both qualitatively and quantitatively.
翻訳日:2022-11-18 06:51:53 公開日:2020-07-28
# 効率的な空間適応畳み込みと相関

Efficient Spatially Adaptive Convolution and Correlation ( http://arxiv.org/abs/2006.13188v2 )

ライセンス: Link先を確認
Thomas W. Mitchel, Benedict Brown, David Koller, Tim Weyrich, Szymon Rusinkiewicz, Michael Kazhdan(参考訳) 畳み込みと相関の高速な手法は、効率的なフィルタリング、分析、シミュレーションなど、コンピュータビジョンやグラフィックスの様々な応用をもたらす。 しかし、標準畳み込みと相関は本質的に固定フィルタに限定されており、効率的な計算を犠牲にすることなく空間適応は不可能である。 初期の研究で、フリーマンとアデルソンはこの制限にどう対処できるかを示し、信号が通過するにつれてフィルタを回転させる方法を提供した。 本研究では,空間的に変化する線形変換をフィルタに適用可能な汎用表現論的フレームワークを提案する。 このフレームワークは、回転 (2dおよび3d) やスケールのような変換群に対する拡張畳み込みと相関の効率的な実装を可能にし、ステアブルフィルタや一般化ハフ変換を含む以前の方法の新しい解釈を提供する。 本稿では,パターンマッチング,画像特徴記述,ベクトル場可視化,適応画像フィルタリングへの応用について述べる。

Fast methods for convolution and correlation underlie a variety of applications in computer vision and graphics, including efficient filtering, analysis, and simulation. However, standard convolution and correlation are inherently limited to fixed filters: spatial adaptation is impossible without sacrificing efficient computation. In early work, Freeman and Adelson have shown how steerable filters can address this limitation, providing a way for rotating the filter as it is passed over the signal. In this work, we provide a general, representation-theoretic, framework that allows for spatially varying linear transformations to be applied to the filter. This framework allows for efficient implementation of extended convolution and correlation for transformation groups such as rotation (in 2D and 3D) and scale, and provides a new interpretation for previous methods including steerable filters and the generalized Hough transform. We present applications to pattern matching, image feature description, vector field visualization, and adaptive image filtering.
翻訳日:2022-11-17 23:46:04 公開日:2020-07-28
# ビデオにおけるソーシャルグループ, 個人行動, サブグループの共同学習

Joint Learning of Social Groups, Individuals Action and Sub-group Activities in Videos ( http://arxiv.org/abs/2007.02632v2 )

ライセンス: Link先を確認
Mahsa Ehsanpour, Alireza Abedin, Fatemeh Saleh, Javen Shi, Ian Reid, Hamid Rezatofighi(参考訳) 映像ストリームからの人間の活動理解のための最先端のソリューションは、タスクを時空間の問題として定式化し、シーン内のすべての個人を共同でローカライズし、時間とともに行動やグループ活動の分類を必要とする。 誰が誰と対話しているのか、例えば、キュー内の全員が互いに対話しているとは限らないが、予測されないことが多い。 人々が社会グループと呼ばれるサブグループに分割するのが最善のシナリオであり、それぞれの社会グループは異なる社会活動に従事している可能性がある。 本稿では,その社会的相互作用によって同時に人々をグループ化することの課題を解決し,それぞれの社会的活動と社会集団の社会的活動を予測する。 私たちの主な貢献は 一 ソーシャルタスクのためのエンドツーエンドのトレーニング可能なフレームワークを提案する。 二 提案手法は、従来のグループ活動認識タスクにおいて広く採用されている2つのベンチマーク(シーンの個人が一つのグループを形成し、シーンの単一のグループ活動ラベルを予測することを想定して)に最新の結果を設定する。 iii) 既存のグループアクティビティデータセットに新しいアノテーションを導入し,ソーシャルタスクのために再提案する。

The state-of-the art solutions for human activity understanding from a video stream formulate the task as a spatio-temporal problem which requires joint localization of all individuals in the scene and classification of their actions or group activity over time. Who is interacting with whom, e.g. not everyone in a queue is interacting with each other, is often not predicted. There are scenarios where people are best to be split into sub-groups, which we call social groups, and each social group may be engaged in a different social activity. In this paper, we solve the problem of simultaneously grouping people by their social interactions, predicting their individual actions and the social activity of each social group, which we call the social task. Our main contributions are: i) we propose an end-to-end trainable framework for the social task; ii) our proposed method also sets the state-of-the-art results on two widely adopted benchmarks for the traditional group activity recognition task (assuming individuals of the scene form a single group and predicting a single group activity label for the scene); iii) we introduce new annotations on an existing group activity dataset, re-purposing it for the social task.
翻訳日:2022-11-13 02:46:01 公開日:2020-07-28
# ロボット絵画における芸術的スタイル : ブラシストローク学習のための機械学習アプローチ

Artistic Style in Robotic Painting; a Machine Learning Approach to Learning Brushstroke from Human Artists ( http://arxiv.org/abs/2007.03647v2 )

ライセンス: Link先を確認
Ardavan Bidgoli, Manuel Ladron De Guevara, Cinnie Hsiung, Jean Oh, Eunsu Kang(参考訳) ロボット絵画は1970年代以降、芸術家とロボティクスの双方で関心を集めてきた。 研究者と学際的なアーティストは、キャンバス上の視覚媒体を作成するために様々な絵画技法と人間とロボットのコラボレーションモデルを用いてきた。 ロボット絵画の課題の1つは、望まれる芸術様式を絵画に適用することである。 機械学習モデルを用いたスタイル転送技術は、特定の絵画の視覚的なスタイルでこの課題に対処するのに役立ちました。 しかし、他の手作業によるスタイル要素、すなわち画家の絵画技法や筆跡は、完全には解決されていない。 本研究では,ヒトアーティストとのコラボレーションを通じて,筆跡と絵画プロセスに芸術的スタイルを統合する手法を提案する。 本稿では,我々のアプローチについて述べる。 1)アーティストから筆跡や手筆の動きのサンプルを収集し、 2)生成モデルを訓練して,アーティストのスタイルに関連する筆跡を生成させ, 3)ストロークベースのレンダリングモデルを微調整してロボットペインティングのセットアップで動作させます。 これら3つのステップの統合について、別々に報告します。 予備研究では、人間の71%が、再建された筆跡がアーティストのスタイルの特徴に関係していることを発見した。 また,58%の被験者は,人間の画家による視覚的に類似した絵画と,本手法による絵画を区別できなかった。

Robotic painting has been a subject of interest among both artists and roboticists since the 1970s. Researchers and interdisciplinary artists have employed various painting techniques and human-robot collaboration models to create visual mediums on canvas. One of the challenges of robotic painting is to apply a desired artistic style to the painting. Style transfer techniques with machine learning models have helped us address this challenge with the visual style of a specific painting. However, other manual elements of style, i.e., painting techniques and brushstrokes of an artist, have not been fully addressed. We propose a method to integrate an artistic style to the brushstrokes and the painting process through collaboration with a human artist. In this paper, we describe our approach to 1) collect brushstrokes and hand-brush motion samples from an artist, and 2) train a generative model to generate brushstrokes that pertains to the artist's style, and 3) fine tune a stroke-based rendering model to work with our robotic painting setup. We will report on the integration of these three steps in a separate publication. In a preliminary study, 71% of human evaluators find our reconstructed brushstrokes are pertaining to the characteristics of the artist's style. Moreover, 58% of participants could not distinguish a painting made by our method from a visually similar painting created by a human artist.
翻訳日:2022-11-12 20:50:30 公開日:2020-07-28
# クラウドカウントにおけるマルチカラムアーキテクチャの可能性

Exploit the potential of Multi-column architecture for Crowd Counting ( http://arxiv.org/abs/2007.05779v2 )

ライセンス: Link先を確認
Junhao Cheng, Zhuojun Chen, XinYu Zhang, Yizhou Li, Xiaoyuan Jing(参考訳) 集団カウントは、深刻な閉塞、複雑な背景、大規模な変動などにより、コンピュータビジョンにおいて重要で難しいタスクである。 マルチカラムアーキテクチャはこれらの課題を克服するために広く採用されており、多くの公開ベンチマークで最先端のパフォーマンスが得られる。 しかし、このような設計にはスケール制限と機能類似性という2つの問題がある。 さらなる性能向上は制限されている。 本稿では,これらの問題に対処するために,Praamid Scale Network (PSNet) と呼ばれる新しいクラウドカウントフレームワークを提案する。 具体的には,メッセージパッシング機構とアテンション機構をマルチカラムアーキテクチャに統合したマルチスケール機能を効率的に捉えるために,3つのピラミッドスケールモジュール(psm)を採用した。 さらに,特徴類似性のために,複数列分散損失と呼ばれる新しい損失関数を導入し,各列で学習した特徴をpsmで適切に区別する。 我々の知る限りでは、PSNetはマルチカラム設計におけるスケール制限と特徴類似性を明示的に扱う最初の試みである。 5つのベンチマークデータセットに関する広範な実験は、提案されたイノベーションの有効性と最先端よりも優れたパフォーマンスを示している。 私たちのコードは、https://github.com/oahunc/Pyramid_Scale_Networkで公開されています。

Crowd counting is an important yet challenging task in computer vision due to serious occlusions, complex background and large scale variations, etc. Multi-column architecture is widely adopted to overcome these challenges, yielding state-of-the-art performance in many public benchmarks. However, there still are two issues in such design: scale limitation and feature similarity. Further performance improvements are thus restricted. In this paper, we propose a novel crowd counting framework called Pyramid Scale Network (PSNet) to explicitly address these issues. Specifically, for scale limitation, we adopt three Pyramid Scale Modules (PSM) to efficiently capture multi-scale features, which integrate a message passing mechanism and an attention mechanism into multi-column architecture. Moreover, for feature similarity, a novel loss function named Multi-column variance loss is introduced to make the features learned by each column in PSM appropriately different from each other. To the best of our knowledge, PSNet is the first work to explicitly address scale limitation and feature similarity in multi-column design. Extensive experiments on five benchmark datasets demonstrate the effectiveness of the proposed innovations as well as the superior performance over the state-of-the-art. Our code is publicly available at: https://github.com/oahunc/Pyramid_Scale_Network
翻訳日:2022-11-11 13:17:49 公開日:2020-07-28
# 語彙外表現のためのディープラーニングモデル

Deep learning models for representing out-of-vocabulary words ( http://arxiv.org/abs/2007.07318v2 )

ライセンス: Link先を確認
Johannes V. Lochter, Renato M. Silva, Tiago A. Almeida(参考訳) コミュニケーションは、人々が自分自身を表現し、即座にコミュニケーションできるソーシャルネットワークやアプリケーションの普及によって、ますますダイナミックになっている。 このシナリオでは、分散表現モデルは、頻繁に現れるか、スペルエラーに由来する新しい単語によって品質が影響を受ける。 oov(out-of-vocabulary)と呼ばれるモデルによって未知のこれらの単語は、テキストの適切なベクトル表現に依存する自然言語処理(nlp)アプリケーションの品質を損なわないよう適切に処理する必要がある。 この問題をよりよく理解し,oovワードを扱うための最善の技術を見出すため,本研究では,oovワードを表現するためのディープラーニングモデルの総合的性能評価を提案する。 我々は,テキスト分類,名前付きエンティティ認識,パート・オブ・音声タグ付けなど,異なるNLPタスクを用いて,ベンチマークデータセットと外部評価を行った。 その結果,OOV単語の処理に最適な手法が各タスクごとに異なることが明らかとなったが,OV単語のコンテキストと形態構造に基づいて埋め込みを推論する深層学習手法であるComickが有望な結果を得た。

Communication has become increasingly dynamic with the popularization of social networks and applications that allow people to express themselves and communicate instantly. In this scenario, distributed representation models have their quality impacted by new words that appear frequently or that are derived from spelling errors. These words that are unknown by the models, known as out-of-vocabulary (OOV) words, need to be properly handled to not degrade the quality of the natural language processing (NLP) applications, which depend on the appropriate vector representation of the texts. To better understand this problem and finding the best techniques to handle OOV words, in this study, we present a comprehensive performance evaluation of deep learning models for representing OOV words. We performed an intrinsic evaluation using a benchmark dataset and an extrinsic evaluation using different NLP tasks: text categorization, named entity recognition, and part-of-speech tagging. Although the results indicated that the best technique for handling OOV words is different for each task, Comick, a deep learning method that infers the embedding based on the context and the morphological structure of the OOV word, obtained promising results.
翻訳日:2022-11-10 13:40:07 公開日:2020-07-28
# 組み合わせる学習:マルチソースドメイン適応のための知識集約

Learning to Combine: Knowledge Aggregation for Multi-Source Domain Adaptation ( http://arxiv.org/abs/2007.08801v3 )

ライセンス: Link先を確認
Hang Wang, Minghao Xu, Bingbing Ni, Wenjun Zhang(参考訳) 複数のソースドメインから学習した知識を対象ドメインに移すことは、従来の単一ソースドメイン適応よりも実用的で困難な作業である。 さらに、モダリティの増加により、複数のドメイン間の特徴分布の整合が困難になる。 これらの問題を緩和するために、ドメイン間の相互作用を探索してマルチソースドメイン適応(LtC-MSDA)フレームワークを組み合わせる学習を提案する。 簡単に言うと、知識グラフは様々なドメインのプロトタイプ上に構築され、セマンティックに隣接した表現間の情報伝達を実現する。 このようなモデルに基づいて,関係するプロトタイプのガイダンスに基づいて,クエリサンプルを予測するグラフモデルが学習される。 さらに,カテゴリ間の相互依存と特徴のコンパクトさの整合性を高めるために,関係アライメント損失(RAL)を設計し,特徴のクラス内不変性とクラス間分離性を高める。 公開ベンチマークデータセットの総合的な結果は、我々のアプローチが既存の手法よりも顕著なマージンで優れていることを示している。 我々のコードは \url{https://github.com/ChrisAllenMing/LtC-MSDA} で入手できる。

Transferring knowledges learned from multiple source domains to target domain is a more practical and challenging task than conventional single-source domain adaptation. Furthermore, the increase of modalities brings more difficulty in aligning feature distributions among multiple domains. To mitigate these problems, we propose a Learning to Combine for Multi-Source Domain Adaptation (LtC-MSDA) framework via exploring interactions among domains. In the nutshell, a knowledge graph is constructed on the prototypes of various domains to realize the information propagation among semantically adjacent representations. On such basis, a graph model is learned to predict query samples under the guidance of correlated prototypes. In addition, we design a Relation Alignment Loss (RAL) to facilitate the consistency of categories' relational interdependency and the compactness of features, which boosts features' intra-class invariance and inter-class separability. Comprehensive results on public benchmark datasets demonstrate that our approach outperforms existing methods with a remarkable margin. Our code is available at \url{https://github.com/ChrisAllenMing/LtC-MSDA}
翻訳日:2022-11-09 13:55:53 公開日:2020-07-28
# 反事実のオンライン化 - オンラインランキングにおける効率的で偏りのない評価

Taking the Counterfactual Online: Efficient and Unbiased Online Evaluation for Ranking ( http://arxiv.org/abs/2007.12719v2 )

ライセンス: Link先を確認
Harrie Oosterhuis and Maarten de Rijke(参考訳) 反事実評価は、位置バイアスと項目選択バイアスの影響を緩和しながら、過去の相互作用データに基づいてランキングシステム間のクリックスルーレート(ctr)差を推定することができる。 本稿では,ログデータに対するポリシーを最適化し,反事実推定が最小の分散となるログ・ポリシー最適化アルゴリズム(logopt)を提案する。 分散の最小化はより高速な収束をもたらすため、LogOptは反事実推定のデータ効率を高める。 LogOptは、ログポリシーに無関係な反ファクト的なアプローチをオンラインアプローチに変換し、アルゴリズムが表示すべきランキングを決定する。 オンライン評価手法として、LogOptは既存のインターリービング方法とは異なり、位置と項目選択バイアスに偏りがないことが証明されている。 さらに,何千ものランチャーの比較をシミュレートして大規模実験を行った。 以上の結果から,間欠的手法は系統的誤りを生じるが, logopt はバイアスを受けることなく間欠的手法と同等の効率性を示す。

Counterfactual evaluation can estimate Click-Through-Rate (CTR) differences between ranking systems based on historical interaction data, while mitigating the effect of position bias and item-selection bias. We introduce the novel Logging-Policy Optimization Algorithm (LogOpt), which optimizes the policy for logging data so that the counterfactual estimate has minimal variance. As minimizing variance leads to faster convergence, LogOpt increases the data-efficiency of counterfactual estimation. LogOpt turns the counterfactual approach - which is indifferent to the logging policy - into an online approach, where the algorithm decides what rankings to display. We prove that, as an online evaluation method, LogOpt is unbiased w.r.t. position and item-selection bias, unlike existing interleaving methods. Furthermore, we perform large-scale experiments by simulating comparisons between thousands of rankers. Our results show that while interleaving methods make systematic errors, LogOpt is as efficient as interleaving without being biased.
翻訳日:2022-11-07 07:05:21 公開日:2020-07-28
# 終端話者認証システムにおける特徴校正と正規化を伴う自己注意型多層アグリゲーション

Self-Attentive Multi-Layer Aggregation with Feature Recalibration and Normalization for End-to-End Speaker Verification System ( http://arxiv.org/abs/2007.13350v2 )

ライセンス: Link先を確認
Soonshin Seo, Ji-Hwan Kim(参考訳) エンドツーエンドの話者検証システムにおいて最も重要な部分の1つは、話者埋め込み生成である。 前報では,接続型多層アグリゲーションが話者埋め込みの表現力を向上させることを報告した。 しかし, モデルパラメータの数は比較的多く, 多層アグリゲーションでは不特定な変動が増加する。 そこで本稿では,エンドツーエンド話者検証システムにおける特徴の校正と正規化を併用した多層アグリゲーションを提案する。 モデルパラメータの数を減らすために、チャネル幅と層深さを拡大したResNetがベースラインとして使用される。 トレーニングにおける可変性を制御するために,ドロップアウト正規化とバッチ正規化を伴う多層アグリゲーションを行う自己注意機構を適用した。 次に、完全連結層と非線形活性化関数を用いて、特徴リカバリ層を集約した特徴量に適用する。 遠距離正規化はエンドツーエンドのトレーニングプロセスで再調整された機能にも使用される。 VoxCeleb1評価データセットを用いた実験の結果、提案手法の性能は最先端のモデルに匹敵することがわかった(それぞれVoxCeleb1とVoxCeleb2のトレーニングデータセットを用いて、エラー率は4.95%と2.86%)。

One of the most important parts of an end-to-end speaker verification system is the speaker embedding generation. In our previous paper, we reported that shortcut connections-based multi-layer aggregation improves the representational power of the speaker embedding. However, the number of model parameters is relatively large and the unspecified variations increase in the multi-layer aggregation. Therefore, we propose a self-attentive multi-layer aggregation with feature recalibration and normalization for end-to-end speaker verification system. To reduce the number of model parameters, the ResNet, which scaled channel width and layer depth, is used as a baseline. To control the variability in the training, a self-attention mechanism is applied to perform the multi-layer aggregation with dropout regularizations and batch normalizations. Then, a feature recalibration layer is applied to the aggregated feature using fully-connected layers and nonlinear activation functions. Deep length normalization is also used on a recalibrated feature in the end-to-end training process. Experimental results using the VoxCeleb1 evaluation dataset showed that the performance of the proposed methods was comparable to that of state-of-the-art models (equal error rate of 4.95% and 2.86%, using the VoxCeleb1 and VoxCeleb2 training datasets, respectively).
翻訳日:2022-11-06 11:45:40 公開日:2020-07-28
# 品質の異なるデータを用いた分類器学習のための特徴ノルムの縮約マッピング

Contraction Mapping of Feature Norms for Classifier Learning on the Data with Different Quality ( http://arxiv.org/abs/2007.13406v2 )

ライセンス: Link先を確認
Weihua Liu, Xiabi Liu, Murong Wang and Ling Ma(参考訳) 人気のsoftmax損失とその最近の拡張は、ディープラーニングベースの画像分類で大きな成功を収めている。 しかし、画像分類器の訓練用データは通常、品質が異なる。 このような問題を無視して、低品質データの正しい分類は解決しにくい。 本稿では,画像の特徴ノルムと品質との正の相関関係を,様々なアプリケーションや深層ニューラルネットワークに関する慎重な実験を通じて発見する。 そこで本研究では,トレーニング画像の特徴規範の範囲を,その品質に応じて圧縮し,この制約マッピング関数をソフトマックス損失や拡張に組み込んで,新たな学習目標を導出するコンダクションマッピング関数を提案する。 手書き文字認識, 肺結節分類, 顔認証, 顔認識など, 様々な分類応用における実験により, 提案手法が, 異なる品質のデータを学習する問題に対して効果的に対処できることが示され, 分類精度が著しく, 安定的に向上することを示す。

The popular softmax loss and its recent extensions have achieved great success in the deep learning-based image classification. However, the data for training image classifiers usually has different quality. Ignoring such problem, the correct classification of low quality data is hard to be solved. In this paper, we discover the positive correlation between the feature norm of an image and its quality through careful experiments on various applications and various deep neural networks. Based on this finding, we propose a contraction mapping function to compress the range of feature norms of training images according to their quality and embed this contraction mapping function into softmax loss or its extensions to produce novel learning objectives. The experiments on various classification applications, including handwritten digit recognition, lung nodule classification, face verification and face recognition, demonstrate that the proposed approach is promising to effectively deal with the problem of learning on the data with different quality and leads to the significant and stable improvements in the classification accuracy.
翻訳日:2022-11-06 08:03:57 公開日:2020-07-28
# Video Deep InfoMaxによる表現学習

Representation Learning with Video Deep InfoMax ( http://arxiv.org/abs/2007.13278v2 )

ライセンス: Link先を確認
R Devon Hjelm and Philip Bachman(参考訳) 自己教師付き学習は、教師なしの事前学習をコンピュータビジョンの困難なタスクに再び関連させる。 最も効果的な自己管理手法は、データの多様なビューから抽出された特徴に基づく予測タスクを含む。 DeepInfoMax(ディープインフォメーションマックス、DIM)は、ディープネットワークの内部構造を利用して、画像内の小さなパッチに依存するローカル特徴と全体像に依存するグローバル特徴との間に予測タスクを形成する自己教師方式である。 本稿では、時空間ネットワークにおける同様の構造を利用してDIMをビデオ領域に拡張し、VDIM(Video Deep InfoMax)と呼ばれる手法を作成する。 本研究では, よりコストのかかる大規模トランスフォーマーモデルを用いて, 従来手法に適合あるいは優れていた動作認識タスクに対して, 自然なレートシーケンスと時間的ダウンサンプルシーケンスの両方からの描画ビューが得られた。 また,utf-101データセットに対してのみトレーニングを行う場合,データ拡張法と微調整法の効果について検討した。

Self-supervised learning has made unsupervised pretraining relevant again for difficult computer vision tasks. The most effective self-supervised methods involve prediction tasks based on features extracted from diverse views of the data. DeepInfoMax (DIM) is a self-supervised method which leverages the internal structure of deep networks to construct such views, forming prediction tasks between local features which depend on small patches in an image and global features which depend on the whole image. In this paper, we extend DIM to the video domain by leveraging similar structure in spatio-temporal networks, producing a method we call Video Deep InfoMax(VDIM). We find that drawing views from both natural-rate sequences and temporally-downsampled sequences yields results on Kinetics-pretrained action recognition tasks which match or outperform prior state-of-the-art methods that use more costly large-time-scale transformer models. We also examine the effects of data augmentation and fine-tuning methods, accomplishingSoTA by a large margin when training only on the UCF-101 dataset.
翻訳日:2022-11-06 07:52:05 公開日:2020-07-28
# ニューラルネットワークダイナミクスモデルを用いたオフロードおよびオンロード車両の繰り返しLQR制御

An Iterative LQR Controller for Off-Road and On-Road Vehicles using a Neural Network Dynamics Model ( http://arxiv.org/abs/2007.14492v1 )

ライセンス: Link先を確認
Akhil Nagariya and Srikanth Saripalli(参考訳) 本研究では,二種類の車輪型移動ロボットであるwarthog(図1)と,非ホロノミック6座車であるpolaris gem e6[1](図2)の軌道追跡のための反復線形二次レギュレータ(ilqr)を評価した。 制御則を計算するためにilqrコントローラで使用されるこれらのロボットの離散的動的モデルを学ぶために多層ニューラルネットワークを用いる。 モデル予測制御 (model prediction control, mpc) をモデル不完全に対処するために使用し,warthogでは3m/s-4m/s,polaris gemでは7m/s-10m/sの速度で制御器の性能評価を行う。

In this work we evaluate Iterative Linear Quadratic Regulator(ILQR) for trajectory tracking of two different kinds of wheeled mobile robots namely Warthog (Fig. 1), an off-road holonomic robot with skid-steering and Polaris GEM e6 [1], a non-holonomic six seater vehicle (Fig. 2). We use multilayer neural network to learn the discrete dynamic model of these robots which is used in ILQR controller to compute the control law. We use model predictive control (MPC) to deal with model imperfections and perform extensive experiments to evaluate the performance of the controller on human driven reference trajectories with vehicle speeds of 3m/s- 4m/s for warthog and 7m/s-10m/s for the Polaris GEM
翻訳日:2022-11-06 03:18:38 公開日:2020-07-28
# 急性臨床イベントに対するリカレントニューラルネットワークの応答性の改善

Improving Recurrent Neural Network Responsiveness to Acute Clinical Events ( http://arxiv.org/abs/2007.14520v1 )

ライセンス: Link先を確認
David Ledbetter, Eugene Laksana, Melissa Aczon, Randall Wetzel(参考訳) 急性期における予測モデルは、そのような変化を反映したデータを提示した場合、患者の状態の急激な変化を即座に認識できなければならない。 リカレントニューラルネットワーク(Recurrent Neural Network, RNN)は、臨床決定支援モデルのトレーニングとデプロイに一般的である。 それらはしばしば急性の出来事に対する遅延反応を示す。 新しい情報はRNNの細胞状態記憶を介して伝播し、その影響はモデルの予測に反映される。 本研究は、rnnモデルのトレーニングとデプロイの方法として、入力データパーセレーションを提示し、新たに取得した情報に対して、その予測をより応答しやすくする。 データ入力の複製は、RNNのセル状態と出力に影響を与えるが、最終的な複製時の出力のみが維持され、評価および展開目的の予測として放送される。 急性事象を反映するデータを表示すると、入力パーセレーションでトレーニングされ、デプロイされたモデルは、より明確な予測の即時変化に応答し、グローバルなロバストなパフォーマンスを維持する。 このような特徴は集中治療単位の予測モデルにおいて重要である。

Predictive models in acute care settings must be able to immediately recognize precipitous changes in a patient's status when presented with data reflecting such changes. Recurrent neural networks (RNNs) have become common for training and deploying clinical decision support models. They frequently exhibit a delayed response to acute events. New information must propagate through the RNN's cell state memory before the total impact is reflected in the model's predictions. This work presents input data perseveration as a method of training and deploying an RNN model to make its predictions more responsive to newly acquired information: input data is replicated during training and deployment. Each replication of the data input impacts the cell state and output of the RNN, but only the output at the final replication is maintained and broadcast as the prediction for evaluation and deployment purposes. When presented with data reflecting acute events, a model trained and deployed with input perseveration responds with more pronounced immediate changes in predictions and maintains globally robust performance. Such a characteristic is crucial in predictive models for an intensive care unit.
翻訳日:2022-11-06 03:14:29 公開日:2020-07-28
# 確率空間モデルによる自己教師付きニューラルオーディオ-ビジュアル音源定位

Self-supervised Neural Audio-Visual Sound Source Localization via Probabilistic Spatial Modeling ( http://arxiv.org/abs/2007.13976v1 )

ライセンス: Link先を確認
Yoshiki Masuyama, Yoshiaki Bando, Kohei Yatabe, Yoko Sasaki, Masaki Onishi, Yasuhiro Oikawa(参考訳) 自律型ロボットが周囲の環境を理解するためには,視覚観測における音源検出が重要である。 音波物体は我々の生活環境において様々な外観を持つため、すべての音波物体のラベル付けは実際には不可能である。 これは手動のラベリングを必要としない自己教師付き学習を要求する。 従来の自己教師付き学習のほとんどは、モナウラル音声信号と画像を使用しており、オーディオ信号の空間情報不足のため、類似した外観を持つ音源オブジェクトを区別できない。 そこで本稿では,360{\deg}画像とマルチチャンネル音声信号を用いた自己教師あり学習手法を提案する。 マルチチャネル音声信号に空間情報を組み込むことにより,深層ニューラルネットワーク(dnn)を訓練し,複数の音源物体を識別する。 画像中の音源オブジェクトをローカライズするシステムは,音声と視覚のDNNで構成されている。 視覚的DNNは、入力画像内の音源候補をローカライズするように訓練される。 オーディオDNNは、各候補が実際に音声を生成するか否かを検証する。 これらのDNNは、確率論的空間オーディオモデルに基づいて、自己管理的な方法で共同で訓練される。 シミュレーションデータを用いた実験の結果,複数の話者を局所化したdnnが得られた。 また,視覚dnnは,科学博物館に記録された実データから,講演者や展示物を含む物体を検知した。

Detecting sound source objects within visual observation is important for autonomous robots to comprehend surrounding environments. Since sounding objects have a large variety with different appearances in our living environments, labeling all sounding objects is impossible in practice. This calls for self-supervised learning which does not require manual labeling. Most of conventional self-supervised learning uses monaural audio signals and images and cannot distinguish sound source objects having similar appearances due to poor spatial information in audio signals. To solve this problem, this paper presents a self-supervised training method using 360{\deg} images and multichannel audio signals. By incorporating with the spatial information in multichannel audio signals, our method trains deep neural networks (DNNs) to distinguish multiple sound source objects. Our system for localizing sound source objects in the image is composed of audio and visual DNNs. The visual DNN is trained to localize sound source candidates within an input image. The audio DNN verifies whether each candidate actually produces sound or not. These DNNs are jointly trained in a self-supervised manner based on a probabilistic spatial audio model. Experimental results with simulated data showed that the DNNs trained by our method localized multiple speakers. We also demonstrate that the visual DNN detected objects including talking visitors and specific exhibits from real data recorded in a science museum.
翻訳日:2022-11-06 03:14:09 公開日:2020-07-28
# ピクセルカラー増幅による網膜基底像の強調

Enhancement of Retinal Fundus Images via Pixel Color Amplification ( http://arxiv.org/abs/2007.14456v1 )

ライセンス: Link先を確認
Alex Gaudio and Asim Smailagic and Aur\'elio Campilho(参考訳) 網膜画像のセグメンテーション作業を容易にするために,画素カラー増幅理論と拡張手法のファミリを提案する。 本研究では,デハジング理論に基づく画像歪みモデルの再解釈により,デハジングコミュニティで一般的に使用されている3つの既存プリエントと,新たな4番目のプリエントとの関連性を示す。 本理論は、全画像の明るくなり暗くなる新しい方法を含む、網膜画像の一連の強調法を開発するために用いられる。 我々はunsharp maskingアルゴリズムの新たな導出を示す。 提案手法を,課題であるマルチタスクセグメンテーション問題に対する前処理ステップとして評価し,全タスクの性能向上を示すとともに,Diceスコアを0.491まで向上させる。 高速化前処理が不均衡で困難なデータに有用であることを示す。 強化は、それらを一緒に構成することでクラスバランシングを実行できることを示す。

We propose a pixel color amplification theory and family of enhancement methods to facilitate segmentation tasks on retinal images. Our novel re-interpretation of the image distortion model underlying dehazing theory shows how three existing priors commonly used by the dehazing community and a novel fourth prior are related. We utilize the theory to develop a family of enhancement methods for retinal images, including novel methods for whole image brightening and darkening. We show a novel derivation of the Unsharp Masking algorithm. We evaluate the enhancement methods as a pre-processing step to a challenging multi-task segmentation problem and show large increases in performance on all tasks, with Dice score increases over a no-enhancement baseline by as much as 0.491. We provide evidence that our enhancement preprocessing is useful for unbalanced and difficult data. We show that the enhancements can perform class balancing by composing them together.
翻訳日:2022-11-06 03:13:35 公開日:2020-07-28
# 非線形モデル低減における深層ネットワークの深さ分離:非線形双曲問題における衝撃波の蒸留

Depth separation for reduced deep networks in nonlinear model reduction: Distilling shock waves in nonlinear hyperbolic problems ( http://arxiv.org/abs/2007.13977v1 )

ライセンス: Link先を確認
Donsub Rim, Luca Venturi, Joan Bruna, Benjamin Peherstorfer(参考訳) 古典的還元モデルは、大規模システムの次元的還元を実現するために設計された固定基底を用いた低ランク近似である。 本研究では,ディープニューラルネットワークとして定式化された古典的縮小モデルの一般化である還元型ディープネットワークを提案する。 深さ分離の結果から, 近似誤差$\epsilon$ と $\mathcal{o}(|\log(\epsilon)|)$ のパラメトリズド双曲型偏微分方程式の解は, 解が衝撃波を示す非線形環境においても近似解に近いことがわかった。 また、古典還元モデルでは、関連するコルモゴロフ$n$-widthsの下限を確立することで指数関数的に悪い近似率が得られることを示した。

Classical reduced models are low-rank approximations using a fixed basis designed to achieve dimensionality reduction of large-scale systems. In this work, we introduce reduced deep networks, a generalization of classical reduced models formulated as deep neural networks. We prove depth separation results showing that reduced deep networks approximate solutions of parametrized hyperbolic partial differential equations with approximation error $\epsilon$ with $\mathcal{O}(|\log(\epsilon)|)$ degrees of freedom, even in the nonlinear setting where solutions exhibit shock waves. We also show that classical reduced models achieve exponentially worse approximation rates by establishing lower bounds on the relevant Kolmogorov $N$-widths.
翻訳日:2022-11-06 03:13:21 公開日:2020-07-28
# 近似時間モチーフ計算のための効率的なサンプリングアルゴリズム(拡張版)

Efficient Sampling Algorithms for Approximate Temporal Motif Counting (Extended Version) ( http://arxiv.org/abs/2007.14028v1 )

ライセンス: Link先を確認
Jingjing Wang and Yanhao Wang and Wenjun Jiang and Yuchen Li and Kian-Lee Tan(参考訳) 通信ネットワークにおけるユーザインタラクションから金融市場の取引まで、さまざまな複雑なシステムは、一連の頂点と一連のタイムスタンプと有向エッジからなる時間グラフとしてモデル化することができる。 時間グラフの時間的モチーフは、構造に加えてエッジ順序と持続時間を考慮した静的グラフのサブグラフパターンから一般化される。 時間的モチーフの発生回数を数えることは、時間的ネットワーク分析の基本的な問題である。 しかし、既存のメソッドは時間的モチーフをサポートできないか、パフォーマンスの問題に悩まされている。 本稿では,ランダムサンプリングによる時間的モチーフの近似計算に着目する。 まず,任意の時相モチーフのインスタンス数を推定する汎用エッジサンプリング(es)アルゴリズムを提案する。 さらに,エッジサンプリングとウェッジサンプリングをハイブリッド化し,3頂点と3辺の時間モチーフをカウントする改良ewsアルゴリズムを考案した。 提案するアルゴリズムの理論的境界と複雑さを包括的に解析する。 最後に,複数の実世界のデータセットについて広範な実験を行い,ESとEWSのアルゴリズムは時間的モチーフカウントのための最先端サンプリング手法よりも効率,精度,スケーラビリティが高いことを示した。

A great variety of complex systems ranging from user interactions in communication networks to transactions in financial markets can be modeled as temporal graphs, which consist of a set of vertices and a series of timestamped and directed edges. Temporal motifs in temporal graphs are generalized from subgraph patterns in static graphs which take into account edge orderings and durations in addition to structures. Counting the number of occurrences of temporal motifs is a fundamental problem for temporal network analysis. However, existing methods either cannot support temporal motifs or suffer from performance issues. In this paper, we focus on approximate temporal motif counting via random sampling. We first propose a generic edge sampling (ES) algorithm for estimating the number of instances of any temporal motif. Furthermore, we devise an improved EWS algorithm that hybridizes edge sampling with wedge sampling for counting temporal motifs with 3 vertices and 3 edges. We provide comprehensive analyses of the theoretical bounds and complexities of our proposed algorithms. Finally, we conduct extensive experiments on several real-world datasets, and the results show that our ES and EWS algorithms have higher efficiency, better accuracy, and greater scalability than the state-of-the-art sampling method for temporal motif counting.
翻訳日:2022-11-06 03:13:01 公開日:2020-07-28
# ドメイン適応型話者認識のためのシームズXベクトル再構成

Siamese x-vector reconstruction for domain adapted speaker recognition ( http://arxiv.org/abs/2007.14146v1 )

ライセンス: Link先を確認
Shai Rozenberg, Hagai Aronowitz, Ron Hoory(参考訳) 音声アプリケーションの普及に伴い、話者認識の必要性が急速に高まっている。 ディープニューラルネットワーク(DNN)に基づく埋め込みアプローチであるxベクターは、適切なエンドツーエンドトレーニングが実現不可能な場合、最先端技術であると考えられている。 しかし、記録条件(ノイズ、サンプルレート等)がx-vectorトレーニングデータとターゲットデータと、または登録データとテストデータとで不一致した場合、精度は著しく低下する。 ドメイン適応のためのSVR(Siamese x-vector Reconstruction)を提案する。 我々は、リーン補助的なシームズDNNを用いて高品質信号の埋め込みを低品質信号から再構築する。 提案手法をいくつかのミスマッチシナリオで評価し,ベースラインに対する大幅な改善を示す。

With the rise of voice-activated applications, the need for speaker recognition is rapidly increasing. The x-vector, an embedding approach based on a deep neural network (DNN), is considered the state-of-the-art when proper end-to-end training is not feasible. However, the accuracy significantly decreases when recording conditions (noise, sample rate, etc.) are mismatched, either between the x-vector training data and the target data or between enrollment and test data. We introduce the Siamese x-vector Reconstruction (SVR) for domain adaptation. We reconstruct the embedding of a higher quality signal from a lower quality counterpart using a lean auxiliary Siamese DNN. We evaluate our method on several mismatch scenarios and demonstrate significant improvement over the baseline.
翻訳日:2022-11-06 03:12:43 公開日:2020-07-28
# 分散電力制御の専門家のチームディープミックス

Team Deep Mixture of Experts for Distributed Power Control ( http://arxiv.org/abs/2007.14147v1 )

ライセンス: Link先を確認
Matteo Zecchin, David Gesbert, Marios Kountouris(参考訳) 近年,無線ネットワークの文脈において,複数のdnnを共同で訓練することで,幅広いセンサの不確実性に対処できる望ましい協調行動を提供できることを示した。 特に、DNNは、各エージェント(例えば送信機)が決定するために使用するローカル情報(例えば、無線ネットワークにおけるCSI)に影響を及ぼす情報ノイズ統計量に関して、堅牢なポリシーを導出することができることが確立された。 このような手法の実装における大きな課題は、情報ノイズ統計がエージェントからエージェントへ異なる場合があり、さらに重要なことは、そのような統計がトレーニング時に利用できない場合や、時間とともに進化し、負担のかかる再訓練が必要な場合である。 この状況は、将来のフィードバックノイズ環境において分散協調を可能にするために、すべての場所で1回トレーニング可能な、"ユニバーサル"な機械学習モデルを考案することが望ましい。 この目的を念頭に置いて,コンピュータビジョンや音声認識といった様々な文脈において,これまで非線形回帰や分類タスクに用いられてきた,著名な専門家の混合(moe)モデルから着想を得たアーキテクチャを提案する。 本稿では,分散化電力制御問題を,提案モデルの有効性を示し,他の電力制御アルゴリズムと比較する例として考察する。 時間変動統計シナリオを効率的に追跡する Team-DMoE モデルの有効性を示す。

In the context of wireless networking, it was recently shown that multiple DNNs can be jointly trained to offer a desired collaborative behaviour capable of coping with a broad range of sensing uncertainties. In particular, it was established that DNNs can be used to derive policies that are robust with respect to the information noise statistic affecting the local information (e.g. CSI in a wireless network) used by each agent (e.g. transmitter) to make its decision. While promising, a major challenge in the implementation of such method is that information noise statistics may differ from agent to agent and, more importantly, that such statistics may not be available at the time of training or may evolve over time, making burdensome retraining necessary. This situation makes it desirable to devise a "universal" machine learning model, which can be trained once for all so as to allow for decentralized cooperation in any future feedback noise environment. With this goal in mind, we propose an architecture inspired from the well-known Mixture of Experts (MoE) model, which was previously used for non-linear regression and classification tasks in various contexts, such as computer vision and speech recognition. We consider the decentralized power control problem as an example to showcase the validity of the proposed model and to compare it against other power control algorithms. We show the ability of the so called Team-DMoE model to efficiently track time-varying statistical scenarios.
翻訳日:2022-11-06 03:12:31 公開日:2020-07-28
# 野生における自発性口腔癌音声の検出と解析

Detecting and analysing spontaneous oral cancer speech in the wild ( http://arxiv.org/abs/2007.14205v1 )

ライセンス: Link先を確認
Bence Mark Halpern, Rob van Son, Michiel van den Brekel, Odette Scharenborg(参考訳) 口腔がんは、毎年世界中で50万人以上の人々に影響を及ぼす病気である。 口腔癌音声の分析は,これまで読解音声に焦点をあててきた。 本稿では, 1)現在及び現在 2) youtube から収集した3時間の自発的な口腔癌音声データセットの解析。 3)本データセットに基づいて口腔癌音声検出タスクのベースラインを設定した。 これらの説明可能な機械学習ベースラインの分析は、自発性口腔癌発声の検出において、シビラントと停止子音が最も重要な指標であることを示している。

Oral cancer speech is a disease which impacts more than half a million people worldwide every year. Analysis of oral cancer speech has so far focused on read speech. In this paper, we 1) present and 2) analyse a three-hour long spontaneous oral cancer speech dataset collected from YouTube. 3) We set baselines for an oral cancer speech detection task on this dataset. The analysis of these explainable machine learning baselines shows that sibilants and stop consonants are the most important indicators for spontaneous oral cancer speech detection.
翻訳日:2022-11-06 03:12:06 公開日:2020-07-28
# オーディオ-スコアアライメントへのハイブリッドアプローチ

A Hybrid Approach to Audio-to-Score Alignment ( http://arxiv.org/abs/2007.14333v1 )

ライセンス: Link先を確認
Ruchit Agrawal and Simon Dixon(参考訳) オーディオ・トゥ・スコアアライメントは、演奏音声と曲のスコアの正確なマッピングを生成することを目的としている。 標準的なアライメント手法は動的時間ウォーピング(DTW)に基づいており、手作りの機能を採用している。 DTWに基づく自動アライメント手法の事前処理ステップとしてニューラルネットワークの利用について検討する。 音響条件の異なる音楽データに対する実験により, 同時に適応しながらロバストなアライメントを生成することを示した。

Audio-to-score alignment aims at generating an accurate mapping between a performance audio and the score of a given piece. Standard alignment methods are based on Dynamic Time Warping (DTW) and employ handcrafted features. We explore the usage of neural networks as a preprocessing step for DTW-based automatic alignment methods. Experiments on music data from different acoustic conditions demonstrate that this method generates robust alignments whilst being adaptable at the same time.
翻訳日:2022-11-06 03:11:58 公開日:2020-07-28
# 交換可能性を超えたネットワークの従順なモデリング

Tractably Modelling Dependence in Networks Beyond Exchangeability ( http://arxiv.org/abs/2007.14365v1 )

ライセンス: Link先を確認
Weichi Wu, Sofia Olhede, Patrick Wolfe(参考訳) 本研究では,交換不能ネットワークの側面を記述したネットワークデータモデリングフレームワークを提案する。 遅延変数の条件付き(観測されない)、ネットワークのエッジは有限成長履歴(遅延順序付き)によって生成され、隣接行列の限界確率はグラフ極限関数(またはグラフロン)の一般化によってモデル化される。 特に,我々の設定におけるネットワークの推定,クラスタリング,次数挙動について検討する。 我々は (i)二乗誤差損失に関する複合グラフの最小推定器 (II) スペクトルクラスタリングは、追加条件下でブロックワイズ定数複合グラフンが考慮されるとき、常に遅延メンバシップを検出することができる。 3) 特定のシナリオとパラメータの選択に基づいて,重み付き経験次数モデルを構築することができる。 このことは、一般条件が交換不能なネットワークデータを確率ブロックモデルで記述できる理由と方法を探る。 この新しいモデリングフレームワークは、空間性などのネットワークデータの実験的に重要な特性を、重み付き次数分布と組み合わせて捉え、生成メカニズムが生み出すものを理解することができる。 キーワード:統計ネットワーク解析、交換可能な配列、確率ブロックモデル、非線形確率過程。

We propose a general framework for modelling network data that is designed to describe aspects of non-exchangeable networks. Conditional on latent (unobserved) variables, the edges of the network are generated by their finite growth history (with latent orders) while the marginal probabilities of the adjacency matrix are modeled by a generalization of a graph limit function (or a graphon). In particular, we study the estimation, clustering and degree behavior of the network in our setting. We determine (i) the minimax estimator of a composite graphon with respect to squared error loss; (ii) that spectral clustering is able to consistently detect the latent membership when the block-wise constant composite graphon is considered under additional conditions; and (iii) we are able to construct models with heavy-tailed empirical degrees under specific scenarios and parameter choices. This explores why and under which general conditions non-exchangeable network data can be described by a stochastic block model. The new modelling framework is able to capture empirically important characteristics of network data such as sparsity combined with heavy tailed degree distribution, and add understanding as to what generative mechanisms will make them arise. Keywords: statistical network analysis, exchangeable arrays, stochastic block model, nonlinear stochastic processes.
翻訳日:2022-11-06 03:05:23 公開日:2020-07-28
# ユーザ状態を予測するための行動モデリング - 根拠としての自己報告

Modeling Behaviour to Predict User State: Self-Reports as Ground Truth ( http://arxiv.org/abs/2007.14461v1 )

ライセンス: Link先を確認
Julian Frommel, Regan L Mandryk(参考訳) 感情などのユーザ状態を検出する方法はインタラクティブシステムに有用である。 本稿では,ユーザ行動と自己報告されたユーザ状態に基づくモデルに基づくアプローチを基礎的真理として論じる。 アプリケーションコンテキストでは、振る舞いを記録し、関連する特徴を抽出し、モデルのユーザ状態を予測する。 このアプローチをどのように実装し、そのメリットをアプリケーションにおける単に自己報告と、自己報告の根拠のない行動モデルと比較し、議論する。 最後に,その欠点と限界を考慮することで,このアプローチの欠点について議論する。

Methods that detect user states such as emotions are useful for interactive systems. In this position paper, we argue for model-based approaches that are trained on user behaviour and self-reported user state as ground truths. In an application context, they record behaviour, extract relevant features, and use the models to predict user states. We describe how this approach can be implemented and discuss its benefits in comparison to solely self-reports in an application and to models of behaviour without the selfreport ground truths. Finally, we discuss shortcomings of this approach by considering its drawbacks and limitations.
翻訳日:2022-11-06 03:03:09 公開日:2020-07-28
# 分数ウェーブレット散乱ネットワークにおける逆問題としての生成ネットワーク

Generative networks as inverse problems with fractional wavelet scattering networks ( http://arxiv.org/abs/2007.14177v1 )

ライセンス: Link先を確認
Jiasong Wu, Jing Zhang, Fuzhi Wu, Youyong Kong, Guanyu Yang, Lotfi Senhadji, Huazhong Shu(参考訳) ディープラーニングは、機械学習手法とアプリケーション分野におけるホットな研究トピックである。 generative adversarial network (gans) と variational auto-encoder (vaes) はガウスのホワイトノイズからの印象的な画像生成を提供するが、どちらも発電機(またはエンコーダ)と判別器(またはデコーダ)を同時に訓練する必要があるため、訓練は困難であり、不安定なトレーニングを引き起こす。 GANとVAEの同期トレーニングの難しさを解消または緩和するために、研究者は最近、ウェーブレット散乱ネットワーク(ScatNet)をエンコーダとして使用し、画像を生成するデコーダとして機能(ScatNet埋め込み)と畳み込みニューラルネットワーク(CNN)を得るジェネレーティブ散乱ネットワーク(GSN)を提案する。 GSNsの利点は、ScatNetsのパラメータを学習する必要がなく、GSNsの欠点は、ScatNetsの表現能力がCNNよりもわずかに弱く、主成分分析(PCA)の次元還元法はGSNのトレーニングにおいて過度に適合しやすく、したがってテストプロセスにおける生成品質に影響を与えることである。 本稿では,gsnsの利点を保ちつつ生成画像の品質をさらに向上させるため,スキャットネットの代わりにより表現豊かに分数的なウェーブレット散乱ネットワーク(frscatnets)を用いて特徴(frscatnet embeddeds)を取得し,gsnsの類似cnnをデコーダとして画像を生成するジェネレイティブ分数散乱ネットワーク(gfrsns)を提案する。 さらに,frscatnetsの情報を保持するため,pcaの代わりに機能マップ融合 (fmf) と呼ばれる新しい次元縮小法を開発し,画像融合が画像生成品質に与える影響についても検討した。

Deep learning is a hot research topic in the field of machine learning methods and applications. Generative Adversarial Networks (GANs) and Variational Auto-Encoders (VAEs) provide impressive image generations from Gaussian white noise, but both of them are difficult to train since they need to train the generator (or encoder) and the discriminator (or decoder) simultaneously, which is easy to cause unstable training. In order to solve or alleviate the synchronous training difficult problems of GANs and VAEs, recently, researchers propose Generative Scattering Networks (GSNs), which use wavelet scattering networks (ScatNets) as the encoder to obtain the features (or ScatNet embeddings) and convolutional neural networks (CNNs) as the decoder to generate the image. The advantage of GSNs is the parameters of ScatNets are not needed to learn, and the disadvantage of GSNs is that the expression ability of ScatNets is slightly weaker than CNNs and the dimensional reduction method of Principal Component Analysis (PCA) is easy to lead overfitting in the training of GSNs, and therefore affect the generated quality in the testing process. In order to further improve the quality of generated images while keep the advantages of GSNs, this paper proposes Generative Fractional Scattering Networks (GFRSNs), which use more expressive fractional wavelet scattering networks (FrScatNets) instead of ScatNets as the encoder to obtain the features (or FrScatNet embeddings) and use the similar CNNs of GSNs as the decoder to generate the image. Additionally, this paper develops a new dimensional reduction method named Feature-Map Fusion (FMF) instead of PCA for better keeping the information of FrScatNets and the effect of image fusion on the quality of image generation is also discussed.
翻訳日:2022-11-06 02:57:02 公開日:2020-07-28
# GPU上の二元畳み込みニューラルネットワークにおけるXNOR畳み込みの最適化

Optimization of XNOR Convolution for Binary Convolutional Neural Networks on GPU ( http://arxiv.org/abs/2007.14178v1 )

ライセンス: Link先を確認
Mete Can Kaya, Alperen \.Inci, Alptekin Temizel(参考訳) バイナリ畳み込みネットワークは、計算負荷とメモリフットプリントが、全精度のネットワークに比べて低い。 そのため、限られた組み込みデバイスにコンピュータビジョンアプリケーションを配置するための、実現可能な代替手段である。 リソース制約の少ない計算環境をトレーニングすれば、そのようなデバイス上でリアルタイムの推論にデプロイすることができる。 本研究では,xnor畳み込みの最適化に着目し,gpu上でのバイナリ畳み込みネットワーク推論の実装を提案する。 実験結果によると、GPUを使用することで、カーネルサイズが32.61\times$のスピードアップが可能になる。 実装はhttps://github.com/metcan/Binary-Convolutional-Neural-Network-Inference-on-GPUで公開されている。

Binary convolutional networks have lower computational load and lower memory foot-print compared to their full-precision counterparts. So, they are a feasible alternative for the deployment of computer vision applications on limited capacity embedded devices. Once trained on less resource-constrained computational environments, they can be deployed for real-time inference on such devices. In this study, we propose an implementation of binary convolutional network inference on GPU by focusing on optimization of XNOR convolution. Experimental results show that using GPU can provide a speed-up of up to $42.61\times$ with a kernel size of $3\times3$. The implementation is publicly available at https://github.com/metcan/Binary-Convolutional-Neural-Network-Inference-on-GPU
翻訳日:2022-11-06 02:56:20 公開日:2020-07-28
# エッジアウェア残差補間によるモノクロームと色偏光分解

Monochrome and Color Polarization Demosaicking Using Edge-Aware Residual Interpolation ( http://arxiv.org/abs/2007.14292v1 )

ライセンス: Link先を確認
Miki Morimatsu, Yusuke Monno, Masayuki Tanaka, Masatoshi Okutomi(参考訳) 平面分割あるいはマイクログリッド画像偏光計により、1枚の撮影で一組の偏光画像を取得することができる。 偏光度計はモノクロまたは色偏光フィルタアレイ(MPFAまたはCPFA)を備えた画像センサからなるため、欠落した画素値を補間する復光処理は高品質の偏光画像を得る上で重要な役割を果たす。 本稿では,エッジ認識残差補間(EARI)に基づく新しいMPFA復号法を提案し,それをCPFA復号法に拡張する。 EARIの鍵は、欠落したピクセル値を補間する効果的なガイド画像を生成するための新しいエッジ検出器である。 また,3CCDカメラと回転偏光器を用いたフルカラー偏光画像データセットを新たに構築した。 このデータセットを用いて,本手法がMPFAおよびCPFAにおける既存手法よりも優れていることを示す。

A division-of-focal-plane or microgrid image polarimeter enables us to acquire a set of polarization images in one shot. Since the polarimeter consists of an image sensor equipped with a monochrome or color polarization filter array (MPFA or CPFA), the demosaicking process to interpolate missing pixel values plays a crucial role in obtaining high-quality polarization images. In this paper, we propose a novel MPFA demosaicking method based on edge-aware residual interpolation (EARI) and also extend it to CPFA demosaicking. The key of EARI is a new edge detector for generating an effective guide image used to interpolate the missing pixel values. We also present a newly constructed full color-polarization image dataset captured using a 3-CCD camera and a rotating polarizer. Using the dataset, we experimentally demonstrate that our EARI-based method outperforms existing methods in MPFA and CPFA demosaicking.
翻訳日:2022-11-06 02:56:10 公開日:2020-07-28
# 認知的意思決定支援システムにおけるバイアスのリスク評価

Assessing Risks of Biases in Cognitive Decision Support Systems ( http://arxiv.org/abs/2007.14361v1 )

ライセンス: Link先を確認
Kenneth Lai, Helder C. R. Oliveira, Ming Hou, Svetlana N. Yanushkevich, and Vlad Shmerko(参考訳) 認知意思決定支援システム(DSS)の設計において、異種源とは異なる性質のバイアスを認識し、評価し、対処し、軽減することは重要な問題である。 そのようなシステムの例としては、cognitive bioometric-enabled security checkpointがある。 バイアスドアルゴリズムは、予測不可能な方法で意思決定プロセスに影響を与える。例えば、異なる人口集団の顔認識は、チェックポイントでのリスクアセスメントに深刻な影響を与える可能性がある。 この論文は、偏見の集合を管理する方法に関する挑戦的な研究課題に対処する。 バイアスの観点から,DSS運用環境の性能予測を行う。 このようなバイアスのリスク評価には確率論的推論手法が用いられる。 また,チェックポイントシステムの顔バイオメトリック成分を用いたモチベーション実験を行い,バイアスのアンサンブルの発見とそのリスク評価手法に注目した。

Recognizing, assessing, countering, and mitigating the biases of different nature from heterogeneous sources is a critical problem in designing a cognitive Decision Support System (DSS). An example of such a system is a cognitive biometric-enabled security checkpoint. Biased algorithms affect the decision-making process in an unpredictable way, e.g. face recognition for different demographic groups may severely impact the risk assessment at a checkpoint. This paper addresses a challenging research question on how to manage an ensemble of biases? We provide performance projections of the DSS operational landscape in terms of biases. A probabilistic reasoning technique is used for assessment of the risk of such biases. We also provide a motivational experiment using face biometric component of the checkpoint system which highlights the discovery of an ensemble of biases and the techniques to assess their risks.
翻訳日:2022-11-06 02:55:51 公開日:2020-07-28
# マルチコイルMRIにおけるK空間アンダーサンプリングパターン最適化のためのLOUPEの拡張

Extending LOUPE for K-space Under-sampling Pattern Optimization in Multi-coil MRI ( http://arxiv.org/abs/2007.14450v1 )

ライセンス: Link先を確認
Jinwei Zhang, Hang Zhang, Alan Wang, Qihao Zhang, Mert Sabuncu, Pascal Spincemaille, Thanh D. Nguyen, Yi Wang(参考訳) The previously established LOUPE (Learning-based Optimization of the Under-sampling Pattern) framework for optimizing the k-space sampling pattern in MRI was extended in three folds: firstly, fully sampled multi-coil k-space data from the scanner, rather than simulated k-space data from magnitude MR images in LOUPE, was retrospectively under-sampled to optimize the under-sampling pattern of in-vivo k-space data; secondly, binary stochastic k-space sampling, rather than approximate stochastic k-space sampling of LOUPE during training, was applied together with a straight-through (ST) estimator to estimate the gradient of the threshold operation in a neural network; thirdly, modified unrolled optimization network, rather than modified U-Net in LOUPE, was used as the reconstruction network in order to reconstruct multi-coil data properly and reduce the dependency on training data. 実験の結果, 既設k空間データを扱う場合, バイナリアンダーサンプリングブロックとST推定器を用いたアンロール最適化ネットワークは, U-Net再構成ネットワークや近似サンプリングパターン最適化ネットワークと比較すると, 再構成性能が向上し, 学習された最適サンプリングパターンは, 従来の再構成手法を用いた場合よりも優れていた。

The previously established LOUPE (Learning-based Optimization of the Under-sampling Pattern) framework for optimizing the k-space sampling pattern in MRI was extended in three folds: firstly, fully sampled multi-coil k-space data from the scanner, rather than simulated k-space data from magnitude MR images in LOUPE, was retrospectively under-sampled to optimize the under-sampling pattern of in-vivo k-space data; secondly, binary stochastic k-space sampling, rather than approximate stochastic k-space sampling of LOUPE during training, was applied together with a straight-through (ST) estimator to estimate the gradient of the threshold operation in a neural network; thirdly, modified unrolled optimization network, rather than modified U-Net in LOUPE, was used as the reconstruction network in order to reconstruct multi-coil data properly and reduce the dependency on training data. Experimental results show that when dealing with the in-vivo k-space data, unrolled optimization network with binary under-sampling block and ST estimator had better reconstruction performance compared to the ones with either U-Net reconstruction network or approximate sampling pattern optimization network, and once trained, the learned optimal sampling pattern worked better than the hand-crafted variable density sampling pattern when deployed with other conventional reconstruction methods.
翻訳日:2022-11-06 02:55:39 公開日:2020-07-28
# 画像における色複雑度によるカラードットの同定と空間パターン検査

Color-complexity enabled exhaustive color-dots identification and spatial patterns testing in images ( http://arxiv.org/abs/2007.14485v1 )

ライセンス: Link先を確認
Shuting Liao, Li-Yu Liu, Ting-An Chen, Kuang-Yu Chen and Fushing Hsieh(参考訳) 画像の形状や大きさの異なるターゲット色ドットをまず網羅的に同定し,その多スケールな2次元形状パターンを抽出して,空間的均一性を漸進的に検証する。 物理における色理論に基づいて,RGB や HSV という3つの色座標の高関連性に依存する新しい色同定アルゴリズムを開発した。 このような高い相関関係は、色画像の色の複雑さを極めて低くし、あらゆる形状や大きさの目標色ドットを徹底的に識別する可能性を秘めている。 不均質な陰影領域と照明条件により,我々のアルゴリズムは,一般的なContourやOpenCVに比べて頑丈で,実用的,効率的であることが示されている。 色画素を識別すると、色ドットを形状とサイズで個別に接続されたネットワークとして形成する。 様々な大きさのドットコレクティブの空間的ジオメトリとして最小スパンニングツリー(MST)を構築した。 サイズスケールが与えられた場合、観測されたMSTにおける隣人間距離の分布が抽出され、空間的均一性の仮定の下で多くのシミュレーションMSTが生成される。 我々は,階層的クラスタリング木に基づく2次元空間的均一性をテストするための新しいアルゴリズムを考案する。 本研究は,精密農業におけるドローンによる化学噴霧を模倣した画像について述べる。

Targeted color-dots with varying shapes and sizes in images are first exhaustively identified, and then their multiscale 2D geometric patterns are extracted for testing spatial uniformness in a progressive fashion. Based on color theory in physics, we develop a new color-identification algorithm relying on highly associative relations among the three color-coordinates: RGB or HSV. Such high associations critically imply low color-complexity of a color image, and renders potentials of exhaustive identification of targeted color-dots of all shapes and sizes. Via heterogeneous shaded regions and lighting conditions, our algorithm is shown being robust, practical and efficient comparing with the popular Contour and OpenCV approaches. Upon all identified color-pixels, we form color-dots as individually connected networks with shapes and sizes. We construct minimum spanning trees (MST) as spatial geometries of dot-collectives of various size-scales. Given a size-scale, the distribution of distances between immediate neighbors in the observed MST is extracted, so do many simulated MSTs under the spatial uniformness assumption. We devise a new algorithm for testing 2D spatial uniformness based on a Hierarchical clustering tree upon all involving MSTs. Our developments are illustrated on images obtained by mimicking chemical spraying via drone in Precision Agriculture.
翻訳日:2022-11-06 02:55:17 公開日:2020-07-28
# 骨軟部組織のx線像の分解

Decompose X-ray Images for Bone and Soft Tissue ( http://arxiv.org/abs/2007.14510v1 )

ライセンス: Link先を確認
Yuanhao Gong(参考訳) 骨は常に柔らかい組織で包まれている。 その結果、X線画像の骨はあいまいになり、不明瞭になる。 本稿では,この課題に対処し,画像処理アルゴリズムにより軟部組織と骨を実質的に分解する新しい課題を提案する。 このタスクは、分解された画像が同じ画像領域を共有するため、セグメンテーションと根本的に異なる。 我々の分解作業は、従来の画像強調と根本的に異なる。 このような分解のための新しい数学的モデルを提案する。 私たちのモデルは正しくないため、いくつかの事前が必要になります。 適切な仮定により、このモデルは標準ラプラス方程式を解いて解くことができる。 得られた骨画像は、理論上、元の入力画像よりもコントラストが良いことが保証される。 そのため、骨の細部が強化され、より明瞭になる。 数値実験により,本手法の有効性と有効性を確認した。 本手法は臨床診断,手術計画,認識,深層学習などにおいて重要である。

Bones are always wrapped by soft tissues. As a result, bones in their X-ray images are obscured and become unclear. In this paper, we tackle this problem and propose a novel task to virtually decompose the soft tissue and bone by image processing algorithms. This task is fundamentally different from segmentation because the decomposed images share the same imaging domain. Our decomposition task is also fundamentally different from the conventional image enhancement. We propose a new mathematical model for such decomposition. Our model is ill-posed and thus it requires some priors. With proper assumptions, our model can be solved by solving a standard Laplace equation. The resulting bone image is theoretically guaranteed to have better contrast than the original input image. Therefore, the details of bones get enhanced and become clearer. Several numerical experiments confirm the effective and efficiency of our method. Our approach is important for clinical diagnosis, surgery planning, recognition, deep learning, etc.
翻訳日:2022-11-06 02:54:54 公開日:2020-07-28
# ニューラルネットワークによる効率的なOCT画像分割

Efficient OCT Image Segmentation Using Neural Architecture Search ( http://arxiv.org/abs/2007.14790v1 )

ライセンス: Link先を確認
Saba Heidari Gheshlaghi, Omid Dehzangi, Ali Dabouei, Annahita Amireskandari, Ali Rezai, Nasser M Nasrabadi(参考訳) 本研究では,光学コヒーレンス・トモグラフィー(OCT)スキャンにおける網膜層セグメンテーションのためのニューラルアーキテクチャ・サーチ(NAS)を提案する。 我々は、NASフレームワークにUnetアーキテクチャを組み込んで、収集および前処理したOCT画像データセット内の網膜層のセグメンテーションのバックボーンとする。 プロセス前段階では,OCTスキャンの高解像度化と画像処理を行い,画像の品質向上を図る。 探索戦略では,ダウン・アンド・アップ・サンプリングセルブロックを見つけるために異なるプリミティブ操作が提案され,探索戦略を手作業で実用的なものにするためにバイナリゲート法が適用されている。 本手法を社内OCTデータセット上で実証的に評価した。 実験の結果, 自己適応型NAS-Unetアーキテクチャは, 平均95.4%, 78.7%のDice類似度係数を達成し, 競争的な人間設計アーキテクチャを著しく上回った。

In this work, we propose a Neural Architecture Search (NAS) for retinal layer segmentation in Optical Coherence Tomography (OCT) scans. We incorporate the Unet architecture in the NAS framework as its backbone for the segmentation of the retinal layers in our collected and pre-processed OCT image dataset. At the pre-processing stage, we conduct super resolution and image processing techniques on the raw OCT scans to improve the quality of the raw images. For our search strategy, different primitive operations are suggested to find the down- & up-sampling cell blocks, and the binary gate method is applied to make the search strategy practical for the task in hand. We empirically evaluated our method on our in-house OCT dataset. The experimental results demonstrate that the self-adapting NAS-Unet architecture substantially outperformed the competitive human-designed architecture by achieving 95.4% in mean Intersection over Union metric and 78.7% in Dice similarity coefficient.
翻訳日:2022-11-06 02:54:44 公開日:2020-07-28
# 空間的位置と方位が未知なマルチLiDARインフラストラクチャセンサのリアルタイムクラウド融合

Real-Time Point Cloud Fusion of Multi-LiDAR Infrastructure Sensor Setups with Unknown Spatial Location and Orientation ( http://arxiv.org/abs/2008.00801v1 )

ライセンス: Link先を確認
Laurent Kloeker, Christian Kotulla, Lutz Eckstein(参考訳) 交通検知におけるインフラセンサ技術の使用はすでに数回実証されている。 しかし、外部センサーキャリブレーションはオペレーターにとって依然として課題である。 センサフィールドオブビュー(fov, sensor field of view)における参照オブジェクトを使用せずにセンサを校正することはできないが,外部支援から完全に切り離され,自動的に実行されるアルゴリズムを提案する。 本手法は,lidar点雲の高精度融合に着目し,実測値だけでなくシミュレーションにより評価する。 我々はLiDARを連続的な振り子運動に設定し、実世界の動作をできるだけ密にシミュレートし、アルゴリズムの要求を増大させる。 しかし、測定期間全体を通してLiDARの初期空間的位置と方向に関する情報は得られていない。 シミュレーションおよび実測値を用いた実験により,64層LiDARの連続点雲登録をリアルタイムに行うことを確認した。 平均的な翻訳誤差は数センチ以内であり、回転の平均誤差は0.15度以下である。

The use of infrastructure sensor technology for traffic detection has already been proven several times. However, extrinsic sensor calibration is still a challenge for the operator. While previous approaches are unable to calibrate the sensors without the use of reference objects in the sensor field of view (FOV), we present an algorithm that is completely detached from external assistance and runs fully automatically. Our method focuses on the high-precision fusion of LiDAR point clouds and is evaluated in simulation as well as on real measurements. We set the LiDARs in a continuous pendulum motion in order to simulate real-world operation as closely as possible and to increase the demands on the algorithm. However, it does not receive any information about the initial spatial location and orientation of the LiDARs throughout the entire measurement period. Experiments in simulation as well as with real measurements have shown that our algorithm performs a continuous point cloud registration of up to four 64-layer LiDARs in real-time. The averaged resulting translational error is within a few centimeters and the averaged error in rotation is below 0.15 degrees.
翻訳日:2022-11-06 02:54:28 公開日:2020-07-28
# 臨床的・意味的・空間的オントロジーを含む人体共通コーディネート・フレームワークの構築と利用

Construction and Usage of a Human Body Common Coordinate Framework Comprising Clinical, Semantic, and Spatial Ontologies ( http://arxiv.org/abs/2007.14474v1 )

ライセンス: Link先を確認
Katy B\"orner, Ellen M. Quardokus, Bruce W. Herr II, Leonard E. Cross, Elizabeth G. Record, Yingnan Ju, Andreas D. Bueckle, James P. Sluka, Jonathan C. Silverstein, Kristen M. Browne, Sanjay Jain, Clive H. Wasserfall, Marda L. Jorgensen, Jeffrey M. Spraggins, Nathan H. Patterson, Mark A. Musen, Griffin M. Weber(参考訳) 国立衛生研究所(NIH)のヒト生体分子アトラスプログラム(HuBMAP)は、健康なヒトのすべての細胞の包括的高解像度アトラスを作成することを目的としている。 アメリカ合衆国中の複数の研究所が、性別、年齢、体の大きさの異なるドナーの異なる臓器から組織標本を集めている。 これらのサンプルから得られたデータを統合して調和させ、3次元の共通空間に「マッピング」することは大きな課題である。 これを可能にする鍵となるのは、全身に意味論的に注釈付けされた3D参照システムを提供する「共通コーディネートフレームワーク」(CCF)である。 CCFは、HuBMAPへのコントリビュータが共通の空間参照システム内で標本やデータセットを'登録'することを可能にし、空間的および意味的に明示的な方法でデータのクエリと'探索'を行うための標準化された方法をサポートする。 [...]本論文は人体用CCFの構築と使用法とHuBMAPにおける参照実装について述べる。 CCFは、(1)検体とドナーに関するメタデータを提供するCCF臨床オントロジー(the 'who')、(2)検体から来た身体の「何」部分を記述し、解剖学的構造、細胞タイプ、バイオマーカー(ASCT+B)を詳細に記述するCCFセマンティックオントロジー、(3)組織サンプルが3D座標系内にある場所を示すCCF空間オントロジーからなる。 3つのCCFオントロジーの初期バージョンが最初のHuBMAP Portalリリースのために実装されている。 組織マッピングセンターは48個の腎臓と脾臓の組織ブロックを意味的に注釈し、空間的に登録することに成功した。 これらのブロックは、hubmapポータルのccfユーザインターフェースを介して、臨床的、セマンティック、空間的コンテキストでクエリおよび検討することができる。

The National Institutes of Health's (NIH) Human Biomolecular Atlas Program (HuBMAP) aims to create a comprehensive high-resolution atlas of all the cells in the healthy human body. Multiple laboratories across the United States are collecting tissue specimens from different organs of donors who vary in sex, age, and body size. Integrating and harmonizing the data derived from these samples and 'mapping' them into a common three-dimensional (3D) space is a major challenge. The key to making this possible is a 'Common Coordinate Framework' (CCF), which provides a semantically annotated, 3D reference system for the entire body. The CCF enables contributors to HuBMAP to 'register' specimens and datasets within a common spatial reference system, and it supports a standardized way to query and 'explore' data in a spatially and semantically explicit manner. [...] This paper describes the construction and usage of a CCF for the human body and its reference implementation in HuBMAP. The CCF consists of (1) a CCF Clinical Ontology, which provides metadata about the specimen and donor (the 'who'); (2) a CCF Semantic Ontology, which describes 'what' part of the body a sample came from and details anatomical structures, cell types, and biomarkers (ASCT+B); and (3) a CCF Spatial Ontology, which indicates 'where' a tissue sample is located in a 3D coordinate system. An initial version of all three CCF ontologies has been implemented for the first HuBMAP Portal release. It was successfully used by Tissue Mapping Centers to semantically annotate and spatially register 48 kidney and spleen tissue blocks. The blocks can be queried and explored in their clinical, semantic, and spatial context via the CCF user interface in the HuBMAP Portal.
翻訳日:2022-11-06 02:48:26 公開日:2020-07-28
# EasierPath: 腎病理の深層学習のためのオープンソースツール

EasierPath: An Open-source Tool for Human-in-the-loop Deep Learning of Renal Pathology ( http://arxiv.org/abs/2007.13952v1 )

ライセンス: Link先を確認
Zheyu Zhu, Yuzhe Lu, Ruining Deng, Haichun Yang, Agnes B. Fogo, Yuankai Huo(参考訳) 腎症における形態学的表現型の研究はここ数年で登場し、臨床と画像の表現型の間の隠れた規則性の発見を目的としている。 このような研究は、ディープラーニングに基づく画像解析によって、高解像度全スライド画像(WSI)上にわずかに配置された対象物(例えば、グロメリ)を抽出するために、主に有効である。 しかし、そのような方法は、病理学者が理想的にラベル付けした、労働集約型の高品質なアノテーションを使って訓練する必要がある。 EasierPathは、人間の医師とディープラーニングアルゴリズムを統合するオープンソースのツールで、ループとしての大規模病理画像定量化を効率的に行う。 EasierPathを用いて、医師は(1)ディープラーニングオブジェクト検出結果のリコールと精度を適応的に最適化し、(2)医師のユーザ習慣を変えることなく、EasierPathまたは一般的なImageScopeソフトウェアを用いてディープラーニング結果の精錬をシームレスに支援し、(3)各オブジェクトをユーザ定義クラスで管理・表現できる。 EasierPathのユーザとして、大規模な糸球体を効率よく(ループを2つのループで)培養する手順を提案する。 実験の結果、EasierPathはアノテーションの57%を節約し、第2ループで8,833個の糸球体を治療した。 一方、粒子検出の平均精度は0.504から0.620に向上した。 easierpathソフトウェアは、大規模な糸球体プロトタイピングを可能にするオープンソースとしてリリースされた。 コードはhttps://github.com/yuankaihuo/easierpathにある。

Considerable morphological phenotyping studies in nephrology have emerged in the past few years, aiming to discover hidden regularities between clinical and imaging phenotypes. Such studies have been largely enabled by deep learning based image analysis to extract sparsely located targeting objects (e.g., glomeruli) on high-resolution whole slide images (WSI). However, such methods need to be trained using labor-intensive high-quality annotations, ideally labeled by pathologists. Inspired by the recent "human-in-the-loop" strategy, we developed EasierPath, an open-source tool to integrate human physicians and deep learning algorithms for efficient large-scale pathological image quantification as a loop. Using EasierPath, physicians are able to (1) optimize the recall and precision of deep learning object detection outcomes adaptively, (2) seamlessly support deep learning outcomes refining using either our EasierPath or prevalent ImageScope software without changing physician's user habit, and (3) manage and phenotype each object with user-defined classes. As a user case of EasierPath, we present the procedure of curating large-scale glomeruli in an efficient human-in-the-loop fashion (with two loops). From the experiments, the EasierPath saved 57 % of the annotation efforts to curate 8,833 glomeruli during the second loop. Meanwhile, the average precision of glomerular detection was leveraged from 0.504 to 0.620. The EasierPath software has been released as open-source to enable the large-scale glomerular prototyping. The code can be found in https://github.com/yuankaihuo/EasierPath
翻訳日:2022-11-06 02:47:50 公開日:2020-07-28
# KOVIS:Zero-Shot Sim-to-Real Transferによるロボット操作のためのキーポイントベースビジュアルサーボ

KOVIS: Keypoint-based Visual Servoing with Zero-Shot Sim-to-Real Transfer for Robotics Manipulation ( http://arxiv.org/abs/2007.13960v1 )

ライセンス: Link先を確認
En Yen Puang and Keng Peng Tee and Wei Jing(参考訳) 我々は,眼内ステレオカメラシステムを用いたロボット操作作業のための,新しい学習ベースで校正不要なビジュアルサーボ手法KOVISを提案する。 シミュレーション環境でのみディープニューラルネットワークをトレーニングし、トレーニングされたモデルは現実世界のビジュアルサーボタスクに直接使用することが可能です。 KOVISは2つのネットワークから構成される。 第1のキーポイントネットワークは、オートエンコーダを用いて画像からキーポイント表現を学習する。 そして、視覚サーボネットワークは、カメラ画像から抽出されたキーポイントに基づいて動きを学習する。 2つのネットワークは、手動データラベリングなしで自己教師付き学習によってシミュレーション環境でエンドツーエンドに訓練される。 データ拡張、ドメインのランダム化、および敵対的な例を用いてトレーニングした後、実世界のロボット操作タスクへのゼロショットシミュレートを実現できる。 提案手法は,4mmクリアランスによるグルーピング,穴内挿入,M13スクリュー挿入など,ロボット操作作業のシミュレーション環境と実世界の双方において有効であることを示す。 デモビデオはhttp://youtu.be/gfbjbr2tdzaで入手できる。

We present KOVIS, a novel learning-based, calibration-free visual servoing method for fine robotic manipulation tasks with eye-in-hand stereo camera system. We train the deep neural network only in the simulated environment; and the trained model could be directly used for real-world visual servoing tasks. KOVIS consists of two networks. The first keypoint network learns the keypoint representation from the image using with an autoencoder. Then the visual servoing network learns the motion based on keypoints extracted from the camera image. The two networks are trained end-to-end in the simulated environment by self-supervised learning without manual data labeling. After training with data augmentation, domain randomization, and adversarial examples, we are able to achieve zero-shot sim-to-real transfer to real-world robotic manipulation tasks. We demonstrate the effectiveness of the proposed method in both simulated environment and real-world experiment with different robotic manipulation tasks, including grasping, peg-in-hole insertion with 4mm clearance, and M13 screw insertion. The demo video is available at http://youtu.be/gfBJBR2tDzA
翻訳日:2022-11-06 02:47:17 公開日:2020-07-28
# 自動運転レースにおける高精度・低遅延視知覚:課題, メカニズム, 実用的解決法

Accurate, Low-Latency Visual Perception for Autonomous Racing:Challenges, Mechanisms, and Practical Solutions ( http://arxiv.org/abs/2007.13971v1 )

ライセンス: Link先を確認
Kieran Strobel, Sibo Zhu, Raphael Chang, Skanda Koppula(参考訳) 自動運転は、安全クリティカルな知覚パイプラインを限界までテストする機会を提供する。 本稿では,DUT18 Driverless (DUT18D) の低レイテンシかつ高精度な認識システムを構築するために最先端のコンピュータビジョンアルゴリズムを適用するための実践的課題と解決策について述べる。 dut18dの重要なコンポーネントは、yolov3ベースのオブジェクト検出、ポーズ推定、デュアルステレオビジョン/モノビジョンカメラの時間同期である。 我々は,認識cnnをレース領域に適応させるために必要な修正,ポーズ推定に用いるロス関数の改善,サブマイクロ秒カメラ同期のための方法論などを強調する。 本研究では,実世界のレースシナリオにおける精度と低レイテンシを実証し,システムの徹底的な実験評価を行う。

Autonomous racing provides the opportunity to test safety-critical perception pipelines at their limit. This paper describes the practical challenges and solutions to applying state-of-the-art computer vision algorithms to build a low-latency, high-accuracy perception system for DUT18 Driverless (DUT18D), a 4WD electric race car with podium finishes at all Formula Driverless competitions for which it raced. The key components of DUT18D include YOLOv3-based object detection, pose estimation, and time synchronization on its dual stereovision/monovision camera setup. We highlight modifications required to adapt perception CNNs to racing domains, improvements to loss functions used for pose estimation, and methodologies for sub-microsecond camera synchronization among other improvements. We perform a thorough experimental evaluation of the system, demonstrating its accuracy and low-latency in real-world racing scenarios.
翻訳日:2022-11-06 02:46:58 公開日:2020-07-28
# ロバストエゴとオブジェクト6-DoFの運動推定と追跡

Robust Ego and Object 6-DoF Motion Estimation and Tracking ( http://arxiv.org/abs/2007.13993v1 )

ライセンス: Link先を確認
Jun Zhang and Mina Henein and Robert Mahony and Viorela Ila(参考訳) カメラからの情報を用いて、シーン内の物体の動きをトラッキングする問題は、多体視覚計測と呼ばれており、困難な課題である。 本稿では,動的多体視覚オドメトリの正確な推定と一貫した追跡可能性を実現するためのロバストな解を提案する。 セマンティックなインスタンスレベルのセグメンテーションと正確な光フロー推定の最近の進歩を活用して,コンパクトで効果的なフレームワークを提案する。 トラック点の品質と運動推定精度を向上させるために,se(3)運動と光流れを共同で最適化した新しい定式化法を提案する。 提案手法は仮想KITTIデータセット上で評価され,実際のKITTIデータセット上でテストされる。 コミュニティの利益のために、私たちはソースコードを公開しています。

The problem of tracking self-motion as well as motion of objects in the scene using information from a camera is known as multi-body visual odometry and is a challenging task. This paper proposes a robust solution to achieve accurate estimation and consistent track-ability for dynamic multi-body visual odometry. A compact and effective framework is proposed leveraging recent advances in semantic instance-level segmentation and accurate optical flow estimation. A novel formulation, jointly optimizing SE(3) motion and optical flow is introduced that improves the quality of the tracked points and the motion estimation accuracy. The proposed approach is evaluated on the virtual KITTI Dataset and tested on the real KITTI Dataset, demonstrating its applicability to autonomous driving applications. For the benefit of the community, we make the source code public.
翻訳日:2022-11-06 02:46:43 公開日:2020-07-28
# 分散学習と低ランク学習によるマルチスペクトル画像のスペクトル超解像

Spectral Superresolution of Multispectral Imagery with Joint Sparse and Low-Rank Learning ( http://arxiv.org/abs/2007.14006v1 )

ライセンス: Link先を確認
Lianru Gao and Danfeng Hong and Jing Yao and Bing Zhang and Paolo Gamba and Jocelyn Chanussot(参考訳) リモートセンシングにおけるマルチスペクトル(MS)画像の活用により,ハイパースペクトル(HS)画像の空間分解能を高めるために広く注目されている。 しかし、HS画像とMS画像の融合能力は、特に大規模なシーンでは、HS画像の取得が限られているため改善され続けている。 あるいは、部分的に重複したHS画像を用いてスペクトル領域におけるMS画像の超解像を行い、新しい有望なトピックであるスペクトル超解像(SSR)を生じる。 これは、逆画像の異常が高いため、困難な作業であり、調査の少ない作業である。 そこで本研究では,低ランクHS-MS辞書対を重なり合う領域から共同学習することにより,MS画像のスペクトル化を図る,ジョイントスパースとローランク学習(J-SLoL)と呼ばれるシンプルで効果的な手法を開発した。 J-SLoLは、学習した辞書対のスパースコーディングにより、未知のハイパースペクトル信号をより広い範囲で推測し、復元する。 さらに,3つのHS-MSデータセット(分類用2種,未混合用1種)におけるSSR性能を,既存技術ベースラインとの比較により検証し,提案アルゴリズムの有効性と優位性を示した。 さらに、コードとデータセットはhttps://github.com/danfenghong/ieee\_tgrs\_j-slolで入手できる。

Extensive attention has been widely paid to enhance the spatial resolution of hyperspectral (HS) images with the aid of multispectral (MS) images in remote sensing. However, the ability in the fusion of HS and MS images remains to be improved, particularly in large-scale scenes, due to the limited acquisition of HS images. Alternatively, we super-resolve MS images in the spectral domain by the means of partially overlapped HS images, yielding a novel and promising topic: spectral superresolution (SSR) of MS imagery. This is challenging and less investigated task due to its high ill-posedness in inverse imaging. To this end, we develop a simple but effective method, called joint sparse and low-rank learning (J-SLoL), to spectrally enhance MS images by jointly learning low-rank HS-MS dictionary pairs from overlapped regions. J-SLoL infers and recovers the unknown hyperspectral signals over a larger coverage by sparse coding on the learned dictionary pair. Furthermore, we validate the SSR performance on three HS-MS datasets (two for classification and one for unmixing) in terms of reconstruction, classification, and unmixing by comparing with several existing state-of-the-art baselines, showing the effectiveness and superiority of the proposed J-SLoL algorithm. Furthermore, the codes and datasets will be available at: https://github.com/danfenghong/IEEE\_TGRS\_J-SLoL, contributing to the RS community.
翻訳日:2022-11-06 02:46:28 公開日:2020-07-28
# 非教師なしハイパースペクトル超解像のための適応応答関数学習を伴う結合畳み込みニューラルネットワーク

Coupled Convolutional Neural Network with Adaptive Response Function Learning for Unsupervised Hyperspectral Super-Resolution ( http://arxiv.org/abs/2007.14007v1 )

ライセンス: Link先を確認
Ke Zheng and Lianru Gao and Wenzhi Liao and Danfeng Hong and Bing Zhang and Ximin Cui and Jocelyn Chanussot(参考訳) ハイパースペクトルイメージングシステムの限界のため、ハイパースペクトル画像(HSI)はしばしば空間分解能の低下に悩まされ、画像の多くの応用を妨げる。 超スペクトル超解像(hyperspectral super- resolution)とは、hsiとmsiを融合して、高い空間分解能と高いスペクトル分解能を持つ画像を生成することを指す。 近年、この融合問題を解決するためにいくつかの新しい手法が提案されており、これらの手法の多くは、ポイントスプレッド関数(PSF)とスペクトル応答関数(SRF)の先行情報が知られていると仮定している。 しかし実際には、この情報は制限や利用できないことが多い。 本研究では,従来のPSFやSRF情報を使わずにHSI-MSI融合の問題を解く,教師なし深層学習に基づく融合法HyCoNetを提案する。 HyCoNetは3つの結合オートエンコーダネットから構成されており、HSIとMSIは線形アンミックスモデルに基づいてエンドメンバーとアブリダンスにアンミックスされる。 2つの特別な畳み込み層は、3つのオートエンコーダネットと協調するブリッジとして設計され、psfとsrfパラメータはトレーニングプロセス中に2つの畳み込み層で適応的に学習される。 さらに, 共同損失関数により, 提案手法は簡単で, エンドツーエンドの訓練方法で容易に実装できる。 本研究で行った実験は,提案手法が良好に動作し,異なるデータセットや任意のPSF,SRFに対して堅牢な結果が得られることを示した。

Due to the limitations of hyperspectral imaging systems, hyperspectral imagery (HSI) often suffers from poor spatial resolution, thus hampering many applications of the imagery. Hyperspectral super-resolution refers to fusing HSI and MSI to generate an image with both high spatial and high spectral resolutions. Recently, several new methods have been proposed to solve this fusion problem, and most of these methods assume that the prior information of the Point Spread Function (PSF) and Spectral Response Function (SRF) are known. However, in practice, this information is often limited or unavailable. In this work, an unsupervised deep learning-based fusion method - HyCoNet - that can solve the problems in HSI-MSI fusion without the prior PSF and SRF information is proposed. HyCoNet consists of three coupled autoencoder nets in which the HSI and MSI are unmixed into endmembers and abundances based on the linear unmixing model. Two special convolutional layers are designed to act as a bridge that coordinates with the three autoencoder nets, and the PSF and SRF parameters are learned adaptively in the two convolution layers during the training process. Furthermore, driven by the joint loss function, the proposed method is straightforward and easily implemented in an end-to-end training manner. The experiments performed in the study demonstrate that the proposed method performs well and produces robust results for different datasets and arbitrary PSFs and SRFs.
翻訳日:2022-11-06 02:46:00 公開日:2020-07-28
# DeScarGAN:Weak Supervisionによる疾患特異的異常検出

DeScarGAN: Disease-Specific Anomaly Detection with Weak Supervision ( http://arxiv.org/abs/2007.14118v1 )

ライセンス: Link先を確認
Julia Wolleb, Robin Sandk\"uhler and Philippe C. Cattin(参考訳) 特に、異常が既存の構造の変化、例えば、脳萎縮や胸水による胸腔の変化を示す場合には、医療画像における異常の検出と局在化は困難な課題である。 本研究では,既存の解剖学的構造の構造変化を検出できる弱制御・詳細保存手法を提案する。 従来の異常検出法とは対照的に,同疾患に罹患した患者群と健常者群という2つのグループから,疾患の特徴に関する情報を抽出する。 同一性保存機構とともに,より詳細な構造変化の検出のために,疾患特異的な特徴を抽出できる。 本手法を最先端異常検出法と比較するために, 特定の合成データセットを設計した。 最後に,胸部x線画像における提案手法の性能を示す。 DeScarGANという手法は、合成データセットの他の異常検出方法よりも優れており、胸部X線画像データセットの視覚検査によって優れている。

Anomaly detection and localization in medical images is a challenging task, especially when the anomaly exhibits a change of existing structures, e.g., brain atrophy or changes in the pleural space due to pleural effusions. In this work, we present a weakly supervised and detail-preserving method that is able to detect structural changes of existing anatomical structures. In contrast to standard anomaly detection methods, our method extracts information about the disease characteristics from two groups: a group of patients affected by the same disease and a healthy control group. Together with identity-preserving mechanisms, this enables our method to extract highly disease-specific characteristics for a more detailed detection of structural changes. We designed a specific synthetic data set to evaluate and compare our method against state-of-the-art anomaly detection methods. Finally, we show the performance of our method on chest X-ray images. Our method called DeScarGAN outperforms other anomaly detection methods on the synthetic data set and by visual inspection on the chest X-ray image data set.
翻訳日:2022-11-06 02:45:20 公開日:2020-07-28
# AiR: キャパビリティの推論による注意

AiR: Attention with Reasoning Capability ( http://arxiv.org/abs/2007.14419v1 )

ライセンス: Link先を確認
Shi Chen, Ming Jiang, Jinhui Yang, Qi Zhao(参考訳) 深層ニューラルネットワークでは、モデルの性能の解釈と向上の両方に注目が集まっているが、タスクを達成するために注意がどのように進行するか、それが妥当かどうかを調査する研究はほとんどない。 本研究では,タスク成果につながるプロセスの理解と改善に注意を払うために,AiR(Attention with Reasoning capabilities)フレームワークを提案する。 まず,原子推論操作の系列に基づく評価指標を定義し,推論過程を考慮した注意の定量的測定を可能にした。 次に、人間の視線追跡と正解データを収集し、その推論能力とそれがタスクパフォーマンスに与える影響について、さまざまなマシンおよび人間の注意を解析する。 さらに,協調的かつ漸進的に注意,推論,タスクパフォーマンスを最適化し,モデルが推論プロセスに従うことで関心領域を見ることを学ぶための監督手法を提案する。 提案フレームワークは,推論能力とタスク性能が向上した注意分析とモデリングにおいて有効であることを示す。 コードとデータはhttps://github.com/szzexpoi/airで入手できる。

While attention has been an increasingly popular component in deep neural networks to both interpret and boost performance of models, little work has examined how attention progresses to accomplish a task and whether it is reasonable. In this work, we propose an Attention with Reasoning capability (AiR) framework that uses attention to understand and improve the process leading to task outcomes. We first define an evaluation metric based on a sequence of atomic reasoning operations, enabling quantitative measurement of attention that considers the reasoning process. We then collect human eye-tracking and answer correctness data, and analyze various machine and human attentions on their reasoning capability and how they impact task performance. Furthermore, we propose a supervision method to jointly and progressively optimize attention, reasoning, and task performance so that models learn to look at regions of interests by following a reasoning process. We demonstrate the effectiveness of the proposed framework in analyzing and modeling attention with better reasoning capability and task performance. The code and data are available at https://github.com/szzexpoi/AiR
翻訳日:2022-11-06 02:39:15 公開日:2020-07-28
# 視覚嗜好検出のための畳み込みニューラルネットワーク : 自閉症スペクトラム障害の診断ツールとしての可能性

A Convolutional Neural Network for gaze preference detection: A potential tool for diagnostics of autism spectrum disorder in children ( http://arxiv.org/abs/2007.14432v1 )

ライセンス: Link先を確認
Dennis N\'u\~nez Fern\'andez, Franklin Barrientos Porras, Robert H. Gilman, Macarena Vittet Mondonedo, Patricia Sheen, Mirko Zimic(参考訳) 自閉症スペクトラム障害(asd)の早期診断は、患者の生活の質を改善することが知られている。 しかし、ADOS(Autism Diagnostic Observation Schedule)やADI-R(Autism Diagnostic Interview-Revised)といった金の標準診断ツールが時間を要するため、米国を含む富裕国でも診断が遅れることが多い。 この傾向は、訓練された専門家がいないため、リソース設定がより少なくなっている。 その結果, ASD の子どもが早期診断に役立てるために, 制御された環境下で視覚刺激に反応する独特な方法を活用する手法が開発された。 これまでの研究では、ソーシャルシーンと抽象シーンの両方を並べて表示するビデオに露出すると、ASDを持つ子供は、ASDのない子供よりも画面上の抽象イメージに注意を向けることが示されている。 このような異なる応答は、異なる視覚刺激に対する視線追跡に基づくasdの迅速な診断のためのアルゴリズムの実装を可能にする。 本稿では,1分間の刺激映像から抽出した画像を用いた視線予測のための畳み込みニューラルネットワーク(CNN)アルゴリズムを提案する。 本モデルでは, 被検者の視線方向の予測に高い精度とロバスト性を達成し, 被検者と異なるカメラを用いた。 これに加えて,提案アルゴリズムは高速応答時間を実現し,ほぼリアルタイムにSDの評価を行う。 これにより,提案手法を適用して診断時間を大幅に短縮し,低資源領域でのASDの診断を容易にすることができる。

Early diagnosis of autism spectrum disorder (ASD) is known to improve the quality of life of affected individuals. However, diagnosis is often delayed even in wealthier countries including the US, largely due to the fact that gold standard diagnostic tools such as the Autism Diagnostic Observation Schedule (ADOS) and the Autism Diagnostic Interview-Revised (ADI-R) are time consuming and require expertise to administer. This trend is even more pronounced lower resources settings due to a lack of trained experts. As a result, alternative, less technical methods that leverage the unique ways in which children with ASD react to visual stimulation in a controlled environment have been developed to help facilitate early diagnosis. Previous studies have shown that, when exposed to a video that presents both social and abstract scenes side by side, a child with ASD will focus their attention towards the abstract images on the screen to a greater extent than a child without ASD. Such differential responses make it possible to implement an algorithm for the rapid diagnosis of ASD based on eye tracking against different visual stimuli. Here we propose a convolutional neural network (CNN) algorithm for gaze prediction using images extracted from a one-minute stimulus video. Our model achieved a high accuracy rate and robustness for prediction of gaze direction with independent persons and employing a different camera than the one used during testing. In addition to this, the proposed algorithm achieves a fast response time, providing a near real-time evaluation of ASD. Thereby, by applying the proposed method, we could significantly reduce the diagnosis time and facilitate the diagnosis of ASD in low resource regions.
翻訳日:2022-11-06 02:38:58 公開日:2020-07-28
# 意味セグメンテーションにおける領域適応のためのスケール不変例からの学習

Learning from Scale-Invariant Examples for Domain Adaptation in Semantic Segmentation ( http://arxiv.org/abs/2007.14449v1 )

ライセンス: Link先を確認
M.Naseer Subhani and Mohsen Ali(参考訳) セグメンテーションモデルの教師なしドメイン適応(UDA)のための自己教師付き学習アプローチは、妥当な品質の擬似ラベルを予測・選択する課題に悩まされる。 本稿では,自己教師付きドメイン適応のための意味セグメンテーションモデルのスケール不変性を利用する新しい手法を提案する。 我々のアルゴリズムは、一般に、オブジェクトと物のサイズ(ギブンコンテキスト)に関係なく、意味的ラベリングは変更されるべきという合理的な仮定に基づいている。 この制約が対象ドメインのイメージに違反していることを示し、異なるスケールのパッチ間でラベルを転送するのに使用できることを示した。 具体的には,セマンティクスセグメンテーションモデルを用いて,対象領域のスケールアップパッチを提示した場合のエントロピーが高いアウトプットを生成することを示す。 これらのスケール不変例は、対象領域の最も確実な画像から抽出される。 動的クラス固有エントロピーしきい値設定機構は、信頼できない擬似ラベルをフィルタリングする。 さらに,自己教師付き学習におけるクラス不均衡問題にも焦点損失が組み込まれている。 大規模実験を行い, スケール不変ラベリングの活用により, 既存の自己教師あり型ドメイン適応法を上回っていることを示す。 具体的には、GTA5をCityscapesに、SynTHIAをCityscapesに、VGG16-FCN8ベースラインネットワークでリードする。

Self-supervised learning approaches for unsupervised domain adaptation (UDA) of semantic segmentation models suffer from challenges of predicting and selecting reasonable good quality pseudo labels. In this paper, we propose a novel approach of exploiting scale-invariance property of the semantic segmentation model for self-supervised domain adaptation. Our algorithm is based on a reasonable assumption that, in general, regardless of the size of the object and stuff (given context) the semantic labeling should be unchanged. We show that this constraint is violated over the images of the target domain, and hence could be used to transfer labels in-between differently scaled patches. Specifically, we show that semantic segmentation model produces output with high entropy when presented with scaled-up patches of target domain, in comparison to when presented original size images. These scale-invariant examples are extracted from the most confident images of the target domain. Dynamic class specific entropy thresholding mechanism is presented to filter out unreliable pseudo-labels. Furthermore, we also incorporate the focal loss to tackle the problem of class imbalance in self-supervised learning. Extensive experiments have been performed, and results indicate that exploiting the scale-invariant labeling, we outperform existing self-supervised based state-of-the-art domain adaptation methods. Specifically, we achieve 1.3% and 3.8% of lead for GTA5 to Cityscapes and SYNTHIA to Cityscapes with VGG16-FCN8 baseline network.
翻訳日:2022-11-06 02:38:29 公開日:2020-07-28
# S^3$Net:モノクロ映像と合成データを用いた意味認識型自己監督深度推定

$S^3$Net: Semantic-Aware Self-supervised Depth Estimation with Monocular Videos and Synthetic Data ( http://arxiv.org/abs/2007.14511v1 )

ライセンス: Link先を確認
Bin Cheng, Inderjot Singh Saggu, Raunak Shah, Gaurav Bansal, Dinesh Bharadia(参考訳) 単眼カメラによる深度推定は、自律運転やロボット工学などの応用において、低コストの深度推定センサとしてカメラを広く利用することができる。 しかし、このようなスケーラブルな深度推定モデルを学ぶには、大量のラベル付きデータが必要である。 注釈付き深度マップを必要としない既存のアプローチは2つある。 一 敵の枠組みにおけるラベル付き合成及び未ラベル実データを用いてより正確な深度を予測すること。 (ii)単眼ビデオフレームにおける空間と時間間の幾何学的構造を利用する教師なしモデル。 理想的には、両方のアプローチで提供される機能を相互補完的に活用したいと考えていますが、既存の手法ではこれらの付加的なメリットを十分に活用できません。 我々は、幾何学的、時間的、セマンティック制約を生かしながら、トレーニングに合成および実世界の画像を使用する、これらの相補的な特徴を組み合わせた自己教師型フレームワークであるS^3$Netを提示する。 我々の新しい統合アーキテクチャは、モノクロビデオを用いた自己監督深度推定における新しい最先端技術を提供する。 私たちはこの自己監督型フレームワークを訓練し、達成するユニークな方法を示します (i)ドメイン適応とそれを用いた従来の合成教師ありアプローチに対する15〜%以上の改善 (ii)実データから幾何学的制約を生かした従来の自己監督アプローチよりも10〜%以上改善した。

Solving depth estimation with monocular cameras enables the possibility of widespread use of cameras as low-cost depth estimation sensors in applications such as autonomous driving and robotics. However, learning such a scalable depth estimation model would require a lot of labeled data which is expensive to collect. There are two popular existing approaches which do not require annotated depth maps: (i) using labeled synthetic and unlabeled real data in an adversarial framework to predict more accurate depth, and (ii) unsupervised models which exploit geometric structure across space and time in monocular video frames. Ideally, we would like to leverage features provided by both approaches as they complement each other; however, existing methods do not adequately exploit these additive benefits. We present $S^3$Net, a self-supervised framework which combines these complementary features: we use synthetic and real-world images for training while exploiting geometric, temporal, as well as semantic constraints. Our novel consolidated architecture provides a new state-of-the-art in self-supervised depth estimation using monocular videos. We present a unique way to train this self-supervised framework, and achieve (i) more than $15\%$ improvement over previous synthetic supervised approaches that use domain adaptation and (ii) more than $10\%$ improvement over previous self-supervised approaches which exploit geometric constraints from the real data.
翻訳日:2022-11-06 02:37:46 公開日:2020-07-28
# DSC IIT-ISM at SemEval-2020 Task 8: Bi-Fusion Techniques for Deep Meme Emotion Analysis

DSC IIT-ISM at SemEval-2020 Task 8: Bi-Fusion Techniques for Deep Meme Emotion Analysis ( http://arxiv.org/abs/2008.00825v1 )

ライセンス: Link先を確認
Pradyumna Gupta, Himanshu Gupta, Aman Sinha(参考訳) ミームはユビキタスなソーシャルメディアの実体となり、そのようなマルチモーダルデータの処理と分析は、現在活発な研究分野である。 本稿では,ミームの感情分析とユーモラス分析を含むSemEval 2020における感情分析共有タスクについて述べる。 異なるバイモーダル融合技術を用いて感情・ユーモア分類タスクにおけるモーダル間依存性を推定するシステムを提案する。 全実験のうち,最良システムは,感性分類(Task A)では0.357点,感性分類(Task B)では0.510点,セマンティッククラス(Task C)では0.312点のベースラインを改良した。

Memes have become an ubiquitous social media entity and the processing and analysis of suchmultimodal data is currently an active area of research. This paper presents our work on theMemotion Analysis shared task of SemEval 2020, which involves the sentiment and humoranalysis of memes. We propose a system which uses different bimodal fusion techniques toleverage the inter-modal dependency for sentiment and humor classification tasks. Out of all ourexperiments, the best system improved the baseline with macro F1 scores of 0.357 on SentimentClassification (Task A), 0.510 on Humor Classification (Task B) and 0.312 on Scales of SemanticClasses (Task C).
翻訳日:2022-11-06 02:37:25 公開日:2020-07-28
# 文脈認識特徴モデルにおける異常検出

Anomaly detection in Context-aware Feature Models ( http://arxiv.org/abs/2007.14070v1 )

ライセンス: Link先を確認
Jacopo Mauro(参考訳) 機能モデルは、機能、すなわち機能を表す名前を使用して構成オプションを記述することにより、構成空間を整理し、ソフトウェア変種の構築を容易にするメカニズムである。 機能モデルの開発は、エラーを起こしやすいアクティビティであり、その異常を検出することは、その使用を促進するのに、困難で重要なタスクである。 近年、コンテクストモデルが拡張され、コンフィグレーションオプションとコンフィグレーションの影響とユーザのカスタマイズとの相関を捉えるようになった。 残念ながら、この拡張は異常を検出する作業を難しくする。 本稿では,文脈対応特徴モデルにおける異常解析を形式化し,SATソルバへの反復呼び出しに頼ることなく,量子ブール式(QBF)を用いて異常を検出する方法を示す。 再構成エンジンHyVarRecを拡張して,QBFソルバが異常解析の一般的な手法より優れていることを示す。

Feature Models are a mechanism to organize the configuration space and facilitate the construction of software variants by describing configuration options using features, i.e., a name representing a functionality. The development of Feature Models is an error prone activity and detecting their anomalies is a challenging and important task needed to promote their usage. Recently, Feature Models have been extended with context to capture the correlation of configuration options with contextual influences and user customizations. Unfortunately, this extension makes the task of detecting anomalies harder. In this paper, we formalize the anomaly analysis in Context-aware Feature Models and we show how Quantified Boolean Formula (QBF) solvers can be used to detect anomalies without relying on iterative calls to a SAT solver. By extending the reconfigurator engine HyVarRec, we present findings evidencing that QBF solvers can outperform the common techniques for anomaly analysis.
翻訳日:2022-11-06 02:36:40 公開日:2020-07-28
# Formal Fields: ドメイン間のコード生成を自動化するフレームワーク

Formal Fields: A Framework to Automate Code Generation Across Domains ( http://arxiv.org/abs/2007.14075v1 )

ライセンス: Link先を確認
Jacques Basald\'ua(参考訳) 評価関数が存在する特定の問題を解決するためにコードの自動記述として定義されるコード生成は、古典的なハードai問題である。 その一般的な形式は、人間のプログラマがゼロから使用する汎用言語を使ってコードを書くことは実用的ではないと考えられている。 コード文法に制約を加え、プリミティブとしてドメイン固有の概念を実装し、学習するアルゴリズムの例を提供することは、実用的です。 フォーマルフィールドは、同じアルゴリズムと言語構造を使ってドメイン間でコード生成を行うフレームワークである。 その最終的な目標は、異なる狭い問題を解決するだけでなく、多くの作業ソリューションを一生涯の推論システムとして統合するために必要な抽象化を提供することである。 それは、ドメイン言語、問題、そしてその評価を定義する共通の文法を提供する。 フレームワークはドメイン言語の構造に関するコードスニペットの例から学び、まったく新しいコードスニペットを検索して、同じフィールドで目に見えない問題を解決する。 形式的フィールドは、問題から探索アルゴリズムを抽象化する。 検索アルゴリズムは、既存の強化学習アルゴリズムから取られる。 我々の実装では、MCTS (Apropos Monte-Carlo Tree Search) である。 我々は、ARC(Abstract Reasoning Challenge)に適用された、完全に文書化されたオープンソースプロジェクトとして、フォーマルフィールドを実装した。 この実装では、未解決のARC問題を20のコードスニペットで解決した。

Code generation, defined as automatically writing a piece of code to solve a given problem for which an evaluation function exists, is a classic hard AI problem. Its general form, writing code using a general language used by human programmers from scratch is thought to be impractical. Adding constraints to the code grammar, implementing domain specific concepts as primitives and providing examples for the algorithm to learn, makes it practical. Formal fields is a framework to do code generation across domains using the same algorithms and language structure. Its ultimate goal is not just solving different narrow problems, but providing necessary abstractions to integrate many working solutions as a single lifelong reasoning system. It provides a common grammar to define: a domain language, a problem and its evaluation. The framework learns from examples of code snippets about the structure of the domain language and searches completely new code snippets to solve unseen problems in the same field. Formal fields abstract the search algorithm away from the problem. The search algorithm is taken from existing reinforcement learning algorithms. In our implementation it is an apropos Monte-Carlo Tree Search (MCTS). We have implemented formal fields as a fully documented open source project applied to the Abstract Reasoning Challenge (ARC). The implementation found code snippets solving twenty two previously unsolved ARC problems.
翻訳日:2022-11-06 02:36:25 公開日:2020-07-28
# 外科における人工知能の倫理

Ethics of Artificial Intelligence in Surgery ( http://arxiv.org/abs/2007.14302v1 )

ライセンス: Link先を確認
Frank Rudzicz and Raeid Saqur(参考訳) ここでは,外科的文脈からのバイオメディカル倫理の4つの原則について論じる。 我々は、AIシステム設計における「公平性」の定義とその意味を、AIにおけるアルゴリズムバイアスの分類学で詳しく述べる。 我々は、AIシステムの自律性の程度が進化し続けるにつれて、倫理パラダイムの変化について議論する。 また、AIシステムや技術の進化と動的性質により、AIにおける倫理の継続的な改訂の必要性も強調する。

Here we discuss the four key principles of bio-medical ethics from surgical context. We elaborate on the definition of 'fairness' and its implications in AI system design, with taxonomy of algorithmic biases in AI. We discuss the shifts in ethical paradigms as the degree of autonomy in AI systems continue to evolve. We also emphasize the need for continuous revisions of ethics in AI due to evolution and dynamic nature of AI systems and technologies.
翻訳日:2022-11-06 02:36:06 公開日:2020-07-28
# 点雲からの3次元物体検出の微弱化

Weakly Supervised 3D Object Detection from Point Clouds ( http://arxiv.org/abs/2007.13970v1 )

ライセンス: Link先を確認
Zengyi Qin, Jinglu Wang, Yan Lu(参考訳) シーン理解における重要なタスクは、3Dオブジェクト検出であり、これは特定のクラスに属するオブジェクトの3D境界ボックスを検出し、ローカライズすることを目的としている。 既存の3dオブジェクト検出器は、トレーニング中にアノテーション付き3dバウンディングボックスに強く依存しているが、これらのアノテーションは、限られたシナリオでしかアクセスできないため、入手にコストがかかる可能性がある。 弱い教師付き学習はアノテーションの要求を減らすための有望なアプローチであるが、既存の弱い教師付きオブジェクト検出器は3dではなく2d検出のためのものである。 そこで本研究では,訓練に基底真理3dバウンディングボックスを用いずに,ポイントクラウドから弱い教師付き3dオブジェクト検出のためのフレームワークであるvs3dを提案する。 まず、正規化点雲密度を利用してオブジェクト提案を生成する教師なし3D提案モジュールを提案する。 次に,畳み込みニューラルネットワークが学習し,画像データセットに事前学習した教師ネットワークに問い合わせることで,3次元オブジェクト提案から最終的な結果を予測するクロスモーダル知識蒸留戦略を提案する。 挑戦的なKITTIデータセットに関する包括的な実験は、さまざまな評価設定において、VS3Dの優れたパフォーマンスを示している。 ソースコードと事前訓練されたモデルはhttps://github.com/Zengyi-Qin/Weakly-Supervised-3D-Object-Detectionで公開されている。

A crucial task in scene understanding is 3D object detection, which aims to detect and localize the 3D bounding boxes of objects belonging to specific classes. Existing 3D object detectors heavily rely on annotated 3D bounding boxes during training, while these annotations could be expensive to obtain and only accessible in limited scenarios. Weakly supervised learning is a promising approach to reducing the annotation requirement, but existing weakly supervised object detectors are mostly for 2D detection rather than 3D. In this work, we propose VS3D, a framework for weakly supervised 3D object detection from point clouds without using any ground truth 3D bounding box for training. First, we introduce an unsupervised 3D proposal module that generates object proposals by leveraging normalized point cloud densities. Second, we present a cross-modal knowledge distillation strategy, where a convolutional neural network learns to predict the final results from the 3D object proposals by querying a teacher network pretrained on image datasets. Comprehensive experiments on the challenging KITTI dataset demonstrate the superior performance of our VS3D in diverse evaluation settings. The source code and pretrained models are publicly available at https://github.com/Zengyi-Qin/Weakly-Supervised-3D-Object-Detection.
翻訳日:2022-11-06 02:30:37 公開日:2020-07-28
# 高精度物体検出のための量子ソフトQUBO抑制

Quantum-soft QUBO Suppression for Accurate Object Detection ( http://arxiv.org/abs/2007.13992v1 )

ライセンス: Link先を確認
Junde Li, Swaroop Ghosh(参考訳) 非最大抑制(nms)は、何十年にもわたって冗長な物体検出を排除するためにデフォルトで採用されている。 画像MとMとの重なり比が予め定義された閾値以下である画像とを最高検出スコアで保持するだけで偽陽性を解消する。 しかし、この欲求アルゴリズムは、検出スコアが低い真の正が抑制されるオクルージョンシナリオ下では、オブジェクト検出にうまく機能しない可能性がある。 本稿では,まず,各境界ボックスからの検出スコアと,一対の有界ボックス間の重なり比からなる準拘束的二項最適化(QUBO)フレームワークに冗長検出を除去するタスクをマッピングする。 次に、量子コンピューティングの利点を生かして高速かつ正確な検出を行うために提案した量子ソフトQUBO抑圧アルゴリズムを用いてQUBO問題を解く。 実験の結果、QSQSは平均精度を74.20%から75.11%に改善した。 これは、CityPersonsのベンチマーク歩行者検出の推論可能なサブセットにおいて、NMSとSoft-NMSを一貫して上回る。

Non-maximum suppression (NMS) has been adopted by default for removing redundant object detections for decades. It eliminates false positives by only keeping the image M with highest detection score and images whose overlap ratio with M is less than a predefined threshold. However, this greedy algorithm may not work well for object detection under occlusion scenario where true positives with lower detection scores are possibly suppressed. In this paper, we first map the task of removing redundant detections into Quadratic Unconstrained Binary Optimization (QUBO) framework that consists of detection score from each bounding box and overlap ratio between pair of bounding boxes. Next, we solve the QUBO problem using the proposed Quantum-soft QUBO Suppression (QSQS) algorithm for fast and accurate detection by exploiting quantum computing advantages. Experiments indicate that QSQS improves mean average precision from 74.20% to 75.11% for PASCAL VOC 2007. It consistently outperforms NMS and soft-NMS for Reasonable subset of benchmark pedestrian detection CityPersons.
翻訳日:2022-11-06 02:30:16 公開日:2020-07-28
# 合成開口レーダビデオを用いた変化検出

Change Detection Using Synthetic Aperture Radar Videos ( http://arxiv.org/abs/2007.14001v1 )

ライセンス: Link先を確認
Hasara Maithree, Dilan Dinushka, Adeesha Wijayasiri(参考訳) 時間的sar画像を用いた変化検出のための研究が数多く行われている。 本稿では,SARビデオを用いた変化検出アルゴリズムを提案する。 SARビデオには、高レベルのスペックルノイズ、航空機の円形移動による特定の軸まわりの映像のSAR画像フレームの回転、SARパルスの不均一後方散乱など、様々な課題がある。 したがって、光学ビデオやSAR時間画像に使用される従来の変化検出アルゴリズムは、直接SARビデオには利用できない。 本稿では,Lucas Kanade(LK)法とブロブ検出を用いた光フロー計算を組み合わせたアルゴリズムを提案する。 提案手法は,画像フィルタリングと拡張,LK法の適用,Blob解析,LK法とBlob解析を組み合わせた4段階のアプローチに従う。 開発した手法の性能は、サンディア国立研究所のウェブサイトで公開されているSARビデオと、SARシミュレータで生成されたSARビデオで検証された。

Many researches have been carried out for change detection using temporal SAR images. In this paper an algorithm for change detection using SAR videos has been proposed. There are various challenges related to SAR videos such as high level of speckle noise, rotation of SAR image frames of the video around a particular axis due to the circular movement of airborne vehicle, non-uniform back scattering of SAR pulses. Hence conventional change detection algorithms used for optical videos and SAR temporal images cannot be directly utilized for SAR videos. We propose an algorithm which is a combination of optical flow calculation using Lucas Kanade (LK) method and blob detection. The developed method follows a four steps approach: image filtering and enhancement, applying LK method, blob analysis and combining LK method with blob analysis. The performance of the developed approach was tested on SAR videos available on Sandia National Laboratories website and SAR videos generated by a SAR simulator.
翻訳日:2022-11-06 02:29:59 公開日:2020-07-28
# ゼロショット教師なし画像間翻訳に向けて

Toward Zero-Shot Unsupervised Image-to-Image Translation ( http://arxiv.org/abs/2007.14050v1 )

ライセンス: Link先を確認
Yuanqi Chen, Xiaoming Yu, Shan Liu, Ge Li(参考訳) 近年の研究では、教師なし画像から画像への翻訳が著しく成功した。 しかし、ターゲットクラスで十分なイメージにアクセスできない場合、ソースクラスからターゲットクラスへのマッピングを学習することは、常にモード崩壊に悩まされ、既存のメソッドの適用が制限される。 本研究では,属性などの属性情報とカテゴリを関連付けることで,この制限に対処するため,ゼロショットの非教師なし画像翻訳フレームワークを提案する。 従来の未確認クラスへの翻訳を一般化するために,意味的属性にまたがる空間を利用するための2つの戦略を導入する。 具体的には,視覚空間に対する意味的関係を保ち,非知覚クラスの属性ベクトルを利用して属性空間を広げることを提案する。 異なるデータセット上での定量的・定性的な結果から,提案手法の有効性を示す。 さらに,ゼロショット分類やファッションデザインなど,多くのタスクにフレームワークを適用可能であることを示す。

Recent studies have shown remarkable success in unsupervised image-to-image translation. However, if there has no access to enough images in target classes, learning a mapping from source classes to the target classes always suffers from mode collapse, which limits the application of the existing methods. In this work, we propose a zero-shot unsupervised image-to-image translation framework to address this limitation, by associating categories with their side information like attributes. To generalize the translator to previous unseen classes, we introduce two strategies for exploiting the space spanned by the semantic attributes. Specifically, we propose to preserve semantic relations to the visual space and expand attribute space by utilizing attribute vectors of unseen classes, thus encourage the translator to explore the modes of unseen classes. Quantitative and qualitative results on different datasets demonstrate the effectiveness of our proposed approach. Moreover, we demonstrate that our framework can be applied to many tasks, such as zero-shot classification and fashion design.
翻訳日:2022-11-06 02:29:42 公開日:2020-07-28
# ビデオにおける時間的文定位とイベントキャプションの学習モードインタラクション

Learning Modality Interaction for Temporal Sentence Localization and Event Captioning in Videos ( http://arxiv.org/abs/2007.14164v1 )

ライセンス: Link先を確認
Shaoxiang Chen, Wenhao Jiang, Wei Liu, Yu-Gang Jiang(参考訳) イベントを記述するための文の自動生成と、ビデオ内の文章の一時的なローカライズは、言語とビデオを橋渡しする2つの重要なタスクである。 近年,ビデオのマルチモーダル性を利用してビデオを表現する手法が提案されているが,モダリティ間の相互作用はめったに研究されていない。 人間の脳にクロスモーダルな相互作用が存在するという事実に触発されて,ビデオ内の各モダリティの相補的情報をうまく活用し,両タスクにおけるパフォーマンスを向上させるために,ペアワイズモダリティ相互作用を学習する新しい手法を提案する。 我々は,シーケンスレベルとチャネルレベルの両方のモード間相互作用をペアワイズにモデル化し,そのペアワイズ相互作用は対象タスクの予測にいくつかの説明可能性を与える。 本手法の有効性を実証し,広範囲なアブレーション実験により特定の設計選択を検証した。 提案手法は,MSVD と MSR-VTT (イベントキャプションタスク) と Charades-STA と ActivityNet Captions (時間文ローカライゼーションタスク) の4つの標準ベンチマークデータセットに対して,最先端のパフォーマンスを実現する。

Automatically generating sentences to describe events and temporally localizing sentences in a video are two important tasks that bridge language and videos. Recent techniques leverage the multimodal nature of videos by using off-the-shelf features to represent videos, but interactions between modalities are rarely explored. Inspired by the fact that there exist cross-modal interactions in the human brain, we propose a novel method for learning pairwise modality interactions in order to better exploit complementary information for each pair of modalities in videos and thus improve performances on both tasks. We model modality interaction in both the sequence and channel levels in a pairwise fashion, and the pairwise interaction also provides some explainability for the predictions of target tasks. We demonstrate the effectiveness of our method and validate specific design choices through extensive ablation studies. Our method turns out to achieve state-of-the-art performances on four standard benchmark datasets: MSVD and MSR-VTT (event captioning task), and Charades-STA and ActivityNet Captions (temporal sentence localization task).
翻訳日:2022-11-06 02:29:02 公開日:2020-07-28
# 統計的形状解析における結合変数の取り扱い -心臓リモデリングへの応用-

Handling confounding variables in statistical shape analysis -- application to cardiac remodelling ( http://arxiv.org/abs/2007.14239v1 )

ライセンス: Link先を確認
Gabriel Bernardino, Oualid Benkarim, Mar\'ia Sanz-de la Garza, Susanna Prat-Gonz\`alez, \'Alvaro Sepulveda-Martinez, F\`atima Crispi, Marta Sitges, Mathieu De Craene, Bart Bijnens, Miguel \'Angel Gonz\'alez Ballester(参考訳) 統計的形状解析は、臓器形態を評価し、特定の疾患に関連する形状変化を見つけるための強力なツールである。 しかし、人口統計などの不均衡は、考慮しなければ分析を無効にする可能性がある。 複雑・局所的な形状の違いを捉え得る新しい手法を提供する分野の方法論的進歩にもかかわらず、非画像情報と形状変動の関係は見過ごされている。 本稿では,連結変数の制御集合と無関係な形状差を求める線形統計的形状解析フレームワークを提案する。 これにはデフレと調整の2つの補修方法が含まれる。 持続運動による心臓リモデリングの同定を目的として,89個のトライアスレットと77個のコントロールからなる心磁気共鳴画像データセットに本フレームワークを適用した。 共同創設者に対するロバスト性をテストするために、このデータセットのサブセットは、低ボディー質量指数によるランダムに制御を取り除き、不均衡を導入した。 運動選手の心室容積と心筋量の増加は, 臨床文献と一致している。 しかし、共同創設者が考慮されない場合、心筋量の増加はみられない。 ダウンサンプルデータセットを使用することで、不均衡なデータセットで実際のリモデリングパターンを見つけるためには、共同創設者の調整方法が必要であることがわかった。

Statistical shape analysis is a powerful tool to assess organ morphologies and find shape changes associated to a particular disease. However, imbalance in confounding factors, such as demographics might invalidate the analysis if not taken into consideration. Despite the methodological advances in the field, providing new methods that are able to capture complex and regional shape differences, the relationship between non-imaging information and shape variability has been overlooked. We present a linear statistical shape analysis framework that finds shape differences unassociated to a controlled set of confounding variables. It includes two confounding correction methods: confounding deflation and adjustment. We applied our framework to a cardiac magnetic resonance imaging dataset, consisting of the cardiac ventricles of 89 triathletes and 77 controls, to identify cardiac remodelling due to the practice of endurance exercise. To test robustness to confounders, subsets of this dataset were generated by randomly removing controls with low body mass index, thus introducing imbalance. The analysis of the whole dataset indicates an increase of ventricular volumes and myocardial mass in athletes, which is consistent with the clinical literature. However, when confounders are not taken into consideration no increase of myocardial mass is found. Using the downsampled datasets, we find that confounder adjustment methods are needed to find the real remodelling patterns in imbalanced datasets.
翻訳日:2022-11-06 02:28:39 公開日:2020-07-28
# 深層畳み込みニューラルネットワークアーキテクチャの性能に及ぼす損失画像と映像圧縮の影響について

On the Impact of Lossy Image and Video Compression on the Performance of Deep Convolutional Neural Network Architectures ( http://arxiv.org/abs/2007.14314v1 )

ライセンス: Link先を確認
Matt Poyser, Amir Atapour-Abarghouei, Toby P. Breckon(参考訳) 近年の一般化画像理解の進歩により、深層畳み込みニューラルネットワーク(cnn: deep convolutional neural network)が幅広い画像に基づく検出、分類、予測タスクで利用されている。 これらのアプローチのパフォーマンスは印象的だが,本研究では,コモンプレイス画像とビデオ圧縮技術が,このようなディープラーニングアーキテクチャの性能に与える影響について検討する。 jpeg と h.264 (mpeg-4 avc) に着目し,ネットワーク接続型画像/映像デバイスおよびインフラストラクチャで共通に使用される現代的損失画像/ビデオ圧縮技術の代表例として,ポーズ推定,意味セグメンテーション,物体検出,行動認識,単眼深度推定の5つのタスクにおけるパフォーマンスへの影響について検討した。 そこで本研究では,エンド・ツー・エンドの畳み込み,エンコーダ・デコーダ,領域ベースのcnn (r-cnn),デュアルストリーム,ジェネレーティブ・アドバーサル・ネットワーク (gan) にまたがる様々なネットワークアーキテクチャとドメインについて述べる。 その結果,ネットワーク性能と損失圧縮のレベルとの間には非線形かつ均一な関係が認められた。 特に、JPEGの品質(量子化)の15%とH.264よりもパフォーマンスが大幅に低下する。 定速度係数(CRF)は40。 しかし、プレ圧縮画像上のアーキテクチャの再訓練は、ネットワーク性能を最大78.4%向上させる。 さらに、エンコーダデコーダパイプラインを用いたアーキテクチャと、損失画像圧縮に対するレジリエンスを示すアーキテクチャとの間には相関関係がある。 入力圧縮と出力タスクパフォーマンスの関係の特徴は、将来の画像/ビデオデバイスとインフラ内の設計決定に利用することができる。

Recent advances in generalized image understanding have seen a surge in the use of deep convolutional neural networks (CNN) across a broad range of image-based detection, classification and prediction tasks. Whilst the reported performance of these approaches is impressive, this study investigates the hitherto unapproached question of the impact of commonplace image and video compression techniques on the performance of such deep learning architectures. Focusing on the JPEG and H.264 (MPEG-4 AVC) as a representative proxy for contemporary lossy image/video compression techniques that are in common use within network-connected image/video devices and infrastructure, we examine the impact on performance across five discrete tasks: human pose estimation, semantic segmentation, object detection, action recognition, and monocular depth estimation. As such, within this study we include a variety of network architectures and domains spanning end-to-end convolution, encoder-decoder, region-based CNN (R-CNN), dual-stream, and generative adversarial networks (GAN). Our results show a non-linear and non-uniform relationship between network performance and the level of lossy compression applied. Notably, performance decreases significantly below a JPEG quality (quantization) level of 15% and a H.264 Constant Rate Factor (CRF) of 40. However, retraining said architectures on pre-compressed imagery conversely recovers network performance by up to 78.4% in some cases. Furthermore, there is a correlation between architectures employing an encoder-decoder pipeline and those that demonstrate resilience to lossy image compression. The characteristics of the relationship between input compression to output task performance can be used to inform design decisions within future image/video devices and infrastructure.
翻訳日:2022-11-06 02:28:17 公開日:2020-07-28
# RadarNet: 動的オブジェクトのロバスト知覚のための爆発的レーダー

RadarNet: Exploiting Radar for Robust Perception of Dynamic Objects ( http://arxiv.org/abs/2007.14366v1 )

ライセンス: Link先を確認
Bin Yang, Runsheng Guo, Ming Liang, Sergio Casas, Raquel Urtasun(参考訳) Radarは、LiDARやカメラなどの他のセンサーに、ドップラー速度の形で補完情報を提供するので、自動運転の文脈における認識のためにRadarを利用するという課題に対処する。 Radarを使う主な課題はノイズと測定の曖昧さであり、既存の単純な入力や出力の融合法で苦労してきた。 そこで本研究では,LiDARセンサとRadarセンサを併用した新しい手法を提案する。 RadarNetと呼ばれる我々のアプローチは、Voxelベースの早期融合と、Radarデータの幾何学的情報と動的情報の両方を活用するためにデータから学習する注意ベースの後期融合を特徴としている。 RadarNetは、オブジェクト検出と速度推定のタスクにおいて、2つの大規模実世界のデータセットの最先端結果を達成する。 さらに,レーダーの活用により,遠隔物体の検出や動的物体の動きの理解が向上することを示す。

We tackle the problem of exploiting Radar for perception in the context of self-driving as Radar provides complementary information to other sensors such as LiDAR or cameras in the form of Doppler velocity. The main challenges of using Radar are the noise and measurement ambiguities which have been a struggle for existing simple input or output fusion methods. To better address this, we propose a new solution that exploits both LiDAR and Radar sensors for perception. Our approach, dubbed RadarNet, features a voxel-based early fusion and an attention-based late fusion, which learn from data to exploit both geometric and dynamic information of Radar data. RadarNet achieves state-of-the-art results on two large-scale real-world datasets in the tasks of object detection and velocity estimation. We further show that exploiting Radar improves the perception capabilities of detecting faraway objects and understanding the motion of dynamic objects.
翻訳日:2022-11-06 02:27:25 公開日:2020-07-28
# ロシア感覚データセットの結果の改善

Improving Results on Russian Sentiment Datasets ( http://arxiv.org/abs/2007.14310v1 )

ライセンス: Link先を確認
Anton Golubev and Natalia Loukachevitch(参考訳) 本研究では,従来のロシアの感情評価データセット上で,標準ニューラルネットワークアーキテクチャ(CNN,LSTM,BiLSTM)をテストするとともに,BERTアーキテクチャが最近登場した。 本研究では,ロシア BERT の2つの変種を比較し,この研究におけるすべての感情タスクに対して,ロシア BERT の会話的変種がより優れていることを示す。 その結果,感情分類タスクを自然言語推論タスクとして扱うBERT-NLIモデルが得られた。 データセットの1つで、このモデルは実際に人間レベルを達成する。

In this study, we test standard neural network architectures (CNN, LSTM, BiLSTM) and recently appeared BERT architectures on previous Russian sentiment evaluation datasets. We compare two variants of Russian BERT and show that for all sentiment tasks in this study the conversational variant of Russian BERT performs better. The best results were achieved by BERT-NLI model, which treats sentiment classification tasks as a natural language inference task. On one of the datasets, this model practically achieves the human level.
翻訳日:2022-11-06 02:21:10 公開日:2020-07-28
# 言語ユーザインタフェースに関する生態学的検証研究に向けて

Towards Ecologically Valid Research on Language User Interfaces ( http://arxiv.org/abs/2007.14435v1 )

ライセンス: Link先を確認
Harm de Vries, Dzmitry Bahdanau, Christopher Manning(参考訳) 言語ユーザインタフェース(LUI)は、音楽の演奏、データベースからの洞察獲得、家庭内ロボットの指導など、幅広いタスクにおいて、人間と機械のインタラクションを改善することができる。 従来の手作りのアプローチとは対照的に、最近の研究は、最新のディープラーニング手法を使ってデータ駆動方式でluisを構築しようとしている。 このような学習アルゴリズムのデータニーズを満たすために、研究者は、実世界のLUIのユースケースに対する自然性や関連性を犠牲にして収集されたデータの量を強調するベンチマークを構築した。 その結果、これらのベンチマークに関する研究結果は、実用的なLUIの開発には関係がないかもしれない。 本論文の目的は、この問題に関する議論をブートストラップし、ベンチマークの生態学的妥当性を低くすることである。 この目的のために、我々はLUIに関する機械学習研究の理想的な方法論とみなし、最近のベンチマークがそれから逸脱する5つの一般的な方法を分類する。 5種類の偏差とその結果の具体例を示す。 最後に,luisにおける機械学習研究の生態学的妥当性を高める方法について,いくつかの提言を行う。

Language User Interfaces (LUIs) could improve human-machine interaction for a wide variety of tasks, such as playing music, getting insights from databases, or instructing domestic robots. In contrast to traditional hand-crafted approaches, recent work attempts to build LUIs in a data-driven way using modern deep learning methods. To satisfy the data needs of such learning algorithms, researchers have constructed benchmarks that emphasize the quantity of collected data at the cost of its naturalness and relevance to real-world LUI use cases. As a consequence, research findings on such benchmarks might not be relevant for developing practical LUIs. The goal of this paper is to bootstrap the discussion around this issue, which we refer to as the benchmarks' low ecological validity. To this end, we describe what we deem an ideal methodology for machine learning research on LUIs and categorize five common ways in which recent benchmarks deviate from it. We give concrete examples of the five kinds of deviations and their consequences. Lastly, we offer a number of recommendations as to how to increase the ecological validity of machine learning research on LUIs.
翻訳日:2022-11-06 02:21:01 公開日:2020-07-28
# インパクトのプロキシとしてのオンラインニュースにおける科学研究の卓越度の測定

Measuring prominence of scientific work in online news as a proxy for impact ( http://arxiv.org/abs/2007.14454v1 )

ライセンス: Link先を確認
James Ravenscroft and Amanda Clare and Maria Liakata(参考訳) 科学論文が他の学者の業績に与えた影響は、引用数に基づく指標やソーシャルメディアのコメントなど、多くの確立された指標がある。 しかし、科学論文がより広い社会に与える影響の判断は、あまり確立されていない。 例えば、科学的研究がニュース価値になるのは重要か? ここでは,論文に関連付けられた新聞記事の新たなコーパスを紹介する。 2014年に英国研究卓越フレームワーク(REF)に提出されたインパクトケーススタディは,新聞記事に記載されている科学論文を参考に,REF評価において高いスコアが与えられた。 これらの事例研究に関連する論文は新聞記事にも目立つ。 このような優位性は社会的影響の指標として有用であると仮定する。 そこで本研究では,ニュース記事に記載された学術論文の隆起を測定するための新しいベースラインアプローチを提案する。 プロミネンスの測定はグラフに基づくランキングアルゴリズムによる意味的類似性に基づく。 関連するREFケーススタディを持つ科学論文は、より強力な卓越度スコアを持つ可能性が示唆された。 これは、ニュースにおける言語的隆起が、科学研究の非アカデミックな影響をより広く示唆するために使用できるという仮説を支持する。

The impact made by a scientific paper on the work of other academics has many established metrics, including metrics based on citation counts and social media commenting. However, determination of the impact of a scientific paper on the wider society is less well established. For example, is it important for scientific work to be newsworthy? Here we present a new corpus of newspaper articles linked to the scientific papers that they describe. We find that Impact Case studies submitted to the UK Research Excellence Framework (REF) 2014 that refer to scientific papers mentioned in newspaper articles were awarded a higher score in the REF assessment. The papers associated with these case studies also feature prominently in the newspaper articles. We hypothesise that such prominence can be a useful proxy for societal impact. We therefore provide a novel baseline approach for measuring the prominence of scientific papers mentioned within news articles. Our measurement of prominence is based on semantic similarity through a graph-based ranking algorithm. We find that scientific papers with an associated REF case study are more likely to have a stronger prominence score. This supports our hypothesis that linguistic prominence in news can be used to suggest the wider non-academic impact of scientific work.
翻訳日:2022-11-06 02:20:42 公開日:2020-07-28
# SemEval-2020 Task 12:Domain-Tuned Contextualized Models for Offensive Language Detection

GUIR at SemEval-2020 Task 12: Domain-Tuned Contextualized Models for Offensive Language Detection ( http://arxiv.org/abs/2007.14477v1 )

ライセンス: Link先を確認
Sajad Sotudeh, Tong Xiang, Hao-Ren Yao, Sean MacAvaney, Eugene Yang, Nazli Goharian, Ophir Frieder(参考訳) 攻撃的言語検出は自然言語処理において重要かつ困難なタスクである。 本稿では,攻撃的言語の存在(サブタスクA),攻撃的言語の存在(サブタスクB),標的のカテゴリ(サブタスクC)の3つのサブタスクを含む,OffensEval 2020共有タスクを提案する。 私たちの実験では、このタスクにドメインチューニングされたコンテキスト化言語モデル(bert)を使用します。 また、特定のサブタスクに対してBERTモデルに重ねられた異なるコンポーネントや構成(例えば、マルチビューSVM)を実験する。 提案手法では,サブタスクaでは91.7%,サブタスクbでは66.5%,サブタスクcでは63.2%のf1スコアを達成している。 さらに, 誤差解析は, モデルによる一般的な誤分類誤りを示し, 今後の研究方向性を概説する。

Offensive language detection is an important and challenging task in natural language processing. We present our submissions to the OffensEval 2020 shared task, which includes three English sub-tasks: identifying the presence of offensive language (Sub-task A), identifying the presence of target in offensive language (Sub-task B), and identifying the categories of the target (Sub-task C). Our experiments explore using a domain-tuned contextualized language model (namely, BERT) for this task. We also experiment with different components and configurations (e.g., a multi-view SVM) stacked upon BERT models for specific sub-tasks. Our submissions achieve F1 scores of 91.7% in Sub-task A, 66.5% in Sub-task B, and 63.2% in Sub-task C. We perform an ablation study which reveals that domain tuning considerably improves the classification performance. Furthermore, error analysis shows common misclassification errors made by our model and outlines research directions for future.
翻訳日:2022-11-06 02:20:25 公開日:2020-07-28
# ハミルトンニューラルネットワークによる高次元ダイナミクスのマスタリング

Mastering high-dimensional dynamics with Hamiltonian neural networks ( http://arxiv.org/abs/2008.04214v1 )

ライセンス: Link先を確認
Scott T. Miller, John F. Lindner, Anshul Choudhary, Sudeshna Sinha, William L. Ditto(参考訳) ニューラルネットワーク設計に物理を組み込むことで、多くの次元の非線形システムでさえも、動的システムの学習と予測が大幅に向上する。 地図構築の観点は、従来のニューラルネットワークよりもハミルトンニューラルネットワークの優位性を解明する。 その結果、データ、次元、およびニューラルネットワーク学習性能の臨界関係を明らかにする。

We detail how incorporating physics into neural network design can significantly improve the learning and forecasting of dynamical systems, even nonlinear systems of many dimensions. A map building perspective elucidates the superiority of Hamiltonian neural networks over conventional neural networks. The results clarify the critical relation between data, dimension, and neural network learning performance.
翻訳日:2022-11-06 02:19:29 公開日:2020-07-28
# 粒子画像速度計測の教師なし学習

Unsupervised Learning of Particle Image Velocimetry ( http://arxiv.org/abs/2007.14487v1 )

ライセンス: Link先を確認
Mingrui Zhang and Matthew D. Piggott(参考訳) 粒子画像流速計(piv)は古典的流れ推定問題であり、特に実験流体力学や環境流れのリモートセンシングにおける診断ツールとして広く検討され、利用されている。 近年,深層学習に基づく手法の開発が,PIV問題に対処する新たなアプローチにインスピレーションを与えている。 これらの教師付き学習に基づく手法は、基礎的真理学習情報を持つ大量のデータによって駆動される。 しかし,大規模な実世界シナリオにおいて,信頼できる事実データを集めることは困難である。 合成データセットは代替として使用できるが、トレーニングのセットアップと現実世界のシナリオのギャップは適用可能性を制限する。 ここでは、PIV問題に対処するために教師なし学習に基づくアプローチをとる最初の研究であると考えるものを提示する。 提案手法は古典光学フロー法に着想を得たものである。 本研究では,2つの連続した画像フレーム間の測光損失,双方向流れ推定の一貫性損失,空間的滑らかさ損失を用いて,教師なし損失関数全体の構成を行う。 この手法は流体流量推定に有意な可能性と利点を示す。 この結果から,従来のPIV手法と競合する結果が得られ,また,広範囲なPIVデータセットを対象とした教師あり学習手法が,既存の手法よりも難しい場合の方が優れていることが示された。 コードとトレーニングされたモデルはhttps://github.com/erizmr/unliteflownet-pivで入手できる。

Particle Image Velocimetry (PIV) is a classical flow estimation problem which is widely considered and utilised, especially as a diagnostic tool in experimental fluid dynamics and the remote sensing of environmental flows. Recently, the development of deep learning based methods has inspired new approaches to tackle the PIV problem. These supervised learning based methods are driven by large volumes of data with ground truth training information. However, it is difficult to collect reliable ground truth data in large-scale, real-world scenarios. Although synthetic datasets can be used as alternatives, the gap between the training set-ups and real-world scenarios limits applicability. We present here what we believe to be the first work which takes an unsupervised learning based approach to tackle PIV problems. The proposed approach is inspired by classic optical flow methods. Instead of using ground truth data, we make use of photometric loss between two consecutive image frames, consistency loss in bidirectional flow estimates and spatial smoothness loss to construct the total unsupervised loss function. The approach shows significant potential and advantages for fluid flow estimation. Results presented here demonstrate that our method outputs competitive results compared with classical PIV methods as well as supervised learning based methods for a broad PIV dataset, and even outperforms these existing approaches in some difficult flow cases. Codes and trained models are available at https://github.com/erizmr/UnLiteFlowNet-PIV.
翻訳日:2022-11-06 02:12:10 公開日:2020-07-28
# エキスパートデモによる四足歩行ロボットの安定動作の学習

Learning Stable Manoeuvres in Quadruped Robots from Expert Demonstrations ( http://arxiv.org/abs/2007.14290v1 )

ライセンス: Link先を確認
Sashank Tirumala, Sagar Gubbi, Kartik Paigwar, Aditya Sagi, Ashish Joglekar, Shalabh Bhatnagar, Ashitava Ghosal, Bharadwaj Amrutur, Shishir Kolathaya(参考訳) 四足歩行ロボットの開発研究により、学習に基づく技術が研究され、ロボット用ロコモーションコントローラの開発が進められている。 鍵となる問題は、連続的に変化する目標線形および角速度に対する脚軌跡を安定して生成することである。 本稿では,この問題に対処する2つのアプローチを提案する。 まず、複数のより単純なポリシーを訓練し、個別の目標速度と旋回半径の軌道を生成する。 これらのポリシーは、学習した軌跡間の遷移を処理するために、より高いレベルのニューラルネットワークを使用して強化される。 具体的には、ターゲットの速度、半径を計測し、新しい軌道への滑らかな遷移を可能にする新しいコマンドに変換するニューラルネットワークベースのフィルタを開発する。 このトランスフォーメーションは、専門家によるデモンストレーションから学ぶことで達成される。 このアプリケーションは、初心者の入力を専門家の入力に変換することで、ユーザエクスペリエンスに関わらず安定した操作を可能にする。 提案されたアーキテクチャをトレーニングするには、標準的なニューラルネットワークアーキテクチャに比べて、専門家によるデモをはるかに少なくする必要があります。 最後に、これらの結果を社内の四足式ストーチ2で実験的に実証する。

With the research into development of quadruped robots picking up pace, learning based techniques are being explored for developing locomotion controllers for such robots. A key problem is to generate leg trajectories for continuously varying target linear and angular velocities, in a stable manner. In this paper, we propose a two pronged approach to address this problem. First, multiple simpler policies are trained to generate trajectories for a discrete set of target velocities and turning radius. These policies are then augmented using a higher level neural network for handling the transition between the learned trajectories. Specifically, we develop a neural network-based filter that takes in target velocity, radius and transforms them into new commands that enable smooth transitions to the new trajectory. This transformation is achieved by learning from expert demonstrations. An application of this is the transformation of a novice user's input into an expert user's input, thereby ensuring stable manoeuvres regardless of the user's experience. Training our proposed architecture requires much less expert demonstrations compared to standard neural network architectures. Finally, we demonstrate experimentally these results in the in-house quadruped Stoch 2.
翻訳日:2022-11-06 02:11:49 公開日:2020-07-28
# 深層学習に基づく逆モデリング手法:地下流れの例

Deep-Learning based Inverse Modeling Approaches: A Subsurface Flow Example ( http://arxiv.org/abs/2007.15580v1 )

ライセンス: Link先を確認
Nanzhe Wang, Haibin Chang, and Dongxiao Zhang(参考訳) ディープラーニングは優れたパフォーマンスを達成し、前方および逆の問題を解決する大きな可能性を示した。 本研究では,革新的深層学習に基づく逆モデリング手法の2つのカテゴリを提案し,比較した。 第1のカテゴリは、モデルパラメータの不確定な問題に対するディープラーニングサロゲートとして、理論誘導ニューラルネットワーク(TgNN)を構築するディープラーニングサロゲートベースのインバージョン手法である。 物理法則やその他の制約を取り入れることで、TgNNサロゲートは限られたシミュレーション実行で構築でき、インバージョンプロセスを著しく加速することができる。 勾配法,反復型アンサンブル・スムーザ法(ies),訓練法など,tgnnサロゲートに基づく3つの逆変換法が提案されている。 第2のカテゴリは、直接深層学習逆変換法であり、TgNNは、直接逆モデリングのために、TgNN-geoと呼ばれる統計情報に制約される。 tgnn-geoでは、各ランダムモデルパラメータと解を近似するために2つのニューラルネットワークが導入された。 事前の統計情報を組み込むことができるので,空間的測定が乏しい場合や事前統計が不正確である場合においても,tgnn-geoに基づく直接反転手法が有効である。 提案した深層学習に基づく逆モデリング手法は, 自然界において一般的であり, 様々な問題に適用できるが, 地下流れの問題もいくつかある。 その結果,高い効率で良好な結果が得られることがわかった。 さらに,深層学習に基づく逆解析手法の2つのカテゴリについて,その利点と欠点をさらに分析した。

Deep-learning has achieved good performance and shown great potential for solving forward and inverse problems. In this work, two categories of innovative deep-learning based inverse modeling methods are proposed and compared. The first category is deep-learning surrogate-based inversion methods, in which the Theory-guided Neural Network (TgNN) is constructed as a deep-learning surrogate for problems with uncertain model parameters. By incorporating physical laws and other constraints, the TgNN surrogate can be constructed with limited simulation runs and accelerate the inversion process significantly. Three TgNN surrogate-based inversion methods are proposed, including the gradient method, the iterative ensemble smoother (IES), and the training method. The second category is direct-deep-learning-inversion methods, in which TgNN constrained with geostatistical information, named TgNN-geo, is proposed for direct inverse modeling. In TgNN-geo, two neural networks are introduced to approximate the respective random model parameters and the solution. Since the prior geostatistical information can be incorporated, the direct-inversion method based on TgNN-geo works well, even in cases with sparse spatial measurements or imprecise prior statistics. Although the proposed deep-learning based inverse modeling methods are general in nature, and thus applicable to a wide variety of problems, they are tested with several subsurface flow problems. It is found that satisfactory results are obtained with a high efficiency. Moreover, both the advantages and disadvantages are further analyzed for the proposed two categories of deep-learning based inversion methods.
翻訳日:2022-11-06 02:11:04 公開日:2020-07-28
# オンライン衝突回避のためのvisual-inertial inputとrecurrent networkによるリスク回避mpc

Risk-Averse MPC via Visual-Inertial Input and Recurrent Networks for Online Collision Avoidance ( http://arxiv.org/abs/2007.14035v1 )

ライセンス: Link先を確認
Alexander Schperberg, Kenny Chen, Stephanie Tsuei, Michael Jewett, Joshua Hooks, Stefano Soatto, Ankur Mehta, Dennis Hong(参考訳) 本稿では,モデル予測制御(MPC)の定式化を拡張したオンライン経路計画アーキテクチャを提案する。 我々のアルゴリズムは、オブジェクト検出パイプラインとリカレントニューラルネットワーク(RNN)を組み合わせて、MPCの有限時間水平線の各ステップを通して状態推定の共分散を推定する。 RNNモデルは、カメラ画像と慣性計測ユニット(IMU)から生成されたロボットとランドマークのポーズからなるデータセットに基づいて、最先端のビジュアル慣性オドメトリーフレームワークを介してトレーニングされる。 回避のための物体位置の検出と抽出には,特徴抽出器とともにカスタムトレーニングされた畳み込みニューラルネットワークモデルを用いて,近傍の障害物の3次元遠心点とラジイ境界を抽出する。 本手法のロバスト性は,複雑な四足歩行ロボットのダイナミックスで検証され,ほとんどのロボットプラットフォームに適用可能である。

In this paper, we propose an online path planning architecture that extends the model predictive control (MPC) formulation to consider future location uncertainties for safer navigation through cluttered environments. Our algorithm combines an object detection pipeline with a recurrent neural network (RNN) which infers the covariance of state estimates through each step of our MPC's finite time horizon. The RNN model is trained on a dataset that comprises of robot and landmark poses generated from camera images and inertial measurement unit (IMU) readings via a state-of-the-art visual-inertial odometry framework. To detect and extract object locations for avoidance, we use a custom-trained convolutional neural network model in conjunction with a feature extractor to retrieve 3D centroid and radii boundaries of nearby obstacles. The robustness of our methods is validated on complex quadruped robot dynamics and can be generally applied to most robotic platforms, demonstrating autonomous behaviors that can plan fast and collision-free paths towards a goal point.
翻訳日:2022-11-06 02:10:37 公開日:2020-07-28
# SemEval-2020 Task 8におけるYNU-HPCC: 並列チャネルモデルによる感情分析

YNU-HPCC at SemEval-2020 Task 8: Using a Parallel-Channel Model for Memotion Analysis ( http://arxiv.org/abs/2007.13968v1 )

ライセンス: Link先を確認
Li Yuan, Jin Wang and Xuejie Zhang(参考訳) 近年、Facebook、Instagram、Twitterなどのソーシャルメディアプラットフォームにおけるインターネットミームの普及は、大きな関心を集めている。 しかしながら、ミームの分類と認識は、視覚的手がかりと言語理解を含むため、社会的テキストよりもはるかに複雑である。 この問題に対処するため,本稿では,ミーム中のテキスト情報と視覚情報を処理し,ミームの感情極性を分析する並列チャネルモデルを提案する。 ミームを識別し分類する共有タスクでは、ソーシャルメディア上の言語行動に応じてデータセットを前処理する。 次に、変換器(BERT)からの双方向エンコーダ表現を適応・微調整し、2種類の畳み込みニューラルネットワークモデル(CNN)を用いて画像の特徴を抽出した。 クロスドメイン提案マイニングを行うために,BiLSTM,BIGRU,および注意モデルを組み合わせたアンサンブルモデルを適用した。 その結果,本システムはベースラインアルゴリズムよりも性能がよいことがわかった。 私たちのチームは,サブタスクAで19位を獲得しました。 この論文のコードは、https://github.com/yuanli95/semveal2020-task8-emotion- analysisで利用可能である。

In recent years, the growing ubiquity of Internet memes on social media platforms, such as Facebook, Instagram, and Twitter, has become a topic of immense interest. However, the classification and recognition of memes is much more complicated than that of social text since it involves visual cues and language understanding. To address this issue, this paper proposed a parallel-channel model to process the textual and visual information in memes and then analyze the sentiment polarity of memes. In the shared task of identifying and categorizing memes, we preprocess the dataset according to the language behaviors on social media. Then, we adapt and fine-tune the Bidirectional Encoder Representations from Transformers (BERT), and two types of convolutional neural network models (CNNs) were used to extract the features from the pictures. We applied an ensemble model that combined the BiLSTM, BIGRU, and Attention models to perform cross domain suggestion mining. The officially released results show that our system performs better than the baseline algorithm. Our team won nineteenth place in subtask A (Sentiment Classification). The code of this paper is availabled at : https://github.com/YuanLi95/Semveal2020-Task8-emotion-analysis.
翻訳日:2022-11-06 02:10:18 公開日:2020-07-28
# 感情タグ付き並列コーパスの作成とその機械翻訳への影響検証

Preparation of Sentiment tagged Parallel Corpus and Testing its effect on Machine Translation ( http://arxiv.org/abs/2007.14074v1 )

ライセンス: Link先を確認
Sainik Kumar Mahata, Amrita Chandra, Dipankar Das, Sivaji Bandyopadhyay(参考訳) 本研究は,学習並列コーパスが強化されたときの機械翻訳出力の豊かさについて,感情分析の導入による検討である。 本稿では,同一の感情タグ付き英語・ベンガル並列コーパスの作成について述べる。 本稿では、生の並列コーパスの作成、文章の感情分析、およびそれを用いた文字ベースニューラルマシン翻訳モデルのトレーニングについて概説する。 翻訳モデルの出力は、BLEUやTERなどの自動メトリクスを用いたベースライン翻訳モデルと手動で比較されている。

In the current work, we explore the enrichment in the machine translation output when the training parallel corpus is augmented with the introduction of sentiment analysis. The paper discusses the preparation of the same sentiment tagged English-Bengali parallel corpus. The preparation of raw parallel corpus, sentiment analysis of the sentences and the training of a Character Based Neural Machine Translation model using the same has been discussed extensively in this paper. The output of the translation model has been compared with a base-line translation model using automated metrics such as BLEU and TER as well as manually.
翻訳日:2022-11-06 02:10:00 公開日:2020-07-28
# ECNU-SenseMaker at SemEval-2020 Task 4: Leveraging Heterogeneous Knowledge Resources for Commonsense Validation and Explanation

ECNU-SenseMaker at SemEval-2020 Task 4: Leveraging Heterogeneous Knowledge Resources for Commonsense Validation and Explanation ( http://arxiv.org/abs/2007.14200v1 )

ライセンス: Link先を確認
Qian Zhao, Siyu Tao, Jie Zhou, Linlin Wang, Xin Lin and Liang He(参考訳) 本稿では,SemEval-2020 Task 4: Commonsense Validation and Explanation (Wang et al., 2020)について述べる。 本稿では,構造化知識ベース(概念ネット)と非構造化テキストの両方からの異質な知識を活用して,常識理解における機械の能力を向上させる,新たな知識強化グラフアテンションネットワーク(kegat)アーキテクチャを提案する。 このモデルは、適切なcommonsense組み込みメソッドとアップグレードされたデータ拡張技術を利用することにより、強力なcommonsense推論能力を有する。 さらに、コモンセンスに対する不十分かつ過剰な推論を防止するために、内部共有メカニズムが協力される。 その結果、このモデルは検証と説明の両方で非常によく機能する。 例えば、Commonsense Explanation(Multi-Choice)と呼ばれるサブタスクで最先端の精度を達成する。 我々は公式にECNU-SenseMakerと命名する。 コードはhttps://github.com/ECNU-ICA/ECNU-SenseMakerで公開されている。

This paper describes our system for SemEval-2020 Task 4: Commonsense Validation and Explanation (Wang et al., 2020). We propose a novel Knowledge-enhanced Graph Attention Network (KEGAT) architecture for this task, leveraging heterogeneous knowledge from both the structured knowledge base (i.e. ConceptNet) and unstructured text to better improve the ability of a machine in commonsense understanding. This model has a powerful commonsense inference capability via utilizing suitable commonsense incorporation methods and upgraded data augmentation techniques. Besides, an internal sharing mechanism is cooperated to prohibit our model from insufficient and excessive reasoning for commonsense. As a result, this model performs quite well in both validation and explanation. For instance, it achieves state-of-the-art accuracy in the subtask called Commonsense Explanation (Multi-Choice). We officially name the system as ECNU-SenseMaker. Code is publicly available at https://github.com/ECNU-ICA/ECNU-SenseMaker.
翻訳日:2022-11-06 02:09:52 公開日:2020-07-28
# 文法的ジェンダーにおける単語埋め込みとニューラルネットワーク-スウェーデンの事例研究

Word embedding and neural network on grammatical gender -- A case study of Swedish ( http://arxiv.org/abs/2007.14222v1 )

ライセンス: Link先を確認
Marc Allassonni\`ere-Tang and Ali Basirat(参考訳) スウェーデン語における文法性に関する単語の埋め込みから得られる情報を分析する。 本論文は,計算言語学と一般言語学をつなぐ橋梁の1つとして機能することを願っている。 スウェーデン語の分類を事例として,言語における文法的ジェンダーに関する情報が,単語埋め込みモデルと人工ニューラルネットワークによってどのように捉えられるかを示す。 そして,スウェーデン語における文法的ジェンダーの割り当てと使用に関する過去の言語仮説と照合し,言語学的観点から計算モデルによる誤りを分析した。

We analyze the information provided by the word embeddings about the grammatical gender in Swedish. We wish that this paper may serve as one of the bridges to connect the methods of computational linguistics and general linguistics. Taking nominal classification in Swedish as a case study, we first show how the information about grammatical gender in language can be captured by word embedding models and artificial neural networks. Then, we match our results with previous linguistic hypotheses on assignment and usage of grammatical gender in Swedish and analyze the errors made by the computational model from a linguistic perspective.
翻訳日:2022-11-06 02:09:35 公開日:2020-07-28
# 周波数ベースダブルハッシュを用いたリコメンダシステムのためのモデルサイズ削減

Model Size Reduction Using Frequency Based Double Hashing for Recommender Systems ( http://arxiv.org/abs/2007.14523v1 )

ライセンス: Link先を確認
Caojin Zhang, Yicun Liu, Yuanpu Xie, Sofia Ira Ktena, Alykhan Tejani, Akshay Gupta, Pranay Kumar Myana, Deepak Dilipkumar, Suvadip Paul, Ikuhiro Ihara, Prasang Upadhyaya, Ferenc Huszar, Wenzhe Shi(参考訳) 少ない入力機能を持つディープニューラルネットワーク(DNN)は、業界のレコメンデーションシステムで広く利用されている。 これらのモデルには大きなメモリ要件があり、大量のトレーニングデータが必要です。 大規模なモデルサイズは通常、数百万ドルの範囲で、推論サービスとのストレージと通信のためのコストを必要とする。 本稿では,モデルサイズ低減のための周波数ハッシュとダブルハッシュを組み合わせたハイブリッドハッシュ手法を提案する。 提案モデルを2つの製品表面上で評価する。 いずれの場合も,実験結果は,元のベースラインと同等の性能を維持しながら,モデルサイズを約90%削減できることを示した。

Deep Neural Networks (DNNs) with sparse input features have been widely used in recommender systems in industry. These models have large memory requirements and need a huge amount of training data. The large model size usually entails a cost, in the range of millions of dollars, for storage and communication with the inference services. In this paper, we propose a hybrid hashing method to combine frequency hashing and double hashing techniques for model size reduction, without compromising performance. We evaluate the proposed models on two product surfaces. In both cases, experiment results demonstrated that we can reduce the model size by around 90 % while keeping the performance on par with the original baselines.
翻訳日:2022-11-06 02:02:00 公開日:2020-07-28
# PINNはいつ、なぜトレーニングに失敗したのか:ニューラル・タンジェント・カーネルの視点から

When and why PINNs fail to train: A neural tangent kernel perspective ( http://arxiv.org/abs/2007.14527v1 )

ライセンス: Link先を確認
Sifan Wang, Xinling Yu, Paris Perdikaris(参考訳) 物理インフォームドニューラルネットワーク(PINN)は、偏微分方程式を含む幅広い前方および逆問題に対処する柔軟性により、近年大きな注目を集めている。 しかし、その顕著な経験的成功にもかかわらず、そのような制約されたニューラルネットワークが勾配降下によるトレーニング中にどのように振る舞うかについては、ほとんど分かっていない。 さらに重要なのは、なぜそのようなモデルがトレーニングに失敗するのか、という点だ。 本研究では,勾配降下によるトレーニングにおいて,完全接続型ニューラルネットワークの無限幅限界における挙動を捉えるカーネルであるNeural Tangent Kernel (NTK) のレンズを用いて,これらの問題を調べることを目的とする。 具体的には、PINNのNTKを導出し、適切な条件下では、無限幅極限でのトレーニング中に一定となる決定論的カーネルに収束することを示す。 これにより、制限ntkのレンズを通してピンのトレーニングダイナミクスを分析し、トータルトレーニングエラーに寄与する異なる損失成分の収束率に顕著な差を見出すことができる。 そこで本研究では,ntkの固有値を用いて,総トレーニング誤差の収束率を適応的に調整する新しい勾配降下アルゴリズムを提案する。 最後に,本理論の正しさと提案アルゴリズムの実用性を検証するため,一連の数値実験を行った。 この原稿に付随するデータとコードは、 \url{https://github.com/PredictiveIntelligenceLab/PINNsNTK}で公開されている。

Physics-informed neural networks (PINNs) have lately received great attention thanks to their flexibility in tackling a wide range of forward and inverse problems involving partial differential equations. However, despite their noticeable empirical success, little is known about how such constrained neural networks behave during their training via gradient descent. More importantly, even less is known about why such models sometimes fail to train at all. In this work, we aim to investigate these questions through the lens of the Neural Tangent Kernel (NTK); a kernel that captures the behavior of fully-connected neural networks in the infinite width limit during training via gradient descent. Specifically, we derive the NTK of PINNs and prove that, under appropriate conditions, it converges to a deterministic kernel that stays constant during training in the infinite-width limit. This allows us to analyze the training dynamics of PINNs through the lens of their limiting NTK and find a remarkable discrepancy in the convergence rate of the different loss components contributing to the total training error. To address this fundamental pathology, we propose a novel gradient descent algorithm that utilizes the eigenvalues of the NTK to adaptively calibrate the convergence rate of the total training error. Finally, we perform a series of numerical experiments to verify the correctness of our theory and the practical effectiveness of the proposed algorithms. The data and code accompanying this manuscript are publicly available at \url{https://github.com/PredictiveIntelligenceLab/PINNsNTK}.
翻訳日:2022-11-06 02:01:51 公開日:2020-07-28
# supervised machine learning technique: a overview with applications to banking

Supervised Machine Learning Techniques: An Overview with Applications to Banking ( http://arxiv.org/abs/2008.04059v1 )

ライセンス: Link先を確認
Linwei Hu, Jie Chen, Joel Vaughan, Hanyu Yang, Kelly Wang, Agus Sudjianto, Vijayan N. Nair(参考訳) この記事では、銀行業務のアプリケーションに焦点を当てたSML(Supervised Machine Learning)の概要を紹介する。 対象とするSMLテクニックには、Baging(Random ForestまたはRF)、Boosting(Gradient Boosting MachineまたはGBM)、Neural Networks(NN)などがある。 まずは、MLタスクとテクニックの導入から始めます。 以下は以下の記述である。 一 RFによるバッギング、GBMによるブースティングを含む木に基づくアンサンブルアルゴリズム 二 フィードフォワードNN 三 ハイパーパラメータ最適化技術についての考察及び 四 機械学習の解釈可能性 論文は、異なるMLアルゴリズムの特徴の比較で締めくくっている。 銀行の信用リスクモデリングから得られた例は、その手法を解説し、アルゴリズムの結果を解釈するために、全紙で使われている。

This article provides an overview of Supervised Machine Learning (SML) with a focus on applications to banking. The SML techniques covered include Bagging (Random Forest or RF), Boosting (Gradient Boosting Machine or GBM) and Neural Networks (NNs). We begin with an introduction to ML tasks and techniques. This is followed by a description of: i) tree-based ensemble algorithms including Bagging with RF and Boosting with GBMs, ii) Feedforward NNs, iii) a discussion of hyper-parameter optimization techniques, and iv) machine learning interpretability. The paper concludes with a comparison of the features of different ML algorithms. Examples taken from credit risk modeling in banking are used throughout the paper to illustrate the techniques and interpret the results of the algorithms.
翻訳日:2022-11-06 02:01:27 公開日:2020-07-28
# 単眼リアルタイムボリュームパフォーマンスキャプチャ

Monocular Real-Time Volumetric Performance Capture ( http://arxiv.org/abs/2007.13988v1 )

ライセンス: Link先を確認
Ruilong Li, Yuliang Xiu, Shunsuke Saito, Zeng Huang, Kyle Olszewski, Hao Li(参考訳) 本稿では,モノクロ映像から高速なボリューム・パフォーマンス・キャプチャとノベル・ビュー・レンダリングへの最初のアプローチとして,高価なマルチビュー・システムや,パーソナライズされたテンプレート・モデルの煩雑な事前取得の必要性を排除した。 本システムは,Pixel-Aligned Implicit Function (PIFu) を利用して,各フレームから完全にテクスチャ化された3次元人間を再構成する。 PIFuはメモリ効率のよい高解像度再構成を実現するが、その計算コストの高い推論により、そのようなシステムをリアルタイムアプリケーションにデプロイすることができない。 そこで本研究では,表面メッシュを明示的に抽出することなく,新しい階層型表面ローカライズアルゴリズムと直接レンダリング手法を提案する。 粗大な評価のために不要な領域を刻み込むことにより, 品質を損なうことなく, 基準から2桁の倍率で再構築を高速化することに成功した。 さらに, オンラインハードケースマイニング(OHEM)技術を導入し, 困難事例の稀な発生により, 障害モードを効果的に抑制する手法を提案する。 本研究では,現在の復元精度に基づいて,トレーニングデータのサンプリング確率を適応的に更新し,復元アーチファクトを効果的に緩和する。 我々の実験と評価は、様々な難解な角度、照明、ポーズ、衣服スタイルに対するシステムの堅牢性を示している。 また,我々のアプローチは,最先端の単眼的パフォーマンスキャプチャと好適に比較できることを示した。 提案手法では,マルチビュースタジオ設定の必要性をなくし,ボリュームキャプチャのためのコンシューマアクセス可能なソリューションを実現する。

We present the first approach to volumetric performance capture and novel-view rendering at real-time speed from monocular video, eliminating the need for expensive multi-view systems or cumbersome pre-acquisition of a personalized template model. Our system reconstructs a fully textured 3D human from each frame by leveraging Pixel-Aligned Implicit Function (PIFu). While PIFu achieves high-resolution reconstruction in a memory-efficient manner, its computationally expensive inference prevents us from deploying such a system for real-time applications. To this end, we propose a novel hierarchical surface localization algorithm and a direct rendering method without explicitly extracting surface meshes. By culling unnecessary regions for evaluation in a coarse-to-fine manner, we successfully accelerate the reconstruction by two orders of magnitude from the baseline without compromising the quality. Furthermore, we introduce an Online Hard Example Mining (OHEM) technique that effectively suppresses failure modes due to the rare occurrence of challenging examples. We adaptively update the sampling probability of the training data based on the current reconstruction accuracy, which effectively alleviates reconstruction artifacts. Our experiments and evaluations demonstrate the robustness of our system to various challenging angles, illuminations, poses, and clothing styles. We also show that our approach compares favorably with the state-of-the-art monocular performance capture. Our proposed approach removes the need for multi-view studio settings and enables a consumer-accessible solution for volumetric capture.
翻訳日:2022-11-06 02:01:15 公開日:2020-07-28
# グラフニューラルネットワークを用いたマルチカメラトーソ電位推定

Multi-camera Torso Pose Estimation using Graph Neural Networks ( http://arxiv.org/abs/2007.14126v1 )

ライセンス: Link先を確認
Daniel Rodriguez-Criado, Pilar Bachiller, Pablo Bustos, George Vogiatzis, Luis J. Manso(参考訳) 人間の位置と方向を推定することは、サービスと補助ロボットにとって必須のスキルである。 アパート等の広い範囲において信頼性の高い推定を実現するため、複数のrgbdカメラが頻繁に使用される。 まず、これらの設定は比較的高価である。 第2に、処理パイプラインの初期段階で、複数のカメラソースを使用して効果的なデータ融合を行うことはほとんどない。 閉塞と部分的ビューは、この2つ目のポイントをこれらのシナリオに非常に関連づける。 本稿では,複数のカメラから取得した情報をグラフニューラルネットワークを用いてマージし,低解像度のrgb画像を用いて125mm以下,方位10度以下で平均絶対誤差を達成することを提案する。 実験はアパートで3台のカメラで行われ、2つの異なるグラフニューラルネットワーク実装と、完全に接続された層に基づく第3のアーキテクチャをベンチマークした。 使用されているソフトウェアは、公開リポジトリ(https://github.com/vangiel/WheresTheFellow)でオープンソースとしてリリースされた。

Estimating the location and orientation of humans is an essential skill for service and assistive robots. To achieve a reliable estimation in a wide area such as an apartment, multiple RGBD cameras are frequently used. Firstly, these setups are relatively expensive. Secondly, they seldom perform an effective data fusion using the multiple camera sources at an early stage of the processing pipeline. Occlusions and partial views make this second point very relevant in these scenarios. The proposal presented in this paper makes use of graph neural networks to merge the information acquired from multiple camera sources, achieving a mean absolute error below 125 mm for the location and 10 degrees for the orientation using low-resolution RGB images. The experiments, conducted in an apartment with three cameras, benchmarked two different graph neural network implementations and a third architecture based on fully connected layers. The software used has been released as open-source in a public repository (https://github.com/vangiel/WheresTheFellow).
翻訳日:2022-11-06 02:00:34 公開日:2020-07-28
# 運転シナリオ軌跡の生成と解析のためのディープラーニングフレームワーク

A Deep Learning Framework for Generation and Analysis of Driving Scenario Trajectories ( http://arxiv.org/abs/2007.14524v1 )

ライセンス: Link先を確認
Andreas Demetriou, Henrik Alfsv{\aa}g, Sadegh Rahrovani, Morteza Haghir Chehreghani(参考訳) 本稿では,運転シナリオの軌跡生成と分析のための統合ディープラーニングフレームワークを提案し,その効果を原理的に検証する。 異なる長さの軌道のシナリオをモデル化し生成するために、2つのアプローチを考案する。 まず、軌道長の条件付けにより、Recurrent Conditional Generative Adversarial Networks (RC-GAN) を適用する。 これにより、自動運転車の検証においてシナリオテストケース生成の望ましい特徴である可変長走行軌跡を生成する柔軟性が得られます。 第2に,変数長問題を回避するため,GANを用いたリカレントオートエンコーダに基づくアーキテクチャを開発し,GANをトレーニングして,元のトラジェクトリの潜在表現を学習・生成する。 このアプローチでは,フィードフォワードニューラルネットワークを統合して,潜在空間表現からそれらを取り戻せる軌道の長さを推定する。 軌道生成に加えて,クラスタリングと異常検出のために,訓練されたオートエンコーダを特徴抽出器として活用し,収集したシナリオデータセットについてさらなる知見を得る。 フィールド内データ収集から得られた実世界シナリオトラジェクタにおける提案フレームワークの性能を実験的に検討した。

We propose a unified deep learning framework for generation and analysis of driving scenario trajectories, and validate its effectiveness in a principled way. In order to model and generate scenarios of trajectories with different length, we develop two approaches. First, we adapt the Recurrent Conditional Generative Adversarial Networks (RC-GAN) by conditioning on the length of the trajectories. This provides us flexibility to generate variable-length driving trajectories, a desirable feature for scenario test case generation in the verification of self-driving cars. Second, we develop an architecture based on Recurrent Autoencoder with GANs in order to obviate the variable length issue, wherein we train a GAN to learn/generate the latent representations of original trajectories. In this approach, we train an integrated feed-forward neural network to estimate the length of the trajectories to be able to bring them back from the latent space representation. In addition to trajectory generation, we employ the trained autoencoder as a feature extractor, for the purpose of clustering and anomaly detection, in order to obtain further insights on the collected scenario dataset. We experimentally investigate the performance of the proposed framework on real-world scenario trajectories obtained from in-field data collection.
翻訳日:2022-11-06 01:54:15 公開日:2020-07-28
# Deep Learning Brasil -- SemEval-2020 Task 9: Code-Mixed Tweetsの知覚分析の概要

Deep Learning Brasil -- NLP at SemEval-2020 Task 9: Overview of Sentiment Analysis of Code-Mixed Tweets ( http://arxiv.org/abs/2008.01544v1 )

ライセンス: Link先を確認
Manoel Ver\'issimo dos Santos Neto, Ayrton Denner da Silva Amaral, N\'adia F\'elix Felipe da Silva, Anderson da Silva Soares(参考訳) 本稿では,コード混合ツイート(hindi- english)における感情予測手法について述べる。 CodaLabのVerissimo.manoelと呼ばれるチームは、4つのモデルのアンサンブル(MultiFiT, BERT, ALBERT, XLNET)に基づいたアプローチを開発した。 最終分類アルゴリズムは、これらの4つのモデルから得られる全てのソフトマックス値のいくつかの予測の集合である。 このアーキテクチャは、SemEval 2020チャレンジ(タスク9)の文脈で使用され、評価され、私たちのシステムはF1スコアで72.7%を獲得しました。

In this paper, we describe a methodology to predict sentiment in code-mixed tweets (hindi-english). Our team called verissimo.manoel in CodaLab developed an approach based on an ensemble of four models (MultiFiT, BERT, ALBERT, and XLNET). The final classification algorithm was an ensemble of some predictions of all softmax values from these four models. This architecture was used and evaluated in the context of the SemEval 2020 challenge (task 9), and our system got 72.7% on the F1 score.
翻訳日:2022-11-06 01:53:55 公開日:2020-07-28
# 新型コロナウイルスによる緊急医療マスク生産のリアルタイムニューラルネットワークスケジューリング

Real-Time Neural Network Scheduling of Emergency Medical Mask Production during COVID-19 ( http://arxiv.org/abs/2007.14055v1 )

ライセンス: Link先を確認
Chen-Xin Wu, Min-Hui Liao, Mumtaz Karatas, Sheng-Yong Chen and Yu-Jun Zheng(参考訳) 新型コロナウイルス(COVID-19)の感染拡大に伴い、医療用マスクの需要が高まっている。 マスクメーカーは、その能力を超える大量の注文を受け取ることが多い。 そのため、マスク製造業務を効率的に行うことが、製造者にとって極めて重要である。 しかし、既存のスケジューリング手法は一般的にかなりの量の計算資源を必要とするため、注文の急増に効果的に対応できない。 本稿では,リアルタイム生産タスクをスケジューリングするためのエンドツーエンドニューラルネットワークを提案する。 ニューラルネットワークは、複数の生産タスクのシーケンスを入力として、異なるスケジュール上の分布を予測し、強化学習を用いて、負の総ターダネスを報奨信号として、ネットワークパラメータを最適化し、最終的にスケジューリング問題に対する高品質なソリューションを生成する。 提案手法を適用して,中国における新型コロナウイルスのピーク時に医療マスクメーカーの緊急生産業務を計画した。 計算結果は、ニューラルネットワークスケジューラが数秒で数百のタスクで問題インスタンスを解決できることを示しています。 ニューラルネットワークスケジューラが生成する客観的関数値(すなわち、トータル重み付きターダネス)は、既存の構成的ヒューリスティックスよりも著しく優れており、計算時間が実際には不可能である最先端のメタヒューリスティックスと非常に近い。

During the outbreak of the novel coronavirus pneumonia (COVID-19), there is a huge demand for medical masks. A mask manufacturer often receives a large amount of orders that are beyond its capability. Therefore, it is of critical importance for the manufacturer to schedule mask production tasks as efficiently as possible. However, existing scheduling methods typically require a considerable amount of computational resources and, therefore, cannot effectively cope with the surge of orders. In this paper, we propose an end-to-end neural network for scheduling real-time production tasks. The neural network takes a sequence of production tasks as inputs to predict a distribution over different schedules, employs reinforcement learning to optimize network parameters using the negative total tardiness as the reward signal, and finally produces a high-quality solution to the scheduling problem. We applied the proposed approach to schedule emergency production tasks for a medical mask manufacturer during the peak of COVID-19 in China. Computational results show that the neural network scheduler can solve problem instances with hundreds of tasks within seconds. The objective function value (i.e., the total weighted tardiness) produced by the neural network scheduler is significantly better than those of existing constructive heuristics, and is very close to those of the state-of-the-art metaheuristics whose computational time is unaffordable in practice.
翻訳日:2022-11-06 01:53:44 公開日:2020-07-28
# 生産・製造におけるデータ駆動型知識発見モデルの堅牢性と信頼性の確保

Ensuring the Robustness and Reliability of Data-Driven Knowledge Discovery Models in Production and Manufacturing ( http://arxiv.org/abs/2007.14791v1 )

ライセンス: Link先を確認
Shailesh Tripathi, David Muhr, Brunner Manuel, Frank Emmert-Streib, Herbert Jodlbauer, and Matthias Dehmer(参考訳) 堅牢で安定した、ユーザ中心のデータ分析と機械学習モデルの実装は、生産と製造における多くの課題に直面している。 したがって、そのようなモデルを開発、評価、展開するには体系的なアプローチが必要である。 データ駆動知識発見フレームワークは、データ分析と機械学習モデルの実用的な実装を保証するために、データマイニングプロセスの秩序ある分割を提供する。 しかしながら、堅牢な業界固有のデータ駆動知識発見モデルの実用的応用は、複数のデータ開発とモデル開発に関連する問題に直面している。 これらの問題は、フレキシブルで、カスタマイズされ、業界固有の知識発見フレームワークを提供することで、慎重に対処する必要があります。 このフレームワークは、データおよびモデル関連の問題に適切に対処するために、異なるフェーズ間のアクティブな協調を保証するように設計されている。 本稿では,データ駆動型知識発見モデルの限界により,現在データ専門家とビジネスエキスパートの適切な連携が欠如している機械学習における,split-dmモデルとさまざまなデータロバスト性問題の拡張について概説する。

The implementation of robust, stable, and user-centered data analytics and machine learning models is confronted by numerous challenges in production and manufacturing. Therefore, a systematic approach is required to develop, evaluate, and deploy such models. The data-driven knowledge discovery framework provides an orderly partition of the data-mining processes to ensure the practical implementation of data analytics and machine learning models. However, the practical application of robust industry-specific data-driven knowledge discovery models faces multiple data-- and model-development--related issues. These issues should be carefully addressed by allowing a flexible, customized, and industry-specific knowledge discovery framework; in our case, this takes the form of the cross-industry standard process for data mining (CRISP-DM). This framework is designed to ensure active cooperation between different phases to adequately address data- and model-related issues. In this paper, we review several extensions of CRISP-DM models and various data-robustness-- and model-robustness--related problems in machine learning, which currently lacks proper cooperation between data experts and business experts because of the limitations of data-driven knowledge discovery models.
翻訳日:2022-11-06 01:53:20 公開日:2020-07-28
# 情報理論上最適な対向攻撃の導出とロバスト機械学習への応用

Derivation of Information-Theoretically Optimal Adversarial Attacks with Applications to Robust Machine Learning ( http://arxiv.org/abs/2007.14042v1 )

ライセンス: Link先を確認
Jirong Yi, Raghu Mudumbai, Weiyu Xu(参考訳) 我々は,劣化信号と関心ラベルの相互情報を用いて,システムの達成可能な性能を最大に低下させる決定システムに対する最適な敵意攻撃を設計する理論的問題を考える。 この問題は、機械学習分類器の逆例の存在が動機である。 情報理論的な視点を採用することで,敵の脆弱性が避けられない条件,すなわち最適に設計された分類器でさえ,小さな敵の摂動に対して脆弱な条件を特定することを目指す。 本稿では、離散的かつ連続的な信号に対する最適対向攻撃の導出、すなわち、劣化信号と連続的あるいは離散的な分布に続く信号との相互情報を最小化する最適な摂動分布を求める。 さらに,入力信号の重複コピーが複数用意されている場合,相互情報の最小化のための敵攻撃がはるかに困難であることを示す。 このことは、ディープラーニング分類器の敵対的脆弱性の説明として最近提案された 'feature compression' 仮説へのさらなるサポートを提供する。 また,計算実験の結果について報告し,理論的な結果について述べる。

We consider the theoretical problem of designing an optimal adversarial attack on a decision system that maximally degrades the achievable performance of the system as measured by the mutual information between the degraded signal and the label of interest. This problem is motivated by the existence of adversarial examples for machine learning classifiers. By adopting an information theoretic perspective, we seek to identify conditions under which adversarial vulnerability is unavoidable i.e. even optimally designed classifiers will be vulnerable to small adversarial perturbations. We present derivations of the optimal adversarial attacks for discrete and continuous signals of interest, i.e., finding the optimal perturbation distributions to minimize the mutual information between the degraded signal and a signal following a continuous or discrete distribution. In addition, we show that it is much harder to achieve adversarial attacks for minimizing mutual information when multiple redundant copies of the input signal are available. This provides additional support to the recently proposed ``feature compression" hypothesis as an explanation for the adversarial vulnerability of deep learning classifiers. We also report on results from computational experiments to illustrate our theoretical results.
翻訳日:2022-11-06 01:52:58 公開日:2020-07-28
# 差分プライバシーを用いた深層学習のための温かいシグモイド活性化

Tempered Sigmoid Activations for Deep Learning with Differential Privacy ( http://arxiv.org/abs/2007.14191v1 )

ライセンス: Link先を確認
Nicolas Papernot, Abhradeep Thakurta, Shuang Song, Steve Chien, \'Ulfar Erlingsson(参考訳) 学習にはセンシティブなデータがあるため、トレーニングデータのプライバシを提供するために機械学習アルゴリズムが拡張されている。 プライバシ保護モデルは、異なるオプティマイザで再実行されたトレーニングによって得られるが、プライバシ保護でない設定ですでにうまく機能しているモデルアーキテクチャを使用する。 このアプローチは、ここで示すように、理想的なプライバシ/ユーティリティトレードオフよりも少なくなります。 代わりに、プライバシ保護トレーニングのためにモデルアーキテクチャが明示的に選択されることを提案する。 差分プライバシーのゴールド標準の下で保証を提供するためには、個々のトレーニングポイントがモデル更新にどのように影響するかを可能な限り厳格に制限する必要がある。 本稿では,アクティベーション関数の選択が,プライバシ保護の深層学習の感度を束縛することの中心であることを初めて観察する。 解析的および実験的に,reluのような非有界アクティベーション関数であるテンパードシグモイドが,一貫して非有界アクティベーション関数よりも優れていることを示す。 このパラダイムを用いて,MNIST,FashionMNIST,CIFAR10において,学習手順の基礎の変更や差分プライバシー解析を伴わずに,新たな最先端の精度を実現する。

Because learning sometimes involves sensitive data, machine learning algorithms have been extended to offer privacy for training data. In practice, this has been mostly an afterthought, with privacy-preserving models obtained by re-running training with a different optimizer, but using the model architectures that already performed well in a non-privacy-preserving setting. This approach leads to less than ideal privacy/utility tradeoffs, as we show here. Instead, we propose that model architectures are chosen ab initio explicitly for privacy-preserving training. To provide guarantees under the gold standard of differential privacy, one must bound as strictly as possible how individual training points can possibly affect model updates. In this paper, we are the first to observe that the choice of activation function is central to bounding the sensitivity of privacy-preserving deep learning. We demonstrate analytically and experimentally how a general family of bounded activation functions, the tempered sigmoids, consistently outperform unbounded activation functions like ReLU. Using this paradigm, we achieve new state-of-the-art accuracy on MNIST, FashionMNIST, and CIFAR10 without any modification of the learning procedure fundamentals or differential privacy analysis.
翻訳日:2022-11-06 01:52:21 公開日:2020-07-28
# 非負スパース分解用deepmp

DeepMP for Non-Negative Sparse Decomposition ( http://arxiv.org/abs/2007.14281v1 )

ライセンス: Link先を確認
Konstantinos A. Voulgaris, Mike E. Davies, Mehrdad Yaghoobi(参考訳) 非負信号はスパース信号の重要なクラスを形成する。 このような非負の表現を復元するためにはすでに多くのアルゴリズムが提案されている。 欲望のテクニックは計算コストの少ないアルゴリズムであり、表現の非否定性も組み込むように修正されている。 このような修正の1つは、まず正の係数を選択し、係数の非負性を保証する非負の最適化技術を使用する、追従法(mp)ベースのアルゴリズムに対して提案されている。 グリーディアルゴリズムの性能は、全ての非排他的探索法と同様に、辞書と呼ばれる線形生成モデルとの整合性が高い。 本稿では,まず,非負マッチング追従アルゴリズムをディープニューラルネットワークとして再構成する。 その結果, 学習後のモデルでは, 複雑度を低く保ちながら, 他の非学習アルゴリズムと比較して, 正確な回復性能の面で大きな改善が得られた。

Non-negative signals form an important class of sparse signals. Many algorithms have already beenproposed to recover such non-negative representations, where greedy and convex relaxed algorithms are among the most popular methods. The greedy techniques are low computational cost algorithms, which have also been modified to incorporate the non-negativity of the representations. One such modification has been proposed for Matching Pursuit (MP) based algorithms, which first chooses positive coefficients and uses a non-negative optimisation technique that guarantees the non-negativity of the coefficients. The performance of greedy algorithms, like all non-exhaustive search methods, suffer from high coherence with the linear generative model, called the dictionary. We here first reformulate the non-negative matching pursuit algorithm in the form of a deep neural network. We then show that the proposed model after training yields a significant improvement in terms of exact recovery performance, compared to other non-trained greedy algorithms, while keeping the complexity low.
翻訳日:2022-11-06 01:51:58 公開日:2020-07-28
# 深部畳み込みニューラルネットワークの理論II:球面解析

Theory of Deep Convolutional Neural Networks II: Spherical Analysis ( http://arxiv.org/abs/2007.14285v1 )

ライセンス: Link先を確認
Zhiying Fang, Han Feng, Shuo Huang, Ding-Xuan Zhou(参考訳) 様々な構造とアーキテクチャのディープニューラルネットワークに基づくディープラーニングは、多くの実践的応用において強力だが、十分な理論的検証がない。 本稿では、単位球面上の近似関数に応用された深部畳み込みニューラルネットワークの族を$\mathbb{S}^{d-1}$ of $\mathbb{R}^d$とする。 解析により、近似関数がソボレフ空間 $W^r_\infty (\mathbb{S}^{d-1})$ に$r>0$ あるいは加法リッジ形式を取るとき、一様近似の速度を示す。 我々の研究は、ディープ畳み込みニューラルネットワークのモデリングと近似能力を理論的に検証し、次いでダウンサンプリングと1層または2層を完全連結した。 球面解析の鍵となる考え方は、球面調和の空間の再生核の内部積形式を用いて、生成された線形特徴を実現するためにフィルタの畳み込み分解を適用することである。

Deep learning based on deep neural networks of various structures and architectures has been powerful in many practical applications, but it lacks enough theoretical verifications. In this paper, we consider a family of deep convolutional neural networks applied to approximate functions on the unit sphere $\mathbb{S}^{d-1}$ of $\mathbb{R}^d$. Our analysis presents rates of uniform approximation when the approximated function lies in the Sobolev space $W^r_\infty (\mathbb{S}^{d-1})$ with $r>0$ or takes an additive ridge form. Our work verifies theoretically the modelling and approximation ability of deep convolutional neural networks followed by downsampling and one fully connected layer or two. The key idea of our spherical analysis is to use the inner product form of the reproducing kernels of the spaces of spherical harmonics and then to apply convolutional factorizations of filters to realize the generated linear features.
翻訳日:2022-11-06 01:51:41 公開日:2020-07-28
# ディープラーニングのための最適化アルゴリズムの比較

A Comparison of Optimization Algorithms for Deep Learning ( http://arxiv.org/abs/2007.14166v1 )

ライセンス: Link先を確認
Derya Soydaner(参考訳) 近年、我々はディープラーニングの台頭を目撃している。 ディープニューラルネットワークは多くの分野で成功している。 しかし、ニューラルネットワークがより深くなり、データセットが大きくなるにつれて、これらのネットワークの最適化はますます難しくなっている。 そのため、近年より高度な最適化アルゴリズムが提案されている。 本研究では,深層学習のための最適化アルゴリズムについて詳細に検討する。 この目的のために、適応勾配法と呼ばれるこれらのアルゴリズムは教師なしタスクと教師なしタスクの両方に実装されている。 MNIST, CIFAR-10, Kaggle Flowers, Labeled Faces in the Wildの4つの画像データセットにおけるトレーニング中のアルゴリズムの挙動と結果を比較し, 基本的な最適化アルゴリズムとの違いを指摘する。

In recent years, we have witnessed the rise of deep learning. Deep neural networks have proved their success in many areas. However, the optimization of these networks has become more difficult as neural networks going deeper and datasets becoming bigger. Therefore, more advanced optimization algorithms have been proposed over the past years. In this study, widely used optimization algorithms for deep learning are examined in detail. To this end, these algorithms called adaptive gradient methods are implemented for both supervised and unsupervised tasks. The behaviour of the algorithms during training and results on four image datasets, namely, MNIST, CIFAR-10, Kaggle Flowers and Labeled Faces in the Wild are compared by pointing out their differences against basic optimization algorithms.
翻訳日:2022-11-06 01:45:26 公開日:2020-07-28
# モーメントを用いた適応型SGDの高確率解析

A High Probability Analysis of Adaptive SGD with Momentum ( http://arxiv.org/abs/2007.14294v1 )

ライセンス: Link先を確認
Xiaoyu Li, Francesco Orabona(参考訳) Stochastic Gradient Descent (SGD)とその変種は機械学習アプリケーションで最も使われているアルゴリズムである。 特に、適応学習率と運動量を持つSGDは、ディープネットワークをトレーニングするための業界標準である。 これらの手法の膨大な成功にもかかわらず、非凸設定におけるこれらの変種に関する理論的理解は完全ではなく、ほとんどの結果は期待の収束と確率勾配の強い仮定によってのみ証明される。 本稿では,関数,確率勾配,学習率の弱い仮定の下で,適応アルゴリズムと運動量アルゴリズムの高確率解析を提案する。 我々は、モーメントを持つ遅延AdaGradの滑らかな非凸設定において、勾配の0への収束を高い確率で初めて証明するためにこれを使用する。

Stochastic Gradient Descent (SGD) and its variants are the most used algorithms in machine learning applications. In particular, SGD with adaptive learning rates and momentum is the industry standard to train deep networks. Despite the enormous success of these methods, our theoretical understanding of these variants in the nonconvex setting is not complete, with most of the results only proving convergence in expectation and with strong assumptions on the stochastic gradients. In this paper, we present a high probability analysis for adaptive and momentum algorithms, under weak assumptions on the function, stochastic gradients, and learning rates. We use it to prove for the first time the convergence of the gradients to zero in high probability in the smooth nonconvex setting for Delayed AdaGrad with momentum.
翻訳日:2022-11-06 01:44:50 公開日:2020-07-28
# 教師付き機械学習アルゴリズムを用いた局所解釈モデル

Surrogate Locally-Interpretable Models with Supervised Machine Learning Algorithms ( http://arxiv.org/abs/2007.14528v1 )

ライセンス: Link先を確認
Linwei Hu, Jie Chen, Vijayan N. Nair, Agus Sudjianto(参考訳) Gradient Boosting、Random Forest、Neural NetworksといったSML(Supervised Machine Learning)アルゴリズムは、従来の統計手法よりも優れた予測性能のために近年人気を集めている。 しかし、その複雑さにより、追加のツールなしで結果の解釈が困難になる。 SMLモデルを解釈するためのグローバルおよびローカル診断システムの開発には、近年多くの研究がなされている。 本稿では,ML応答面を適合させ,モデルベース回帰木を用いて予測空間を分割し,各ノードに主効果モデルを適合させる局所解釈可能なモデルを提案する。 このアルゴリズムは高次元予測器の処理に有効である。 主な焦点は解釈可能性であるが、結果として得られる代理モデルは、合理的に優れた予測性能を持つ。

Supervised Machine Learning (SML) algorithms, such as Gradient Boosting, Random Forest, and Neural Networks, have become popular in recent years due to their superior predictive performance over traditional statistical methods. However, their complexity makes the results hard to interpret without additional tools. There has been a lot of recent work in developing global and local diagnostics for interpreting SML models. In this paper, we propose a locally-interpretable model that takes the fitted ML response surface, partitions the predictor space using model-based regression trees, and fits interpretable main-effects models at each of the nodes. We adapt the algorithm to be efficient in dealing with high-dimensional predictors. While the main focus is on interpretability, the resulting surrogate model also has reasonably good predictive performance.
翻訳日:2022-11-06 01:44:00 公開日:2020-07-28
# マルチ武装バンディットを用いたcovid-19検査方針の最適化のための枠組み

A framework for optimizing COVID-19 testing policy using a Multi Armed Bandit approach ( http://arxiv.org/abs/2007.14805v1 )

ライセンス: Link先を確認
Hagit Grushka-Cohen, Raphael Cohen, Bracha Shapira, Jacob Moran-Gilad and Lior Rokach(参考訳) 検査は新型コロナウイルスのパンデミックに取り組む上で重要な要素だ。 テストの可用性は制約のあるリソースによるボトルネックであり、個人の効果的な優先順位付けが必要である。 本稿では、新型コロナウイルスの患者発見に対する異なる優先順位付け方針の影響と、その結果を効果的な意思決定に活用する政府や医療機関の能力について論じる。 ポジティブな個体の最大発見と、疾患の広がりと特徴を理解するための人口ベースの監視の必要性とをバランスさせるテストの枠組みを提案する。 このフレームワークは、リスクスコアを使用して個人をランク付けし、ランダムサンプリングのためのキャパシティの一部を保存することによって、サイバーセキュリティの領域における優先順位付けに類似したアプローチから導かれる。 このアプローチは、基盤となる分布の探索/探索を最大化するマルチアームバンドの応用である。 いくつかの単純な特徴を用いて効果的なテストにランク付けすることができ、これらのモデルを用いてランク付けすることで、陽性者の65%(ci: 64.7%-68.3%)をテスト能力の20%未満、陽性者の92.1%(ci: 91.1%-93.2%)を70%の能力で獲得し、人口調査のかなりの部分を保存することができる。 このアプローチにより、専門家や意思決定者は、ランキングポリシーの透明性と、人口に拡がる病気を理解し、素早く、そしてインフォームドな方法で反応できる能力が必要とされるように、結果のポリシーを調整できる。

Testing is an important part of tackling the COVID-19 pandemic. Availability of testing is a bottleneck due to constrained resources and effective prioritization of individuals is necessary. Here, we discuss the impact of different prioritization policies on COVID-19 patient discovery and the ability of governments and health organizations to use the results for effective decision making. We suggest a framework for testing that balances the maximal discovery of positive individuals with the need for population-based surveillance aimed at understanding disease spread and characteristics. This framework draws from similar approaches to prioritization in the domain of cyber-security based on ranking individuals using a risk score and then reserving a portion of the capacity for random sampling. This approach is an application of Multi-Armed-Bandits maximizing exploration/exploitation of the underlying distribution. We find that individuals can be ranked for effective testing using a few simple features, and that ranking them using such models we can capture 65% (CI: 64.7%-68.3%) of the positive individuals using less than 20% of the testing capacity or 92.1% (CI: 91.1%-93.2%) of positives individuals using 70% of the capacity, allowing reserving a significant portion of the tests for population studies. Our approach allows experts and decision-makers to tailor the resulting policies as needed allowing transparency into the ranking policy and the ability to understand the disease spread in the population and react quickly and in an informed manner.
翻訳日:2022-11-06 01:43:47 公開日:2020-07-28
# 生成近傍近傍の領域一般化における不一致最小化

Discrepancy Minimization in Domain Generalization with Generative Nearest Neighbors ( http://arxiv.org/abs/2007.14284v1 )

ライセンス: Link先を確認
Prashant Pandey, Mrigank Raman, Sumanth Varambally, Prathosh AP(参考訳) ドメイン一般化(Domain Generalization、DG)は、複数のソースドメインでトレーニングされた機械学習モデルが異なる統計を持つターゲットドメインでうまく一般化できないドメインシフトの問題を扱う。 移動対象領域の一般化を保証できないソース領域をまたいだドメイン不変表現を学習することにより、ドメイン一般化の問題を解決する複数のアプローチが提案されている。 本稿では,対象のラベリング過程における誤差により上限値が上限となる理論的な保証を提供する,生成的近距離近傍型不一致最小化(gnndm)法を提案する。 データポイントのクラスラベルを保存しながら単一のソースドメインを生成するためにドメイン非依存の特徴を学習するドメイン離散化ネットワーク(DDMN)を採用している。 このソースドメインから抽出された機能は、潜在空間をサンプルとして使用する生成モデルを使用して学習され、ターゲットデータポイントの最も近い近傍を取得する。 提案手法は既存のアプローチとは対照的にドメインラベル(より現実的なシナリオ)へのアクセスを必要としない。 実験により,PACSとVLCSの2つのデータセットに対して本手法の有効性を示す。 実験により,提案手法の有効性を実証し,いくつかの最先端DG法より優れていることを示す。

Domain generalization (DG) deals with the problem of domain shift where a machine learning model trained on multiple-source domains fail to generalize well on a target domain with different statistics. Multiple approaches have been proposed to solve the problem of domain generalization by learning domain invariant representations across the source domains that fail to guarantee generalization on the shifted target domain. We propose a Generative Nearest Neighbor based Discrepancy Minimization (GNNDM) method which provides a theoretical guarantee that is upper bounded by the error in the labeling process of the target. We employ a Domain Discrepancy Minimization Network (DDMN) that learns domain agnostic features to produce a single source domain while preserving the class labels of the data points. Features extracted from this source domain are learned using a generative model whose latent space is used as a sampler to retrieve the nearest neighbors for the target data points. The proposed method does not require access to the domain labels (a more realistic scenario) as opposed to the existing approaches. Empirically, we show the efficacy of our method on two datasets: PACS and VLCS. Through extensive experimentation, we demonstrate the effectiveness of the proposed method that outperforms several state-of-the-art DG methods.
翻訳日:2022-11-06 01:43:20 公開日:2020-07-28
# Cassandra: 敵の摂動からトロイの木馬ネットワークを検出する

Cassandra: Detecting Trojaned Networks from Adversarial Perturbations ( http://arxiv.org/abs/2007.14433v1 )

ライセンス: Link先を確認
Xiaoyu Zhang, Ajmal Mian, Rohit Gupta, Nazanin Rahnavard and Mubarak Shah(参考訳) ディープニューラルネットワークは、高い分類精度のため、多くの重要なタスクのために広くデプロイされている。 多くの場合、事前トレーニングされたモデルは、モデルにトロイの木馬の振る舞いを挿入するトレーニングパイプラインを中断した可能性のあるベンダーからソースされる。 これらの悪意ある行動は敵の意志によって引き起こされうるため、ディープモデルの普及に対する深刻な脅威となる。 事前学習したモデルがトロイの木馬であるか良性であるかを検証する手法を提案する。 本手法は,ネットワーク勾配から学習した逆摂動の形でニューラルネットワークの指紋をキャプチャする。 バックドアをネットワークに挿入すると、相手の摂動に効果的にエンコードされる決定境界が変わる。 トロイの木馬検出のための2つのストリームネットワークをグローバル(l_\infty$と$l_2$bound)の摂動と各摂動内の高エネルギーの局所化された領域から訓練する。 前者はネットワークの決定境界を符号化し、後者は未知のトリガー形状を符号化する。 また,Trojanedネットワークにおけるターゲットクラスを識別する異常検出手法を提案する。 私たちのメソッドは、トリガータイプ、トリガーサイズ、トレーニングデータ、ネットワークアーキテクチャに不変です。 mnist, nist-round0およびnist-round1データセットの手法を評価し, トロイの木馬ネットワーク検出において, これまでに最大1,000モデルまでの事前学習を行った。

Deep neural networks are being widely deployed for many critical tasks due to their high classification accuracy. In many cases, pre-trained models are sourced from vendors who may have disrupted the training pipeline to insert Trojan behaviors into the models. These malicious behaviors can be triggered at the adversary's will and hence, cause a serious threat to the widespread deployment of deep models. We propose a method to verify if a pre-trained model is Trojaned or benign. Our method captures fingerprints of neural networks in the form of adversarial perturbations learned from the network gradients. Inserting backdoors into a network alters its decision boundaries which are effectively encoded in their adversarial perturbations. We train a two stream network for Trojan detection from its global ($L_\infty$ and $L_2$ bounded) perturbations and the localized region of high energy within each perturbation. The former encodes decision boundaries of the network and latter encodes the unknown trigger shape. We also propose an anomaly detection method to identify the target class in a Trojaned network. Our methods are invariant to the trigger type, trigger size, training data and network architecture. We evaluate our methods on MNIST, NIST-Round0 and NIST-Round1 datasets, with up to 1,000 pre-trained models making this the largest study to date on Trojaned network detection, and achieve over 92\% detection accuracy to set the new state-of-the-art.
翻訳日:2022-11-06 01:43:00 公開日:2020-07-28
# SalamNET at SemEval-2020 Task12: Deep Learning Approach for Arabic Offensive Language Detection (英語)

SalamNET at SemEval-2020 Task12: Deep Learning Approach for Arabic Offensive Language Detection ( http://arxiv.org/abs/2007.13974v1 )

ライセンス: Link先を確認
Fatemah Husain, Jooyeon Lee, Samuel Henry, and Ozlem Uzuner(参考訳) 本稿では,sameval 2020 share task 12: multilingual offensive language identification in social media に提出されたアラビア語攻撃言語検出システム salamnet について述べる。 提案手法は,複数の深層学習モデルを適用し,結果の深度誤差解析を行い,今後の開発課題にシステムの影響を与える。 我々の目標を達成するために、異なる設計アーキテクチャを持つリカレントニューラルネットワーク(RNN)、GRU(Gated Recurrent Unit)、LSTM(Long-Short Term Memory)モデルを開発し、評価した。 SalamNETは双方向Gated Recurrent Unit (Bi-GRU)ベースのモデルで、マクロF1スコアは0.83である。

This paper describes SalamNET, an Arabic offensive language detection system that has been submitted to SemEval 2020 shared task 12: Multilingual Offensive Language Identification in Social Media. Our approach focuses on applying multiple deep learning models and conducting in depth error analysis of results to provide system implications for future development considerations. To pursue our goal, a Recurrent Neural Network (RNN), a Gated Recurrent Unit (GRU), and Long-Short Term Memory (LSTM) models with different design architectures have been developed and evaluated. The SalamNET, a Bi-directional Gated Recurrent Unit (Bi-GRU) based model, reports a macro-F1 score of 0.83.
翻訳日:2022-11-06 01:36:38 公開日:2020-07-28
# 公平な自然言語生成の定義と評価

Defining and Evaluating Fair Natural Language Generation ( http://arxiv.org/abs/2008.01548v1 )

ライセンス: Link先を確認
Catherine Yeo and Alyssa Chen(参考訳) 我々の研究は、文補完の自然言語生成(nlg)タスクに現れるバイアスに焦点を当てている。 本稿では,2つの最先端言語モデルにおける性別バイアスの評価に続き,NLGの公平性の枠組みを紹介する。 本分析は、nlgにおけるバイアスの理論的定式化と、既存の言語生成モデルがジェンダーバイアスを組み込んでいることの実証的証拠を提供する。

Our work focuses on the biases that emerge in the natural language generation (NLG) task of sentence completion. In this paper, we introduce a framework of fairness for NLG followed by an evaluation of gender biases in two state-of-the-art language models. Our analysis provides a theoretical formulation for biases in NLG and empirical evidence that existing language generation models embed gender bias.
翻訳日:2022-11-06 01:36:05 公開日:2020-07-28
# 深層教師なしアクティブラーニングについて

On Deep Unsupervised Active Learning ( http://arxiv.org/abs/2007.13959v1 )

ライセンス: Link先を確認
Changsheng Li and Handong Ma and Zhao Kang and Ye Yuan and Xiao-Yu Zhang and Guoren Wang(参考訳) 教師なしアクティブラーニングは近年注目を集めており、その目標は、教師なしアノテートのための教師なしセッティングで代表サンプルを選択することである。 既存の作品の多くは、選択されたサンプルのスパン(すなわち、すべての線形結合の集合)によって各サンプルが十分に近似できると仮定して浅い線形モデルに基づいており、選択されたサンプルをラベル付けする。 しかし、実際には、データは必ずしも線形モデルに適合せず、データの非線形性をモデル化する方法が成功の鍵となることが多い。 本稿では,教師なしアクティブラーニングのための新しいディープニューラルネットワークフレームワークであるDUALを提案する。 dualは、エンコーダ-デコーダアーキテクチャを通じて各入力を潜在空間にマッピングする非線形埋め込みを明示的に学習し、学習した潜在空間で代表サンプルを選択する選択ブロックを導入することができる。 選択ブロックでは、dualは入力パターン全体とデータのクラスタ構造を同時に保存することを考慮している。 6つの公開データセットに対して大規模な実験を行い,本手法の有効性を現状と比較した実験結果を得た。

Unsupervised active learning has attracted increasing attention in recent years, where its goal is to select representative samples in an unsupervised setting for human annotating. Most existing works are based on shallow linear models by assuming that each sample can be well approximated by the span (i.e., the set of all linear combinations) of certain selected samples, and then take these selected samples as representative ones to label. However, in practice, the data do not necessarily conform to linear models, and how to model nonlinearity of data often becomes the key point to success. In this paper, we present a novel Deep neural network framework for Unsupervised Active Learning, called DUAL. DUAL can explicitly learn a nonlinear embedding to map each input into a latent space through an encoder-decoder architecture, and introduce a selection block to select representative samples in the the learnt latent space. In the selection block, DUAL considers to simultaneously preserve the whole input patterns as well as the cluster structure of data. Extensive experiments are performed on six publicly available datasets, and experimental results clearly demonstrate the efficacy of our method, compared with state-of-the-arts.
翻訳日:2022-11-06 01:35:20 公開日:2020-07-28
# 大規模バッチトレーニングのためのモーメント付き確率正規化グラディエントDescence

Stochastic Normalized Gradient Descent with Momentum for Large Batch Training ( http://arxiv.org/abs/2007.13985v1 )

ライセンス: Link先を確認
Shen-Yi Zhao, Yin-Peng Xie, Wu-Jun Li(参考訳) 確率勾配勾配(SGD)とその変種は機械学習における支配的最適化手法である。 大規模なバッチトレーニングを伴うSGDは、小さなバッチトレーニングと比較して、GPUのような現在のマルチコアシステムの計算能力をより有効に活用でき、分散トレーニングにおける通信ラウンドの数を削減できる。 そのため、大規模なバッチトレーニングを持つSGDはますます注目を集めている。 しかし、既存の実験結果から、大規模なバッチトレーニングは一般に一般化精度の低下につながることが示されている。 結果として、大規模なバッチトレーニングも難しいトピックになっている。 本稿では,大規模バッチ学習のための確率正規化勾配降下法(SNGM)を提案する。 我々は、SGDの最も広く使われている変種の一つである運動量SGD(MSGD)と比較して、SNGMがより大きいバッチサイズを採用して、同じ計算複雑性を持つ$\epsilon$-stationary点に収束できることを理論的に証明する。 深層学習に関する実証的な結果は、SNGMがバッチサイズを大きくして最先端の精度を達成できることを示している。

Stochastic gradient descent (SGD) and its variants have been the dominating optimization methods in machine learning. Compared with small batch training, SGD with large batch training can better utilize the computational power of current multi-core systems like GPUs and can reduce the number of communication rounds in distributed training. Hence, SGD with large batch training has attracted more and more attention. However, existing empirical results show that large batch training typically leads to a drop of generalization accuracy. As a result, large batch training has also become a challenging topic. In this paper, we propose a novel method, called stochastic normalized gradient descent with momentum (SNGM), for large batch training. We theoretically prove that compared to momentum SGD (MSGD) which is one of the most widely used variants of SGD, SNGM can adopt a larger batch size to converge to the $\epsilon$-stationary point with the same computation complexity (total number of gradient computation). Empirical results on deep learning also show that SNGM can achieve the state-of-the-art accuracy with a large batch size.
翻訳日:2022-11-06 01:34:45 公開日:2020-07-28
# マルチメディアコンテンツを認証する信頼性モデルに向けて:ベイズニューラルネットワークを用いたアーティファクトのサンプル検出

Toward Reliable Models for Authenticating Multimedia Content: Detecting Resampling Artifacts With Bayesian Neural Networks ( http://arxiv.org/abs/2007.14132v1 )

ライセンス: Link先を確認
Anatol Maier, Benedikt Lorch, Christian Riess(参考訳) マルチメディア法医学において、学習に基づく手法は、画像やビデオの原点と真正性を決定するための最先端のパフォーマンスを提供する。 しかし、既存の方法の多くは、トレーニングセットでカバーされていない特徴を持つ、分散外データによって挑戦される。 これにより、特に技術的背景が限られた実践者にとって、モデルをいつ信頼するかを知ることが困難になる。 本研究は,信頼性を重視した法科学アルゴリズムの再設計に向けた第一歩である。 この目的のために,ディープニューラルネットワークのパワーとベイズフレームワークの厳密な確率的定式化を組み合わせたベイズニューラルネットワーク(bnn)の利用を提案する。 標準的なニューラルネットワークのような点推定を提供する代わりに、BNNは推定値と不確実範囲の両方を表す分布を提供する。 従来の法医学的タスクである再サンプリング検出において,このフレームワークの有用性を実証する。 bnnは最先端の検出性能と、分散サンプルの検出に優れた能力を持つ。 これは、アンセンブル再サンプリング因子、アンセンデンjpeg圧縮、アンセンデン再サンプリングアルゴリズムの3つの病理学的問題に対して実証される。 この提案がマルチメディア鑑識の信頼性に関するさらなる研究を促進することを願っている。

In multimedia forensics, learning-based methods provide state-of-the-art performance in determining origin and authenticity of images and videos. However, most existing methods are challenged by out-of-distribution data, i.e., with characteristics that are not covered in the training set. This makes it difficult to know when to trust a model, particularly for practitioners with limited technical background. In this work, we make a first step toward redesigning forensic algorithms with a strong focus on reliability. To this end, we propose to use Bayesian neural networks (BNN), which combine the power of deep neural networks with the rigorous probabilistic formulation of a Bayesian framework. Instead of providing a point estimate like standard neural networks, BNNs provide distributions that express both the estimate and also an uncertainty range. We demonstrate the usefulness of this framework on a classical forensic task: resampling detection. The BNN yields state-of-the-art detection performance, plus excellent capabilities for detecting out-of-distribution samples. This is demonstrated for three pathologic issues in resampling detection, namely unseen resampling factors, unseen JPEG compression, and unseen resampling algorithms. We hope that this proposal spurs further research toward reliability in multimedia forensics.
翻訳日:2022-11-06 01:34:02 公開日:2020-07-28
# 自然言語テキストを用いた深層学習モデルによる感情相関マイニング

Emotion Correlation Mining Through Deep Learning Models on Natural Language Text ( http://arxiv.org/abs/2007.14071v1 )

ライセンス: Link先を確認
Xinzhi Wang, Luyao Kou, Vijayan Sugumaran, Xiangfeng Luo, and Hui Zhang(参考訳) 感情分析は研究者の注目を集めている。 人工知能分野におけるこれまでのほとんどの研究は、感情が正しく認識されていない理由をマイニングするよりも、感情を認識することに重点を置いていた。 感情間の相関は感情認識の失敗に寄与する。 本稿では,Webニュースからの自然言語テキストによる感情認識と感情相関マイニングのギャップを埋めようとしている。 感情の混乱と進化として表される感情間の相関は主に人間の感情認知バイアスによって引き起こされる。 テキストによる感情認識から感情相関を抽出するために,3種類の特徴と2種類のディープニューラルネットワークモデルを示す。 感情混乱の法則は直交的に抽出される。 感情進化の法則は、1ステップシフト、限定ステップシフト、最短パス転送の3つの視点から評価される。 この手法は3つのデータセット(タイトル、ボディ、記事のコメント)を用いて検証され、目的テキストと主観テキストの両方を長さ(長短)でカバーする。 実験の結果,主観的なコメントでは感情は怒りと容易に間違えられることがわかった。 コメントは愛情や悲しみの循環を喚起する傾向がある。 客観的ニュースでは、テキスト感情を愛として認識し、恐怖と喜びの循環を引き起こすことが容易である。 つまり、ジャーナリストは恐怖や喜びの言葉を使って注意を引き付けようとするが、その代わりに感情的な愛を喚起する。 これらの発見は、ネットワークの公的な感情、ソーシャルメディアのコミュニケーション、人間とコンピュータの相互作用など、情緒的な相互作用に関するアプリケーションに対する洞察を与える可能性がある。

Emotion analysis has been attracting researchers' attention. Most previous works in the artificial intelligence field focus on recognizing emotion rather than mining the reason why emotions are not or wrongly recognized. Correlation among emotions contributes to the failure of emotion recognition. In this paper, we try to fill the gap between emotion recognition and emotion correlation mining through natural language text from web news. Correlation among emotions, expressed as the confusion and evolution of emotion, is primarily caused by human emotion cognitive bias. To mine emotion correlation from emotion recognition through text, three kinds of features and two deep neural network models are presented. The emotion confusion law is extracted through orthogonal basis. The emotion evolution law is evaluated from three perspectives, one-step shift, limited-step shifts, and shortest path transfer. The method is validated using three datasets-the titles, the bodies, and the comments of news articles, covering both objective and subjective texts in varying lengths (long and short). The experimental results show that, in subjective comments, emotions are easily mistaken as anger. Comments tend to arouse emotion circulations of love-anger and sadness-anger. In objective news, it is easy to recognize text emotion as love and cause fear-joy circulation. That means, journalists may try to attract attention using fear and joy words but arouse the emotion love instead; After news release, netizens generate emotional comments to express their intense emotions, i.e., anger, sadness, and love. These findings could provide insights for applications regarding affective interaction such as network public sentiment, social media communication, and human-computer interaction.
翻訳日:2022-11-06 01:27:12 公開日:2020-07-28
# semeval-2020タスク5: deep pre-trained language representation modelを用いた反事実文の自動検出

BUT-FIT at SemEval-2020 Task 5: Automatic detection of counterfactual statements with deep pre-trained language representation models ( http://arxiv.org/abs/2007.14128v1 )

ライセンス: Link先を確認
Martin Fajcik, Josef Jon, Martin Docekal, Pavel Smrz(参考訳) 本稿では,BUT-FITによるSemEval-2020 Task 5: Modelling Causal Reasoning in Language: Detecting Counterfactualsについて述べる。 この課題は、ある文が反事実(Subtask1)を含むか否かを検知し、そのテキスト(Subtask2)から反事実の先行部分と後続部分の両方を抽出することに焦点を当てている。 我々は様々な最先端言語表現モデル(LRM)を実験した。 両サブタスクにおいて,RoBERTa LRMが最善を尽くすことがわかった。 完全一致とf1でsubtask 2で1位を獲得し、subtask 1で2位にランクインしました。

This paper describes BUT-FIT's submission at SemEval-2020 Task 5: Modelling Causal Reasoning in Language: Detecting Counterfactuals. The challenge focused on detecting whether a given statement contains a counterfactual (Subtask 1) and extracting both antecedent and consequent parts of the counterfactual from the text (Subtask 2). We experimented with various state-of-the-art language representation models (LRMs). We found RoBERTa LRM to perform the best in both subtasks. We achieved the first place in both exact match and F1 for Subtask 2 and ranked second for Subtask 1.
翻訳日:2022-11-06 01:26:30 公開日:2020-07-28
# 不整合表現の教師なし学習に関する解説

A Commentary on the Unsupervised Learning of Disentangled Representations ( http://arxiv.org/abs/2007.14184v1 )

ライセンス: Link先を確認
Francesco Locatello, Stefan Bauer, Mario Lucic, Gunnar R\"atsch, Sylvain Gelly, Bernhard Sch\"olkopf, Olivier Bachem(参考訳) 不連続表現の教師なし学習の目的は、管理を受けることなく、データの変化の独立した説明的要因を分離することである。 本稿では,locationllo et al., 2019の結果を要約し,その実践者への影響について考察する。 本稿では,不連続表現の教師なし学習が,帰納的バイアスやそれに伴う実践的課題なしには基本的に不可能であることを示す理論的結果について考察する。 最後に,我々は実験結果についてコメントし,最先端のアプローチの限界と今後の研究の方向性を強調した。

The goal of the unsupervised learning of disentangled representations is to separate the independent explanatory factors of variation in the data without access to supervision. In this paper, we summarize the results of Locatello et al., 2019, and focus on their implications for practitioners. We discuss the theoretical result showing that the unsupervised learning of disentangled representations is fundamentally impossible without inductive biases and the practical challenges it entails. Finally, we comment on our experimental findings, highlighting the limitations of state-of-the-art approaches and directions for future research.
翻訳日:2022-11-06 01:26:02 公開日:2020-07-28
# マルチモーダル感情目標サブチェアにおけるBERT, ランダムフォレストおよびSVMアプローチのばらつき

Variants of BERT, Random Forests and SVM approach for Multimodal Emotion-Target Sub-challenge ( http://arxiv.org/abs/2007.13928v1 )

ライセンス: Link先を確認
Hoang Manh Hung, Hyung-Jeong Yang, Soo-Hyung Kim, and Guee-Sang Lee(参考訳) 近年、コンピュータビジョンでは感情認識が大きな問題となり、この課題の難しさを克服するために研究者が多大な努力をしてきた。 情緒コンピューティングの分野では、感情認識は医療、ロボット工学、人間とコンピューターの相互作用など幅広い応用がある。 他のタスクに対する実践的な重要性から、様々な問題や様々なデータソースに対して多くの技術やアプローチが研究されている。 それでも、オーディオ視覚と言語モダリティを総合的に融合してメリットを得るというのは、まだ解決すべき問題です。 本稿では,muse-topic sub-challengeの分類法とデータと結果について考察する。 トピック分類では、ALBERTとRoBERTaの2つの言語モデルをアンサンブルして10種類のトピックを予測する。 また, 積雪林, SVM林, ランダム林が特徴選択と連動して利用され, 性能が向上した。

Emotion recognition has become a major problem in computer vision in recent years that made a lot of effort by researchers to overcome the difficulties in this task. In the field of affective computing, emotion recognition has a wide range of applications, such as healthcare, robotics, human-computer interaction. Due to its practical importance for other tasks, many techniques and approaches have been investigated for different problems and various data sources. Nevertheless, comprehensive fusion of the audio-visual and language modalities to get the benefits from them is still a problem to solve. In this paper, we present and discuss our classification methodology for MuSe-Topic Sub-challenge, as well as the data and results. For the topic classification, we ensemble two language models which are ALBERT and RoBERTa to predict 10 classes of topics. Moreover, for the classification of valence and arousal, SVM and Random forests are employed in conjunction with feature selection to enhance the performance.
翻訳日:2022-11-06 01:25:52 公開日:2020-07-28
# 局所コーディネート符号化による生成対向ネットワークの改善

Improving Generative Adversarial Networks with Local Coordinate Coding ( http://arxiv.org/abs/2008.00942v1 )

ライセンス: Link先を確認
Jiezhang Cao, Yong Guo, Qingyao Wu, Chunhua Shen, Junzhou Huang, Mingkui Tan(参考訳) GAN(Generative Adversarial Network)は、事前定義された事前分布(ガウスノイズなど)から現実的なデータを生成することに成功している。 しかし、そのような事前分布はしばしば実データとは独立しており、データの意味的情報(例えば、画像中の幾何学的構造や内容)を失うことがある。 実際には、セマンティック情報はデータから学んだ潜在分布によって表現される。 しかし、そのような潜在分布はganのデータサンプリングの困難をもたらす可能性がある。 本稿では,事前に定義された分布からサンプリングするのではなく,局所座標符号化(LCC)を用いたLCCGANモデルを提案する。 まず,lccganのlccサンプリング法を提案し,潜在多様体から有意点をサンプリングする。 lccサンプリング法により, 潜在多様体の局所情報を活用し, 有望な品質の新しいデータを生成することができる。 次に,ジェネレータ近似に高次項を導入することにより,LCCGAN++の改良版を提案する。 この用語はより良い近似を達成でき、それによってさらに性能が向上する。 より重要なことは、LCCGANとLCCGAN++の両方の一般化バウンダリを導出し、低次元入力が十分であることを示すことである。 4つのベンチマークデータセットに対する大規模な実験は、提案手法が既存のGANよりも優れていることを示す。

Generative adversarial networks (GANs) have shown remarkable success in generating realistic data from some predefined prior distribution (e.g., Gaussian noises). However, such prior distribution is often independent of real data and thus may lose semantic information (e.g., geometric structure or content in images) of data. In practice, the semantic information might be represented by some latent distribution learned from data. However, such latent distribution may incur difficulties in data sampling for GANs. In this paper, rather than sampling from the predefined prior distribution, we propose an LCCGAN model with local coordinate coding (LCC) to improve the performance of generating data. First, we propose an LCC sampling method in LCCGAN to sample meaningful points from the latent manifold. With the LCC sampling method, we can exploit the local information on the latent manifold and thus produce new data with promising quality. Second, we propose an improved version, namely LCCGAN++, by introducing a higher-order term in the generator approximation. This term is able to achieve better approximation and thus further improve the performance. More critically, we derive the generalization bound for both LCCGAN and LCCGAN++ and prove that a low-dimensional input is sufficient to achieve good generalization performance. Extensive experiments on four benchmark datasets demonstrate the superiority of the proposed method over existing GANs.
翻訳日:2022-11-06 01:24:59 公開日:2020-07-28
# 伝統漢方薬を用いた集団感染予防の知能的最適化

Intelligent Optimization of Diversified Community Prevention of COVID-19 using Traditional Chinese Medicine ( http://arxiv.org/abs/2007.13926v1 )

ライセンス: Link先を確認
Yu-Jun Zheng, Si-Lan Yu, Jun-Chao Yang, Tie-Er Gan, Qin Song, Jun Yang and Mumtaz Karatas(参考訳) 従来の中国医学(TCM)は、新型コロナウイルス(COVID-19)の予防とコントロールにおいて重要な役割を担い、感染拡大リスクの低減と人口保護において、地域社会の予防が最も重要な役割を担っている。 しかし,ほとんどの地域社会では,TCMの「シンドローム分化に基づく治療」原則に違反し,予防効果を制限しているため,住民全員に一貫したTCM予防プログラムを使用している。 本稿では,地域住民を対象とした多様なTCM予防プログラムを開発するためのインテリジェントな最適化手法を提案する。 まず、ファジィクラスタリング法を用いて、現代医学とTCMの健康特性の両方に基づいて集団を分割し、対話的最適化法を用いて、TCMの専門家が異なるクラスタのための異なるTCM予防プログラムを開発し、リソース制約下でのプログラムの最適化にヒューリスティックアルゴリズムを用いる。 提案手法の計算効率を実証し,中国江蘇省の12都市において,tcmを基盤としたcovid-19対策を成功させたことを報告する。

Traditional Chinese medicine (TCM) has played an important role in the prevention and control of the novel coronavirus pneumonia (COVID-19), and community prevention has become the most essential part in reducing the spread risk and protecting populations. However, most communities use a uniform TCM prevention program for all residents, which violates the "treatment based on syndrome differentiation" principle of TCM and limits the effectiveness of prevention. In this paper, we propose an intelligent optimization method to develop diversified TCM prevention programs for community residents. First, we use a fuzzy clustering method to divide the population based on both modern medicine and TCM health characteristics; we then use an interactive optimization method, in which TCM experts develop different TCM prevention programs for different clusters, and a heuristic algorithm is used to optimize the programs under the resource constraints. We demonstrate the computational efficiency of the proposed method and report its successful application to TCM-based prevention of COVID-19 in 12 communities in Zhejiang province, China, during the peak of the pandemic.
翻訳日:2022-11-06 01:24:38 公開日:2020-07-28