このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200827となっている論文です。

PDF登録状況(公開日: 20200827)

TitleAuthorsAbstract論文公表日・翻訳日
# 超伝導量子コヒーレンスに及ぼす電離放射線の影響

Impact of ionizing radiation on superconducting qubit coherence ( http://arxiv.org/abs/2001.09190v2 )

ライセンス: Link先を確認
Antti Veps\"al\"ainen, Amir H. Karamlou, John L. Orrell, Akshunna S. Dogra, Ben Loer, Francisca Vasconcelos, David K. Kim, Alexander J. Melville, Bethany M. Niedzielski, Jonilyn L. Yoder, Simon Gustavsson, Joseph A. Formaggio, Brent A. VanDevender, and William D. Oliver(参考訳) 量子ビット技術の実用性は、長いコヒーレンス時間と高忠実度演算に基づいており、超伝導量子ビットモダリティが主要な例である。 しかし、超伝導量子コヒーレンスは準粒子と呼ばれるクーパー対の破れによって影響され、バルディーン=クーパー=シュリフェファー(英語版)(bcs)理論による熱平衡で予測される値よりも1桁大きい密度が実証的に観測される。 これまでの研究では、赤外線光子が準粒子密度を著しく高めることが示されているが、最高の孤立系でも、期待よりは高いままであり、別の生成機構が存在することを示唆している。 このレターでは、環境放射性物質や宇宙線からの電離放射線がこの観測値の違いに寄与する証拠を示し、その結果、ここで測定された型の超伝導量子ビットはミリ秒間におけるコヒーレンス時間に制限される。 さらに,放射線遮蔽は電離放射線のフラックスを減少させ,コヒーレンス時間の増加と正の相関を示す。 今日の量子ビットには小さな効果があるが、電離放射線の影響を軽減または緩和することは、フォールトトレラントな超伝導量子コンピュータの実現に不可欠である。

The practical viability of any qubit technology stands on long coherence times and high-fidelity operations, with the superconducting qubit modality being a leading example. However, superconducting qubit coherence is impacted by broken Cooper pairs, referred to as quasiparticles, with a density that is empirically observed to be orders of magnitude greater than the value predicted for thermal equilibrium by the Bardeen-Cooper-Schrieffer (BCS) theory of superconductivity. Previous work has shown that infrared photons significantly increase the quasiparticle density, yet even in the best isolated systems, it still remains higher than expected, suggesting that another generation mechanism exists. In this Letter, we provide evidence that ionizing radiation from environmental radioactive materials and cosmic rays contributes to this observed difference, leading to an elevated quasiparticle density that would ultimately limit superconducting qubits of the type measured here to coherence times in the millisecond regime. We further demonstrate that introducing radiation shielding reduces the flux of ionizing radiation and positively correlates with increased coherence time. Albeit a small effect for today's qubits, reducing or otherwise mitigating the impact of ionizing radiation will be critical for realizing fault-tolerant superconducting quantum computers.
翻訳日:2023-06-06 02:56:31 公開日:2020-08-27
# 半線上の時間依存量子ウォークの極限分布

Limit distribution of a time-dependent quantum walk on the half line ( http://arxiv.org/abs/2003.01953v2 )

ライセンス: Link先を確認
Takuya Machida(参考訳) 本稿では,半線上の2周期時間依存量子ウォークに着目した。 量子ウォーカーは局所的な重ね合わせ状態においてハーフラインの端に打ち上げられ、その時間発展は量子ウォークに交互にキャストされる2つのユニタリ操作によって行われる。 その結果、量子ウォークの長期的限界発見確率は、2つの操作のいずれかによって決定されるが、両方ではない。 より興味深いことに、限界発見確率は局所化初期状態とは独立である。 ハーフライン上の時間依存ウォークを再現できるライン上の量子ウォークにより、評価された特徴にアプローチする。

We focus on a 2-period time-dependent quantum walk on the half line in this paper. The quantum walker launches at the edge of the half line in a localized superposition state and its time evolution is carried out with two unitary operations which are alternately cast to the quantum walk. As a result, long-time limit finding probabilities of the quantum walk turn to be determined by either one of the two operations, but not both. More interestingly, the limit finding probabilities are independent from the localized initial state. We will approach the appreciated features via a quantum walk on the line which is able to reproduce the time-dependent walk on the half line.
翻訳日:2023-05-31 05:24:57 公開日:2020-08-27
# 振幅遮蔽光学格子におけるnodal-line半金属のシミュレーション

Simulation of nodal-line semimetal in amplitude-shaken optical lattices ( http://arxiv.org/abs/2003.03561v2 )

ライセンス: Link先を確認
Tanji Zhou, Zhongcheng Yu, Zhihan Li, Xuzong Chen and Xiaoji Zhou(参考訳) トポロジカルな半金属の開発により、ノダルライン環を持つ半金属は、位相的デバイスの実践的応用のための強力な候補として人々のビジョンに現れる。 本研究では,2次元振幅整形二部構造六角形格子における超低温原子を用いた一本の三角形光学格子を六角光学格子にアタッチし,三角形格子の強度と位置を周期的に調節して実験を行うことで,一直線半金属をシミュレートする手法を提案する。 振幅揺動により、二成分光学格子に時間反転対称性不安定モードを導入し、そのようなモードと六方晶格子の自明なモードの比率を調整することにより、節線セミメタルを得る。 有効ハミルトニアンのエネルギースペクトルを計算することにより、振動パラメータを変化させるペースでディラック半金属からノルダルライン半金属への変換が観測される。 また, 変態におけるベリー曲率とベリー位相の変化について検討し, 実験における変形測定のガイダンスを提供する。 システムの対称性を解析することにより、時間反転対称性不安定モードの出現を研究する。 この提案は、他のバンドの影響を受けずに純粋な結節線半金属を研究する方法を提供し、結節線半金属の表面状態とバルク状態の研究に寄与する可能性がある。

With topologcial semimetal developing, semimetal with nodal-line ring comes into people's vision as a powerful candidate for practical application of topological devices. We propose a method using ultracold atoms in two-dimensional amplitude-shaken bipartite hexagonal optical lattice to simulate nodal-line semimetal, which can be achieved in experiment by attaching one triangular optical lattice to a hexangonal optical lattice and periodically modulating the intensity and position of the triangular lattice. By amplitude shaking, a time-reversal-symmetry-unstable mode is introduced into the bipartite optical lattice, and then the nodal-line semimetal is gotten by adjusting the proportion of such mode and the trivial mode of hexagonal lattice. Through calculating the energy spectrum of effective Hamiltonian, the transformation from Dirac semimetal to nodal-line semimetal in pace with changing shaking parameters is observed. We also study the change of Berry curvature and Berry phase in the transformation, which provides guidance on measuring the transformation in experiment. By analyzing the symmetry of the system, the emergence of the time-reversal-symmetry-unstable mode is researched. This proposal provides a way to research the pure nodal-line semimetal without the influence of other bands, which may contribute to the study of those unique features of surface states and bulk states of nodal-line semimetal.
翻訳日:2023-05-30 07:01:09 公開日:2020-08-27
# 量子物質波変調による情報伝達

Information transfer by quantum matterwave modulation ( http://arxiv.org/abs/2003.08555v2 )

ライセンス: Link先を確認
Robin R\"opke, Nicole Kerker and Alexander Stibor(参考訳) 波動変調を利用する古典的な通信方式は情報時代の基礎である。 光子の量子的性質に基づく情報の伝達は、現代の通信技術に革命をもたらした。 ここでは,物質波も情報伝達に適用可能であること,量子特性が高いセキュリティを提供することを実証する。 本手法は,バイプリズム干渉計における電子物質波の非自明な変調によるメッセージ送信を可能にする。 データは、分離されたマターウェーブパケット間の長手シフトを導入するwienフィルタによって符号化される。 伝送受信機は、フリンジパターンの動的コントラスト解析を行う遅延線検出器である。 本手法はアハロノフ-ボーム効果に依存し、電子干渉の位相をシフトしないため、光光学アナログを持たない。 受動的盗聴攻撃はデコヒーレンスを引き起こし、データ転送を終了させる。 これは、クーロン相互作用によって量子状態を乱し、コントラストを減少させる半伝導面を導入することで示される。 また,物質波の量子的性質に基づく鍵分布プロトコルを提案する。

Classical communication schemes that exploit wave modulation are the basis of the information era. The transfer of information based on the quantum properties of photons revolutionized these modern communication techniques. Here we demonstrate that also matterwaves can be applied for information transfer and that their quantum nature provides a high level of security. Our technique allows transmitting a message by a non-trivial modulation of an electron matterwave in a biprism interferometer. The data is encoded by a Wien filter introducing a longitudinal shift between separated matterwave packets. The transmission receiver is a delay line detector performing a dynamic contrast analysis of the fringe pattern. Our method relies on the Aharonov-Bohm effect and has no light optical analog since it does not shift the phase of the electron interference. A passive eavesdropping attack will cause decoherence and terminating the data transfer. This is demonstrated by introducing a semiconducting surface that disturbs the quantum state by Coulomb interaction and reduces the contrast. We also present a key distribution protocol based on the quantum nature of the matterwaves that can reveal active eavesdropping.
翻訳日:2023-05-28 18:06:32 公開日:2020-08-27
# 量子エラー源とチャネル符号化

Quantum Error Source and Channel Coding ( http://arxiv.org/abs/2004.09479v4 )

ライセンス: Link先を確認
Dennis Lucarelli(参考訳) 論理キュービットのブロックにまたがる古典的なコーディングが提示される。 古典的誤り訂正符号の双対符号に対応する論理量子ビットのブロック上の積安定化群の部分群を特徴づける。 我々は、ルックアップテーブルに基づく曖昧な復号を可能にする修正可能なエラーパターンのセットの条件を証明する。 古典代数符号の大きな族に対して、$l$論理量子ビットからシンドロームを抽出するのに必要な量子ビットのオーバーヘッドは${\cal o}(\log_2(l+1)),$漸近的にスケールする。 基本的な構成は2量子ビットと測定誤差を考慮し、ルックアップテーブルベースのデコーダを使用している。 さらに,検出可能な誤りの集合を特徴付け,古典的代数的デコーダが,シンドロームノイズの存在下においてもエラーを伴う論理量子ビットを曖昧に特定できることを示す。 我々は、量子誤り訂正はシャノンの意味でのソース圧縮として適切とみなし、シャノンの情報源およびチャネル符号化定理は、量子誤り訂正のような量子選択後のタスクのオーバーヘッド率を、符号化された量子レジスタのレベルで制限するものであると論じる。

A classical coding across a block of logical qubits is presented. We characterize subgroups of the product stabilizer group on a block of logical qubits corresponding to dual codes of classical error correcting codes. We prove conditions on the set of correctable error patterns allowing for unambiguous decoding based on a lookup table. For a large family of classical algebraic codes, we show that the qubit overhead required for syndrome extraction from $L$ logical qubits scales as ${\cal O}(\log_2(L+1)),$ asymptotically. The basic construction is adapted to account for two-qubit and measurement errors, while still employing a lookup table based decoder. Moreover, we characterize the set of detectable errors and show how classical algebraic decoders can unambiguously locate logical qubits with errors even in the presence of syndrome noise. We argue that quantum error correction is more aptly viewed as source compression in the sense of Shannon, and that Shannon's source and channel coding theorems provide bounds on the overhead rates of quantum post-selection tasks, such as quantum error correction, at the level of the encoded quantum register.
翻訳日:2023-05-22 22:45:47 公開日:2020-08-27
# Angerが偽ニュースをネット上で広める

Anger makes fake news viral online ( http://arxiv.org/abs/2004.10399v3 )

ライセンス: Link先を確認
Yuwei Chuai, Jichang Zhao(参考訳) 政治選挙や金融システム、さらには暴動を扇動するフェイクニュースは、オンライン上の実際のニュースよりもバイラルであり、不安定な社会とバブル民主主義を生み出している。 オンライン上の偽ニュースの感染は、それが持つ怒りの高まりによって説明できる。 twitterとweiboの同じ結果は、このメカニズムがプラットフォームから独立していることを示している。 さらに、怒りを増すような感情の突然変異は、情報拡散を徐々に加速させる。 具体的には、怒りを0.1にし、喜びを0.1に減らし、Weiboデータセットにさらに6つのリツイートを生成する。 オフラインのアンケートでは、怒りは不安管理や情報共有の観点からインセンティブの高いオーディエンスにつながり、それゆえ偽ニュースは実際のニュースよりも伝染性が強いことが明らかになった。 ソーシャルメディアで怒りをタグ付けするなどの治療法は、ソースへの偽ニュースの拡散を遅くしたり防いだりする。

Fake news that manipulates political elections, strikes financial systems, and even incites riots is more viral than real news online, resulting in unstable societies and buffeted democracy. The easier contagion of fake news online can be causally explained by the greater anger it carries. The same results in Twitter and Weibo indicate that this mechanism is independent of the platform. Moreover, mutations in emotions like increasing anger will progressively speed up the information spread. Specifically, increasing the occupation of anger by 0.1 and reducing that of joy by 0.1 will produce nearly 6 more retweets in the Weibo dataset. Offline questionnaires reveal that anger leads to more incentivized audiences in terms of anxiety management and information sharing and accordingly makes fake news more contagious than real news online. Cures such as tagging anger in social media could be implemented to slow or prevent the contagion of fake news at the source.
翻訳日:2023-05-22 11:15:02 公開日:2020-08-27
# 相関浴槽を用いた量子機械

Quantum machines powered by correlated baths ( http://arxiv.org/abs/2006.12848v2 )

ライセンス: Link先を確認
Gabriele De Chiara and Mauro Antezza(参考訳) 古典的あるいは量子的相関を共用する局所平衡貯水池を利用した熱機械を考える。 貯水池はいわゆる衝突モデルや繰り返し相互作用モデルによってモデル化される。 本研究の枠組みでは, 熱状態で調製された2つの貯留層粒子はユニタリ変換によって相関し, その後, 作動流体を形成する2つの量子サブシステムと局所的に相互作用する。 特定の種類のユニタリに対して, 貯留層粒子への変換が熱伝達量や生成する仕事量にどのように影響するかを示す。 次に、ユニタリがランダムに選択されたときに熱の分布を計算し、全スワップ変換が最適であることを示す。 最後に, 機械の顕微鏡成分間で確立された古典的, 量子的相関から, 機械の性能を解析する。

We consider thermal machines powered by locally equilibrium reservoirs that share classical or quantum correlations. The reservoirs are modelled by the so-called collisional model or repeated interactions model. In our framework, two reservoir particles, initially prepared in a thermal state, are correlated through a unitary transformation and afterwards interact locally with the two quantum subsystems which form the working fluid. For a particular class of unitaries, we show how the transformation applied to the reservoir particles affects the amount of heat transferred and the work produced. We then compute the distribution of heat and work when the unitary is chosen randomly, proving that the total swap transformation is the optimal one. Finally, we analyse the performance of the machines in terms of classical and quantum correlations established among the microscopic constituents of the machine.
翻訳日:2023-05-13 01:02:13 公開日:2020-08-27
# 参照モードのない多相推定

Multiphase estimation without a reference mode ( http://arxiv.org/abs/2006.13230v2 )

ライセンス: Link先を確認
Aaron Z. Goldberg, Ilaria Gianani, Marco Barbieri, Fabio Sciarrino, Aephraim M. Steinberg, and Nicol\`o Spagnolo(参考訳) マルチフェーズ推定は、マルチパラメータ問題のパラダイム的例である。 干渉計ネットワークに埋め込まれた複数の位相を測定する場合、特殊に調整された入力量子状態は、単一パラメータと古典的推定法の両方と比較して感度が向上する。 最適プローブ状態と最適測定演算子の観点から、すべての位相が共通の参照モードに対して評価されるシナリオの最適戦略を定義することには大きな注意が払われている。 また、この戦略は外部資源が無制限であり、実験的に非現実的である。 ここでは、等しい足場上の全ての位相を扱う一般化シナリオを最適化し、外部参照が提供するリソースを考慮に入れます。 外部参照モードがないことは、大域的な位相の計測不能により、同時に推定可能なパラメータの数を減少させ、推定されるパラメータの対称性が最適なプローブ状態の対称性を決定づけることを示す。 最後に,この一般化シナリオにおいて最適な測定値を構築するための洞察を与える。 この研究の実験的生存性は、基礎物理学を超えた即時的な実践的重要性の基盤となっている。

Multiphase estimation is a paradigmatic example of a multiparameter problem. When measuring multiple phases embedded in interferometric networks, specially-tailored input quantum states achieve enhanced sensitivities compared with both single-parameter and classical estimation schemes. Significant attention has been devoted to defining the optimal strategies for the scenario in which all of the phases are evaluated with respect to a common reference mode, in terms of optimal probe states and optimal measurement operators. As well, the strategies assume unlimited external resources, which is experimentally unrealistic. Here, we optimize a generalized scenario that treats all of the phases on an equal footing and takes into account the resources provided by external references. We show that the absence of an external reference mode reduces the number of simultaneously estimatable parameters, owing to the immeasurability of global phases, and that the symmetries of the parameters being estimated dictate the symmetries of the optimal probe states. Finally, we provide insight for constructing optimal measurements in this generalized scenario. The experimental viability of this work underlies its immediate practical importance beyond fundamental physics.
翻訳日:2023-05-13 00:42:58 公開日:2020-08-27
# 乱れた非エルミート系における皮膚効果と巻数

Skin effect and winding number in disordered non-Hermitian systems ( http://arxiv.org/abs/2007.03738v2 )

ライセンス: Link先を確認
Jahan Claes and Taylor L. Hughes(参考訳) エルミート系とは異なり、非エルミート系(NH)系は境界条件に対して指数関数的な感度を示し、開境界を持つ系では多数のエッジ局在状態を示す。 NHスキン効果は、境界条件に対する感度が従来のバルク境界対応を無効にするため、NHハミルトニアンのトポロジカル理論を定義するための主要な課題の1つである。 NH皮膚効果は、NH系特有のトポロジカル不変量である巻数と最近関連付けられている。 本稿では,乱れたエルミート位相絶縁体に関する確立された結果を一般化し,乱れたnh系に対する巻数の定義を拡張する。 我々の実空間の巻数はその問題のパラメータの関数として連続的であり、強い障害があっても定量化されている。 我々は,我々の実空間式がNH皮膚効果を予測し,NH皮膚効果の予測と観察を可能にすることを検証した。 本研究の応用例として, 清潔なシステムに障害を付加して皮膚効果が発達するNH Anderson皮膚効果を予測し, 光学ファンネルの最近の結果を説明する。

Unlike their Hermitian counterparts, non-Hermitian (NH) systems may display an exponential sensitivity to boundary conditions and an extensive number of edge-localized states in systems with open boundaries, a phenomena dubbed the "non-Hermitian skin effect." The NH skin effect is one of the primary challenges to defining a topological theory of NH Hamiltonians, as the sensitivity to boundary conditions invalidates the traditional bulk-boundary correspondence. The NH skin effect has recently been connected to the winding number, a topological invariant unique to NH systems. In this paper, we extend the definition of the winding number to disordered NH systems by generalizing established results on disordered Hermitian topological insulators. Our real-space winding number is self-averaging, continuous as a function of the parameters in the problem, and remains quantized even in the presence of strong disorder. We verify that our real-space formula still predicts the NH skin effect, allowing for the possibility of predicting and observing the NH skin effect in strongly disordered NH systems. As an application we apply our results to predict a NH Anderson skin effect where a skin effect is developed as disorder is added to a clean system, and to explain recent results in optical funnels.
翻訳日:2023-05-11 01:31:21 公開日:2020-08-27
# ハイゼンベルク写真による光検出

The Heisenberg picture of photodetection ( http://arxiv.org/abs/2007.05444v2 )

ライセンス: Link先を確認
Saumya Biswas, S.J. van Enk(参考訳) 我々は、初めから終わりまで光検出過程を記述するハミルトン群のクラスを構築する。 我々のハミルトニアンは、光子の生成、光子が吸収体(分子など)にどのように移動するか、分子が光子をどのように吸収するか、そしてその構成を不可逆的に変えた後の分子が増幅過程をトリガーするかを、光子の波長と大きく異なる波長で記述している。 我々は、ハミルトニアンの単純なプロトタイプを用いて、好ましくない効果から好ましく分離したハイゼンベルク像の単一光子検出過程を解析的に記述する。 より複雑なハミルトニアンへの拡張が指摘されている。

We construct a class of Hamiltonians that describe the photodetection process from beginning to end. Our Hamiltonians describe the creation of a photon, how the photon travels to an absorber (such as a molecule), how the molecule absorbs the photon, and how the molecule after irreversibly changing its configuration triggers an amplification process---at a wavelength that may be very different from the photon's wavelength---thus producing a macroscopic signal. We use a simple prototype Hamiltonian to describe the single-photon detection process analytically in the Heisenberg picture, which neatly separates desirable from undesirable effects. Extensions to more complicated Hamiltonians are pointed out.
翻訳日:2023-05-10 17:13:17 公開日:2020-08-27
# ユニタリ結合クラスタ ansatz のための汎用コンパイル戦略

A Generic Compilation Strategy for the Unitary Coupled Cluster Ansatz ( http://arxiv.org/abs/2007.10515v3 )

ライセンス: Link先を確認
Alexander Cowtan and Will Simmons and Ross Duncan(参考訳) 本稿では,回路深さとゲート数を削減するために,ユニタリ結合クラスタ(UCC)アンサッツを用いた変分量子固有解法(VQE)アルゴリズムのコンパイル戦略について述べる。 これはパウリ指数項を相互に可換集合に分割することで達成される。 これらの集合はクリフォード回路を用いて対角化され、位相多項式形式を用いて合成される。 この戦略は、様々な分子、量子ビットエンコーディング、基底セットの単純合成と比較して、平均で75.4%、最大89.9%のcx深さを減少させる。

We describe a compilation strategy for Variational Quantum Eigensolver (VQE) algorithms which use the Unitary Coupled Cluster (UCC) ansatz, designed to reduce circuit depth and gate count. This is achieved by partitioning Pauli exponential terms into mutually commuting sets. These sets are then diagonalised using Clifford circuits and synthesised using the phase polynomial formalism. This strategy reduces cx depth by 75.4% on average, and by up to 89.9%, compared to naive synthesis for a variety of molecules, qubit encodings and basis sets.
翻訳日:2023-05-08 22:59:29 公開日:2020-08-27
# バングラデシュにおける誤報:ジャーナリスト、ファクトチェッカー、ユーザーによる役割と責任

Combating Misinformation in Bangladesh: Roles and Responsibilities as Perceived by Journalists, Fact-checkers, and Users ( http://arxiv.org/abs/2007.12841v3 )

ライセンス: Link先を確認
Md Mahfuzul Haque, Mohammad Yousuf, Ahmed Shatil Alam, Pratyasha Saha, Syed Ishtiaque Ahmed, Naeemul Hassan(参考訳) CSCWコミュニティ内では、計算メディアを通じて伝播する誤情報の特徴と、関連する課題に対処する開発技術を理解することへの関心が高まっている。 しかし、この地域のほとんどの作業は西半球の事例に集中しており、この問題の大部分は南半球にある未対応のまま残されている。 本研究の目的は, バングラデシュの南半球諸国において, この問題に焦点をあてることで, この談話の範囲を広げることである。 人口が1億6300万人を超えるバングラデシュのバングラデシュでは、facebook上で誤情報が拡散し、混乱やヘイトアタック、殺人が起きている。 バングラデシュにおける誤情報の検証の現状を,ジャーナリストやファクトチェッカーにインタビューすることで分析した。 その結果,「ニュースオーディエンス」の利用者の多くは,ニュースメディアに対して,オンラインで見るオンライン情報の真正性を検証することを望んでいることがわかった。 しかし、新聞記者は、事実確認オンライン情報は仕事の一部ではなく、毎日オンラインに発行される情報の量を考えると、彼らの能力を超えているとしている。 さらに,バングラデシュの自発的ファクトチェッカーには,このギャップを埋めるのに十分なインフラストラクチャーサポートが備わっていないことも判明した。 我々は、ソーシャルメディア、コラボレーション、インフラ政治、情報不平等に関するCSCWコミュニティの中核的な懸念に、我々の研究成果がどのように結びついているかを示す。 分析から,協力,技術設計,インフラ開発を通じた事実確認活動の効果を高めるためのいくつかの経路を提案する。

There has been a growing interest within CSCW community in understanding the characteristics of misinformation propagated through computational media, and the devising techniques to address the associated challenges. However, most work in this area has been concentrated on the cases in the western world leaving a major portion of this problem unaddressed that is situated in the Global South. This paper aims to broaden the scope of this discourse by focusing on this problem in the context of Bangladesh, a country in the Global South. The spread of misinformation on Facebook in Bangladesh, a country with a population over 163 million, has resulted in chaos, hate attacks, and killings. By interviewing journalists, fact-checkers, in addition to surveying the general public, we analyzed the current state of verifying misinformation in Bangladesh. Our findings show that most people in the `news audience' want the news media to verify the authenticity of online information that they see online. However, the newspaper journalists say that fact-checking online information is not a part of their job, and it is also beyond their capacity given the amount of information being published online everyday. We further find that the voluntary fact-checkers in Bangladesh are not equipped with sufficient infrastructural support to fill in this gap. We show how our findings are connected to some of the core concerns of CSCW community around social media, collaboration, infrastructural politics, and information inequality. From our analysis, we also suggest several pathways to increase the impact of fact-checking efforts through collaboration, technology design, and infrastructure development.
翻訳日:2023-05-08 06:35:35 公開日:2020-08-27
# ジョセフソン量子フィルタで保護された量子ビットの制御に及ぼすより高い量子ビットの影響

Effects of higher levels of qubits on control of qubit protected by a Josephson quantum filter ( http://arxiv.org/abs/2008.09980v2 )

ライセンス: Link先を確認
Shumpei Masuda and Kazuki Koshino(参考訳) ジョセフソン量子フィルタ(JQF)は、超伝導量子コンピューティングアーキテクチャにおける放射減衰からデータ量子ビット(DQ)を保護する。 純粋な2レベルシステムではなく、弱い非線形高調波発振器であるトランモンは、JQFやDQの役割を果たすことができる。 しかし, 前回の研究では, JQFとDQは, 上位レベルの影響を無視した2レベルシステムとしてモデル化された。 我々は,JQFとDQの上位レベルがDQの制御に及ぼす影響を理論的に検討した。 DQの高レベルは共振周波数のシフトと連続波(cw)場とパルス場との制御におけるDQの第1励起状態の最大集団の減少を引き起こすが、JQFの高レベルはそうでない。 さらに,制御効率を最大化するパルス場の最適パラメータを提案する。

A Josephson quantum filter (JQF) protects a data qubit (DQ) from the radiative decay into transmission lines in superconducting quantum computing architectures. A transmon, which is a weakly nonlinear harmonic oscillator rather than a pure two-level system, can play a role of a JQF or a DQ. However, in the previous study, a JQF and a DQ were modeled as two-level systems neglecting the effects of higher levels. We theoretically examine the effects of the higher levels of the JQF and the DQ on the control of the DQ. It is shown that the higher levels of the DQ cause the shift of the resonance frequency and the decrease of the maximum population of the first excited state of the DQ in the controls with a continuous wave (cw) field and a pulsed field, while the higher levels of the JQF do not. Moreover, we present optimal parameters of the pulsed field, which maximize the control efficiency.
翻訳日:2023-05-05 04:09:05 公開日:2020-08-27
# 散逸とornstein-uhlenbeck不感を呈する超断熱刺激ラマン断熱路の性能

Performance of superadiabatic stimulated Raman adiabatic passage in the presence of dissipation and Ornstein-Uhlenbeck dephasing ( http://arxiv.org/abs/2008.11974v1 )

ライセンス: Link先を確認
Kostas Blekos, Dionisis Stefanatos, and Emmanuel Paspalakis(参考訳) 本稿では,gaussian および sin-cos パルスから誘導される 2 つの超断熱刺激ラマン断熱路 (stirap) プロトコルの性能を,エネルギー準位における散逸とornstein-uhlenbeck ノイズ下で評価する。 ストークスとポンプパルスの振幅が小さい場合, 人口移動は主に対熱パルスを通して行われるが, 大きな振幅では従来のシュリープ経路が支配的である。 このような「ヘッジ」は、損失のある中間状態における散逸に対する顕著な強固さをもたらす。 小さいパルス振幅とノイズ相関時間の増加については、支配的な反断熱パルスがより多くの影響を受けるため性能が低下し、大きなパルス振幅ではSTIRAP経路が支配されるため、中間相関時間(パルス持続時間と比較)では効率が低下する。 ガウス超断熱STIRAPプロトコルでは、ポンプとストークスのパルス間の遅延の影響も検討し、ノイズの存在下では遅延の増加のために性能が向上することを確認した。 我々は,高雑音条件下においても,適切な遅延が選択されたガウスプロトコルと罪悪感プロトコルが良好に動作すると結論付けた。 この研究は、STIRAPが現代の量子技術において重要な役割を担っているため、幅広い応用が期待されている。

In this paper we evaluate the performance of two superadiabatic stimulated Raman adiabatic passage (STIRAP) protocols derived from Gaussian and sin-cos pulses, under dissipation and Ornstein-Uhlenbeck noise in the energy levels. We find that for small amplitudes of Stokes and pump pulses, the population transfer is mainly achieved directly through the counterdiabatic pulse, while for large amplitudes the conventional STIRAP path dominates. This kind of "hedging" leads to a remarkable robustness against dissipation in the lossy intermediate state. For small pulse amplitudes and increasing noise correlation time the performance is decreased, since the dominant counterdiabatic pulse is affected more, while for large pulse amplitudes, where the STIRAP path dominates, the efficiency is degraded more for intermediate correlation times (compared to the pulse duration). For the Gaussian superadiabatic STIRAP protocol we also investigate the effect of delay between pump and Stokes pulses and find that under the presence of noise the performance is improved for increasing delay. We conclude that the Gaussian protocol with suitably chosen delay and the sin-cos protocol perform quite well even under severe noise conditions. The present work is expected to have a broad spectrum of applications, since STIRAP has a crucial role in modern quantum technology.
翻訳日:2023-05-04 19:46:54 公開日:2020-08-27
# ハイブリッドプラズモニック-フォトニックナノ共鳴器による分子間長距離熱伝達

Long-distance heat transfer between molecular systems through a hybrid plasmonic-photonic nanoresonator ( http://arxiv.org/abs/2008.11973v1 )

ライセンス: Link先を確認
S. Mahmoud Ashrafi, R. Malekfar, A. R. Bahrampour, Johannes Feist(参考訳) 我々は,光力学的相互作用を通じて分子系間の長距離熱伝達を誘導・制御できるハイブリッドプラズモニック・フォトニックキャビティ設定を提案する。 この構造は2つの分離されたプラズモンナノアンテナと誘電体空洞から構成される。 この共振器のハイブリッドモードは、サブ波長プラズモニックモードの大きな光力学的結合と、大きな距離 (\sim\mu$m) を超えるキャビティモードの大きい品質因子と非局在化特性を組み合わせることができる。 これにより、外部駆動レーザによりアクティブに制御できる分子振動間の長距離熱伝達を効果的に行うことができる。

We introduce a hybrid plasmonic-photonic cavity setup that can be used to induce and control long-distance heat transfer between molecular systems through optomechanical interactions. The structure consists of two separated plasmonic nanoantennas coupled to a dielectric cavity. The hybrid modes of this resonator can combine the large optomechanical coupling of the sub-wavelength plasmonic modes with the large quality factor and delocalized character of the cavity mode that extends over a large distance ($\sim\mu$m). We show that this can lead to effective long-range heat transport between molecular vibrations that can be actively controlled through an external driving laser.
翻訳日:2023-05-04 19:46:27 公開日:2020-08-27
# j.p.ランバレの"a loophole of all "loophole-free" bell-type theorem"に対するコメントに対する回答

Response to Comment on "A Loophole of All "Loophole-Free" Bell-Type Theorems", by J.P. Lambare ( http://arxiv.org/abs/2008.11910v1 )

ライセンス: Link先を確認
Marek Czachor(参考訳) lambare [arxiv:2008.00369] が仮定するものとは対照的に、非ニュートン計算(非ディオファントス算術に基づく計算)では、積分は通常非線形写像によって与えられる。 これは、ベル型不等式に対する標準的な証明が、非ニュートン隠れ変数を考慮に入れると失敗する技術的な理由である。 非ニュートン的観点では、ベルの不等式は隠れ変数モデルの限定的かつ非物理的クラスの性質である。 ベルの定理に対する明示的な反例は容易に構築できる。

Contrary to what Lambare [arXiv:2008.00369] assumes, in non-Newtonian calculus (a calculus based on non-Diophantine arithmetic) an integral is typically given by a nonlinear map. This is the technical reason why all the standard proofs of Bell-type inequalities fail if non-Newtonian hidden variables are taken into account. From the non-Newtonian perspective, Bell's inequality is a property of a limited and unphysical class of hidden-variable models. An explicit counterexample to Bell's theorem can be easily constructed.
翻訳日:2023-05-04 19:45:34 公開日:2020-08-27
# 増幅自然発生雑音の検出に基づく量子乱数生成のランダム性定量化

Randomness Quantification for Quantum Random Number Generation Based on Detection of Amplified Spontaneous Emission Noise ( http://arxiv.org/abs/2008.11886v1 )

ライセンス: Link先を確認
Jie Yang, Fan Fan, Jinlu Liu, Qi Su, Yang Li, Wei Huang, and Bingjie Xu(参考訳) 増幅自然発光(ASE)ノイズは、量子乱数生成器(QRNG)を構築するために広く研究され、利用されている。 従来の相対的な研究は主にQRNGシステムの実現と検証に重点を置いているが、ASEノイズの一般検出のための包括的物理モデルとランダム性定量化はいまだ不完全であり、量的セキュリティ分析には不可欠である。 本稿では, 各種設定下で数値シミュレーションを行い, シミュレーション結果と対応する実験データとの整合性を検証し, 付加電子雑音によるASEノイズの放射, 検出, 取得の系統的物理モデルを開発した。 次に,ランダム性定量法とそれに対応する実験的検証手法を提案し,量子過程から純粋に生じるランダム性を定量化し,ASEノイズの検出に基づいてQRNGのセキュリティ解析を改善する。 本論文で提案する物理モデルとランダム性定量化手法は,任意の分布を持つ光子数の検出から生じるランダム性を持つQRNGシステムに適用可能である。

The amplified spontaneous emission (ASE) noise has been extensively studied and employed to build quantum random number generators (QRNGs). While the previous relative works mainly focus on the realization and verification of the QRNG system, the comprehensive physical model and randomness quantification for the general detection of the ASE noise are still incomplete, which is essential for the quantitative security analysis. In this paper, a systematical physical model for the emission, detection and acquisition of the ASE noise with added electronic noise is developed and verified, based on which the numerical simulations are performed under various setups and the simulation results all significantly fit well with the corresponding experimental data. Then, a randomness quantification method and the corresponding experimentally verifiable approach are proposed and validated, which quantifies the randomness purely resulted from the quantum process and improves the security analysis for the QRNG based on the detection of the ASE noise. The physical model and the randomness quantification method proposed in this paper are of significant feasibility and applicable for the QRNG system with randomness originating from the detection of the photon number with arbitrary distributions.
翻訳日:2023-05-04 19:45:23 公開日:2020-08-27
# 高校STEM参加における共役ネットワークのエントロピー

Entropy of Co-Enrolment Networks Reveal Disparities in High School STEM Participation ( http://arxiv.org/abs/2008.13575v1 )

ライセンス: Link先を確認
Steven Martin Turnbull and Dion R.J. O'Neale(参考訳) 本研究は,ニュージーランドのオタアロア高校の最終学年を通したSTEM経路の探索にネットワーク分析手法を用いている。 ニュージーランドのIntegrated Data Infrastructureから個々のレベルのマイクロデータにアクセスすることで、2010年から2016年にかけてニュージーランドの学生が行うすべてのSTEM評価標準からなるコエンロールメントネットワークを構築することができます。 我々は,コミュニティ検出とエントロピーの新しい尺度を用いて,この共役ネットワークの構造を探求する。 次に,高校生の性別,民族性,社会経済統計(SES)に基づいて,ネットワーク構造がサブ人口間でどのように異なるかを検討する。 その結果,STEMコエンロメントネットワークの構造はこれらのサブ集団によって異なり,時間とともに変化していることがわかった。 女子学生は生命科学の標準に登録される傾向が高かったが、物理学、電卓、職業(農業、実用技術など)の標準ではあまりうまく表現されていなかった。 以上の結果から,マオリ諸島と太平洋諸島の亜群落のエントロピーパターンは,主要な科学・数学標準におけるエントロピーの減少によって説明できるであろうエントロピーのレベルが高かったことが示唆された。 この格差のさらなる調査を通じて, エントロピーの民族集団差は, マオリ島と太平洋諸島の学生とヨーロッパとアジアの学生のエントロピーの差がさらに大きいほど, 高校SESによって中等化されていることがわかった。 2010年から2016年にかけて発生したニュージーランドの教育制度と政策変更の文脈でこれらの知見を考察する。

The current study uses a network analysis approach to explore the STEM pathways that students take through their final year of high school in Aotearoa New Zealand. By accessing individual-level microdata from New Zealand's Integrated Data Infrastructure, we are able to create a co-enrolment network comprised of all STEM assessment standards taken by students in New Zealand between 2010 and 2016. We explore the structure of this co-enrolment network though use of community detection and a novel measure of entropy. We then investigate how network structure differs across sub-populations based on students' sex, ethnicity, and the socio-economic-status (SES) of the high school they attended. Results show the structure of the STEM co-enrolment network differs across these sub-populations, and also changes over time. We find that, while female students were more likely to have been enrolled in life science standards, they were less well represented in physics, calculus, and vocational (e.g., agriculture, practical technology) standards. Our results also show that the enrolment patterns of the Maori and Pacific Islands sub-populations had higher levels of entropy, an observation that may be explained by fewer enrolments in key science and mathematics standards. Through further investigation of this disparity, we find that ethnic group differences in entropy are moderated by high school SES, such that the difference in entropy between Maori and Pacific Islands students, and European and Asian students is even greater. We discuss these findings in the context of the New Zealand education system and policy changes that occurred between 2010 and 2016.
翻訳日:2023-05-04 19:29:10 公開日:2020-08-27
# 空洞量子電磁力学に最適化された超低損失ナノファイバーファブリーp\'erot共振器

Ultra-low-loss nanofiber Fabry-P\'erot cavities optimized for cavity quantum electrodynamics ( http://arxiv.org/abs/2008.12374v1 )

ライセンス: Link先を確認
Samuel K. Ruddell, Karen E. Webb, Mitsuyoshi Takahata, Shinya Kato, Takao Aoki(参考訳) ナノファイバー断面を含む超低損失全ファイバファブリーp\'erotキャビティをキャビティ量子電磁力学に最適化して作製する。 2つのファイバブラッググレーティング間のナノファイバー製造中の細粒度と繊維半径を連続的にモニタリングすることにより、テーパ透過を半径関数として正確に評価することができる。 結果として得られた空洞は、ナノファイバーのウエスト半径207nmで0.31%の内周損失しか得られず、総微細度は1380であり、ナノファイバー表面上のセシウム原子に対して最大で1050$\sim$1050である。 このような高精細なナノファイバーキャビティを製作する能力は、高精細なスケーラブル量子ネットワークの実現の扉を開くかもしれない。

We demonstrate the fabrication of ultra-low-loss, all-fiber Fabry-P\'erot cavities containing a nanofiber section, optimized for cavity quantum electrodynamics. By continuously monitoring the finesse and fiber radius during fabrication of a nanofiber between two fiber Bragg gratings, we are able to precisely evaluate taper transmission as a function of radius. The resulting cavities have an internal round-trip loss of only 0.31% at a nanofiber waist radius of 207 nm, with a total finesse of 1380, and a maximum expected internal cooperativity of $\sim$ 1050 for a cesium atom on the nanofiber surface. Our ability to fabricate such high-finesse nanofiber cavities may open the door for the realization of high-fidelity scalable quantum networks.
翻訳日:2023-05-04 19:28:30 公開日:2020-08-27
# 一様加速有限時間検出器のデコヒーレンス

Decoherence of a uniformly accelerated finite-time detector ( http://arxiv.org/abs/2008.12352v1 )

ライセンス: Link先を確認
Helder A. S. Costa(参考訳) 有限時間間隔で無質量スカラー場に結合した一様加速検出器について検討した。 重ね合わせ状態である量子ビット状態において最初に用意された検出器を考えると、加速度が量子ビット上でデコヒーレンスを引き起こすことが分かる。 ブロッホ球面上の量子ビット状態の極角と時間相互作用に対するコヒーレンス損失の依存性が示唆された。 これらのパラメータを調整することで、ウンルー放射によるデコヒーレンスの程度を推定する条件を大幅に改善することができる。

We study a uniformly accelerated detector coupled to a massless scalar field for a finite time interval. By considering the detector initially prepared in a superposition state, qubit state, we find that the acceleration induces decoherence on the qubit. Our results suggest the dependence of loss of coherence on the polar angle of qubit state on a Bloch sphere and the time interaction. The adjust those parameters can significantly improve the conditions to estimate the degree of decoherence induced by Unruh radiation.
翻訳日:2023-05-04 19:28:15 公開日:2020-08-27
# 量子不純物系の熱力学に関する理論的定式化

Theoretical formulations on thermodynamics of quantum impurity systems ( http://arxiv.org/abs/2008.12301v1 )

ライセンス: Link先を確認
Hong Gong, Yao Wang, Hou-Dao Zhang, Rui-Xue Xu, Xiao Zheng, YiJing Yan(参考訳) 本研究では,実験で測定可能な量子不純物系の熱力学に関する理論的基礎を提唱する。 理論の発展には、2種類の熱力学的絡み合い自由エネルギースペクトル関数の同定が含まれており、これはフェルミオンあるいはボソニックまたは組み合わせることができる。 次に、熱力学的スペクトル関数を、しばしば実験的に測定可能な局所量子不純物系スペクトル密度と関連付ける。 もう一つの入力はベア・バス結合スペクトル密度であり、様々な方法で正確に決定できる。 また、非調和ボゾン不純物系にのみ存在する非絡み合い成分についても同様の関係が成立する。 図示として、最も単純な非相互作用系について考察し、ボソニックシナリオとフェルミオンシナリオの相違点に焦点をあてる。

In this work, we put forward the theoretical foundation toward thermodynamics of quantum impurity systems measurable in experiments. The theoretical developments involve the identifications on two types of thermodynamic entanglement free--energy spectral functions for impurity systems that can be either fermionic or bosonic or combined. Consider further the thermodynamic limit in which the hybrid environments satisfy the Gaussian--Wick's theorem. We then relate the thermodynamic spectral functions to the local quantum impurity systems spectral densities that are often experimentally measurable. Another type of inputs is the bare--bath coupling spectral densities, which could be accurately determined with various methods. Similar relation is also established for the nonentanglement component that exists only in anharmonic bosonic impurity systems. For illustration, we consider the simplest noninteracting systems, with focus on the strikingly different characteristics between the bosonic and fermionic scenarios.
翻訳日:2023-05-04 19:27:35 公開日:2020-08-27
# 量子鍵分布のための極性符号を用いたブラインド情報照合

Blind information reconciliation with polar codes for quantum key distribution ( http://arxiv.org/abs/2008.12299v1 )

ライセンス: Link先を確認
E.O. Kiktenko, A.O. Malyshev, A.K. Fedorov(参考訳) 我々は極性符号に基づく量子鍵分布の情報和解段階の新しいプロトコルを提案する。 提案手法は,ldpc (low-density parity-check) 符号に有用であることが証明されたブラインド手法に基づいている。 提案プロトコルは,特に量子ビット誤り率(QBER)の変動が大きい場合において,LDPC符号とのブラインド和解よりも優れていることを示す。

We suggest a new protocol for the information reconciliation stage of quantum key distribution based on polar codes. The suggested approach is based on the blind technique, which is proved to be useful for low-density parity-check (LDPC) codes. We show that the suggested protocol outperforms the blind reconciliation with LDPC codes, especially when there are high fluctuations in quantum bit error rate (QBER).
翻訳日:2023-05-04 19:27:22 公開日:2020-08-27
# 新型コロナウイルスの流行が続く中、南アメリカでは心理的障害が緩和されるのか?

Hope Amid of a Pandemic: Is Psychological Distress Alleviating in South America while Coronavirus is still on Surge? ( http://arxiv.org/abs/2008.12289v1 )

ライセンス: Link先を確認
Josimar Chire-Saire, Khalid Mahmood(参考訳) 2020年7月31日時点で、新型コロナウイルスのパンデミックで1700万人以上が死亡し、66万7000人以上が負傷した。 経済状態によらない国はこのパンデミックに屈した。 健康、経済、運動の自由といった生活の多くの側面は、新型コロナウイルスの感染拡大によって負の影響を受けている。 アウトブレイクを防ぐために多くの戦略が取られた。 大規模なロックダウンという形で重度の切除を受けた国もあれば、大量検査や大規模な公開集会の禁止、国際旅行の制限など、パンデミックに対処するための適度なアプローチをとった国もある。 南アメリカは主に不適切な経済と医療支援のために封鎖戦略を採用した。 人々の社会的相互作用は、主にロックダウンの影響を受けているため、不安、ストレス、恐怖といった心理的苦痛は、南米の人口に深刻な影響を与えると考えられている。 本稿は、南アメリカのすべてのスペイン語話者の心理的側面に対するロックダウンの影響を検討することを目的とする。 我々は,この新型コロナウイルスのパンデミックの数ヶ月間における人々のインタラクションを理解するために,3300万以上の大規模なtwitterフィードを用いたインフォデミロジーのアプローチを用いてきた。 パンデミックの開始当初、人々は強い感情(不安、不安、恐怖など)を示し、実際のパンデミックはよりポジティブなケースを持ち、より多くの死を引き起こすことで悪化しているにもかかわらず、時間が経つにつれて減少していった。 このことから、南アメリカの人口はこのパンデミックに適応し、全体的な心理的苦痛を改善していると推測される。

As of July 31, 2020, the COVID-19 pandemic has over 17 million reported cases, causing more than 667,000 deaths. Countries irrespective of economic status have succumbed to this pandemic. Many aspects of the lives, including health, economy, freedom of movement have been negatively affected by the coronavirus outbreak. Numerous strategies have been taken in order to prevent the outbreak. Some countries took severe resections in the form of full-scale lockdown, while others took a moderate approach of dealing with the pandemics, for example, mass testing, prohibiting large-scale public gatherings, restricting international travels. South America adopted primarily the lockdown strategies due to inadequate economy and health care support. Since the social interactions between the people are primarily affected by the lockdown, psychological distress, e.g. anxiety, stress, fear are supposedly affecting the South American population in a severe way. This paper aims to explore the impact of lockdown over the psychological aspect of the people of all the Spanish speaking South American capitals. We have utilized infodemiology approach by employing large-scale Twitter data-set over 33 million feeds in order to understand people's interaction over the months of this on-going coronavirus pandemic. Our result is surprising: at the beginning of the pandemic, people demonstrated strong emotions (i.e. anxiety, worry, fear) which declined over time even though the actual pandemic is worsening by having more positive cases, and inflicting more deaths. This leads us to speculate that the South American population is adapting to this pandemic thus improving the overall psychological distress.
翻訳日:2023-05-04 19:27:15 公開日:2020-08-27
# LTP: CRFに基づく名前付きエンティティ認識のための新しいアクティブラーニング戦略

LTP: A New Active Learning Strategy for CRF-Based Named Entity Recognition ( http://arxiv.org/abs/2001.02524v2 )

ライセンス: Link先を確認
Mingyi Liu, Zhiying Tu, Tong Zhang, Tonghua Su, Zhongjie Wang(参考訳) 近年、ディープラーニングは、名前付きエンティティ認識を含む多くの自然言語処理タスクで大きな成功を収めている。 欠点は、手動で注釈付けされた大量のデータが必要であることだ。 これまでの研究では、アクティブラーニングはデータアノテーションのコストを精巧に削減できるが、改善の余地は十分にある。 実際のアプリケーションでは、既存の不確実性ベースのアクティブラーニング戦略には2つの欠点があることがわかった。 第一に、これらの戦略は、アノテータのアノテーション負担を増加させる長いシーケンスを明示的にまたは暗黙的に選択することを好む。 第二に、いくつかの戦略がモデルに侵入し、サンプル選択のための追加情報を生成する必要があるため、開発者の作業量を増やし、モデルのトレーニング/予測時間を増加させる。 本稿では,いくつかの典型的なデータセット上で名前付きエンティティ認識に広く使われているbilstm-crfの特定のケースにおいて,従来のアクティブラーニング戦略を初めて検討する。 そこで我々は,CRFの入力と出力を組み合わせて情報的事例を選択する,LTP(Lowest Token Probability)と呼ばれる不確実性に基づくアクティブラーニング戦略を提案する。 LTPは単純で強力な戦略であり、長いシーケンスを好まないし、モデルに侵入する必要もない。 我々は複数のデータセット上でLTPをテストし、実験の結果、LTPは従来の戦略よりも若干優れており、明らかに文レベルの精度とエンティティレベルのF1スコアの両方でアノテーショントークンが少ないことが判明した。 関連コードはhttps://github.com/HIT-ICES/AL-NERでリリースされた。

In recent years, deep learning has achieved great success in many natural language processing tasks including named entity recognition. The shortcoming is that a large amount of manually-annotated data is usually required. Previous studies have demonstrated that active learning could elaborately reduce the cost of data annotation, but there is still plenty of room for improvement. In real applications we found existing uncertainty-based active learning strategies have two shortcomings. Firstly, these strategies prefer to choose long sequence explicitly or implicitly, which increase the annotation burden of annotators. Secondly, some strategies need to invade the model and modify to generate some additional information for sample selection, which will increase the workload of the developer and increase the training/prediction time of the model. In this paper, we first examine traditional active learning strategies in a specific case of BiLstm-CRF that has widely used in named entity recognition on several typical datasets. Then we propose an uncertainty-based active learning strategy called Lowest Token Probability (LTP) which combines the input and output of CRF to select informative instance. LTP is simple and powerful strategy that does not favor long sequences and does not need to invade the model. We test LTP on multiple datasets, and the experiments show that LTP performs slightly better than traditional strategies with obviously less annotation tokens on both sentence-level accuracy and entity-level F1-score. Related code have been release on https://github.com/HIT-ICES/AL-NER
翻訳日:2023-01-13 10:08:09 公開日:2020-08-27
# 早期停止ミラー降下の統計的複雑性

The Statistical Complexity of Early-Stopped Mirror Descent ( http://arxiv.org/abs/2002.00189v2 )

ライセンス: Link先を確認
Tomas Va\v{s}kevi\v{c}ius, Varun Kanade, Patrick Rebeschini(参考訳) 近年,反復勾配に基づく最適化アルゴリズムの暗黙的正則化特性を理解することへの関心が高まっている。 本稿では,線形モデルとカーネル手法の2乗損失を伴う非正規化経験的リスクに適用した早期停止ミラー降下アルゴリズムにより達成される余剰リスクの統計的保証について検討する。 正方形損失の凸性を特徴づける不等式を完遂することにより、オフセットラデマッハ複素数とミラー降下法のポテンシャルベース収束解析との内在的リンクを同定する。 本報告では,ミラーマップの選択,初期化点,ステップサイズ,イテレーション数のみに依存する関数クラスのオフセット複素度の観点から,ミラー降下の繰り返しによって追跡される経路に対する過大なリスク保証を直ちに得る。 この理論を比較的短い証明を通じてクリーンでエレガントな方法で復元するために適用し、暗黙の正規化文学における最近の結果のいくつかを、いくつかの設定で改善する方法を示している。

Recently there has been a surge of interest in understanding implicit regularization properties of iterative gradient-based optimization algorithms. In this paper, we study the statistical guarantees on the excess risk achieved by early-stopped unconstrained mirror descent algorithms applied to the unregularized empirical risk with the squared loss for linear models and kernel methods. By completing an inequality that characterizes convexity for the squared loss, we identify an intrinsic link between offset Rademacher complexities and potential-based convergence analysis of mirror descent methods. Our observation immediately yields excess risk guarantees for the path traced by the iterates of mirror descent in terms of offset complexities of certain function classes depending only on the choice of the mirror map, initialization point, step-size, and the number of iterations. We apply our theory to recover, in a clean and elegant manner via rather short proofs, some of the recent results in the implicit regularization literature, while also showing how to improve upon them in some settings.
翻訳日:2023-01-05 00:36:36 公開日:2020-08-27
# バッチおよびオンライン異常検出のための分離モンド林

Isolation Mondrian Forest for Batch and Online Anomaly Detection ( http://arxiv.org/abs/2003.03692v2 )

ライセンス: Link先を確認
Haoran Ma, Benyamin Ghojogh, Maria N. Samad, Dongyu Zheng, Mark Crowley(参考訳) そこで本研究では,モンテリア森林(iMondrian forest)と名づけられた新たな伐採法を提案する。 提案手法は,既存のバッチ異常検出手法である孤立林とモンドリアン林のハイブリッドであり,オンラインランダム林である。 iMondrian forestは、木の中のノードの深さを使って分離の考えを持ち、Mondrian forest構造でそれを実装します。 その結果、異常検出に使用しながら、オンライン形式でストリーミングデータを受信できる新しいデータ構造が得られた。 実験の結果,imondrian forestはバッチ環境ではアイソレーションフォレストよりも性能が優れており,他のバッチやオンライン異常検出手法と同等の性能を示している。

We propose a new method, named isolation Mondrian forest (iMondrian forest), for batch and online anomaly detection. The proposed method is a novel hybrid of isolation forest and Mondrian forest which are existing methods for batch anomaly detection and online random forest, respectively. iMondrian forest takes the idea of isolation, using the depth of a node in a tree, and implements it in the Mondrian forest structure. The result is a new data structure which can accept streaming data in an online manner while being used for anomaly detection. Our experiments show that iMondrian forest mostly performs better than isolation forest in batch settings and has better or comparable performance against other batch and online anomaly detection methods.
翻訳日:2022-12-25 14:08:26 公開日:2020-08-27
# 自律的分離保証のための深層マルチエージェント強化学習手法

A Deep Multi-Agent Reinforcement Learning Approach to Autonomous Separation Assurance ( http://arxiv.org/abs/2003.08353v2 )

ライセンス: Link先を確認
Marc Brittain, Xuxi Yang, Peng Wei(参考訳) 高密度, 確率, 動的セクターにおいて, 航空機間の衝突を同定し, 解決するために, 深層多エージェント強化学習フレームワークを提案する。 現在、セクター容量は人間の航空管制官の認知的制限によって制限されている。 本稿では,新しい概念(自律的分離保証)の実現可能性と,人間の認知能力の限界を超える新しいアプローチについて検討する。 本稿では,集中型航空交通制御装置ではなく,分散車両の自律性を利用して分離を確実にする概念を提案する。 提案するフレームワークは,注目ネットワークを組み込むために修正したPPO(Proximal Policy Optimization)を利用する。 これによりエージェントは、不確実性下で高いトラフィックスループットを達成するためにスケーラブルで効率的なアプローチで、セクター内の可変航空機情報にアクセスすることができる。 エージェントは集中型学習と分散実行を使用してトレーニングされ、ひとつのニューラルネットワークが学習され、すべてのエージェントによって共有される。 提案手法は,BlueSkyの航空交通制御環境における3つのケーススタディで検証された。 計算結果から,提案フレームワークはオフライントレーニング時間を大幅に短縮し,性能を向上し,より効率的なポリシを実現する。

A novel deep multi-agent reinforcement learning framework is proposed to identify and resolve conflicts among a variable number of aircraft in a high-density, stochastic, and dynamic sector. Currently the sector capacity is constrained by human air traffic controller's cognitive limitation. We investigate the feasibility of a new concept (autonomous separation assurance) and a new approach to push the sector capacity above human cognitive limitation. We propose the concept of using distributed vehicle autonomy to ensure separation, instead of a centralized sector air traffic controller. Our proposed framework utilizes Proximal Policy Optimization (PPO) that we modify to incorporate an attention network. This allows the agents to have access to variable aircraft information in the sector in a scalable, efficient approach to achieve high traffic throughput under uncertainty. Agents are trained using a centralized learning, decentralized execution scheme where one neural network is learned and shared by all agents. The proposed framework is validated on three challenging case studies in the BlueSky air traffic control environment. Numerical results show the proposed framework significantly reduces offline training time, increases performance, and results in a more efficient policy.
翻訳日:2022-12-22 20:19:10 公開日:2020-08-27
# 深層マルチエージェント強化学習のための単調値関数分解

Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2003.08839v2 )

ライセンス: Link先を確認
Tabish Rashid, Mikayel Samvelyan, Christian Schroeder de Witt, Gregory Farquhar, Jakob Foerster, Shimon Whiteson(参考訳) 多くの実世界の環境では、エージェントのチームは分散された方法で行動しながら行動を調整する必要がある。 同時に、グローバルな状態情報が利用可能で、通信制約が解除された集中型の方法でエージェントをトレーニングすることもしばしば可能である。 余分な状態情報に基づく共同行動価値の学習は集中学習を活用するための魅力的な方法であるが、分散した政策を抽出するための最善の戦略は明確ではない。 当社のソリューションは,集中型エンドツーエンド方式で分散ポリシをトレーニング可能な,新しい価値ベースのQMIXです。 QMIXは、結合アクション値をエージェントごとの値の単調な組み合わせとして推定する混合ネットワークを採用している。 我々は,混合ネットワークにおける非負重みの利用により,結合作用値がエージェントごとの単調であることを構造的に強制し,中央集権と分散化ポリシの整合性を保証する。 QMIXの性能を評価するため,深層多エージェント強化学習のための新しいベンチマークとして,StarCraft Multi-Agent Challenge (SMAC)を提案する。 我々は,SMACシナリオの難易度でQMIXを評価し,既存のマルチエージェント強化学習法よりも優れていることを示す。

In many real-world settings, a team of agents must coordinate its behaviour while acting in a decentralised fashion. At the same time, it is often possible to train the agents in a centralised fashion where global state information is available and communication constraints are lifted. Learning joint action-values conditioned on extra state information is an attractive way to exploit centralised learning, but the best strategy for then extracting decentralised policies is unclear. Our solution is QMIX, a novel value-based method that can train decentralised policies in a centralised end-to-end fashion. QMIX employs a mixing network that estimates joint action-values as a monotonic combination of per-agent values. We structurally enforce that the joint-action value is monotonic in the per-agent values, through the use of non-negative weights in the mixing network, which guarantees consistency between the centralised and decentralised policies. To evaluate the performance of QMIX, we propose the StarCraft Multi-Agent Challenge (SMAC) as a new benchmark for deep multi-agent reinforcement learning. We evaluate QMIX on a challenging set of SMAC scenarios and show that it significantly outperforms existing multi-agent reinforcement learning methods.
翻訳日:2022-12-22 03:57:25 公開日:2020-08-27
# 生まれ変わりの木のアンサンブル

Born-Again Tree Ensembles ( http://arxiv.org/abs/2003.11132v3 )

ライセンス: Link先を確認
Thibaut Vidal, Toni Pacheco, Maximilian Schiffer(参考訳) 金融、医療、刑事司法における機械学習アルゴリズムの使用は、人間の生活に大きな影響を与える。 その結果、解釈可能な機械学習の研究は急速に成長し、潜在的な誤りやバイアスの原因の制御と修正を試みている。 ツリーアンサンブルは様々な領域において優れた予測品質を提供するが、複数の木を同時に使うことでアンサンブルの解釈性が低下する。 そこで本研究では,その特徴空間全体において,与えられたツリーアンサンブルと全く同じ振る舞いを再現する,最小サイズの単一決定木を構築する過程について検討する。 このような木を見つけるために,高度なプルーニングルールとバウンディングルールを活用し,再帰的な呼び出し回数を削減する動的プログラミングに基づくアルゴリズムを開発した。 このアルゴリズムは、多くの実用的関心のあるデータセットのために最適なボルン・アゲイン木を生成し、分類器は、通常、他の形式の妥協なしに、よりシンプルでより解釈可能である。

The use of machine learning algorithms in finance, medicine, and criminal justice can deeply impact human lives. As a consequence, research into interpretable machine learning has rapidly grown in an attempt to better control and fix possible sources of mistakes and biases. Tree ensembles offer a good prediction quality in various domains, but the concurrent use of multiple trees reduces the interpretability of the ensemble. Against this background, we study born-again tree ensembles, i.e., the process of constructing a single decision tree of minimum size that reproduces the exact same behavior as a given tree ensemble in its entire feature space. To find such a tree, we develop a dynamic-programming based algorithm that exploits sophisticated pruning and bounding rules to reduce the number of recursive calls. This algorithm generates optimal born-again trees for many datasets of practical interest, leading to classifiers which are typically simpler and more interpretable without any other form of compromise.
翻訳日:2022-12-20 08:22:02 公開日:2020-08-27
# TResNet: 高性能GPU専用アーキテクチャ

TResNet: High Performance GPU-Dedicated Architecture ( http://arxiv.org/abs/2003.13630v3 )

ライセンス: Link先を確認
Tal Ridnik, Hussam Lawen, Asaf Noy, Emanuel Ben Baruch, Gilad Sharir, Itamar Friedman(参考訳) 近年開発された多くのディープラーニングモデルは、FLOPS数が少なく、ResNet50よりもImageNetの精度が高い。 FLOPはネットワーク効率のプロキシと見なされることが多いが、実際のGPUトレーニングと推論スループットを測定する場合、バニラResNet50は最近の競合他社よりもはるかに高速で、スループットと精度のトレードオフが向上する。 本稿では,gpuのトレーニングと推論効率を維持しつつ,ニューラルネットワークの精度を高めることを目的とした,一連のアーキテクチャ修正を提案する。 まず、FLOPs最適化によって引き起こされるボトルネックを実証し、議論する。 次に、GPUの構造とアセットをよりよく活用する代替設計を提案する。 最後に、TResNetと呼ばれる新しいGPU専用モデルを紹介し、従来のConvNetよりも精度と効率を向上させる。 TResNetモデルを用いて、ResNet50と同様のGPUスループットで、ImageNet上で80.8トップ-1精度に達する。 我々のTResNetモデルは、スタンフォード・カー(96.0%)、CIFAR-10(99.0%)、CIFAR-100(91.5%)、オックスフォード・フラワーズ(99.1%)といった競合するシングルラベル分類データセットの最先端の精度も達成している。 また、マルチラベル分類やオブジェクト検出タスクでもうまく機能する。 実装は、https://github.com/mrT23/TResNet.comで公開されている。

Many deep learning models, developed in recent years, reach higher ImageNet accuracy than ResNet50, with fewer or comparable FLOPS count. While FLOPs are often seen as a proxy for network efficiency, when measuring actual GPU training and inference throughput, vanilla ResNet50 is usually significantly faster than its recent competitors, offering better throughput-accuracy trade-off. In this work, we introduce a series of architecture modifications that aim to boost neural networks' accuracy, while retaining their GPU training and inference efficiency. We first demonstrate and discuss the bottlenecks induced by FLOPs-optimizations. We then suggest alternative designs that better utilize GPU structure and assets. Finally, we introduce a new family of GPU-dedicated models, called TResNet, which achieve better accuracy and efficiency than previous ConvNets. Using a TResNet model, with similar GPU throughput to ResNet50, we reach 80.8 top-1 accuracy on ImageNet. Our TResNet models also transfer well and achieve state-of-the-art accuracy on competitive single-label classification datasets such as Stanford cars (96.0%), CIFAR-10 (99.0%), CIFAR-100 (91.5%) and Oxford-Flowers (99.1%). They also perform well on multi-label classification and object detection tasks. Implementation is available at: https://github.com/mrT23/TResNet.
翻訳日:2022-12-18 07:28:01 公開日:2020-08-27
# 顔のランドマーク検出と追跡のための一次元ヒートマップ回帰

Attentive One-Dimensional Heatmap Regression for Facial Landmark Detection and Tracking ( http://arxiv.org/abs/2004.02108v7 )

ライセンス: Link先を確認
Shi Yin, Shangfei Wang, Xiaoping Chen, Enhong Chen(参考訳) 熱マップの回帰は、顔のランドマークを見つけるための最先端の方法と考えられているが、空間的複雑さに悩まされ、量子化誤差が生じる。 そこで本研究では,顔のランドマーク位置推定のための新しい1次元熱マップ回帰法を提案する。 まず,x,y座標の周縁分布を表す1次元ヒートマップの2つの群を予測した。 これらの1次元熱マップは、x座標とy座標の結合分布を表すために2次元熱マップを用いる現在の熱マップ回帰法と比較して、空間的複雑さを著しく低減する。 提案手法では,gpuメモリが限られているにも関わらず,高分解能の1dヒートマップを出力でき,量子化誤差を著しく軽減できる。 第2に、x と y 座標に存在する固有の空間パターンをモデル化するために共注意機構が採用され、したがって x と y 軸上の関節分布も捕捉される。 第3に, 1次元ヒートマップ構造に基づき, 画像上のランドマーク検出のための空間パターンを捕捉する顔ランドマーク検出器と, ランドマーク追跡のための時間補正機構を用いて, 時間パターンを捕捉するトラッカを提案する。 4つのベンチマークデータベースの実験結果から,本手法の優位性を示す。

Although heatmap regression is considered a state-of-the-art method to locate facial landmarks, it suffers from huge spatial complexity and is prone to quantization error. To address this, we propose a novel attentive one-dimensional heatmap regression method for facial landmark localization. First, we predict two groups of 1D heatmaps to represent the marginal distributions of the x and y coordinates. These 1D heatmaps reduce spatial complexity significantly compared to current heatmap regression methods, which use 2D heatmaps to represent the joint distributions of x and y coordinates. With much lower spatial complexity, the proposed method can output high-resolution 1D heatmaps despite limited GPU memory, significantly alleviating the quantization error. Second, a co-attention mechanism is adopted to model the inherent spatial patterns existing in x and y coordinates, and therefore the joint distributions on the x and y axes are also captured. Third, based on the 1D heatmap structures, we propose a facial landmark detector capturing spatial patterns for landmark detection on an image; and a tracker further capturing temporal patterns with a temporal refinement mechanism for landmark tracking. Experimental results on four benchmark databases demonstrate the superiority of our method.
翻訳日:2022-12-16 13:04:02 公開日:2020-08-27
# 視覚言語課題のための多言語表現のスケール学習

Learning to Scale Multilingual Representations for Vision-Language Tasks ( http://arxiv.org/abs/2004.04312v2 )

ライセンス: Link先を確認
Andrea Burns, Donghyun Kim, Derry Wijaya, Kate Saenko, Bryan A. Plummer(参考訳) 現在の多言語視覚言語モデルは、サポート対象言語ごとに多数の追加パラメータを必要とするか、言語が追加されるにつれて性能劣化に悩まされる。 本稿では,下流タスク性能を犠牲にすることなく,モデルパラメータの少ない多言語をサポートするスケーラブル多言語言語表現(SMALR)を提案する。 SMALRは、多言語語彙でほとんどの単語に対して固定サイズの言語に依存しない表現を学習し、言語固有の機能をわずかに維持する。 マスク付きクロス言語モデリング損失を使用して、機能を他の言語のコンテキストと整合させる。 さらに,クエリの予測と機械翻訳が同等であることを保証する言語間整合モジュールを提案する。 SMALRの有効性は、これまでビジョン言語タスクでサポートされた2倍以上の10の多言語で実証されている。 単語の埋め込み手法と比較して,訓練パラメータの1/5以下で,複数言語による画像文検索と先行作業の3~4%の性能評価を行った。

Current multilingual vision-language models either require a large number of additional parameters for each supported language, or suffer performance degradation as languages are added. In this paper, we propose a Scalable Multilingual Aligned Language Representation (SMALR) that supports many languages with few model parameters without sacrificing downstream task performance. SMALR learns a fixed size language-agnostic representation for most words in a multilingual vocabulary, keeping language-specific features for just a few. We use a masked cross-language modeling loss to align features with context from other languages. Additionally, we propose a cross-lingual consistency module that ensures predictions made for a query and its machine translation are comparable. The effectiveness of SMALR is demonstrated with ten diverse languages, over twice the number supported in vision-language tasks to date. We evaluate on multilingual image-sentence retrieval and outperform prior work by 3-4% with less than 1/5th the training parameters compared to other word embedding methods.
翻訳日:2022-12-15 02:00:51 公開日:2020-08-27
# 画像のクラス条件生成ネットワークへの変換と投影

Transforming and Projecting Images into Class-conditional Generative Networks ( http://arxiv.org/abs/2005.01703v2 )

ライセンス: Link先を確認
Minyoung Huh, Richard Zhang, Jun-Yan Zhu, Sylvain Paris, Aaron Hertzmann(参考訳) 本稿では,入力画像をクラス条件生成ニューラルネットワークの空間に投影する手法を提案する。 生成ニューラルネットワークにおけるモデルバイアスに対処するための変換を最適化する手法を提案する。 具体的には,画像の変換,スケール,大域的な色変換を投影最適化によって解決し,生成的敵ネットワークのオブジェクト中心バイアスと色バイアスに対処することを実証する。 この投影過程は難しい最適化問題を引き起こし、純粋に勾配に基づく最適化は良い解を見つけることができない。 本稿では,変換やクラスパラメータを推定することで,優れた投影を見出すハイブリッド最適化戦略について述べる。 提案手法の有効性を実画像に示すとともに,これらの画像の編集性が向上することを示す。

We present a method for projecting an input image into the space of a class-conditional generative neural network. We propose a method that optimizes for transformation to counteract the model biases in generative neural networks. Specifically, we demonstrate that one can solve for image translation, scale, and global color transformation, during the projection optimization to address the object-center bias and color bias of a Generative Adversarial Network. This projection process poses a difficult optimization problem, and purely gradient-based optimizations fail to find good solutions. We describe a hybrid optimization strategy that finds good projections by estimating transformations and class parameters. We show the effectiveness of our method on real images and further demonstrate how the corresponding projections lead to better editability of these images.
翻訳日:2022-12-07 01:14:40 公開日:2020-08-27
# アルツハイマー病進行の個別予測のための深部再発モデル

Deep Recurrent Model for Individualized Prediction of Alzheimer's Disease Progression ( http://arxiv.org/abs/2005.02643v2 )

ライセンス: Link先を確認
Wonsik Jung, Eunji Jun, Heung-Il Suk(参考訳) アルツハイマー病(AD)は認知症の主要な原因の1つとして知られており、治療や医薬のない数年間の進行が遅いことが特徴である。 この点に関して、初期のAD開発リスクを特定する努力がなされている。 従来の研究の多くは横断的解析を考慮に入れていたが,近年の研究では,病的進行モデル(DPM)を用いた経時的・時系列的データを用いたADの診断と予後に焦点を当てている。 そこで本研究では,MRIバイオマーカーの表現型測定と臨床状態の軌跡を,複数時点の認知スコアとともに予測できる新しい計算フレームワークを提案する。 しかし、時系列データを扱う際には、概して予期せぬ多くの観測に直面する。 このような不利な状況については、時系列データに固有の時間的・多変量的関係を考慮に入れて、これらの欠落値を推定し、体系的に取り組む二次問題を定義する。 具体的には,4つの問題に共同で取り組むディープリカレントネットワークを提案する。 (i)価値の含意の欠如 (ii)表現型測定の予測 (iii)認知スコアの軌跡推定と (4)縦画像バイオマーカーによる対象者の臨床状態の予測 特に、ネットワークの学習可能なモデルパラメータは、周的に定義された損失関数を用いてエンドツーエンドで訓練される。 TADPOLEチャレンジコホートを用いた実験では,様々な測定値のパフォーマンスを測定し,本手法を文献の競合手法と比較した。 また, この方法の有効性を確認するため, 排他的解析およびアブレーション研究も行った。

Alzheimer's disease (AD) is known as one of the major causes of dementia and is characterized by slow progression over several years, with no treatments or available medicines. In this regard, there have been efforts to identify the risk of developing AD in its earliest time. While many of the previous works considered cross-sectional analysis, more recent studies have focused on the diagnosis and prognosis of AD with longitudinal or time series data in a way of disease progression modeling (DPM). Under the same problem settings, in this work, we propose a novel computational framework that can predict the phenotypic measurements of MRI biomarkers and trajectories of clinical status along with cognitive scores at multiple future time points. However, in handling time series data, it generally faces with many unexpected missing observations. In regard to such an unfavorable situation, we define a secondary problem of estimating those missing values and tackle it in a systematic way by taking account of temporal and multivariate relations inherent in time series data. Concretely, we propose a deep recurrent network that jointly tackles the four problems of (i) missing value imputation, (ii) phenotypic measurements forecasting, (iii) trajectory estimation of the cognitive score, and (iv) clinical status prediction of a subject based on his/her longitudinal imaging biomarkers. Notably, the learnable model parameters of our network are trained in an end-to-end manner with our circumspectly defined loss function. In our experiments over TADPOLE challenge cohort, we measured performance for various metrics and compared our method to competing methods in the literature. Exhaustive analyses and ablation studies were also conducted to better confirm the effectiveness of our method.
翻訳日:2022-12-06 05:26:29 公開日:2020-08-27
# 深層強化学習は医療の実践的応用に適しているか? 敗血症患者の血行動態管理における Duel-DDQN の感度解析

Is Deep Reinforcement Learning Ready for Practical Applications in Healthcare? A Sensitivity Analysis of Duel-DDQN for Hemodynamic Management in Sepsis Patients ( http://arxiv.org/abs/2005.04301v2 )

ライセンス: Link先を確認
MingYu Lu and Zachary Shahn and Daby Sow and Finale Doshi-Velez and Li-wei H. Lehman(参考訳) 強化学習(RL)の可能性は、GoやAtariといったゲームへの成功を通じて実証されてきた。 しかし,RL アルゴリズムをゲームプレイに使用することで,ゲーム環境におけるRL アルゴリズムの性能を評価することは容易であるが,実際に RL ポリシーに従うことのできない臨床環境においては,評価が大きな課題である。 したがって、RLポリシーを実践中に行う決定のホストに対する感受性を理解することは、最終的に臨床に必要とされるRLの信頼のタイプを構築するための重要なステップである。 本研究では,ICU患者に対する血行動態安定化治療戦略に適応した最先端RLアルゴリズム(Dueling Double Deep Q-Networks)の感度解析を行った。 入力機能,埋め込みモデルアーキテクチャ,時間離散化,報酬関数,ランダムシードに対する学習ポリシーの感度について検討する。 様々な設定が学習ポリシーに大きく影響し,RLエージェント出力の解釈に注意が必要であることが示唆された。

The potential of Reinforcement Learning (RL) has been demonstrated through successful applications to games such as Go and Atari. However, while it is straightforward to evaluate the performance of an RL algorithm in a game setting by simply using it to play the game, evaluation is a major challenge in clinical settings where it could be unsafe to follow RL policies in practice. Thus, understanding sensitivity of RL policies to the host of decisions made during implementation is an important step toward building the type of trust in RL required for eventual clinical uptake. In this work, we perform a sensitivity analysis on a state-of-the-art RL algorithm (Dueling Double Deep Q-Networks)applied to hemodynamic stabilization treatment strategies for septic patients in the ICU. We consider sensitivity of learned policies to input features, embedding model architecture, time discretization, reward function, and random seeds. We find that varying these settings can significantly impact learned policies, which suggests a need for caution when interpreting RL agent output.
翻訳日:2022-12-05 11:58:39 公開日:2020-08-27
# リアルタイム顔認識のための分散近似近接近傍法

A Distributed Approximate Nearest Neighbor Method for Real-Time Face Recognition ( http://arxiv.org/abs/2005.05824v2 )

ライセンス: Link先を確認
Aysan Aghazadeh, Maryam Amirmazlaghani(参考訳) 近年,顔認識や画像認識は現代社会に多く応用されており,日々の作業に広く利用されている。 本稿では,多くのクラスを含む大規模データセットを用いて,リアルタイム顔認識のための分散近接近傍(ANN)手法を提案する。 提案手法は,データセットを異なるクラスタに分割するクラスタリング手法と,クラスタ重みを定義して各クラスタの重要性を特定することに基づく。 この目的のために、クラスタ重みに基づいて、最大ラキシブルアプローチを用いて、各クラスタから参照インスタンスを選択する。 このプロセスにより、より情報のあるインスタンスの選択が可能となり、アルゴリズムの性能が向上する。 実験により,提案手法の精度と処理時間の観点から,提案手法の効率と性能を検証した。

Nowadays, face recognition and more generally image recognition have many applications in the modern world and are widely used in our daily tasks. This paper aims to propose a distributed approximate nearest neighbor (ANN) method for real-time face recognition using a big dataset that involves a lot of classes. The proposed approach is based on using a clustering method to separate the dataset into different clusters and on specifying the importance of each cluster by defining cluster weights. To this end, reference instances are selected from each cluster based on the cluster weights using a maximum likelihood approach. This process leads to a more informed selection of instances, so it enhances the performance of the algorithm. Experimental results confirm the efficiency of the proposed method and its out-performance in terms of accuracy and the processing time.
翻訳日:2022-12-03 19:27:44 公開日:2020-08-27
# 話者識別のための階層型注意ネットワークの弱監視訓練

Weakly Supervised Training of Hierarchical Attention Networks for Speaker Identification ( http://arxiv.org/abs/2005.07817v3 )

ライセンス: Link先を確認
Yanpei Shi, Qiang Huang, Thomas Hain(参考訳) 録音中の話者の声がどこにあるかを知らずに複数の話者を特定することは難しい課題である。 本稿では,弱ラベル付き話者識別問題を解決するために階層型注意ネットワークを提案する。 フレームレベルエンコーダとセグメントレベルエンコーダで構成される階層構造を用いることで,話者関連情報をローカルかつグローバルに学習することを目指している。 音声ストリームは断片に分割される。 注目のフレームレベルエンコーダは特徴を学習し、対象のフレームを局所的にハイライトし、フラグメントベースの埋め込みを出力する。 セグメントレベルのエンコーダは、第2の注意層と連携して、おそらくターゲットスピーカーに関連する断片を強調する。 グローバル情報は最後にセグメントレベルのモジュールから収集され、分類器を介して話者を予測する。 提案手法の有効性を評価するため,Switchboard Cellular part1(SWBC)とVoxceleb1(Voxceleb1)に基づく人工データセットを2つの条件で構築した。 2つのベースラインと比較すると,提案手法により性能が向上することが示された。 さらに,発話セグメンテーションの影響を評価するため,さらなる実験を行った。 その結果、合理的なセグメンテーションは識別性能をわずかに改善できることがわかった。

Identifying multiple speakers without knowing where a speaker's voice is in a recording is a challenging task. In this paper, a hierarchical attention network is proposed to solve a weakly labelled speaker identification problem. The use of a hierarchical structure, consisting of a frame-level encoder and a segment-level encoder, aims to learn speaker related information locally and globally. Speech streams are segmented into fragments. The frame-level encoder with attention learns features and highlights the target related frames locally, and output a fragment based embedding. The segment-level encoder works with a second attention layer to emphasize the fragments probably related to target speakers. The global information is finally collected from segment-level module to predict speakers via a classifier. To evaluate the effectiveness of the proposed approach, artificial datasets based on Switchboard Cellular part1 (SWBC) and Voxceleb1 are constructed in two conditions, where speakers' voices are overlapped and not overlapped. Comparing to two baselines the obtained results show that the proposed approach can achieve better performances. Moreover, further experiments are conducted to evaluate the impact of utterance segmentation. The results show that a reasonable segmentation can slightly improve identification performances.
翻訳日:2022-12-02 23:27:27 公開日:2020-08-27
# 話者依存型音声強調による話者再同定

Speaker Re-identification with Speaker Dependent Speech Enhancement ( http://arxiv.org/abs/2005.07818v3 )

ライセンス: Link先を確認
Yanpei Shi, Qiang Huang, Thomas Hain(参考訳) ディープニューラルネットワークの使用は話者認識性能を大幅に向上させたが、低音響環境で話者を分離することは依然として困難である。 ここでは従来の音声強調手法により性能が向上した。 近年の研究では、音声強調の適応がさらなる向上につながることが示されている。 本稿では,音声強調と話者認識を行う新しい手法を提案する。 第1のステップでは、第2のステップで使用する話者埋め込みベクトルを生成して、音声品質を高め、話者を再識別する。 モデルは、統合最適化を伴う統合フレームワークでトレーニングされる。 提案手法は,実環境における話者認識評価を目的としたVoxceleb1データセットを用いて評価する。 さらに、異なる信号・ノイズ・比での3種類のノイズが追加された。 提案手法は, 様々な雑音条件において, 話者依存型音声強調を用いた場合, 話者認識と音声強調性能が2つのベースラインよりも向上することを示す。

While the use of deep neural networks has significantly boosted speaker recognition performance, it is still challenging to separate speakers in poor acoustic environments. Here speech enhancement methods have traditionally allowed improved performance. The recent works have shown that adapting speech enhancement can lead to further gains. This paper introduces a novel approach that cascades speech enhancement and speaker recognition. In the first step, a speaker embedding vector is generated , which is used in the second step to enhance the speech quality and re-identify the speakers. Models are trained in an integrated framework with joint optimisation. The proposed approach is evaluated using the Voxceleb1 dataset, which aims to assess speaker recognition in real world situations. In addition three types of noise at different signal-noise-ratios were added for this work. The obtained results show that the proposed approach using speaker dependent speech enhancement can yield better speaker recognition and speech enhancement performances than two baselines in various noise conditions.
翻訳日:2022-12-02 23:27:05 公開日:2020-08-27
# 効用最大化剤の因果的特徴学習

Causal Feature Learning for Utility-Maximizing Agents ( http://arxiv.org/abs/2005.08792v4 )

ライセンス: Link先を確認
David Kinney and David Watson(参考訳) 低レベルのデータから高レベルの因果関係を明らかにすることは、自然科学や社会科学で頻繁に現れる重要かつ困難な問題である。 一連の論文で、Chalupka et al. (2015, 2016a, 2016b, 2017)は、このタスクを自動化するために因果的特徴学習(CFL)の手順を開発した。 CFLは、実用的考慮が優先する場合には粗大化を推奨せず、実用的考慮がそれに反対する場合には粗大化を推奨する。 そこで本研究では,従来のCFLアルゴリズムを有用かつ直感的に拡張する手法として,PCFL(Pragmatic causal Feature Learning)を提案する。 我々はPCFLが元のCFLアルゴリズムと同じ魅力的な測度理論特性を持つことを示す。 理論的解析と実験により両手法の性能を比較した。

Discovering high-level causal relations from low-level data is an important and challenging problem that comes up frequently in the natural and social sciences. In a series of papers, Chalupka et al. (2015, 2016a, 2016b, 2017) develop a procedure for causal feature learning (CFL) in an effort to automate this task. We argue that CFL does not recommend coarsening in cases where pragmatic considerations rule in favor of it, and recommends coarsening in cases where pragmatic considerations rule against it. We propose a new technique, pragmatic causal feature learning (PCFL), which extends the original CFL algorithm in useful and intuitive ways. We show that PCFL has the same attractive measure-theoretic properties as the original CFL algorithm. We compare the performance of both methods through theoretical analysis and experiments.
翻訳日:2022-12-01 22:55:04 公開日:2020-08-27
# 音声認識のための反復擬似ラベル

Iterative Pseudo-Labeling for Speech Recognition ( http://arxiv.org/abs/2005.09267v2 )

ライセンス: Link先を確認
Qiantong Xu, Tatiana Likhomanenko, Jacob Kahn, Awni Hannun, Gabriel Synnaeve, Ronan Collobert(参考訳) Pseudo-labelingは、最近、エンドツーエンド自動音声認識(ASR)において有望であることを示す。 音響モデルの発展に伴い, 擬似ラベル処理を複数繰り返し行う半教師付きアルゴリズムであるIterative Pseudo-Labeling (IPL) について検討した。 特に、IPLはラベル付きデータとラベルなしデータのサブセットを使用して、各イテレーションで既存のモデルを微調整する。 IPLの主なコンポーネントは、言語モデルによるデコードとデータ拡張である。 次に、標準および低リソース設定のlibrispeechテストセットで最先端の単語誤り率を達成することで、iplの有効性を実証する。 また、異なるコーパス上で学習した言語モデルの効果について検討し、IPLがテキストを効果的に活用できることを示す。 最後に、低リソース半教師付きASRの研究を促進するために、Librispeechトレーニング転写と重複しない新しい大きなドメイン内テキストコーパスをリリースする。

Pseudo-labeling has recently shown promise in end-to-end automatic speech recognition (ASR). We study Iterative Pseudo-Labeling (IPL), a semi-supervised algorithm which efficiently performs multiple iterations of pseudo-labeling on unlabeled data as the acoustic model evolves. In particular, IPL fine-tunes an existing model at each iteration using both labeled data and a subset of unlabeled data. We study the main components of IPL: decoding with a language model and data augmentation. We then demonstrate the effectiveness of IPL by achieving state-of-the-art word-error rate on the Librispeech test sets in both standard and low-resource setting. We also study the effect of language models trained on different corpora to show IPL can effectively utilize additional text. Finally, we release a new large in-domain text corpus which does not overlap with the Librispeech training transcriptions to foster research in low-resource, semi-supervised ASR
翻訳日:2022-12-01 14:25:24 公開日:2020-08-27
# 集束スペクトル環境におけるレーダー検出と追跡のための深層強化学習制御

Deep Reinforcement Learning Control for Radar Detection and Tracking in Congested Spectral Environments ( http://arxiv.org/abs/2006.13173v3 )

ライセンス: Link先を確認
Charles E. Thornton, Mark A. Kozy, R. Michael Buehrer, Anthony F. Martone, Kelly D. Sherbondy(参考訳) 本稿では, ディープ強化学習(Deep RL)による非線形値関数近似を適用し, 最適レーダ性能向上のためのポリシを開発することにより, 認識パルスレーダと近接通信システムとの動的非協調的共存に対処する。 レーダは、その線形周波数変調(LFM)波形の帯域幅と中心周波数の変化を学習し、他のシステムとの相互干渉を緩和し、目標検出性能を向上させるとともに、細域分解に必要な周波数帯域を十分に活用する。 我々は,Deep Q-Learning(DQL)アルゴリズムに基づくアプローチにより,SINRや帯域幅利用といった重要なレーダメトリクスが,さまざまな現実的共存環境における政策イテレーションやSAAアプローチよりも効果的に向上することが実証された。 また、DQLベースのアプローチを拡張して、ダブルQラーニングとリカレントニューラルネットワークを導入し、ダブルディープQネットワーク(DDRQN)を構築します。 DDRQNの結果は、DQLやポリシーイテレーションと比較して、良好なパフォーマンスと安定性を示す。 最後に,ソフトウェア定義レーダ(SDRadar)の試作システムで実施した実験の議論を通じて,提案手法の実用性を実証する。 実験結果から,提案手法は,政策イテレーションやSAAと比較して,集束スペクトル環境におけるレーダ検出性能を著しく向上することが示された。

In this paper, dynamic non-cooperative coexistence between a cognitive pulsed radar and a nearby communications system is addressed by applying nonlinear value function approximation via deep reinforcement learning (Deep RL) to develop a policy for optimal radar performance. The radar learns to vary the bandwidth and center frequency of its linear frequency modulated (LFM) waveforms to mitigate mutual interference with other systems and improve target detection performance while also maintaining sufficient utilization of the available frequency bands required for a fine range resolution. We demonstrate that our approach, based on the Deep Q-Learning (DQL) algorithm, enhances important radar metrics, including SINR and bandwidth utilization, more effectively than policy iteration or sense-and-avoid (SAA) approaches in a variety of realistic coexistence environments. We also extend the DQL-based approach to incorporate Double Q-learning and a recurrent neural network to form a Double Deep Recurrent Q-Network (DDRQN). We demonstrate the DDRQN results in favorable performance and stability compared to DQL and policy iteration. Finally, we demonstrate the practicality of our proposed approach through a discussion of experiments performed on a software defined radar (SDRadar) prototype system. Our experimental results indicate that the proposed Deep RL approach significantly improves radar detection performance in congested spectral environments when compared to policy iteration and SAA.
翻訳日:2022-11-18 00:01:31 公開日:2020-08-27
# スマートフォンを用いた細粒度振動センシング

Fine-grained Vibration Based Sensing Using a Smartphone ( http://arxiv.org/abs/2007.03874v2 )

ライセンス: Link先を確認
Kamran Ali, Alex X. Liu(参考訳) 振動シグネチャに基づいて表面を認識することは、NFC(Near Field Communication)タグなどの追加ハードウェアを必要とせずに、異なる位置のタグ付けを可能にするため有用である。 しかし、従来の振動ベースの表面認識方式では、振動の生成と検知にカスタムハードウェアを用いるか、市販のオフ・ザ・棚(cots)スマートフォンの慣性(imu)センサーを使用して振動によって生じる動きを感知する。 メインストリームのCOTSスマートフォンベースのスキームは、スマートフォンの振動機構における固有のハードウェアベースの不規則性にも影響される。 また、振動を感知するためにマイクロホンを使用する既存のスキームは、振動によって生成された音だけでなく、環境に存在する他の干渉音を捉えるため、短期的かつ一定のバックグラウンドノイズ(例えば、間欠的な話、排気ファンなど)に陥りやすい。 本稿では,異なるハードウェアでスマートフォンと連携して動作し,異なる表面のきめ細かい振動シグネチャを抽出し,環境騒音やハードウェアによる不規則性に対して頑健な,頑健で実用的な振動に基づくセンシング手法であるVibroTagを提案する。 VibroTagを2つの異なるAndroid端末に実装し、複数の異なる環境で評価し、5日から20日間4人のデータを収集した。 以上の結果から,ビブロタグの平均精度は86.55%であり,24の異なる位置や面が類似した材料でできていると認識されている。 VibroTagの精度は、VibroTagと比較して実装した最先端のIMUベースのスキームの1つによって達成された49.25%の平均精度よりも37%高い。

Recognizing surfaces based on their vibration signatures is useful as it can enable tagging of different locations without requiring any additional hardware such as Near Field Communication (NFC) tags. However, previous vibration based surface recognition schemes either use custom hardware for creating and sensing vibration, which makes them difficult to adopt, or use inertial (IMU) sensors in commercial off-the-shelf (COTS) smartphones to sense movements produced due to vibrations, which makes them coarse-grained because of the low sampling rates of IMU sensors. The mainstream COTS smartphones based schemes are also susceptible to inherent hardware based irregularities in vibration mechanism of the smartphones. Moreover, the existing schemes that use microphones to sense vibration are prone to short-term and constant background noises (e.g. intermittent talking, exhaust fan, etc.) because microphones not only capture the sounds created by vibration but also other interfering sounds present in the environment. In this paper, we propose VibroTag, a robust and practical vibration based sensing scheme that works with smartphones with different hardware, can extract fine-grained vibration signatures of different surfaces, and is robust to environmental noise and hardware based irregularities. We implemented VibroTag on two different Android phones and evaluated in multiple different environments where we collected data from 4 individuals for 5 to 20 consecutive days. Our results show that VibroTag achieves an average accuracy of 86.55% while recognizing 24 different locations/surfaces, even when some of those surfaces were made of similar material. VibroTag's accuracy is 37% higher than the average accuracy of 49.25% achieved by one of the state-of-the-art IMUs based schemes, which we implemented for comparison with VibroTag.
翻訳日:2022-11-12 13:50:52 公開日:2020-08-27
# segfix: セグメンテーションのためのモデル非依存境界修正

SegFix: Model-Agnostic Boundary Refinement for Segmentation ( http://arxiv.org/abs/2007.04269v4 )

ライセンス: Link先を確認
Yuhui Yuan, Jingyi Xie, Xilin Chen, Jingdong Wang(参考訳) 既存のセグメンテーションモデルによって生成されるセグメンテーション結果の境界品質を改善するためのモデルに依存しない後処理方式を提案する。 内部画素のラベル予測がより信頼性が高いという経験的観測に動機づけられ,当初信頼できない境界画素の予測を内部画素の予測に置き換える提案を行う。 我々のアプローチは入力画像のみを2ステップで処理する。 (i)境界画素をローカライズして (ii)各境界画素の対応する内部画素を特定する。 我々は、境界画素から内部画素への方向を学習して対応を構築する。 本手法はセグメンテーションモデルの事前情報を必要とせず,ほぼリアルタイムの速度を実現する。 私たちのSegFixは、Cityscapes, ADE20K, GTA5の様々な最先端モデルから生成されるセグメンテーション結果の境界誤差を一貫して低減します。 コードはhttps://github.com/openseg-group/openseg.pytorchで入手できる。

We present a model-agnostic post-processing scheme to improve the boundary quality for the segmentation result that is generated by any existing segmentation model. Motivated by the empirical observation that the label predictions of interior pixels are more reliable, we propose to replace the originally unreliable predictions of boundary pixels by the predictions of interior pixels. Our approach processes only the input image through two steps: (i) localize the boundary pixels and (ii) identify the corresponding interior pixel for each boundary pixel. We build the correspondence by learning a direction away from the boundary pixel to an interior pixel. Our method requires no prior information of the segmentation models and achieves nearly real-time speed. We empirically verify that our SegFix consistently reduces the boundary errors for segmentation results generated from various state-of-the-art models on Cityscapes, ADE20K and GTA5. Code is available at: https://github.com/openseg-group/openseg.pytorch.
翻訳日:2022-11-12 13:23:27 公開日:2020-08-27
# 不規則な穴を有する衣服画像の塗り込み基準

A Benchmark for Inpainting of Clothing Images with Irregular Holes ( http://arxiv.org/abs/2007.05080v3 )

ライセンス: Link先を確認
Furkan K{\i}nl{\i}, Bar{\i}\c{s} \"Ozcan, Furkan K{\i}ra\c{c}(参考訳) ファッションイメージ理解は、業界に多くの実用的な応用を持つ活発な研究分野である。 インテリジェンス・ファッション・アナリティクス・システムへの実践的な影響にもかかわらず、衣料品画像のインペインティングはまだ広く検討されていない。 そこで本研究では,ファッションデータセットに基づく衣料品イメージの広範なベンチマークを示す。 さらに,マスク更新手順を効率的に導出する部分畳み込みの拡張版を導入し,提案手法により必要なレイヤ数を削減し,完全透明マスクを形成することを実証的に示す。 実験の結果、拡張部分畳み込み(DPConv)は、他の塗布方法と比較して定量的塗布性能が向上し、特にマスクサイズが20%以上であれば、良好な性能を発揮することが示された。 \keywords{image inpainting, fashion image understanding, dilated convolutions, partial convolutions

Fashion image understanding is an active research field with a large number of practical applications for the industry. Despite its practical impacts on intelligent fashion analysis systems, clothing image inpainting has not been extensively examined yet. For that matter, we present an extensive benchmark of clothing image inpainting on well-known fashion datasets. Furthermore, we introduce the use of a dilated version of partial convolutions, which efficiently derive the mask update step, and empirically show that the proposed method reduces the required number of layers to form fully-transparent masks. Experiments show that dilated partial convolutions (DPConv) improve the quantitative inpainting performance when compared to the other inpainting strategies, especially it performs better when the mask size is 20% or more of the image. \keywords{image inpainting, fashion image understanding, dilated convolutions, partial convolutions
翻訳日:2022-11-12 04:51:01 公開日:2020-08-27
# AUTO3D:未学習変分視点とグローバル3次元表現による新しい視点合成

AUTO3D: Novel view synthesis through unsupervisely learned variational viewpoint and global 3D representation ( http://arxiv.org/abs/2007.06620v2 )

ライセンス: Link先を確認
Xiaofeng Liu, Tong Che, Yiqun Lu, Chao Yang, Site Li, Jane You(参考訳) 本稿では,ポーズ・インスペクションを伴わない単一の2次元画像から学習に基づく新規ビュー・シンセサイザーを目標とする。 ビューア中心座標では、学習されていない相対的目的/回転と暗黙的なグローバルな3次元表現(形状、テクスチャ、ビューア中心座標の起源など)をアンハングリングするために、エンドツーエンドのトレーニング可能な条件変動フレームワークを構築する。 3dオブジェクトの全体像は、様々な視点から撮影された複数の外観記述画像によって与えられる。 空間相関モジュールは、出現記述画像から順列不変な方法で大域的な3次元表現を抽出する。 本システムでは,3次元再構築を行うことなく,暗黙的に3次元理解を行うことができる。 学習されていないビューア中心の相対配置/回転符号を用いて、デコーダは、前の分布で相対配置をサンプリングすることにより、新規ビューを連続的に幻覚することができる。 様々なアプリケーションにおいて,我々のモデルは,任意の入力ビューを持つ3次元モデル教師あり学習に基づく新規ビュー合成(NVS)手法と同等あるいはそれ以上の結果が得られることを示す。

This paper targets on learning-based novel view synthesis from a single or limited 2D images without the pose supervision. In the viewer-centered coordinates, we construct an end-to-end trainable conditional variational framework to disentangle the unsupervisely learned relative-pose/rotation and implicit global 3D representation (shape, texture and the origin of viewer-centered coordinates, etc.). The global appearance of the 3D object is given by several appearance-describing images taken from any number of viewpoints. Our spatial correlation module extracts a global 3D representation from the appearance-describing images in a permutation invariant manner. Our system can achieve implicitly 3D understanding without explicitly 3D reconstruction. With an unsupervisely learned viewer-centered relative-pose/rotation code, the decoder can hallucinate the novel view continuously by sampling the relative-pose in a prior distribution. In various applications, we demonstrate that our model can achieve comparable or even better results than pose/3D model-supervised learning-based novel view synthesis (NVS) methods with any number of input views.
翻訳日:2022-11-10 23:23:05 公開日:2020-08-27
# ニューラルネットワークのグラフ構造

Graph Structure of Neural Networks ( http://arxiv.org/abs/2007.06559v2 )

ライセンス: Link先を確認
Jiaxuan You, Jure Leskovec, Kaiming He, Saining Xie(参考訳) ニューラルネットワークは、しばしばニューロン間の接続のグラフとして表現される。 しかし、広く使われているにもかかわらず、現在、ニューラルネットワークのグラフ構造と予測性能の関係についてはほとんど理解されていない。 本稿では,ニューラルネットワークのグラフ構造が予測性能に与える影響を系統的に検討する。 この目的のために、ニューラルネットワークの計算層がグラフ構造に沿ったメッセージ交換のラウンドに対応する関係グラフと呼ばれる、新しいグラフベースのニューラルネットワーク表現を開発する。 Using this representation we show that: (1) a "sweet spot" of relational graphs leads to neural networks with significantly improved predictive performance; (2) neural network's performance is approximately a smooth function of the clustering coefficient and average path length of its relational graph; (3) our findings are consistent across many different tasks and datasets; (4) the sweet spot can be identified efficiently; (5) top-performing neural networks have graph structure surprisingly similar to those of real biological neural networks. 我々の研究は、ニューラルネットワークの設計と一般にニューラルネットワークを理解するための新しい方向性を開く。

Neural networks are often represented as graphs of connections between neurons. However, despite their wide use, there is currently little understanding of the relationship between the graph structure of the neural network and its predictive performance. Here we systematically investigate how does the graph structure of neural networks affect their predictive performance. To this end, we develop a novel graph-based representation of neural networks called relational graph, where layers of neural network computation correspond to rounds of message exchange along the graph structure. Using this representation we show that: (1) a "sweet spot" of relational graphs leads to neural networks with significantly improved predictive performance; (2) neural network's performance is approximately a smooth function of the clustering coefficient and average path length of its relational graph; (3) our findings are consistent across many different tasks and datasets; (4) the sweet spot can be identified efficiently; (5) top-performing neural networks have graph structure surprisingly similar to those of real biological neural networks. Our work opens new directions for the design of neural architectures and the understanding on neural networks in general.
翻訳日:2022-11-10 22:39:19 公開日:2020-08-27
# 2段階分類とデータ拡張に基づくデバイスロバスト音響シーン分類

Device-Robust Acoustic Scene Classification Based on Two-Stage Categorization and Data Augmentation ( http://arxiv.org/abs/2007.08389v2 )

ライセンス: Link先を確認
Hu Hu, Chao-Han Huck Yang, Xianjun Xia, Xue Bai, Xin Tang, Yajian Wang, Shutong Niu, Li Chai, Juanjuan Li, Hongning Zhu, Feng Bao, Yuanjun Zhao, Sabato Marco Siniscalchi, Yannan Wang, Jun Du, Chin-Hui Lee(参考訳) 本報告では,gt,ustc,tencent,ukeの4つのグループによる,dcase 2020チャレンジにおけるタスク1 - 音響シーン分類(asc)に取り組むための共同作業について述べる。 タスク1は2つの異なるサブタスクから構成される。 (i)タスク1aは、複数の(実・模擬)デバイスで記録された音声信号のASCを10種類のきめ細かいクラスに焦点を合わせ、 (II)タスク1bは、低複雑さ解を用いた3つの上位クラスに分類する。 タスク1aでは,2つの畳み込みニューラルネットワーク(CNN)のアドホックスコアの組み合わせを利用して,音響入力を3つのクラス,次に10つのクラスに分類する新しい2段階ASCシステムを提案する。 4つの異なるCNNアーキテクチャを2段階分類器の実装に適用し,データ拡張手法についても検討した。 タスク1bでは、量子化手法を利用して、上位3クラスCNNアーキテクチャの2つの複雑さを低減します。 タスク1aの開発データセットでは、最高の単一分類器とデータ拡張を用いて、ASCの精度76.9\%を達成する。 81.9\%の精度は、2段階のASC分類器の最終モデル融合によって達成される。 Task 1bの開発データセットでは,500KB以下のモデルサイズで96.7\%の精度を実現する。 コードはhttps://github.com/mihawkhu/dcase2020_task1。

In this technical report, we present a joint effort of four groups, namely GT, USTC, Tencent, and UKE, to tackle Task 1 - Acoustic Scene Classification (ASC) in the DCASE 2020 Challenge. Task 1 comprises two different sub-tasks: (i) Task 1a focuses on ASC of audio signals recorded with multiple (real and simulated) devices into ten different fine-grained classes, and (ii) Task 1b concerns with classification of data into three higher-level classes using low-complexity solutions. For Task 1a, we propose a novel two-stage ASC system leveraging upon ad-hoc score combination of two convolutional neural networks (CNNs), classifying the acoustic input according to three classes, and then ten classes, respectively. Four different CNN-based architectures are explored to implement the two-stage classifiers, and several data augmentation techniques are also investigated. For Task 1b, we leverage upon a quantization method to reduce the complexity of two of our top-accuracy three-classes CNN-based architectures. On Task 1a development data set, an ASC accuracy of 76.9\% is attained using our best single classifier and data augmentation. An accuracy of 81.9\% is then attained by a final model fusion of our two-stage ASC classifiers. On Task 1b development data set, we achieve an accuracy of 96.7\% with a model size smaller than 500KB. Code is available: https://github.com/MihawkHu/DCASE2020_task1.
翻訳日:2022-11-10 00:17:09 公開日:2020-08-27
# 自己決定グラフ畳み込みネットワークによる関係抽出

Relation Extraction with Self-determined Graph Convolutional Network ( http://arxiv.org/abs/2008.00441v2 )

ライセンス: Link先を確認
Sunil Kumar Sahu, Derek Thomas, Billy Chiu, Neha Sengupta, Mohammady Mahdy(参考訳) 関係抽出は、テキスト内のエンティティ間の意味的関係を得る方法である。 最先端の手法では言語ツールを使用して、エンティティが現れるテキスト用のグラフを構築し、事前に構築されたグラフをエンコードするためにグラフ畳み込みネットワーク(GCN)が使用される。 彼らのパフォーマンスは有望だが、言語ツールへの依存はエンドツーエンドのプロセスに繋がる。 本研究では,言語ツールではなく自己認識機構を用いて重み付きグラフを決定する,自己決定型グラフ畳み込みネットワーク(SGCN)を提案する。 次に、自己決定グラフをGCNを用いて符号化する。 我々は、TACREDデータセット上でモデルをテストし、最先端の結果を達成する。 実験の結果,SGCNは依存性解析ツールを用いてグラフを構築する従来のGCNよりも優れていた。

Relation Extraction is a way of obtaining the semantic relationship between entities in text. The state-of-the-art methods use linguistic tools to build a graph for the text in which the entities appear and then a Graph Convolutional Network (GCN) is employed to encode the pre-built graphs. Although their performance is promising, the reliance on linguistic tools results in a non end-to-end process. In this work, we propose a novel model, the Self-determined Graph Convolutional Network (SGCN), which determines a weighted graph using a self-attention mechanism, rather using any linguistic tool. Then, the self-determined graph is encoded using a GCN. We test our model on the TACRED dataset and achieve the state-of-the-art result. Our experiments show that SGCN outperforms the traditional GCN, which uses dependency parsing tools to build the graph.
翻訳日:2022-11-03 19:37:13 公開日:2020-08-27
# フレーム間一貫性セマンティックセグメンテーション

Frame-To-Frame Consistent Semantic Segmentation ( http://arxiv.org/abs/2008.00948v3 )

ライセンス: Link先を確認
Manuel Rebol, Patrick Kn\"obelreiter(参考訳) 本研究では,ビデオ中のフレーム全体にわたって時間的に一貫したセマンティックセマンティックセグメンテーションを実現することを目的とする。 多くのセマンティックセグメンテーションアルゴリズムは個別に画像を処理するが、これは照明の変化、閉塞、その他の変化による矛盾したシーン解釈につながる。 時間的に一貫した予測を実現するために,コンボリューショナル長期記憶(ConvLSTM)セルを用いて,連続するフレームを通して特徴を伝播する畳み込みニューラルネットワーク(CNN)を訓練する。 時間的特徴伝搬に加えて、損失関数の不整合を罰する。 実験では,単一フレームの予測よりも映像情報を利用する場合の性能が向上することを示した。 Cityscapesの検証セットにおける平均交叉距離(mIoU)は、単一のフレームで45.2%から、ESPNetで特徴を伝達するためにConvLSTMを実装した後、57.9%に増加する。 最も重要なことは、矛盾は4.5%から1.3%に減少し、71.1%に減少する。 その結果,時間情報の追加は,単一フレーム処理と比較して,フレーム間一貫性とより正確な画像理解を実現することが示唆された。 コードとビデオはhttps://github.com/mrebol/f2f- consistent-semantic-segmentationで入手できる。

In this work, we aim for temporally consistent semantic segmentation throughout frames in a video. Many semantic segmentation algorithms process images individually which leads to an inconsistent scene interpretation due to illumination changes, occlusions and other variations over time. To achieve a temporally consistent prediction, we train a convolutional neural network (CNN) which propagates features through consecutive frames in a video using a convolutional long short term memory (ConvLSTM) cell. Besides the temporal feature propagation, we penalize inconsistencies in our loss function. We show in our experiments that the performance improves when utilizing video information compared to single frame prediction. The mean intersection over union (mIoU) metric on the Cityscapes validation set increases from 45.2 % for the single frames to 57.9 % for video data after implementing the ConvLSTM to propagate features trough time on the ESPNet. Most importantly, inconsistency decreases from 4.5 % to 1.3 % which is a reduction by 71.1 %. Our results indicate that the added temporal information produces a frame-to-frame consistent and more accurate image understanding compared to single frame processing. Code and videos are available at https://github.com/mrebol/f2f-consistent-semantic-segmentation
翻訳日:2022-11-03 05:56:10 公開日:2020-08-27
# 映像における時間的注意特徴の有効活用

Exploiting Temporal Attention Features for Effective Denoising in Videos ( http://arxiv.org/abs/2008.02344v2 )

ライセンス: Link先を確認
Aryansh Omray and Samyak Jain and Utsav Krishnan and Pratik Chattopadhyay(参考訳) ビデオデノイジングは、あらゆるビデオ処理パイプラインの基本的なタスクの1つです。 これは、ビデオフレームの時間的ポーラルな側面による画像デノージングと異なり、ビデオに適用された画像デノージングアプローチは、フリック化をもたらす。 提案手法は,ビデオフレームの時間的および空間的次元を2段階パイプラインの一部として利用する。 spatio-temporalnetwork と呼ばれるアーキテクチャの各ステージは、エンコーダサインをデコーダ側に転送するためにチャネル毎の注意機構を使用する。 本論文で使用される注意ブロックは、より優れた訓練のためにフィルタのランク付けにソフトアテンションを使用する。

Video Denoising is one of the fundamental tasks of any videoprocessing pipeline. It is different from image denoising due to the tem-poral aspects of video frames, and any image denoising approach appliedto videos will result in flickering. The proposed method makes use oftemporal as well as spatial dimensions of video frames as part of a two-stage pipeline. Each stage in the architecture named as Spatio-TemporalNetwork uses a channel-wise attention mechanism to forward the encodersignal to the decoder side. The Attention Block used in this paper usessoft attention to ranks the filters for better training.
翻訳日:2022-11-02 18:48:21 公開日:2020-08-27
# コントラスト学習による深いロバストクラスタリング

Deep Robust Clustering by Contrastive Learning ( http://arxiv.org/abs/2008.03030v2 )

ライセンス: Link先を確認
Huasong Zhong, Chong Chen, Zhongming Jin, Xian-Sheng Hua(参考訳) 近年,クラスタリング学習のための教師なし深層学習法が数多く提案されている。 データ拡張を導入することで、ほとんどの最新手法は、元のイメージとその変換が同様のセマンティッククラスタリングの割り当てを共有するべきだという観点から、ディープクラスタリングに注目している。 しかし、Softmax関数は最大値にのみ敏感であるため、同じクラスタに割り当てられたとしても、表現機能はかなり異なる可能性がある。 これにより、表現特徴空間のクラス内における高いばらつきが生じ、不安定な局所最適となり、クラスタリング性能が損なわれる。 この欠点に対処するため、我々はDeep Robust Clustering (DRC)を提案した。 従来の手法と異なり、DRCはセマンティッククラスタリングの割り当てと表現機能という2つの視点からディープクラスタリングを検討しており、クラス間の多様性を増大させ、クラス内の多様性を同時に減少させることができる。 さらに, 相互情報とコントラスト学習の関係を考察することにより, 相互情報の最大化を最小化できる汎用的な枠組みをまとめた。 そして、DRCにそれをうまく適用して、不変機能やロバストクラスタを学びました。 広く採用されている6つのディープクラスタリングベンチマークの大規模な実験は、安定性と精度の両方においてDRCの優位性を示している。 例えば、cifar-10の平均精度は71.6%に達し、最新結果よりも7.1%高い。

Recently, many unsupervised deep learning methods have been proposed to learn clustering with unlabelled data. By introducing data augmentation, most of the latest methods look into deep clustering from the perspective that the original image and its transformation should share similar semantic clustering assignment. However, the representation features could be quite different even they are assigned to the same cluster since softmax function is only sensitive to the maximum value. This may result in high intra-class diversities in the representation feature space, which will lead to unstable local optimal and thus harm the clustering performance. To address this drawback, we proposed Deep Robust Clustering (DRC). Different from existing methods, DRC looks into deep clustering from two perspectives of both semantic clustering assignment and representation feature, which can increase inter-class diversities and decrease intra-class diversities simultaneously. Furthermore, we summarized a general framework that can turn any maximizing mutual information into minimizing contrastive loss by investigating the internal relationship between mutual information and contrastive learning. And we successfully applied it in DRC to learn invariant features and robust clusters. Extensive experiments on six widely-adopted deep clustering benchmarks demonstrate the superiority of DRC in both stability and accuracy. e.g., attaining 71.6% mean accuracy on CIFAR-10, which is 7.1% higher than state-of-the-art results.
翻訳日:2022-11-02 01:29:29 公開日:2020-08-27
# ココナッツツリー画像分類のためのユーザ描画画像マーカーからのCNNフィルタの学習

Learning CNN filters from user-drawn image markers for coconut-tree image classification ( http://arxiv.org/abs/2008.03549v2 )

ライセンス: Link先を確認
Italos Estilon de Souza and Alexandre Xavier Falc\~ao(参考訳) 自然災害の土地利用分類,プランテーションモニタリング,影響評価には,空中画像中の木種同定が不可欠である。 航空画像における木々の手動識別は退屈で費用がかかりやすいため、自動的な分類が必要となる。 畳み込みニューラルネットワーク(cnn)モデルは、異なる領域からの画像分類応用に成功している。 しかし、cnnモデルは通常、大規模なトレーニングセットを作成するために集中的な手動アノテーションを必要とする。 概念的には、cnnを特徴抽出のための畳み込み層と、特徴空間の縮小と分類のための完全連結層に分割することができる。 本稿では,CNNの機能抽出器を訓練するために,最小限のユーザ選択画像を必要とする手法を提案する。 クラスを識別する画像領域のユーザ描画マーカーから,各畳み込み層のフィルタを学習し,より優れたユーザ制御とトレーニングプロセスの理解を可能にする。 バックプロパゲーションに基づく最適化には依存せず、最も人気のあるcnnモデルのひとつに対して、ココナッツの木空撮画像のバイナリ分類においてその利点を実証する。

Identifying species of trees in aerial images is essential for land-use classification, plantation monitoring, and impact assessment of natural disasters. The manual identification of trees in aerial images is tedious, costly, and error-prone, so automatic classification methods are necessary. Convolutional Neural Network (CNN) models have well succeeded in image classification applications from different domains. However, CNN models usually require intensive manual annotation to create large training sets. One may conceptually divide a CNN into convolutional layers for feature extraction and fully connected layers for feature space reduction and classification. We present a method that needs a minimal set of user-selected images to train the CNN's feature extractor, reducing the number of required images to train the fully connected layers. The method learns the filters of each convolutional layer from user-drawn markers in image regions that discriminate classes, allowing better user control and understanding of the training process. It does not rely on optimization based on backpropagation, and we demonstrate its advantages on the binary classification of coconut-tree aerial images against one of the most popular CNN models.
翻訳日:2022-11-01 11:38:53 公開日:2020-08-27
# 微分プライベート最適化のための確率的適応線探索

Stochastic Adaptive Line Search for Differentially Private Optimization ( http://arxiv.org/abs/2008.07978v2 )

ライセンス: Link先を確認
Chen Chen, Jaewoo Lee(参考訳) プライベート勾配に基づく最適化アルゴリズムの性能は、しばしば非自明なチューニングを必要とするステップサイズ(または学習率)の選択に大きく依存する。 本稿では,R'enyi差分プライバシーを満たす古典的バックトラックライン探索アルゴリズムの確率的変種を紹介する。 具体的には、雑音勾配と関数推定を用いて、Armijo条件(高い確率で)を満たすステップサイズを適応的に選択する。 さらに、選択したステップサイズが条件を満たす確率を改善するため、ノイズ勾配の信頼性に応じて、実行時に設定毎のプライバシー予算を調整する。 バックトラッキング探索アルゴリズムのナイーブな実装は、追加機能評価のコストで適応的なステップサイズ選択の能力が得られるため、容認できないほど大きなプライバシー予算を使用する可能性がある。 提案アルゴリズムは,近年のプライバシ増幅補題と組み合わせたスパースベクトル法を用いてこの問題を回避する。 また,連続的な勾配で示される方向が著しく異なることを検出すると,アルゴリズムが予算を適応的に増加させるプライバシー予算適応戦略を導入する。 凸問題と非凸問題の両方に関する広範な実験により、適応的に選択されたステップサイズにより、提案アルゴリズムは、プライバシ予算を効率的に利用し、既存のプライベートオプティマイザとの競合性能を示すことができる。

The performance of private gradient-based optimization algorithms is highly dependent on the choice of step size (or learning rate) which often requires non-trivial amount of tuning. In this paper, we introduce a stochastic variant of classic backtracking line search algorithm that satisfies R\'enyi differential privacy. Specifically, the proposed algorithm adaptively chooses the step size satsisfying the the Armijo condition (with high probability) using noisy gradients and function estimates. Furthermore, to improve the probability with which the chosen step size satisfies the condition, it adjusts per-iteration privacy budget during runtime according to the reliability of noisy gradient. A naive implementation of the backtracking search algorithm may end up using unacceptably large privacy budget as the ability of adaptive step size selection comes at the cost of extra function evaluations. The proposed algorithm avoids this problem by using the sparse vector technique combined with the recent privacy amplification lemma. We also introduce a privacy budget adaptation strategy in which the algorithm adaptively increases the budget when it detects that directions pointed by consecutive gradients are drastically different. Extensive experiments on both convex and non-convex problems show that the adaptively chosen step sizes allow the proposed algorithm to efficiently use the privacy budget and show competitive performance against existing private optimizers.
翻訳日:2022-10-27 20:55:19 公開日:2020-08-27
# 空間埋め込み最適化による軽量車線検出に向けて

Towards Lightweight Lane Detection by Optimizing Spatial Embedding ( http://arxiv.org/abs/2008.08311v2 )

ライセンス: Link先を確認
Seokwoo Jung, Sungha Choi, Mohammad Azam Khan, Jaegul Choo(参考訳) 多くのレーン検出手法は、フレキシブルなオブジェクト形状、オクルージョン、リアルタイムアプリケーションへの適応性のため、提案なしのインスタンスセグメンテーションに依存する。 本稿では,提案しないインスタンスセグメンテーションに基づくレーン検出における画素埋め込みの最適化が難しい問題に対処する。 コンボリューションの変換不変性は、想定される強みの1つであり、ピクセル埋め込みを最適化する際の課題を引き起こす。 本研究では,画像座標を用いた画素の空間埋め込みを直接最適化する,提案不要なインスタンスセグメンテーションに基づくレーン検出手法を提案する。 提案手法では,中央局在化のための後処理ステップを可能とし,エンドツーエンドでクラスタリングを最適化する。 提案手法は,後処理の簡易化と軽量バックボーンの導入により,リアルタイムレーン検出を可能にする。 提案手法は,パブリックレーン検出データセットにおける競合性能を示す。

A number of lane detection methods depend on a proposal-free instance segmentation because of its adaptability to flexible object shape, occlusion, and real-time application. This paper addresses the problem that pixel embedding in proposal-free instance segmentation based lane detection is difficult to optimize. A translation invariance of convolution, which is one of the supposed strengths, causes challenges in optimizing pixel embedding. In this work, we propose a lane detection method based on proposal-free instance segmentation, directly optimizing spatial embedding of pixels using image coordinate. Our proposed method allows the post-processing step for center localization and optimizes clustering in an end-to-end manner. The proposed method enables real-time lane detection through the simplicity of post-processing and the adoption of a lightweight backbone. Our proposed method demonstrates competitive performance on public lane detection datasets.
翻訳日:2022-10-27 12:00:24 公開日:2020-08-27
# カルナウマッピングに基づく2レベルブール最小化へのヒューリスティックアプローチ

A Heuristic Approach to Two Level Boolean Minimization Derived from Karnaugh Mapping ( http://arxiv.org/abs/2008.09307v3 )

ライセンス: Link先を確認
Ethan L. Childerhose, Jingzhou Liu(参考訳) 本稿では, 生産総和のブール表現を, 冗長かつ選択的主成分の除去に焦点を絞って単純化するヒューリスティックな手法を提案する。 カルナフ写像やクワイン・マクルーキー法[1, 2]のような既存の手法では、リテラルの量が増加するにつれて複雑さが指数関数的に増加するため、解がアルゴリズム的に得られるようにスケールできない。 ヒューリスティックモデルを用いることで、ほぼすべての式を計算複雑性の全体的な低減で単純化することができる。 この新しい手法は、ブール法の基本法則、カルノー写像、および真理表から派生した。

The following paper presents a heuristic method by which sum-of-product Boolean expressions can be simplified with a specific focus on the removal of redundant and selective prime implicants. Existing methods, such as the Karnaugh map and the Quine-McCluskey method [1, 2], fail to scale since they increase exponentially in complexity as the quantity of literals increases, doing as such to ensure the solution is algorithmically obtained. By employing a heuristic model, nearly all expressions can be simplified at an overall reduction in computational complexity. This new method was derived from the fundamental Boolean laws, Karnaugh mapping, as well as truth tables.
翻訳日:2022-10-26 22:23:14 公開日:2020-08-27
# EfficientFCN: セマンティックセグメンテーションのためのホログラフィック誘導デコーディング

EfficientFCN: Holistically-guided Decoding for Semantic Segmentation ( http://arxiv.org/abs/2008.10487v2 )

ライセンス: Link先を確認
Jianbo Liu, Junjun He, Jiawei Zhang, Jimmy S. Ren, Hongsheng Li(参考訳) セマンティックセグメンテーションには性能と効率が重要である。 最先端セマンティックセグメンテーションアルゴリズムは主に拡張されたFully Convolutional Networks (dilatedFCN) に基づいており、背骨ネットワークに拡張畳み込みを適用して高性能セグメンテーション性能を実現するための高解像度特徴マップを抽出する。 しかし、高分解能特徴写像上で多くの畳み込み演算を行うため、そのような拡張FCN法は計算複雑性とメモリ消費を増大させる。 性能と効率のバランスをとるために、エンコーダから多層特徴写像を組み合わせることで空間情報を徐々に復元するエンコーダ・デコーダ構造が存在する。 しかし、既存のエンコーダデコーダ法の性能は、拡張FCN法に匹敵するものではない。 本稿では,拡張畳み込みのないイメージネット事前学習ネットワークをバックボーンとする,効率的なFCNを提案する。 階層型デコーダを導入し、エンコーダからマルチスケール機能を介して高分解能なセマンティクスリッチな特徴マップを得る。 復号化タスクは新しいコードブック生成とコードワードアセンブリタスクに変換され、エンコーダから高レベルかつ低レベルの機能を利用する。 このようなフレームワークは、計算コストの1/3しかかからず、最先端のメソッドと同等あるいはそれ以上のパフォーマンスを実現している。 PASCAL Context, PASCAL VOC, ADE20Kの広範囲にわたる実験により, 提案した有効FCNの有効性が検証された。

Both performance and efficiency are important to semantic segmentation. State-of-the-art semantic segmentation algorithms are mostly based on dilated Fully Convolutional Networks (dilatedFCN), which adopt dilated convolutions in the backbone networks to extract high-resolution feature maps for achieving high-performance segmentation performance. However, due to many convolution operations are conducted on the high-resolution feature maps, such dilatedFCN-based methods result in large computational complexity and memory consumption. To balance the performance and efficiency, there also exist encoder-decoder structures that gradually recover the spatial information by combining multi-level feature maps from the encoder. However, the performances of existing encoder-decoder methods are far from comparable with the dilatedFCN-based methods. In this paper, we propose the EfficientFCN, whose backbone is a common ImageNet pre-trained network without any dilated convolution. A holistically-guided decoder is introduced to obtain the high-resolution semantic-rich feature maps via the multi-scale features from the encoder. The decoding task is converted to novel codebook generation and codeword assembly task, which takes advantages of the high-level and low-level features from the encoder. Such a framework achieves comparable or even better performance than state-of-the-art methods with only 1/3 of the computational cost. Extensive experiments on PASCAL Context, PASCAL VOC, ADE20K validate the effectiveness of the proposed EfficientFCN.
翻訳日:2022-10-25 12:08:36 公開日:2020-08-27
# Inno at SemEval-2020 Task 11: Leveraging Pure Transformer for Multi-class Propaganda Detection

Inno at SemEval-2020 Task 11: Leveraging Pure Transformer for Multi-Class Propaganda Detection ( http://arxiv.org/abs/2008.11584v2 )

ライセンス: Link先を確認
Dmitry Grigorev, Vladimir Ivanov(参考訳) 本稿では,SEMEVAL 2020タスク11「ニュース記事におけるプロパガンダ技術の検出」に対するチーム"Inno"のソリューションを提案する。 第2サブタスクの目的は、ニュース記事データセットで与えられた18のプロパガンダ技法の1つに対応するテキストセグメントを分類することである。 我々は,プロパガンダ手法を識別する能力に最適化された学習スキームを用いた純粋トランスフォーマーモデルをテストした。 本モデルでは,検証セットの0.6点,テストセットの0.58点,両セットの0点F1点を示した。

The paper presents the solution of team "Inno" to a SEMEVAL 2020 task 11 "Detection of propaganda techniques in news articles". The goal of the second subtask is to classify textual segments that correspond to one of the 18 given propaganda techniques in news articles dataset. We tested a pure Transformer-based model with an optimized learning scheme on the ability to distinguish propaganda techniques between each other. Our model showed 0.6 and 0.58 overall F1 score on validation set and test set accordingly and non-zero F1 score on each class on both sets.
翻訳日:2022-10-24 21:27:29 公開日:2020-08-27
# 胸部X線画像の高速分類のための無料ウェブサービス

A free web service for fast COVID-19 classification of chest X-Ray images ( http://arxiv.org/abs/2009.01657v1 )

ライセンス: Link先を確認
Jose David Bermudez Castro, Ricardo Rei, Jose E. Ruiz, Pedro Achanccaray Diaz, Smith Arauco Canchumuni, Cristian Mu\~noz Villalobos, Felipe Borges Coelho, Leonardo Forero Mendoza, and Marco Aurelio C. Pacheco(参考訳) 新型コロナウイルスの感染拡大は世界社会にとって大きな関心事となった。 新型コロナウイルス(COVID-19)のパンデミックと戦うためには技術革新と創造性が不可欠だ。 世界中の研究者が、医療システム、薬剤師、健康予防など、さまざまな分野で利用可能な代替品を見つけるために積極的に取り組んでいる。 過去10年間の人工知能(AI)の台頭により、IAベースのアプリケーションは、その能力の高さから、さまざまな分野で一般的なソリューションになりつつある。 この研究は、深層学習(DL)技術に基づくX線画像におけるCOVID-19特性の高速検出システムを提供する。 このシステムは、高速患者分類のための無料のwebデプロイサービスとして利用可能であり、新型コロナウイルス診断の標準方法に対する高い需要を軽減している。 モバイルネットアーキテクチャに基づくX線画像と非X線画像を区別する2つのディープラーニングモデルと、DenseNetアーキテクチャに基づくCOVID-19の特徴を持つ胸部X線画像を識別する2つのモデルで構成されている。 リアルタイム推論には、計算時間を短縮する専用GPUのペアが提供される。 システム全体が非胸像のx線画像をフィルターし、そのx線がcovid-19の特徴を呈するかどうかを検知し、最も敏感な領域をハイライトする。

The coronavirus outbreak became a major concern for society worldwide. Technological innovation and ingenuity are essential to fight COVID-19 pandemic and bring us one step closer to overcome it. Researchers over the world are working actively to find available alternatives in different fields, such as the Healthcare System, pharmaceutic, health prevention, among others. With the rise of artificial intelligence (AI) in the last 10 years, IA-based applications have become the prevalent solution in different areas because of its higher capability, being now adopted to help combat against COVID-19. This work provides a fast detection system of COVID-19 characteristics in X-Ray images based on deep learning (DL) techniques. This system is available as a free web deployed service for fast patient classification, alleviating the high demand for standards method for COVID-19 diagnosis. It is constituted of two deep learning models, one to differentiate between X-Ray and non-X-Ray images based on Mobile-Net architecture, and another one to identify chest X-Ray images with characteristics of COVID-19 based on the DenseNet architecture. For real-time inference, it is provided a pair of dedicated GPUs, which reduce the computational time. The whole system can filter out non-chest X-Ray images, and detect whether the X-Ray presents characteristics of COVID-19, highlighting the most sensitive regions.
翻訳日:2022-10-24 08:47:31 公開日:2020-08-27
# モノのインターネット(IoT)デバイスの正確な識別のためのゼロバイアスディープラーニング

Zero-Bias Deep Learning for Accurate Identification of Internet of Things (IoT) Devices ( http://arxiv.org/abs/2009.02267v1 )

ライセンス: Link先を確認
Yongxin Liu, Jian Wang, Jianqiang Li, Houbing Song, Thomas Yang, Shuteng Niu, Zhong Ming(参考訳) IoT(Internet of Things)は、そうでなければ不可能なアプリケーションやサービスを提供します。 しかし、IoTのオープンな性質は、サイバーセキュリティの脅威に対して脆弱である。 特に、敵が既存の無線通信に受動的に耳を傾け、悪意ある行為を行うための正統な装置のアイデンティティを模倣するID偽造攻撃。 既存のソリューションでは、受信した情報の信頼性を検証するために暗号署名を使用している。 一般的なIoTでは、暗号化用の秘密鍵を開示し、検証メカニズムを無効にすることができる。 信頼できるIoTを保証するためには、非暗号化デバイス検証が必要である。 本稿では,物理層信号を用いたIoTデバイス識別のための拡張型ディープラーニングフレームワークを提案する。 具体的には、当社のフレームワークが見えないIoTデバイスを報告し、ゼロバイアス層をディープニューラルネットワークに導入することで、堅牢性と解釈性を高めます。 航空におけるIoTの応用であるADS-B(Automatic Dependent Surveillance-Broadcast)の実データを用いて,提案手法の有効性を評価した。 提案されたフレームワークは、さまざまなIoTアプリケーションやサービスにおけるIoTデバイスの正確な識別に適用される可能性がある。 コードとデータはIEEE Dataportで入手できる。

The Internet of Things (IoT) provides applications and services that would otherwise not be possible. However, the open nature of IoT make it vulnerable to cybersecurity threats. Especially, identity spoofing attacks, where an adversary passively listens to existing radio communications and then mimic the identity of legitimate devices to conduct malicious activities. Existing solutions employ cryptographic signatures to verify the trustworthiness of received information. In prevalent IoT, secret keys for cryptography can potentially be disclosed and disable the verification mechanism. Non-cryptographic device verification is needed to ensure trustworthy IoT. In this paper, we propose an enhanced deep learning framework for IoT device identification using physical layer signals. Specifically, we enable our framework to report unseen IoT devices and introduce the zero-bias layer to deep neural networks to increase robustness and interpretability. We have evaluated the effectiveness of the proposed framework using real data from ADS-B (Automatic Dependent Surveillance-Broadcast), an application of IoT in aviation. The proposed framework has the potential to be applied to accurate identification of IoT devices in a variety of IoT applications and services. Codes and data are available in IEEE Dataport.
翻訳日:2022-10-24 08:47:08 公開日:2020-08-27
# ニューラルネットワークを用いたマイクロレンズイベントの同定

Identifying microlensing events using neural networks ( http://arxiv.org/abs/2008.11930v1 )

ライセンス: Link先を確認
Przemek Mroz(参考訳) 現在の重力マイクロレンズ調査では、銀河団内の数億個の恒星が観測されている。 これまでのほとんどの研究では、非常に厳密な選択カットを適用したり、数万の光曲線を手動で検査することで、マイクロレンズ現象が検出されている。 しかし、将来宇宙でのマイクロレンズ実験で期待されるマイクロレンズ現象の数は、完全に自動化されたアプローチを考慮せざるを得ない。 それらは、しばしば複雑な光曲線形態を示し、それ以外は見つからない二重レンズ事象を選択するのに特に重要である。 文献にバイナリレンスイベントのための専用の選択アルゴリズムは存在せず、統計的研究を妨げている。 本稿では、単一およびバイナリマイクロレンズイベントを検出するための2つの単純なニューラルネットワークベースの分類器を提案する。 我々は,OGLE-IIIおよびOGLE-IVデータセットを用いて,それらのロバスト性を実証し,ZTF(Zwicky Transient Facility)のデータから検出されたマイクロレンズイベントに対して良好な性能を示す。 分類器は、シングルレンズイベントの98%、バイナリレンズイベントの80-85%を正しく認識することができる。

Current gravitational microlensing surveys are observing hundreds of millions of stars in the Galactic bulge - which makes finding rare microlensing events a challenging tasks. In almost all previous works, microlensing events have been detected either by applying very strict selection cuts or manually inspecting tens of thousands of light curves. However, the number of microlensing events expected in the future space-based microlensing experiments forces us to consider fully-automated approaches. They are especially important for selecting binary-lens events that often exhibit complex light curve morphologies and are otherwise difficult to find. There are no dedicated selection algorithms for binary-lens events in the literature, which hampers their statistical studies. Here, we present two simple neural-network-based classifiers for detecting single and binary microlensing events. We demonstrate their robustness using OGLE-III and OGLE-IV data sets and show they perform well on microlensing events detected in data from the Zwicky Transient Facility (ZTF). Classifiers are able to correctly recognize ~98% of single-lens events and 80-85% of binary-lens events.
翻訳日:2022-10-24 08:46:31 公開日:2020-08-27
# ディグラフ信号表現のための有界領域上の適応方向ハールタイトフレームレット

Adaptive directional Haar tight framelets on bounded domains for digraph signal representations ( http://arxiv.org/abs/2008.11966v1 )

ライセンス: Link先を確認
Yuchen Xiao and Xiaosheng Zhuang(参考訳) 階層分割に基づき、任意のコンパクト集合 $k\subseteq \mathbb{r}^d$ 上のハール型タイトフレームレットの構成を提供する。 特に、単位ブロック $[0,1]^d$ では、そのようなタイトなフレームレットは適応性と方向性を持って構築することができる。 適応的方向haarタイトなフレームレットシステムは、ダイアグラム信号表現に使用できることを示す。 本論文の結果を説明するためにいくつかの例を挙げる。

Based on hierarchical partitions, we provide the construction of Haar-type tight framelets on any compact set $K\subseteq \mathbb{R}^d$. In particular, on the unit block $[0,1]^d$, such tight framelets can be built to be with adaptivity and directionality. We show that the adaptive directional Haar tight framelet systems can be used for digraph signal representations. Some examples are provided to illustrate results in this paper.
翻訳日:2022-10-24 08:46:13 公開日:2020-08-27
# 多項式最適化における基本問題の複雑性

Complexity Aspects of Fundamental Questions in Polynomial Optimization ( http://arxiv.org/abs/2008.12170v1 )

ライセンス: Link先を確認
Jeffrey Zhang(参考訳) 本論文では,多項式最適化における基本的な問題の計算複雑性を解消する。 これらの質問は (i)局所的な最小値を見つけること (ii)点の局所極小性をテストすること、及び (iii)最適値の達成を決定すること。 以上の結果から, 定義多項式のすべての次数に対するこれらの3つの質問の複雑さが, 先行文献によって解かれる。 周辺 (i)および (ii)、P=NPがなければ、局所最小値$n$-変数二次プログラムのユークリッド距離$c^n$(任意の定数$c$)内の点を見つける多項式時間アルゴリズムは存在しないことを示す。 対照的に、立方体多項式の局所最小値は半定値プログラミング(SDP)によって効率的に見つけることができる。 立方体多項式の2階点は、その臨界点がNPハードであるにもかかわらず、効率的な半定値表現を持つことを証明する。 また、立方体多項式の点の局所極小に対して、効率よく検証可能な必要十分条件を与える。 周辺 (iii) 有限最適値の2次制約付き二次プログラムが最適解を持つかどうかをテストすることはNPハードである。 また、目的関数の公約性、実現可能な集合のコンパクト性、および実現可能な集合の記述に関連するアルキメデス的性質がすべてNPハードであることを示す。 また,sdpsの階層化に寄与する強制多項式の新たなキャラクタリゼーションについても述べる。 最後の章では、ビマトリクスゲームにおける近似ナッシュ平衡を求めるためのSDP緩和について述べる。 対称ゲームの場合、この緩和のために任意のランク2解から$1/3$-Nash平衡を効率的に回収できることが示される。 また,nash平衡下で最高の達成可能福祉を求めることなど,nash平衡に関連するnp問題に対するsdp緩和も提案する。

In this thesis, we settle the computational complexity of some fundamental questions in polynomial optimization. These include the questions of (i) finding a local minimum, (ii) testing local minimality of a point, and (iii) deciding attainment of the optimal value. Our results characterize the complexity of these three questions for all degrees of the defining polynomials left open by prior literature. Regarding (i) and (ii), we show that unless P=NP, there cannot be a polynomial-time algorithm that finds a point within Euclidean distance $c^n$ (for any constant $c$) of a local minimum of an $n$-variate quadratic program. By contrast, we show that a local minimum of a cubic polynomial can be found efficiently by semidefinite programming (SDP). We prove that second-order points of cubic polynomials admit an efficient semidefinite representation, even though their critical points are NP-hard to find. We also give an efficiently-checkable necessary and sufficient condition for local minimality of a point for a cubic polynomial. Regarding (iii), we prove that testing whether a quadratically constrained quadratic program with a finite optimal value has an optimal solution is NP-hard. We also show that testing coercivity of the objective function, compactness of the feasible set, and the Archimedean property associated with the description of the feasible set are all NP-hard. We also give a new characterization of coercive polynomials that lends itself to a hierarchy of SDPs. In our final chapter, we present an SDP relaxation for finding approximate Nash equilibria in bimatrix games. We show that for a symmetric game, a $1/3$-Nash equilibrium can be efficiently recovered from any rank-2 solution to this relaxation. We also propose SDP relaxations for NP-hard problems related to Nash equilibria, such as that of finding the highest achievable welfare under any Nash equilibrium.
翻訳日:2022-10-24 08:45:53 公開日:2020-08-27
# ニューラルコード検索を再考 - 自然言語インテントによるコードスニペット検索の強化

Neural Code Search Revisited: Enhancing Code Snippet Retrieval through Natural Language Intent ( http://arxiv.org/abs/2008.12193v1 )

ライセンス: Link先を確認
Geert Heyman and Tom Van Cutsem(参考訳) そこで本研究では,自然言語クエリを用いたコードスニペット検索と,その意図を簡潔に記述したコードスニペットの検索を提案する。 3つのベンチマークデータセットにおいて,コードスニペットの意図をよりよく捉えるために記述を活用することで,コード検索システムを改善する方法について検討する。 翻訳学習と自然言語処理の最近の進歩に基づき,自然言語記述を付加したコードに対するドメイン固有検索モデルを構築した。 提案手法は,記述を使用せず,無意味なコードからのみスニペットの意図を計算しようとする,最先端のコード検索手法と比較して,より関連性の高い検索結果を得る(絶対的に20.6%まで上昇する)。

In this work, we propose and study annotated code search: the retrieval of code snippets paired with brief descriptions of their intent using natural language queries. On three benchmark datasets, we investigate how code retrieval systems can be improved by leveraging descriptions to better capture the intents of code snippets. Building on recent progress in transfer learning and natural language processing, we create a domain-specific retrieval model for code annotated with a natural language description. We find that our model yields significantly more relevant search results (with absolute gains up to 20.6% in mean reciprocal rank) compared to state-of-the-art code retrieval methods that do not use descriptions but attempt to compute the intent of snippets solely from unannotated code.
翻訳日:2022-10-24 08:45:23 公開日:2020-08-27
# 機械学習を用いた大規模ビデオコーパスの速度歪み最適化

Rate distortion optimization over large scale video corpus with machine learning ( http://arxiv.org/abs/2008.12408v1 )

ライセンス: Link先を確認
Sam John, Akshay Gadde and Balu Adsumilli(参考訳) 提案手法は, 平均ビットレートを最小化し, 平均および最小品質の制約を最小化することを目的とした, 大規模ビデオコーパス上のビットレート割り当ての効率的なコーデック非依存手法である。 提案手法では,同一クラスタ内の動画がr-d特性を持つようにコーパス内に動画を集積する。 ビデオのr-dクラスタを予測するために,計算が容易な簡単なビデオ複雑性機能を用いて,サポートベクターマシン分類器を訓練する。 このモデルでは,各クラスタ内のビデオ数の分布を推定するために,コーパスの大規模なサンプルを分類することができる。 この分布を用いて,各r-dクラスタの最適エンコーダ動作点を求める。 AV1エンコーダを用いた実験により,平均ビットレートを2,2\%以下でコーパス上で同じ平均品質が得られることがわかった。

We present an efficient codec-agnostic method for bitrate allocation over a large scale video corpus with the goal of minimizing the average bitrate subject to constraints on average and minimum quality. Our method clusters the videos in the corpus such that videos within one cluster have similar rate-distortion (R-D) characteristics. We train a support vector machine classifier to predict the R-D cluster of a video using simple video complexity features that are computationally easy to obtain. The model allows us to classify a large sample of the corpus in order to estimate the distribution of the number of videos in each of the clusters. We use this distribution to find the optimal encoder operating point for each R-D cluster. Experiments with AV1 encoder show that our method can achieve the same average quality over the corpus with $22\%$ less average bitrate.
翻訳日:2022-10-24 08:45:08 公開日:2020-08-27
# 動的モード分解を用いた小型物理認識遅延光電流モデルの学習

Learning Compact Physics-Aware Delayed Photocurrent Models Using Dynamic Mode Decomposition ( http://arxiv.org/abs/2008.12319v1 )

ライセンス: Link先を確認
Joshua Hanson, Pavel Bochev, Biliana Paskaleva(参考訳) 半導体デバイスにおける放射誘起光電流は、複雑な物理モデルを用いてシミュレートすることができる。 本稿では,複数の回路要素の詳細なモデルを計算的に評価できない高レベル回路シミュレーションにおいて,デバイス特性を実装するための課題を提案する。 本研究は,大規模回路シミュレーションで実装できるほど効率的だが基礎となる物理に忠実な,コンパクトな遅延光電流モデルの学習手順を示す。 本手法は, 特異値分解に基づく時系列データから低次離散時間力学系を学習するシステム識別手法である動的モード分解(DMD)を利用する。 物理認識デバイスモデルを得るために, 両極拡散方程式を数値的に解いて放射パルスによる余剰キャリア密度をシミュレーションし, シミュレーション内部状態をdmdアルゴリズムのトレーニングデータとして利用する。 以上の結果から,本手法により得られた遅延光電流モデルは,デバイス境界での誘導電流を計算できる内部余剰キャリア密度のダイナミクスを正確に近似し,回路シミュレーションに組み込むのに十分なコンパクトさを保った。

Radiation-induced photocurrent in semiconductor devices can be simulated using complex physics-based models, which are accurate, but computationally expensive. This presents a challenge for implementing device characteristics in high-level circuit simulations where it is computationally infeasible to evaluate detailed models for multiple individual circuit elements. In this work we demonstrate a procedure for learning compact delayed photocurrent models that are efficient enough to implement in large-scale circuit simulations, but remain faithful to the underlying physics. Our approach utilizes Dynamic Mode Decomposition (DMD), a system identification technique for learning reduced order discrete-time dynamical systems from time series data based on singular value decomposition. To obtain physics-aware device models, we simulate the excess carrier density induced by radiation pulses by solving numerically the Ambipolar Diffusion Equation, then use the simulated internal state as training data for the DMD algorithm. Our results show that the significantly reduced order delayed photocurrent models obtained via this method accurately approximate the dynamics of the internal excess carrier density -- which can be used to calculate the induced current at the device boundaries -- while remaining compact enough to incorporate into larger circuit simulations.
翻訳日:2022-10-24 08:39:06 公開日:2020-08-27
# OFFER:ネットワーク表現学習のためのモチーフ次元フレームワーク

OFFER: A Motif Dimensional Framework for Network Representation Learning ( http://arxiv.org/abs/2008.12010v1 )

ライセンス: Link先を確認
Shuo Yu, Feng Xia, Jin Xu, Zhikui Chen and Ivan Lee(参考訳) 本稿では,多変量関係をよりよく表現することを目指して,高次グラフ学習のためのモチーフ次元フレームワークについて検討する。 グラフ学習の有効性はOFFERによって改善できる。 提案フレームワークは主に高次グラフ学習の高速化と改善を目的としている。 ネットワークモチーフの次元から加速度法を適用する。 具体的には、ノードとエッジの洗練度を、(1)ネットワークの隣接行列を洗練させるためにノードのモチーフ度、(2)学習過程における遷移確率行列を洗練するためにエッジのモチーフ度を用いて2段階に分けて行う。 提案手法の効率性を評価するため、4つの一般的なネットワーク表現アルゴリズムを修正・検討した。 提案の性能を評価することにより、リンク予測結果とクラスタリング結果の両方が、拡張されたグラフ表現学習アルゴリズムが、元のアルゴリズムを高い効率で一貫して上回っていることを示す。

Aiming at better representing multivariate relationships, this paper investigates a motif dimensional framework for higher-order graph learning. The graph learning effectiveness can be improved through OFFER. The proposed framework mainly aims at accelerating and improving higher-order graph learning results. We apply the acceleration procedure from the dimensional of network motifs. Specifically, the refined degree for nodes and edges are conducted in two stages: (1) employ motif degree of nodes to refine the adjacency matrix of the network; and (2) employ motif degree of edges to refine the transition probability matrix in the learning process. In order to assess the efficiency of the proposed framework, four popular network representation algorithms are modified and examined. By evaluating the performance of OFFER, both link prediction results and clustering results demonstrate that the graph representation learning algorithms enhanced with OFFER consistently outperform the original algorithms with higher efficiency.
翻訳日:2022-10-24 08:38:11 公開日:2020-08-27
# 深層学習による太陽磁束要素の同定と追跡

Identifying and Tracking Solar Magnetic Flux Elements with Deep Learning ( http://arxiv.org/abs/2008.12080v1 )

ライセンス: Link先を確認
Haodi Jiang, Jiasheng Wang, Chang Liu, Ju Jing, Hao Liu, Jason T. L. Wang, Haimin Wang(参考訳) 近年のディープラーニングは、さまざまな機器から収集された大規模で複雑な観測データを処理できることから、多くの関心を集めている。 本稿では、swamis(southwest automatic magnetic identification suite)に基づいて、観測されたベクトル磁図の太陽磁束要素や特徴を同定・追跡する新しいディープラーニング手法であるsolarunetを提案する。 swamisツールからトレーニングデータを準備するデータ前処理コンポーネントと、高速で正確な画像分割のためのu字型畳み込みニューラルネットワークとして実装されたディープラーニングモデルと、追跡結果を作成する後処理コンポーネントとからなる。 SolarUnetはビッグベア太陽天文台の1.6メートルのグッド太陽望遠鏡のデータに適用される。 広く使われているSWAMISツールと比較すると、SolarUnetは機能サイズとフラックス分布についてSWAMISとほぼ一致し、長期的特徴の追跡においてSWAMISを補完する。 したがって、提案した物理誘導深層学習ツールを太陽磁気追跡の代替方法とみなすことができる。

Deep learning has drawn a lot of interest in recent years due to its effectiveness in processing big and complex observational data gathered from diverse instruments. Here we propose a new deep learning method, called SolarUnet, to identify and track solar magnetic flux elements or features in observed vector magnetograms based on the Southwest Automatic Magnetic Identification Suite (SWAMIS). Our method consists of a data pre-processing component that prepares training data from the SWAMIS tool, a deep learning model implemented as a U-shaped convolutional neural network for fast and accurate image segmentation, and a post-processing component that prepares tracking results. SolarUnet is applied to data from the 1.6 meter Goode Solar Telescope at the Big Bear Solar Observatory. When compared to the widely used SWAMIS tool, SolarUnet is faster while agreeing mostly with SWAMIS on feature size and flux distributions, and complementing SWAMIS in tracking long-lifetime features. Thus, the proposed physics-guided deep learning-based tool can be considered as an alternative method for solar magnetic tracking.
翻訳日:2022-10-24 08:37:27 公開日:2020-08-27
# 最大被覆による差分プライベートクラスタリング

Differentially Private Clustering via Maximum Coverage ( http://arxiv.org/abs/2008.12388v1 )

ライセンス: Link先を確認
Matthew Jones, Huy L\^e Nguyen, Thy Nguyen(参考訳) 本稿では,個々のデータのプライバシーを維持しながら,計量空間におけるクラスタリングの問題を研究する。 具体的には、k-medians 問題とユークリッド k-means 問題の微分プライベートな変種について検討する。 本稿では,各問題に対する先行状態よりも定数乗法誤差と加算誤差が低い多項式アルゴリズムを提案する。 さらに、アルゴリズムはブラックボックスとして差分プライバシーのないクラスタリングアルゴリズムを使用する。 これにより、実行時と近似係数の間のトレードオフを制御するために、適切なクラスタリングアルゴリズムを選択することができる。

This paper studies the problem of clustering in metric spaces while preserving the privacy of individual data. Specifically, we examine differentially private variants of the k-medians and Euclidean k-means problems. We present polynomial algorithms with constant multiplicative error and lower additive error than the previous state-of-the-art for each problem. Additionally, our algorithms use a clustering algorithm without differential privacy as a black-box. This allows practitioners to control the trade-off between runtime and approximation factor by choosing a suitable clustering algorithm to use.
翻訳日:2022-10-24 08:36:45 公開日:2020-08-27
# Microsoft Recommenders: Recommenderシステムの開発を加速するためのツール

Microsoft Recommenders: Tools to Accelerate Developing Recommender Systems ( http://arxiv.org/abs/2008.13528v1 )

ライセンス: Link先を確認
Scott Graham, Jun-Ki Min and Tao Wu(参考訳) この作業の目的は、Microsoft Recommendersリポジトリの内容を強調し、レコメンダシステムの開発にかかる時間を削減するためにどのように使用できるかを示すことである。 オープンソースリポジトリは、一般的なレコメンダ関連データサイエンス作業を簡単にするためのpythonユーティリティと、さまざまな環境におけるアルゴリズムやツールの使用を実証するjupyterノートブックを提供する。

The purpose of this work is to highlight the content of the Microsoft Recommenders repository and show how it can be used to reduce the time involved in developing recommender systems. The open source repository provides python utilities to simplify common recommender-related data science work as well as example Jupyter notebooks that demonstrate use of the algorithms and tools under various environments.
翻訳日:2022-10-24 08:36:40 公開日:2020-08-27
# Pareto Presideによる混合ノイズ除去

Mixed Noise Removal with Pareto Prior ( http://arxiv.org/abs/2008.11935v1 )

ライセンス: Link先を確認
Zhou Liu, Lei Yu, Gui-Song Xia, Hong Sun(参考訳) 付加白色ガウスノイズ (AWGN) とインパルスノイズ (IN) の混合により汚染された画像のノイズ化は必須だが難しい問題である。 衝動障害の存在は必然的にノイズの分布に影響を与えるため、従来のAWGNデノイザーの性能は大幅に低下する。 既存の手法では重み付け行列を導入することでinの効果を補うことを目標としているが、適切な優先順位がないため正確な推定は困難である。 この問題を解決するために,混合雑音除去のための高精度でロバストな重み推定器を提案する重み付け行列の先行値としてパレート分布を利用する。 特に、比較的小さなピクセルがINで汚染されていると仮定され、これは小さな値の重みを持ち、ペナル化されるはずである。 この現象はタイプ1のパレート分布によって適切に説明できる。 そこで,本研究では,非局所的自己相似性優先が非局所的低階近似を用いてさらに活用されるベイズ的枠組みにおいて,混合ノイズ除去の問題を定式化する。 提案手法は,既存の手法と比較して,異なるレベルの雑音に対して適応的,正確に,かつ頑健な重み付け行列を推定できるため,ノイズ除去性能の向上が期待できる。 画像データセットを用いた実験結果から,提案手法の最先端性を示す。

Denoising images contaminated by the mixture of additive white Gaussian noise (AWGN) and impulse noise (IN) is an essential but challenging problem. The presence of impulsive disturbances inevitably affects the distribution of noises and thus largely degrades the performance of traditional AWGN denoisers. Existing methods target to compensate the effects of IN by introducing a weighting matrix, which, however, is lack of proper priori and thus hard to be accurately estimated. To address this problem, we exploit the Pareto distribution as the priori of the weighting matrix, based on which an accurate and robust weight estimator is proposed for mixed noise removal. Particularly, a relatively small portion of pixels are assumed to be contaminated with IN, which should have weights with small values and then be penalized out. This phenomenon can be properly described by the Pareto distribution of type 1. Therefore, armed with the Pareto distribution, we formulate the problem of mixed noise removal in the Bayesian framework, where nonlocal self-similarity priori is further exploited by adopting nonlocal low rank approximation. Compared to existing methods, the proposed method can estimate the weighting matrix adaptively, accurately, and robust for different level of noises, thus can boost the denoising performance. Experimental results on widely used image datasets demonstrate the superiority of our proposed method to the state-of-the-arts.
翻訳日:2022-10-24 08:31:10 公開日:2020-08-27
# スマートフォンカメラ写真における非参照画像品質評価のためのマルチタスクディープCNNモデル

Multi-task deep CNN model for no-reference image quality assessment on smartphone camera photos ( http://arxiv.org/abs/2008.11961v1 )

ライセンス: Link先を確認
Chen-Hsiu Huang, Ja-Ling Wu(参考訳) スマートフォンは、今日のモバイルソーシャルネットワーク時代で最も成功した消費者電子製品だ。 スマートフォンのカメラの品質と画像処理能力は、消費者の購入決定に影響を与える主要な要因です。 しかし、スマートフォンから撮影した写真の品質評価は依然として労働集約的な作業であり、プロの写真家や専門家に依存している。 従来のCNNに基づくNR-IQA手法の拡張として,シーンタイプ検出を補助タスクとするマルチタスクディープCNNモデルを提案する。 畳み込み層におけるモデルパラメータの共有により、学習したフィーチャーマップはより関連度が高くなり、パフォーマンスが向上する。 その結果,従来のNR-IQA法や単一タスクCNNモデルと比較してSROCC性能が向上した。

Smartphone is the most successful consumer electronic product in today's mobile social network era. The smartphone camera quality and its image post-processing capability is the dominant factor that impacts consumer's buying decision. However, the quality evaluation of photos taken from smartphones remains a labor-intensive work and relies on professional photographers and experts. As an extension of the prior CNN-based NR-IQA approach, we propose a multi-task deep CNN model with scene type detection as an auxiliary task. With the shared model parameters in the convolution layer, the learned feature maps could become more scene-relevant and enhance the performance. The evaluation result shows improved SROCC performance compared to traditional NR-IQA methods and single task CNN-based models.
翻訳日:2022-10-24 08:30:47 公開日:2020-08-27
# 畳み込みニューラルネットワークを用いた走査型プローブ顕微鏡画像の分割改善

Improving the Segmentation of Scanning Probe Microscope Images using Convolutional Neural Networks ( http://arxiv.org/abs/2008.12371v1 )

ライセンス: Link先を確認
Steff Farley, Jo E.A. Hodgkinson, Oliver M. Gordon, Joanna Turner, Andrea Soltoggio, Philip J. Moriarty, Eugenie Hunsicker(参考訳) ナノ構造表面の画像のセグメンテーションには幅広い技術が考えられる。 これらのイメージの手動セグメンテーションは時間を要するため、ユーザ依存のセグメンテーションバイアスが発生するが、特定のテクニックやイメージクラス、サンプルに対する最適な自動化セグメンテーション方法に関するコンセンサスはない。 任意の画像分割アプローチは、正確で有意義な統計分析を行えるように画像内のノイズを最小にする必要がある。 ここでは, 有機溶媒からの沈着によりシリコン表面に生成する金ナノ粒子の2次元集合体の画像分割のためのプロトコルを開発した。 溶媒の蒸発は粒子の極端に平衡な自己組織化を駆動し、様々なナノパターンや微細構造パターンを生み出す。 u-net畳み込みニューラルネットワークを用いたセグメンテーション戦略は、従来の自動化アプローチを上回っており、ナノ構造系の画像処理において特に有益である。

A wide range of techniques can be considered for segmentation of images of nanostructured surfaces. Manually segmenting these images is time-consuming and results in a user-dependent segmentation bias, while there is currently no consensus on the best automated segmentation methods for particular techniques, image classes, and samples. Any image segmentation approach must minimise the noise in the images to ensure accurate and meaningful statistical analysis can be carried out. Here we develop protocols for the segmentation of images of 2D assemblies of gold nanoparticles formed on silicon surfaces via deposition from an organic solvent. The evaporation of the solvent drives far-from-equilibrium self-organisation of the particles, producing a wide variety of nano- and micro-structured patterns. We show that a segmentation strategy using the U-Net convolutional neural network outperforms traditional automated approaches and has particular potential in the processing of images of nanostructured systems.
翻訳日:2022-10-24 08:28:37 公開日:2020-08-27
# グラフ上の半教師付き分類のための一貫性拡散に基づくアルゴリズム

A Consistent Diffusion-Based Algorithm for Semi-Supervised Classification on Graphs ( http://arxiv.org/abs/2008.11944v1 )

ライセンス: Link先を確認
Nathan de Lara (IP Paris), Thomas Bonald (IP Paris)(参考訳) グラフ上の半教師付き分類は、種と呼ばれるいくつかのノードで知られているラベルに基づいて、グラフのすべてのノードにラベルを割り当てることを目的としている。 最も一般的なアルゴリズムは熱拡散の原理に依存し、種子のラベルが熱伝導によって拡散され、各ノードの温度が各ラベルのスコア関数として使用される。 単純なブロックモデルを用いて,ノードの温度が分類前に集中しない限り,このアルゴリズムは整合性がないことを示す。 この単純なアルゴリズムの修正は、実データに対して大きな性能向上をもたらすのに十分であることを示す。

Semi-supervised classification on graphs aims at assigning labels to all nodes of a graph based on the labels known for a few nodes, called the seeds. The most popular algorithm relies on the principle of heat diffusion, where the labels of the seeds are spread by thermo-conductance and the temperature of each node is used as a score function for each label. Using a simple block model, we prove that this algorithm is not consistent unless the temperatures of the nodes are centered before classification. We show that this simple modification of the algorithm is enough to get significant performance gains on real data.
翻訳日:2022-10-24 08:21:45 公開日:2020-08-27
# 過去を振り返る:個人記憶を文脈としたビデオ誘発感情の個人化予測

A Blast From the Past: Personalizing Predictions of Video-Induced Emotions using Personal Memories as Context ( http://arxiv.org/abs/2008.12096v1 )

ライセンス: Link先を確認
Bernd Dudzik, Joost Broekens, Mark Neerincx, Hayley Hung(参考訳) 実世界のアプリケーションにおける映像刺激に対する視聴者の感情反応の正確な予測における重要な課題は、人的・状況特異的な変動を考慮することである。 ビデオにおける個人の主観的体験を形作る重要な文脈的影響は、それが引き起こす個人的な記憶である。 以前の研究では、この記憶の影響は、視聴者の人口統計やパーソナリティなどの予測をパーソナライズするためによく使われる他の文脈変数よりも、ビデオによる感情の変化を説明できることがわかった。 本稿では,(1)ビデオトリガされた記憶を記述したテキストの自動分析によって,視聴者の感情的反応の変化が説明できることを示すとともに,(2)映像の映像コンテンツのそれと組み合わせることで,自動予測の精度が向上することを示す。 パーソナライズされた文脈における感情的ビデオ分析の自動化に対する技術アプローチの状況改善におけるこれらの知見の関連性について論じる。

A key challenge in the accurate prediction of viewers' emotional responses to video stimuli in real-world applications is accounting for person- and situation-specific variation. An important contextual influence shaping individuals' subjective experience of a video is the personal memories that it triggers in them. Prior research has found that this memory influence explains more variation in video-induced emotions than other contextual variables commonly used for personalizing predictions, such as viewers' demographics or personality. In this article, we show that (1) automatic analysis of text describing their video-triggered memories can account for variation in viewers' emotional responses, and (2) that combining such an analysis with that of a video's audiovisual content enhances the accuracy of automatic predictions. We discuss the relevance of these findings for improving on state of the art approaches to automated affective video analysis in personalized contexts.
翻訳日:2022-10-24 08:21:20 公開日:2020-08-27
# 教員選好による最適最小摂動大学時間

Optimal minimal-perturbation university timetabling with faculty preferences ( http://arxiv.org/abs/2008.12342v1 )

ライセンス: Link先を確認
Jakob Kotas, Peter Pham, Sam Koellmann(参考訳) 大学時制問題では、学期開始直前にコースセクションの追加やキャンセルが行われ、最終章の教職員交代が必要になることがある。 本稿では,教員にとって不都合なコーススワップ数を最小限に抑え,教員が教えたい時間に対する選好を最大化する意思決定枠組みを提案する。 モデルは整数線形プログラム(ILP)として定式化される。 仮説的な中規模学部の数値シミュレーションについて述べる。

In the university timetabling problem, sometimes additions or cancellations of course sections occur shortly before the beginning of the academic term, necessitating last-minute teaching staffing changes. We present a decision-making framework that both minimizes the number of course swaps, which are inconvenient to faculty members, and maximizes faculty members' preferences for times they wish to teach. The model is formulated as an integer linear program (ILP). Numerical simulations for a hypothetical mid-sized academic department are presented.
翻訳日:2022-10-24 08:20:45 公開日:2020-08-27
# 新型コロナウイルス感染拡大に伴う欧州のTwitterメッセージの言語間感情分析

Cross-language sentiment analysis of European Twitter messages duringthe COVID-19 pandemic ( http://arxiv.org/abs/2008.12172v1 )

ライセンス: Link先を確認
Anna Kruspe and Matthias H\"aberle and Iona Kuhn and Xiao Xiang Zhu(参考訳) ソーシャルメディアデータは、危機時に非常に健全な情報ソースになり得る。 ユーザー生成メッセージは、そのような時間に人々の心の窓となり、気分や意見についての洞察を与えてくれます。 このようなメッセージが大量にあるため、人口規模の大規模分析が可能となった。 本稿では、ヨーロッパでのCOVID-19パンデミックの最初の数ヶ月に収集されたTwitterメッセージ(つぶやき)について、その感情について分析する。 これは多言語文埋め込みを用いた感情分析のためのニューラルネットワークで実装されている。 我々は,その成果を原産地別に分離し,それらの国における事象と時間的発展を関連付ける。 これにより、状況が人々の気分に与える影響を研究することができる。 例えば、ロックダウンの発表は、ほぼすべての調査対象国で気分の低下と相関しており、短期間で回復する。

Social media data can be a very salient source of information during crises. User-generated messages provide a window into people's minds during such times, allowing us insights about their moods and opinions. Due to the vast amounts of such messages, a large-scale analysis of population-wide developments becomes possible. In this paper, we analyze Twitter messages (tweets) collected during the first months of the COVID-19 pandemic in Europe with regard to their sentiment. This is implemented with a neural network for sentiment analysis using multilingual sentence embeddings. We separate the results by country of origin, and correlate their temporal development with events in those countries. This allows us to study the effect of the situation on people's moods. We see, for example, that lockdown announcements correlate with a deterioration of mood in almost all surveyed countries, which recovers within a short time span.
翻訳日:2022-10-24 08:20:38 公開日:2020-08-27
# 放射線治療における3D CT/PET画像によるリンパ節グロース腫瘍体積の検出と遠隔ゲーティング

Lymph Node Gross Tumor Volume Detection and Segmentation via Distance-based Gating using 3D CT/PET Imaging in Radiotherapy ( http://arxiv.org/abs/2008.11870v1 )

ライセンス: Link先を確認
Zhuotun Zhu, Dakai Jin, Ke Yan, Tsung-Ying Ho, Xianghua Ye, Dazhou Guo, Chun-Hung Chao, Jing Xiao, Alan Yuille, and Le Lu(参考訳) 3次元マルチモダリティイメージングによる不審ながん転移リンパ節の検索,同定,分節化は,重要な臨床的課題である。 放射線療法ではLymph Node Gross tumor Volume (GTVLN)と呼ばれる。 GTVLNの拡散を決定・明らかにすることは,外科的切除および放射線治療の下流ワークフローにおける対応する切除領域と照射領域を定義する上で重要である。 本研究では,放射線腫瘍学者による高レベル推論プロトコルのシミュレーションと簡易化を目的とした,効果的な距離ベースゲーティング手法を提案する。 gtvlnは、それぞれ2成分またはソフト距離ゲーティングによって、腫瘍近位と腫瘍異型の2つのサブグループに分けられる。 これは、各カテゴリが、外観、大きさ、その他のLN特性の重なり合う分布を持つことができるという観察によって動機づけられた。 1つのGTVLNカテゴリの特徴を学習する各ブランチで、新しいマルチブランチ検出分割ネットワークを訓練し、マルチブランチからの出力を推論で融合する。 本手法は,PET像とCT像を併用した141ドルの食道癌患者の社内データセットを用いて評価した。 以上の結果から,従来の最先端技術と比較して,平均リコール率を72.5\%から78.2\%に改善した。 最も達成されたGTVLNリコールは82.5\%=20\%=20\%=臨床的に関連があり、ヒトの観察者は感度が低い(文献で報告されているように、最も経験豊富な放射線腫瘍学者にとっては80\%程度)。

Finding, identifying and segmenting suspicious cancer metastasized lymph nodes from 3D multi-modality imaging is a clinical task of paramount importance. In radiotherapy, they are referred to as Lymph Node Gross Tumor Volume (GTVLN). Determining and delineating the spread of GTVLN is essential in defining the corresponding resection and irradiating regions for the downstream workflows of surgical resection and radiotherapy of various cancers. In this work, we propose an effective distance-based gating approach to simulate and simplify the high-level reasoning protocols conducted by radiation oncologists, in a divide-and-conquer manner. GTVLN is divided into two subgroups of tumor-proximal and tumor-distal, respectively, by means of binary or soft distance gating. This is motivated by the observation that each category can have distinct though overlapping distributions of appearance, size and other LN characteristics. A novel multi-branch detection-by-segmentation network is trained with each branch specializing on learning one GTVLN category features, and outputs from multi-branch are fused in inference. The proposed method is evaluated on an in-house dataset of $141$ esophageal cancer patients with both PET and CT imaging modalities. Our results validate significant improvements on the mean recall from $72.5\%$ to $78.2\%$, as compared to previous state-of-the-art work. The highest achieved GTVLN recall of $82.5\%$ at $20\%$ precision is clinically relevant and valuable since human observers tend to have low sensitivity (around $80\%$ for the most experienced radiation oncologists, as reported by literature).
翻訳日:2022-10-24 08:20:07 公開日:2020-08-27
# 教師なしマルチドメイン画像-画像変換のためのクロスドメイン生成対向ネットワーク

Crossing-Domain Generative Adversarial Networks for Unsupervised Multi-Domain Image-to-Image Translation ( http://arxiv.org/abs/2008.11882v1 )

ライセンス: Link先を確認
Xuewen Yang, Dongliang Xie, Xin Wang(参考訳) GAN(Generative Adversarial Networks)における最先端技術は、ペア画像データを用いたピアドメインXからドメインYへの画像変換において顕著な成功を収めている。 しかし、豊富なペアデータを得ることは、ほとんどのアプリケーションにおいて非自明で高価なプロセスである。 n個の領域にまたがる画像の翻訳が必要な場合、トレーニングが2つのドメイン間で行われる場合、トレーニングの複雑さは二次的に増加する。 さらに、2つのドメインからのデータのみを一度にトレーニングすることは、他のドメインのデータから利益を得ることができないため、より有用な特徴の抽出を防ぎ、この研究領域の進歩を妨げる。 本研究では,複数の領域にまたがる教師なしのイメージ・ツー・イメージ・トランスフォーメーションのための一般的なフレームワークを提案する。 フレームワークの副産物は、最先端の作業で行われているように、ドメインをペアでトレーニングするよりも少ない時間を必要とするため、コンピューティング時間とコンピューティングリソースの削減である。 提案するフレームワークは、2つのエンコーダと、さまざまなドメインにまたがる高レベル機能を学習して、多様で現実的なサンプルを生成するganのペアで構成されています。 本フレームワークは,最先端技術と比較して,画像から画像へのタスクで競合する結果を示す。

State-of-the-art techniques in Generative Adversarial Networks (GANs) have shown remarkable success in image-to-image translation from peer domain X to domain Y using paired image data. However, obtaining abundant paired data is a non-trivial and expensive process in the majority of applications. When there is a need to translate images across n domains, if the training is performed between every two domains, the complexity of the training will increase quadratically. Moreover, training with data from two domains only at a time cannot benefit from data of other domains, which prevents the extraction of more useful features and hinders the progress of this research area. In this work, we propose a general framework for unsupervised image-to-image translation across multiple domains, which can translate images from domain X to any a domain without requiring direct training between the two domains involved in image translation. A byproduct of the framework is the reduction of computing time and computing resources, since it needs less time than training the domains in pairs as is done in state-of-the-art works. Our proposed framework consists of a pair of encoders along with a pair of GANs which learns high-level features across different domains to generate diverse and realistic samples from. Our framework shows competing results on many image-to-image tasks compared with state-of-the-art techniques.
翻訳日:2022-10-24 08:19:34 公開日:2020-08-27
# 教師なしドメイン適応のためのインスタンス適応型自己学習

Instance Adaptive Self-Training for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2008.12197v1 )

ライセンス: Link先を確認
Ke Mei, Chuang Zhu, Jiaqi Zou, Shanghang Zhang(参考訳) ラベル付きトレーニングデータとラベル付きテストデータとの相違は、最近のディープラーニングモデルにとって大きな課題である。 非教師なしドメイン適応(UDA)はそのような問題を解決する。 最近の研究は、自己学習がUDAに対する強力なアプローチであることを示している。 しかし、既存の手法ではスケーラビリティと性能のバランスが難しい。 本稿では, セマンティックセグメンテーションの課題に対して, UDAのためのインスタンス適応型自己学習フレームワークを提案する。 擬似ラベルの品質を効果的に向上するために,インスタンス適応セレクタを用いた新しい擬似ラベル生成戦略を開発した。 さらに,疑似ラベル領域を円滑にし,非擬似ラベル領域を鋭くする領域誘導正規化を提案する。 我々の手法は簡潔で効率的であり、他の教師なし領域適応法に容易に一般化できる。 GTA5 to Cityscapes」と「SyNTHIA to Cityscapes」の実験は、最先端の手法と比較して、我々のアプローチの優れた性能を示している。

The divergence between labeled training data and unlabeled testing data is a significant challenge for recent deep learning models. Unsupervised domain adaptation (UDA) attempts to solve such a problem. Recent works show that self-training is a powerful approach to UDA. However, existing methods have difficulty in balancing scalability and performance. In this paper, we propose an instance adaptive self-training framework for UDA on the task of semantic segmentation. To effectively improve the quality of pseudo-labels, we develop a novel pseudo-label generation strategy with an instance adaptive selector. Besides, we propose the region-guided regularization to smooth the pseudo-label region and sharpen the non-pseudo-label region. Our method is so concise and efficient that it is easy to be generalized to other unsupervised domain adaptation methods. Experiments on 'GTA5 to Cityscapes' and 'SYNTHIA to Cityscapes' demonstrate the superior performance of our approach compared with the state-of-the-art methods.
翻訳日:2022-10-24 08:13:29 公開日:2020-08-27
# 内視鏡的映像表現の学習とツールプレゼンス検出

Learning Representations of Endoscopic Videos to Detect Tool Presence Without Supervision ( http://arxiv.org/abs/2008.12321v1 )

ライセンス: Link先を確認
David Z. Li, Masaru Ishii, Russell H. Taylor, Gregory D. Hager, Ayushi Sinha(参考訳) そこで本研究では,内視鏡的ビデオフレームの表現を学習し,手術器具の存在を監視せずに識別する作業を行うことができるか検討する。 我々は、最大平均差分法(MMD)変動オートエンコーダ(VAE)を用いて、内視鏡ビデオの低次元潜在表現を学習し、これらの表現を操作して、ツールを持たないものとツールを含むフレームを区別する。 各フレームにおけるツールの存在を予測するために,これらの潜在表現を3つの異なる方法で操作する。 内視鏡的ビデオフレームに71.56, 73.93, 76.18の平均精度のツールが含まれているか, 完全に教師なしの手法で識別できる。 私たちのコードはhttps://github.com/zdavidli/tool-presence/で利用可能です。

In this work, we explore whether it is possible to learn representations of endoscopic video frames to perform tasks such as identifying surgical tool presence without supervision. We use a maximum mean discrepancy (MMD) variational autoencoder (VAE) to learn low-dimensional latent representations of endoscopic videos and manipulate these representations to distinguish frames containing tools from those without tools. We use three different methods to manipulate these latent representations in order to predict tool presence in each frame. Our fully unsupervised methods can identify whether endoscopic video frames contain tools with average precision of 71.56, 73.93, and 76.18, respectively, comparable to supervised methods. Our code is available at https://github.com/zdavidli/tool-presence/
翻訳日:2022-10-24 08:12:38 公開日:2020-08-27
# 大規模コンピュータビジョンによる世界規模のソーシャルディスタンシングの分析

Analyzing Worldwide Social Distancing through Large-Scale Computer Vision ( http://arxiv.org/abs/2008.12363v1 )

ライセンス: Link先を確認
Isha Ghodgaonkar, Subhankar Chakraborty, Vishnu Banna, Shane Allcroft, Mohammed Metwaly, Fischer Bordwell, Kohsuke Kimura, Xinxin Zhao, Abhinav Goel, Caleb Tung, Akhil Chinnakotla, Minghao Xue, Yung-Hsiang Lu, Mark Daniel Ward, Wei Zakharov, David S. Ebert, David M. Barbarash, George K. Thiruvathukal(参考訳) 新型コロナウイルスの感染拡大を抑えるため、世界中の国が公衆衛生の介入としてソーシャルディスタンシングのガイドラインを導入している。 しかし、これらのガイドラインの大規模(全国または全世界)での有効性の監視は困難である。 さらに悪いことに、対人報告のような従来の観察方法は、観察者が感染を危険にさらすため、危険である。 このアプローチはスケーラブルであり、オブザーバは安全な場所に留まることができる。 この研究チームは、世界中の何千ものネットワークカメラを発見し、カメラからデータを取得し、データを分析し、さまざまな国が発行し、制限を解除した(ロックダウンとも呼ばれる)群衆のサイズを報告できる方法を開発した。 リアルタイムデータを提供する11140台のネットワークカメラを発見し、15カ国で結果を提示する。 2020年4月から1週間あたり0.5tbのカメラからデータを収集している。 動画から定期的に抽出された静止画カメラとフレームから10,424,459枚の画像を分析した結果、一部の国の住民は制限解除後により多くの活動(人と車両によって判断される)を見せたことが判明した。 他の国では、制限期間と制限解除後の活動量は明らかに変化しなかった。 データは、人々が少なくとも6フィート離れた「社会的距離」にとどまるかどうかをさらに明らかにしている。 本研究は,世界中の複数の場所や地域においてソーシャルディスタンシングが進行しているかどうかを判断し,他の感染症の波がすぐに起こる可能性の早期指標となる。

In order to contain the COVID-19 pandemic, countries around the world have introduced social distancing guidelines as public health interventions to reduce the spread of the disease. However, monitoring the efficacy of these guidelines at a large scale (nationwide or worldwide) is difficult. To make matters worse, traditional observational methods such as in-person reporting is dangerous because observers may risk infection. A better solution is to observe activities through network cameras; this approach is scalable and observers can stay in safe locations. This research team has created methods that can discover thousands of network cameras worldwide, retrieve data from the cameras, analyze the data, and report the sizes of crowds as different countries issued and lifted restrictions (also called ''lockdown''). We discover 11,140 network cameras that provide real-time data and we present the results across 15 countries. We collect data from these cameras beginning April 2020 at approximately 0.5TB per week. After analyzing 10,424,459 images from still image cameras and frames extracted periodically from video, the data reveals that the residents in some countries exhibited more activity (judged by numbers of people and vehicles) after the restrictions were lifted. In other countries, the amounts of activities showed no obvious changes during the restrictions and after the restrictions were lifted. The data further reveals whether people stay ''social distancing'', at least 6 feet apart. This study discerns whether social distancing is being followed in several types of locations and geographical locations worldwide and serve as an early indicator whether another wave of infections is likely to occur soon.
翻訳日:2022-10-24 08:12:21 公開日:2020-08-27
# マルチチャネル手話生成のためのadversarial training

Adversarial Training for Multi-Channel Sign Language Production ( http://arxiv.org/abs/2008.12405v1 )

ライセンス: Link先を確認
Ben Saunders, Necati Cihan Camgoz, Richard Bowden(参考訳) 手話はリッチなマルチチャネル言語であり、手動(手)と非手動(顔と体)の両方の特徴を正確に複雑な方法で記述する必要がある。 音声から手話への自動翻訳である手話生成(SLP)は、この完全な手話形態を具現化して、Deafコミュニティが真に理解しなくてはならない。 以前の作業は主に手動のフィーチャ生産に重点を置いており、平均への回帰によって引き起こされる未処理のアウトプットがある。 本稿では,SLPに対する逆多重チャネルアプローチを提案する。 我々は,変圧器ベースジェネレータと条件判別器との間のミニマックスゲームとして,符号生成を行う。 提案手法は, 原文を条件とした手話生成の現実性を評価し, 生成器を現実的かつ明瞭な出力へと押し上げる。 さらに,非操作的特徴を含まない手指調音器を完全カプセル化し,顔特徴と口話パターンを生成させる。 本稿では,RWTH-PHOENIX-Weather-2014T(PHOENIX14T)データセットについて評価し,手動生産における最先端SLPバックトランスレーション性能について報告する。 我々は,現実的なSLP研究の基盤となるマルチチャネル信号の生成のための新しいベンチマークを設定した。

Sign Languages are rich multi-channel languages, requiring articulation of both manual (hands) and non-manual (face and body) features in a precise, intricate manner. Sign Language Production (SLP), the automatic translation from spoken to sign languages, must embody this full sign morphology to be truly understandable by the Deaf community. Previous work has mainly focused on manual feature production, with an under-articulated output caused by regression to the mean. In this paper, we propose an Adversarial Multi-Channel approach to SLP. We frame sign production as a minimax game between a transformer-based Generator and a conditional Discriminator. Our adversarial discriminator evaluates the realism of sign production conditioned on the source text, pushing the generator towards a realistic and articulate output. Additionally, we fully encapsulate sign articulators with the inclusion of non-manual features, producing facial features and mouthing patterns. We evaluate on the challenging RWTH-PHOENIX-Weather-2014T (PHOENIX14T) dataset, and report state-of-the art SLP back-translation performance for manual production. We set new benchmarks for the production of multi-channel sign to underpin future research into realistic SLP.
翻訳日:2022-10-24 08:11:26 公開日:2020-08-27
# Pose-Guided person Image Generation and Animation のための深部空間変換

Deep Spatial Transformation for Pose-Guided Person Image Generation and Animation ( http://arxiv.org/abs/2008.12606v1 )

ライセンス: Link先を確認
Yurui Ren and Ge Li and Shan Liu and Thomas H. Li(参考訳) ポーズ誘導型人物画像生成とアニメーションは、元人物画像をターゲットポーズに変換することを目的としている。 これらのタスクはソースデータの空間的操作を必要とする。 しかし、畳み込みニューラルネットワークは、入力を空間的に変換する能力の欠如によって制限される。 本稿では,インプットを機能レベルで再アセンブルするための微分可能なグローバルフローローカルアテンションフレームワークを提案する。 このフレームワークは、まずソースとターゲットの間のグローバルフローフィールドを推定する。 次に、対応するローカルソース特徴パッチに、コンテンツ対応ローカルアテンション係数をサンプリングする。 提案手法は,入力を効率的に空間的に変換できることを示す。 一方,人物画像アニメーションタスクの時間的一貫性をモデル化し,コヒーレントな映像を生成する。 画像生成タスクとアニメーションタスクの両方の実験結果は,モデルの優越性を示している。 また,新たなビュー合成と顔画像アニメーションの結果から,モデルが空間変換を必要とする他のタスクにも適用可能であることが示された。 プロジェクトのソースコードはhttps://github.com/RenYurui/Global-Flow-Local-Attentionで公開されています。

Pose-guided person image generation and animation aim to transform a source person image to target poses. These tasks require spatial manipulation of source data. However, Convolutional Neural Networks are limited by the lack of ability to spatially transform the inputs. In this paper, we propose a differentiable global-flow local-attention framework to reassemble the inputs at the feature level. This framework first estimates global flow fields between sources and targets. Then, corresponding local source feature patches are sampled with content-aware local attention coefficients. We show that our framework can spatially transform the inputs in an efficient manner. Meanwhile, we further model the temporal consistency for the person image animation task to generate coherent videos. The experiment results of both image generation and animation tasks demonstrate the superiority of our model. Besides, additional results of novel view synthesis and face image animation show that our model is applicable to other tasks requiring spatial transformation. The source code of our project is available at https://github.com/RenYurui/Global-Flow-Local-Attention.
翻訳日:2022-10-24 08:11:04 公開日:2020-08-27
# 音声の自動要約:スコーピングのレビュー

Automatic Speech Summarisation: A Scoping Review ( http://arxiv.org/abs/2008.11897v1 )

ライセンス: Link先を確認
Dana Rezazadegan, Shlomo Berkovsky, Juan C. Quiroz, A. Baki Kocaballi, Ying Wang, Liliana Laranjo, Enrico Coiera(参考訳) 音声要約技術は、人間の音声を入力とし、短縮版をテキストまたは音声として出力する。 音声要約は、情報技術から医療まで、音声アーカイブの改善や臨床文書の負担軽減など、多くの分野に応用されている。 このスコーピングレビューは、時間枠、言語要約、研究方法、ペーパータイプに制限がなく、音声要約の文献をマッピングする。 文献検索および抽出した音声の特徴,使用方法,スコープ,コーパスの訓練によって得られた153項目のうち,合計110論文をレビューした。 ほとんどの研究は、(1)文抽出と圧縮、(2)特徴抽出と分類またはランクに基づく文選択、(3)文圧縮と圧縮要約、(4)言語モデルという4つの音声要約アーキテクチャの1つを採用している。 また、これらの方法と音声の特徴の強みと弱みについても論じる。 全体として、教師付きメソッド(例えば隠れマルコフサポートベクターマシン、ランキング付きベクターマシン、条件付き乱数フィールド)は教師なしメソッドよりもパフォーマンスが良かった。 教師付きメソッドにはコストのかかる手作業によるアノテートトレーニングデータが必要であるため、教師なしメソッドに対する関心が高まった。 教師なし手法に関する最近の研究は、例えばUni-gramモデリングとディープニューラルネットワークを組み合わせることで、言語モデリングの拡張に焦点を当てている。 プロトコル登録: このスコープレビューのプロトコルはhttps://osf.io.orgで登録される。

Speech summarisation techniques take human speech as input and then output an abridged version as text or speech. Speech summarisation has applications in many domains from information technology to health care, for example improving speech archives or reducing clinical documentation burden. This scoping review maps the speech summarisation literature, with no restrictions on time frame, language summarised, research method, or paper type. We reviewed a total of 110 papers out of a set of 153 found through a literature search and extracted speech features used, methods, scope, and training corpora. Most studies employ one of four speech summarisation architectures: (1) Sentence extraction and compaction; (2) Feature extraction and classification or rank-based sentence selection; (3) Sentence compression and compression summarisation; and (4) Language modelling. We also discuss the strengths and weaknesses of these different methods and speech features. Overall, supervised methods (e.g. Hidden Markov support vector machines, Ranking support vector machines, Conditional random fields) performed better than unsupervised methods. As supervised methods require manually annotated training data which can be costly, there was more interest in unsupervised methods. Recent research into unsupervised methods focusses on extending language modelling, for example by combining Uni-gram modelling with deep neural networks. Protocol registration: The protocol for this scoping review is registered at https://osf.io.
翻訳日:2022-10-24 08:10:47 公開日:2020-08-27
# マルチタスクcnnを用いたテクスチャ, ニュートラル, 周波数スペクトルの組み合わせによる指紋特徴抽出

Fingerprint Feature Extraction by Combining Texture, Minutiae, and Frequency Spectrum Using Multi-Task CNN ( http://arxiv.org/abs/2008.11917v1 )

ライセンス: Link先を確認
Ai Takahashi, Yoshinori Koda, Koichi Ito, Takafumi Aoki(参考訳) 多くの指紋マッチング法では, 指紋の微細な点やテクスチャを指紋の特徴として用いているが, 固有周波数帯域の隆起パターンで構成されているため, 周波数スペクトルも有用である。 テクスチャ,栄養,周波数スペクトルから指紋の特徴を抽出する新しいCNN法を提案する。 提案手法では,ミネシア周辺の地域から効果的なテクスチャ特徴を抽出するために,ミネシアアテンションモジュールを導入した。 また,数種類の指紋クラスを含む公開データセットのみを使用するため,訓練中の画像数を増加させる指紋画像の特性を考慮した新たなデータ拡張手法を提案する。 FVC 2004 DB1 と DB2 を用いた一連の実験により,本手法は市販指紋照合ソフトウェアと従来手法と比較し,指紋認証の効率性を示すことを示した。

Although most fingerprint matching methods utilize minutia points and/or texture of fingerprint images as fingerprint features, the frequency spectrum is also a useful feature since a fingerprint is composed of ridge patterns with its inherent frequency band. We propose a novel CNN-based method for extracting fingerprint features from texture, minutiae, and frequency spectrum. In order to extract effective texture features from local regions around the minutiae, the minutia attention module is introduced to the proposed method. We also propose new data augmentation methods, which takes into account the characteristics of fingerprint images to increase the number of images during training since we use only a public dataset in training, which includes a few fingerprint classes. Through a set of experiments using FVC2004 DB1 and DB2, we demonstrated that the proposed method exhibits the efficient performance on fingerprint verification compared with a commercial fingerprint matching software and the conventional method.
翻訳日:2022-10-24 08:03:52 公開日:2020-08-27
# レイアウトからの属性誘導画像生成

Attribute-guided image generation from layout ( http://arxiv.org/abs/2008.11932v1 )

ライセンス: Link先を確認
Ke Ma, Bo Zhao, Leonid Sigal(参考訳) 近年のアプローチは、セマンティックセグメンテーション、シーングラフ、レイアウトなど、構造化された入力から画像を生成することに成功している。 これらの方法では、オブジェクトとその位置を画像レベルで指定できるが、インスタンスレベルでのオブジェクトの視覚的外観を特定するための忠実さと意味制御が欠如している。 この制限に対処するため,インスタンスレベルの属性制御が可能な画像生成手法を提案する。 具体的には、属性誘導生成モデルへの入力は、(1)オブジェクト境界ボックス、(2)オブジェクトカテゴリ、(3)各オブジェクトに対する属性セット(オプション)を含むタプルである。 出力は、要求されたオブジェクトが所望の位置に存在し、所定の属性を持つ生成された画像である。 いくつかの損失は、正確で一貫性があり多様な画像生成を促進するために協力的に働く。 Visual Genomeデータセットの実験では、生成した画像のオブジェクトレベルの属性を制御し、レイアウトタスクから画像生成におけるオブジェクト-属性の非依存表現の妥当性を検証することができる。 また,本モデルから生成した画像は,従来の最先端画像と比較して高解像度,オブジェクト分類精度,一貫性を有する。

Recent approaches have achieved great success in image generation from structured inputs, e.g., semantic segmentation, scene graph or layout. Although these methods allow specification of objects and their locations at image-level, they lack the fidelity and semantic control to specify visual appearance of these objects at an instance-level. To address this limitation, we propose a new image generation method that enables instance-level attribute control. Specifically, the input to our attribute-guided generative model is a tuple that contains: (1) object bounding boxes, (2) object categories and (3) an (optional) set of attributes for each object. The output is a generated image where the requested objects are in the desired locations and have prescribed attributes. Several losses work collaboratively to encourage accurate, consistent and diverse image generation. Experiments on Visual Genome dataset demonstrate our model's capacity to control object-level attributes in generated images, and validate plausibility of disentangled object-attribute representation in the image generation from layout task. Also, the generated images from our model have higher resolution, object classification accuracy and consistency, as compared to the previous state-of-the-art.
翻訳日:2022-10-24 08:03:37 公開日:2020-08-27
# アンカー生成と意味拡散による手術器具の教師なしセグメンテーション

Unsupervised Surgical Instrument Segmentation via Anchor Generation and Semantic Diffusion ( http://arxiv.org/abs/2008.11946v1 )

ライセンス: Link先を確認
Daochang Liu, Yuhui Wei, Tingting Jiang, Yizhou Wang, Rulin Miao, Fei Shan, Ziyu Li(参考訳) 手術器具のセグメンテーションはコンテキスト対応手術室の開発において重要な要素である。 このタスクの既存の作業は、膨大な量のラベル付きデータの監督に大きく依存しています。 対照的に,本稿では,より安価な教師なしアプローチが開発されている。 モデルをトレーニングするために,まず,手作りの粗いキューを用いて,楽器や背景組織の擬似ラベルとしてアンカーを生成する。 そして、隣接するビデオフレーム間の特徴相関により、生成したアンカーのあいまいさを解決するために意味拡散損失を提案する。 2017 MICCAI EndoVis Robotic Instrument Segmentation Challengeデータセットの2進法セグメンテーションタスクの実験では、単一の手動アノテーションを使わずに0.71 IoUと0.81 Diceスコアを達成し、手術器具セグメンテーションにおける教師なし学習の可能性を示すことを約束している。

Surgical instrument segmentation is a key component in developing context-aware operating rooms. Existing works on this task heavily rely on the supervision of a large amount of labeled data, which involve laborious and expensive human efforts. In contrast, a more affordable unsupervised approach is developed in this paper. To train our model, we first generate anchors as pseudo labels for instruments and background tissues respectively by fusing coarse handcrafted cues. Then a semantic diffusion loss is proposed to resolve the ambiguity in the generated anchors via the feature correlation between adjacent video frames. In the experiments on the binary instrument segmentation task of the 2017 MICCAI EndoVis Robotic Instrument Segmentation Challenge dataset, the proposed method achieves 0.71 IoU and 0.81 Dice score without using a single manual annotation, which is promising to show the potential of unsupervised learning for surgical tool segmentation.
翻訳日:2022-10-24 08:03:18 公開日:2020-08-27
# 手術現場のクリアネスによるインビボ臨床データの外科的スキル評価

Surgical Skill Assessment on In-Vivo Clinical Data via the Clearness of Operating Field ( http://arxiv.org/abs/2008.11954v1 )

ライセンス: Link先を確認
Daochang Liu, Tingting Jiang, Yizhou Wang, Rulin Miao, Fei Shan, Ziyu Li(参考訳) 手術スキル評価は手術訓練や品質管理において重要である。 このタスクの先行研究は、主にシミュレーション設定で行われる縫合や結び結びなどの基本的な外科的なタスクに焦点を当てている。 そこで本研究では,腹腔鏡下腹腔鏡下手術を施行した57例と,6名の外科医が注釈を付したスキルスコアとからなる実臨床データについて,手術スキルアセスメントについて検討した。 このデータセットの分析から,手術領域(cof)の明快さは,総合的スキルと高い注釈間一貫性と強い相関関係にあることから,手術スキル全体の良質な指標として同定された。 次に,cofのプロキシを通じて手術スキルを予測するために,ニューラルネットワークに基づく客観的かつ自動化されたフレームワークを提案する。 ニューラルネットワークは、教師付き回帰損失と教師なしランク損失とを共同で訓練する。 実験では, 若手外科医の人的パフォーマンスに匹敵する, 総合的技術スキルの基礎的真理とスピアマンの相関が0.55である。

Surgical skill assessment is important for surgery training and quality control. Prior works on this task largely focus on basic surgical tasks such as suturing and knot tying performed in simulation settings. In contrast, surgical skill assessment is studied in this paper on a real clinical dataset, which consists of fifty-seven in-vivo laparoscopic surgeries and corresponding skill scores annotated by six surgeons. From analyses on this dataset, the clearness of operating field (COF) is identified as a good proxy for overall surgical skills, given its strong correlation with overall skills and high inter-annotator consistency. Then an objective and automated framework based on neural network is proposed to predict surgical skills through the proxy of COF. The neural network is jointly trained with a supervised regression loss and an unsupervised rank loss. In experiments, the proposed method achieves 0.55 Spearman's correlation with the ground truth of overall technical skill, which is even comparable with the human performance of junior surgeons.
翻訳日:2022-10-24 08:03:00 公開日:2020-08-27
# 画像集合に関する視覚的質問応答

Visual Question Answering on Image Sets ( http://arxiv.org/abs/2008.11976v1 )

ライセンス: Link先を確認
Ankan Bansal, Yuting Zhang, Rama Chellappa(参考訳) 本稿では,一般に研究されているシングルイメージVQA問題をマルチイメージ設定に一般化する,画像セット視覚質問応答(ISVQA)の課題を紹介する。 自然言語の質問と画像の集合を入力として、画像の内容に基づいて質問に答えることを目的としている。 質問は1つ以上の画像のオブジェクトと関係、あるいは画像セットによって描かれたシーン全体についてである。 そこで本研究では,屋内と屋外の2つのisvqaデータセットを紹介する。 彼らはそれぞれ、屋内画像収集と複数の車載カメラの現実世界のシナリオをシミュレートする。 室内シーンデータセットは48,138の画像セットに対して91,479人の注釈付き質問を含む。 質問と回答の分布,質問の種類,データセットのバイアス,質問画像依存性など,2つのデータセットの特性を分析する。 ISVQAにおける新たな研究課題を調査するために,新たなベースラインモデルを構築した。

We introduce the task of Image-Set Visual Question Answering (ISVQA), which generalizes the commonly studied single-image VQA problem to multi-image settings. Taking a natural language question and a set of images as input, it aims to answer the question based on the content of the images. The questions can be about objects and relationships in one or more images or about the entire scene depicted by the image set. To enable research in this new topic, we introduce two ISVQA datasets - indoor and outdoor scenes. They simulate the real-world scenarios of indoor image collections and multiple car-mounted cameras, respectively. The indoor-scene dataset contains 91,479 human annotated questions for 48,138 image sets, and the outdoor-scene dataset has 49,617 questions for 12,746 image sets. We analyze the properties of the two datasets, including question-and-answer distributions, types of questions, biases in dataset, and question-image dependencies. We also build new baseline models to investigate new research challenges in ISVQA.
翻訳日:2022-10-24 08:02:32 公開日:2020-08-27
# 最小労力変換学習のためのフレキシブル選択方式

A Flexible Selection Scheme for Minimum-Effort Transfer Learning ( http://arxiv.org/abs/2008.11995v1 )

ライセンス: Link先を確認
Amelie Royer and Christoph H. Lampert(参考訳) 微調整は、新しい視覚認識タスクのために事前訓練された畳み込みネットワークに含まれる知識を利用する一般的な方法である。 しかし、事前訓練されたネットワークから視覚的に異なるが意味的に密接なソースへ知識を転送する直交的な設定は、ほとんど考慮されない: これは一般的に、実生活データで起こるが、これは必ずしも訓練元(ノイズ、幾何学的変換、異なるモダリティなど)ほどクリーンではない。 このようなシナリオに取り組むために、ネットワークの個々のユニット(例えば層)をチューニングでき、最も有望なユニットが自動的に選択される、flex-tuningと呼ばれる新しい一般的な微調整方式を導入する。 本手法を実用的にアピールするために, 実用上良い近似であることが証明された, 軽量かつ高速な2つの選択手順を提案する。 これらの選択基準は、さまざまなドメインシフトやデータ不足シナリオに対して実証的に検討し、微調整された個々のユニットが単純であるにもかかわらず、適応手法として非常に良い結果をもたらすことを示す。 結局のところ、一般的な実践とは対照的に、最後の完全連結単位ではなく、多くのドメインシフトシナリオにおいて中間または初期単位をチューニングするのが最善である。

Fine-tuning is a popular way of exploiting knowledge contained in a pre-trained convolutional network for a new visual recognition task. However, the orthogonal setting of transferring knowledge from a pretrained network to a visually different yet semantically close source is rarely considered: This commonly happens with real-life data, which is not necessarily as clean as the training source (noise, geometric transformations, different modalities, etc.). To tackle such scenarios, we introduce a new, generalized form of fine-tuning, called flex-tuning, in which any individual unit (e.g. layer) of a network can be tuned, and the most promising one is chosen automatically. In order to make the method appealing for practical use, we propose two lightweight and faster selection procedures that prove to be good approximations in practice. We study these selection criteria empirically across a variety of domain shifts and data scarcity scenarios, and show that fine-tuning individual units, despite its simplicity, yields very good results as an adaptation technique. As it turns out, in contrast to common practice, rather than the last fully-connected unit it is best to tune an intermediate or early one in many domain-shift scenarios, which is accurately detected by flex-tuning.
翻訳日:2022-10-24 08:02:16 公開日:2020-08-27
# tofオブジェクトローカライゼーションにおける意味的・幾何学的情報の相互強化

How semantic and geometric information mutually reinforce each other in ToF object localization ( http://arxiv.org/abs/2008.12002v1 )

ライセンス: Link先を確認
Antoine Vanderschueren, Victor Joos, Christophe De Vleeschouwer(参考訳) 本研究では,光の時間(ToF)センサによって提供される強度・深度情報画像から3Dオブジェクトをローカライズする手法を提案する。 我々の方法は2つのCNNを使う。 1つ目は、カメラの外部パラメータを推定するフロアピクセルを分割するために、入力として生の深度画像と強度画像を使用する。 第2のCNNは、関心のオブジェクトのセグメント化を担当している。 主な革新として、第1のCNNの予測から推定されるキャリブレーションを利用して、地上に取り付けられた座標系における幾何学的深度情報を表現する。 実際には、第2CNNへの入力として、地上に対する画素の高さと点雲に対する正規値の向きの両方が提供される。 第2のCNNによって予測されるセグメンテーションを考えると、オブジェクトは参照モデルとのポイントクラウドアライメントに基づいてローカライズされる。 提案手法は,従来のcnnアーキテクチャに比べて,キャリブレーションや高さマップを無視するだけでなく,pointnet++と比較して,セグメンテーションやローカライゼーションの精度をかなり向上させる。

We propose a novel approach to localize a 3D object from the intensity and depth information images provided by a Time-of-Flight (ToF) sensor. Our method uses two CNNs. The first one uses raw depth and intensity images as input, to segment the floor pixels, from which the extrinsic parameters of the camera are estimated. The second CNN is in charge of segmenting the object-of-interest. As a main innovation, it exploits the calibration estimated from the prediction of the first CNN to represent the geometric depth information in a coordinate system that is attached to the ground, and is thus independent of the camera elevation. In practice, both the height of pixels with respect to the ground, and the orientation of normals to the point cloud are provided as input to the second CNN. Given the segmentation predicted by the second CNN, the object is localized based on point cloud alignment with a reference model. Our experiments demonstrate that our proposed two-step approach improves segmentation and localization accuracy by a significant margin compared to a conventional CNN architecture, ignoring calibration and height maps, but also compared to PointNet++.
翻訳日:2022-10-24 08:01:53 公開日:2020-08-27
# 体温測定のための内眼カンサスの局在

Inner Eye Canthus Localization for Human Body Temperature Screening ( http://arxiv.org/abs/2008.12046v1 )

ライセンス: Link先を確認
Claudio Ferrari, Lorenzo Berlincioni, Marco Bertini, Alberto Del Bimbo(参考訳) 本稿では,サーマルフェイス画像中の内眼カンサスを局所化するための自動アプローチを提案する。 まず、目、鼻、耳の中央に対応する5つの顔のキーポイントを大まかに検出する。 次に3次元形態素顔モデル(3DMM)を用いてスパース2D-3D対応を計算した。 この対応は、3D顔全体を画像に投影し、その後、内眼カンサスを見つけるために用いられる。 この位置を検出することで、サーマルカメラを使用する人の体温を最も正確に測定することができる。 手動アノテーション付きランドマークを備えたサーマルフェースデータセットのアプローチを評価した。 しかし、このような手動アノテーションは通常、目、鼻、口などの顔の部分を特定するために考えられており、眼カンサス領域の特定に特に適していない。 追加の貢献として、アノテーション付きランドマークを使用して3dmmを画像に変形および投影することで、オリジナルのデータセットを強化します。 そして、手動で眼カンサスに対応する小さな領域を選択することで、追加のアノテーションでデータセットを豊かにする。 手動ランドマークを用いることで,将来の評価の基盤となる3DMMプロジェクションの正確性を確保する。 さらに,データセットに3dヘッドポーズと点ごとの可視性マスクを付与し,自己排他性を検出する。 データは公開される予定だ。

In this paper, we propose an automatic approach for localizing the inner eye canthus in thermal face images. We first coarsely detect 5 facial keypoints corresponding to the center of the eyes, the nosetip and the ears. Then we compute a sparse 2D-3D points correspondence using a 3D Morphable Face Model (3DMM). This correspondence is used to project the entire 3D face onto the image, and subsequently locate the inner eye canthus. Detecting this location allows to obtain the most precise body temperature measurement for a person using a thermal camera. We evaluated the approach on a thermal face dataset provided with manually annotated landmarks. However, such manual annotations are normally conceived to identify facial parts such as eyes, nose and mouth, and are not specifically tailored for localizing the eye canthus region. As additional contribution, we enrich the original dataset by using the annotated landmarks to deform and project the 3DMM onto the images. Then, by manually selecting a small region corresponding to the eye canthus, we enrich the dataset with additional annotations. By using the manual landmarks, we ensure the correctness of the 3DMM projection, which can be used as ground-truth for future evaluations. Moreover, we supply the dataset with the 3D head poses and per-point visibility masks for detecting self-occlusions. The data will be publicly released.
翻訳日:2022-10-24 08:01:35 公開日:2020-08-27
# docredのエンティティとエビデンスによる関係抽出

Entity and Evidence Guided Relation Extraction for DocRED ( http://arxiv.org/abs/2008.12283v1 )

ライセンス: Link先を確認
Kevin Huang, Guangtao Wang, Tengyu Ma and Jing Huang(参考訳) 文書レベルの関係抽出は、文書内の関係を予測するために複数の文の推論を必要とする課題である。 本稿では,この課題に対して,協調学習フレームワークe2gre(entity and evidence guided relation extraction)を提案する。 まず、事前訓練された言語モデル(BERT、RoBERTaなど)への入力としてエンティティ誘導シーケンスを導入する。 これらのエンティティ誘導シーケンスは、事前訓練された言語モデル(LM)がエンティティに関連するドキュメントの領域に集中するのに役立ちます。 第2に,その内部注意確率をエビデンス予測のための追加機能として使用することにより,事前学習した言語モデルの微調整を指導する。 我々は最近リリースされた関係抽出のための大規模データセットDocREDに対するE2GREアプローチを評価した。 私たちのアプローチは、すべてのメトリクスの公開リーダボードで最先端の結果を得ることができ、e2greが関係抽出とエビデンス予測の両方において有効かつ相乗効果であることを示します。

Document-level relation extraction is a challenging task which requires reasoning over multiple sentences in order to predict relations in a document. In this paper, we pro-pose a joint training frameworkE2GRE(Entity and Evidence Guided Relation Extraction)for this task. First, we introduce entity-guided sequences as inputs to a pre-trained language model (e.g. BERT, RoBERTa). These entity-guided sequences help a pre-trained language model (LM) to focus on areas of the document related to the entity. Secondly, we guide the fine-tuning of the pre-trained language model by using its internal attention probabilities as additional features for evidence prediction.Our new approach encourages the pre-trained language model to focus on the entities and supporting/evidence sentences. We evaluate our E2GRE approach on DocRED, a recently released large-scale dataset for relation extraction. Our approach is able to achieve state-of-the-art results on the public leaderboard across all metrics, showing that our E2GRE is both effective and synergistic on relation extraction and evidence prediction.
翻訳日:2022-10-24 07:55:17 公開日:2020-08-27
# テキスト会話における感情分類器としての言語モデル

Language Models as Emotional Classifiers for Textual Conversations ( http://arxiv.org/abs/2008.12360v1 )

ライセンス: Link先を確認
Connor T. Heaton, David M. Schwartz(参考訳) 感情は、私たちの環境に対する認識、プロセス、反応を変えることで、私たちの日常生活において重要な役割を果たす。 Affective Computingは、コンピュータに人間のアクターの感情を検出し、行動する能力を与える。 情緒的コンピューティングシステムの中核的な側面は、ユーザの感情の分類である。 本研究では,会話中の感情を分類する新しい手法を提案する。 提案手法のバックボーンは,学習済み言語モデル (lm) であり,発話中に同定された述語-言語構造上で情報を伝達するグラフ畳み込みネットワーク (gcn) によって補完される。 提案手法をIEMOCAPとFriendsデータセットに適用し,前者に対する最先端のパフォーマンスと後者に対する感情ラベルの精度を向上する。 さらに,分類を行う際に,モデルがどの程度の会話にアクセスできるかを変更することで,方法論における役割コンテキストの役割について検討する。

Emotions play a critical role in our everyday lives by altering how we perceive, process and respond to our environment. Affective computing aims to instill in computers the ability to detect and act on the emotions of human actors. A core aspect of any affective computing system is the classification of a user's emotion. In this study we present a novel methodology for classifying emotion in a conversation. At the backbone of our proposed methodology is a pre-trained Language Model (LM), which is supplemented by a Graph Convolutional Network (GCN) that propagates information over the predicate-argument structure identified in an utterance. We apply our proposed methodology on the IEMOCAP and Friends data sets, achieving state-of-the-art performance on the former and a higher accuracy on certain emotional labels on the latter. Furthermore, we examine the role context plays in our methodology by altering how much of the preceding conversation the model has access to when making a classification.
翻訳日:2022-10-24 07:54:58 公開日:2020-08-27
# モデル平均化のための全クレディブルベイズネットワーク構造学習

Learning All Credible Bayesian Network Structures for Model Averaging ( http://arxiv.org/abs/2008.13618v1 )

ライセンス: Link先を確認
Zhenyu A. Liao, Charupriya Sharma, James Cussens, Peter van Beek(参考訳) ベイズネットワークは、知識発見と予測に応用された確率的グラフィカルモデルとして広く利用されている。 データからベイズネットワーク(BN)を学習することは、よく知られたスコア・アンド・サーチ手法を用いて最適化問題として考えられる。 しかし、単一のモデル(すなわち最高のスコア bn)を選択することは誤解を招くか、最高の精度を達成することができない。 単一モデルへのコミットの代替として、ある形でBNの空間をサンプリングしたり列挙したりするベイズ的あるいは頻繁なモデル平均化を行う方法がある。 残念ながら、モデル平均化の既存のアプローチはベイズネットワークの構造を厳しく制限するか、30の確率変数未満のネットワークにしかスケールできないことが示されている。 本稿では,近似アルゴリズムの性能保証に触発されたモデル平均化手法を提案する。 我々のアプローチには2つの大きな利点がある。 まず,本手法は,スコアが最適あるいはほぼ最適であるという点において,信頼できるモデルのみを考察する。 第二に、我々のアプローチは既存のアプローチよりも効率が良く、ベイズ的ネットワークにスケールする。

A Bayesian network is a widely used probabilistic graphical model with applications in knowledge discovery and prediction. Learning a Bayesian network (BN) from data can be cast as an optimization problem using the well-known score-and-search approach. However, selecting a single model (i.e., the best scoring BN) can be misleading or may not achieve the best possible accuracy. An alternative to committing to a single model is to perform some form of Bayesian or frequentist model averaging, where the space of possible BNs is sampled or enumerated in some fashion. Unfortunately, existing approaches for model averaging either severely restrict the structure of the Bayesian network or have only been shown to scale to networks with fewer than 30 random variables. In this paper, we propose a novel approach to model averaging inspired by performance guarantees in approximation algorithms. Our approach has two primary advantages. First, our approach only considers credible models in that they are optimal or near-optimal in score. Second, our approach is more efficient and scales to significantly larger Bayesian networks than existing approaches.
翻訳日:2022-10-24 07:54:43 公開日:2020-08-27
# 部分領域適応のための適応的な知識伝達

Adaptively-Accumulated Knowledge Transfer for Partial Domain Adaptation ( http://arxiv.org/abs/2008.11873v1 )

ライセンス: Link先を確認
Taotao Jing, Haifeng Xia, Zhengming Ding(参考訳) 部分ドメイン適応(PDA)は、ソースドメインラベル空間がターゲットドメインを置き換えるとき、現実的で困難な問題を扱うため、魅力的な注目を集める。 従来のドメイン適応(da)の取り組みのほとんどは、ドメイン間の分散格差を緩和するために、ドメイン不変特徴の学習に集中している。 しかし、PDAの非関係なソースドメインカテゴリによって引き起こされる負の影響を緩和することが重要である。 本稿では,ドメイン適応を効果的に行うために,2つのドメインにまたがる関連カテゴリを整合させる適応的知識伝達フレームワーク(A$^2$KT)を提案する。 具体的には、適応的に蓄積されたメカニズムを用いて、最も確実なターゲットサンプルとその対応するソースカテゴリを徐々にフィルタリングし、2つの領域にまたがるより多くの知識でポジティブな転送を促進する。 さらに、プロトタイプ分類器と多層パーセプトロン分類器からなる二層別分類器アーキテクチャを構築し、ドメイン間の固有データ分散知識を様々な観点から把握する。 クラス間距離の最大化とクラス内サンプル幅のコンパクト化により、提案モデルは共有カテゴリデータのよりドメイン不変かつタスク固有な識別表現を得ることができる。 いくつかの部分領域適応ベンチマークにおける総合的な実験は、最先端のPDA法と比較して提案モデルの有効性を示す。

Partial domain adaptation (PDA) attracts appealing attention as it deals with a realistic and challenging problem when the source domain label space substitutes the target domain. Most conventional domain adaptation (DA) efforts concentrate on learning domain-invariant features to mitigate the distribution disparity across domains. However, it is crucial to alleviate the negative influence caused by the irrelevant source domain categories explicitly for PDA. In this work, we propose an Adaptively-Accumulated Knowledge Transfer framework (A$^2$KT) to align the relevant categories across two domains for effective domain adaptation. Specifically, an adaptively-accumulated mechanism is explored to gradually filter out the most confident target samples and their corresponding source categories, promoting positive transfer with more knowledge across two domains. Moreover, a dual distinct classifier architecture consisting of a prototype classifier and a multilayer perceptron classifier is built to capture intrinsic data distribution knowledge across domains from various perspectives. By maximizing the inter-class center-wise discrepancy and minimizing the intra-class sample-wise compactness, the proposed model is able to obtain more domain-invariant and task-specific discriminative representations of the shared categories data. Comprehensive experiments on several partial domain adaptation benchmarks demonstrate the effectiveness of our proposed model, compared with the state-of-the-art PDA methods.
翻訳日:2022-10-24 07:53:48 公開日:2020-08-27
# 教師なしドメイン適応のための対数二項識別器

Adversarial Dual Distinct Classifiers for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2008.11878v1 )

ライセンス: Link先を確認
Taotao Jing, Zhengming Ding(参考訳) 非教師付きドメイン適応(UDA)は、異なる分散ラベル付きソースドメインから学習モデルを構築することにより、ラベル付き対象サンプルを認識する。 従来のUDAは、深い敵ネットワークを通じてドメイン不変の特徴を抽出することに集中している。 しかし、それらのほとんどは、様々なクラスにわたるタスク固有の決定境界を考慮せずに、異なるドメイン機能分布にマッチすることを求めています。 本稿では,タスク固有のカテゴリ境界に一致したソースデータと対象ドメインデータ分布を同時に整合させるための,新たなAdversarial Dual Distinct Classifiers Network (AD$^2$CN)を提案する。 具体的には、ドメイン不変の特徴発生器を利用して、識別的クロスドメインアライメントのガイダンスにより、ソースとターゲットデータを潜在共通空間に埋め込む。 さらに,2つの異なる構造分類器を自然に設計し,ラベルなしのターゲットサンプルをラベル付きソースドメインデータの監督下で識別する。 このような異なるアーキテクチャを持つ2つの分類器は、異なる視点から対象データ構造の多様な知識を捉えることができる。 いくつかのクロスドメインビジュアルベンチマークにおける広範囲な実験結果は、他の最先端のudaと比較することで、モデルの有効性を証明している。

Unsupervised Domain adaptation (UDA) attempts to recognize the unlabeled target samples by building a learning model from a differently-distributed labeled source domain. Conventional UDA concentrates on extracting domain-invariant features through deep adversarial networks. However, most of them seek to match the different domain feature distributions, without considering the task-specific decision boundaries across various classes. In this paper, we propose a novel Adversarial Dual Distinct Classifiers Network (AD$^2$CN) to align the source and target domain data distribution simultaneously with matching task-specific category boundaries. To be specific, a domain-invariant feature generator is exploited to embed the source and target data into a latent common space with the guidance of discriminative cross-domain alignment. Moreover, we naturally design two different structure classifiers to identify the unlabeled target samples over the supervision of the labeled source domain data. Such dual distinct classifiers with various architectures can capture diverse knowledge of the target data structure from different perspectives. Extensive experimental results on several cross-domain visual benchmarks prove the model's effectiveness by comparing it with other state-of-the-art UDA.
翻訳日:2022-10-24 07:53:25 公開日:2020-08-27
# ビデオレベルラベルを用いた異常検出のための自己推論フレームワーク

A Self-Reasoning Framework for Anomaly Detection Using Video-Level Labels ( http://arxiv.org/abs/2008.11887v1 )

ライセンス: Link先を確認
Muhammad Zaigham Zaheer, Arif Mahmood, Hochul Shin, Seung-Ik Lee(参考訳) 監視ビデオにおける異常なイベント検出は、画像および映像処理コミュニティにおける挑戦的で実用的な研究課題である。 異常事象のフレームレベルのアノテーションと比較すると、ビデオレベルのアノテーションの取得は非常に高速で安価である。 より具体的には、異常なラベル付きビデオは、実際には短い期間しか異常を含まないが、残りのビデオフレームは正常であるかもしれない。 本稿では,ビデオレベルラベルのみを用いて自己推論方式で学習したディープニューラルネットワークに基づく,弱い教師付き異常検出フレームワークを提案する。 自己推論に基づくトレーニングを行うために,時空間ビデオ特徴のバイナリクラスタリングを用いて擬似ラベルを生成し,異常ビデオのラベルに存在するノイズを緩和する。 提案する定式化は,より正確な異常検出の目標を達成するために,メインネットワークとクラスタリングが相互に補完することを奨励する。 提案するフレームワークは,UCF-crime, ShanghaiTech, UCSD Ped2など,公開されている実世界の異常検出データセット上で評価されている。 実験により,提案手法が現状の手法よりも優れていることを示す。

Anomalous event detection in surveillance videos is a challenging and practical research problem among image and video processing community. Compared to the frame-level annotations of anomalous events, obtaining video-level annotations is quite fast and cheap though such high-level labels may contain significant noise. More specifically, an anomalous labeled video may actually contain anomaly only in a short duration while the rest of the video frames may be normal. In the current work, we propose a weakly supervised anomaly detection framework based on deep neural networks which is trained in a self-reasoning fashion using only video-level labels. To carry out the self-reasoning based training, we generate pseudo labels by using binary clustering of spatio-temporal video features which helps in mitigating the noise present in the labels of anomalous videos. Our proposed formulation encourages both the main network and the clustering to complement each other in achieving the goal of more accurate anomaly detection. The proposed framework has been evaluated on publicly available real-world anomaly detection datasets including UCF-crime, ShanghaiTech and UCSD Ped2. The experiments demonstrate superiority of our proposed framework over the current state-of-the-art methods.
翻訳日:2022-10-24 07:53:04 公開日:2020-08-27
# 自己完結型信頼度を有するwebly教師付き画像分類

Webly Supervised Image Classification with Self-Contained Confidence ( http://arxiv.org/abs/2008.11894v1 )

ライセンス: Link先を確認
Jingkang Yang, Litong Feng, Weirong Chen, Xiaopeng Yan, Huabin Zheng, Ping Luo, Wayne Zhang(参考訳) 本稿では,インターネットからサンプルをクロールし,検索クエリをWebラベルとして直接使用することにより,データセットを構築するウェブ教師あり学習(WSL)に焦点を当てる。 WSLは高速で低コストなデータ収集の恩恵を受けるが、Webラベルのノイズは画像分類モデルの性能を損なう。 この問題を軽減するため、近年の研究では、自己ラベル教師付き損失$\mathcal{l}_s$とwebly教師付き損失$\mathcal{l}_w$が併用されている。 $\mathcal{L}_s$はモデル自身によって予測される擬似ラベルに依存する。 webラベルまたは擬似ラベルの正しさは、通常、各webサンプルのケースバイケースベースであるため、サンプルレベルで$\mathcal{l}_s$と$\mathcal{l}_w$のバランスを調整することが望ましい。 信頼度予測におけるディープニューラルネットワーク(DNN)の能力に着想を得て,WSL設定にモデル不確実性を適用して自己完結信頼(SCC)を導入し,それをサンプルバランスとして$\mathcal{L}_s$および$\mathcal{L}_w$とする。 したがって、シンプルで効果的なWSLフレームワークが提案されている。 一連のSCCフレンドリーな正規化手法について検討し、提案したグラフ強化ミキサップは、我々のフレームワークを強化するための高品質な信頼性を提供する最も効果的な方法である。 提案されたWSLフレームワークは、WebVision-1000とFood101-Nの2つの大規模WSLデータセットに対して、最先端の結果を得た。 コードはhttps://github.com/bigvideoresearch/sccで入手できる。

This paper focuses on webly supervised learning (WSL), where datasets are built by crawling samples from the Internet and directly using search queries as web labels. Although WSL benefits from fast and low-cost data collection, noises in web labels hinder better performance of the image classification model. To alleviate this problem, in recent works, self-label supervised loss $\mathcal{L}_s$ is utilized together with webly supervised loss $\mathcal{L}_w$. $\mathcal{L}_s$ relies on pseudo labels predicted by the model itself. Since the correctness of the web label or pseudo label is usually on a case-by-case basis for each web sample, it is desirable to adjust the balance between $\mathcal{L}_s$ and $\mathcal{L}_w$ on sample level. Inspired by the ability of Deep Neural Networks (DNNs) in confidence prediction, we introduce Self-Contained Confidence (SCC) by adapting model uncertainty for WSL setting, and use it to sample-wisely balance $\mathcal{L}_s$ and $\mathcal{L}_w$. Therefore, a simple yet effective WSL framework is proposed. A series of SCC-friendly regularization approaches are investigated, among which the proposed graph-enhanced mixup is the most effective method to provide high-quality confidence to enhance our framework. The proposed WSL framework has achieved the state-of-the-art results on two large-scale WSL datasets, WebVision-1000 and Food101-N. Code is available at https://github.com/bigvideoresearch/SCC.
翻訳日:2022-10-24 07:52:47 公開日:2020-08-27
# プログレッシブトレーニングによるPose-Guided High-Resolution Outearance Transfer

Pose-Guided High-Resolution Appearance Transfer via Progressive Training ( http://arxiv.org/abs/2008.11898v1 )

ライセンス: Link先を確認
Ji Liu, Heshan Liu, Mang-Tik Chiu, Yu-Wing Tai, Chi-Keung Tang(参考訳) 本研究では,前例のない画像解像度(1024×1024)において,対象人物のイメージをそれぞれ付与した,所定の基準外観を対象ポーズに転送する新たなポーズ誘導外見伝達ネットワークを提案する。 3Dモデルは使用されていない。 そこで本ネットワークでは, 局所的知覚喪失や局所的識別器などの密集した局所記述子を用いて細部を洗練し, 粗大かつ微妙に訓練し, 衣服テクスチャや幾何学の複雑な外観を忠実に保存し, 非閉塞性を含む移動した外観をシームレスに幻覚させる。 我々のプログレッシブエンコーダ・デコーダアーキテクチャは、入力画像固有の参照外観を複数のスケールで学習することができる。 Human3.6Mデータセット、DeepFashionデータセット、およびYouTubeから収集したデータセットの大規模な実験結果から、私たちのモデルは高品質な画像を生成しており、人間の衣服の移動やポーズ誘導による人間の映像生成といった有用な応用にさらに活用することができる。

We propose a novel pose-guided appearance transfer network for transferring a given reference appearance to a target pose in unprecedented image resolution (1024 * 1024), given respectively an image of the reference and target person. No 3D model is used. Instead, our network utilizes dense local descriptors including local perceptual loss and local discriminators to refine details, which is trained progressively in a coarse-to-fine manner to produce the high-resolution output to faithfully preserve complex appearance of garment textures and geometry, while hallucinating seamlessly the transferred appearances including those with dis-occlusion. Our progressive encoder-decoder architecture can learn the reference appearance inherent in the input image at multiple scales. Extensive experimental results on the Human3.6M dataset, the DeepFashion dataset, and our dataset collected from YouTube show that our model produces high-quality images, which can be further utilized in useful applications such as garment transfer between people and pose-guided human video generation.
翻訳日:2022-10-24 07:52:15 公開日:2020-08-27
# フェデレーションによるファッションアパレルの細粒度分類

A Federated Approach for Fine-Grained Classification of Fashion Apparel ( http://arxiv.org/abs/2008.12350v1 )

ライセンス: Link先を確認
Tejaswini Mallavarapu, Luke Cranfill, Junggab Son, Eun Hye Kim, Reza M. Parizi, and John Morris(参考訳) オンライン小売サービスが普及し、現代社会に広まりつつある中、画像データからファッションアパレルの特徴を分類するアプリケーションはますます不可欠になりつつある。 大手企業からスタートアップまで、オンライン小売業者はこうしたアプリケーションを活用して利益率を高め、消費者体験を向上させることができる。 ファッションアイテムを分類する多くの特筆すべきスキームが提案されているが、その大半はTシャツ、ズボン、スカート、靴、バッグなどの基本レベルのカテゴリーの分類に重点を置いている。 これまでの取り組みとは対照的に,同カテゴリにおけるファッションアイテム属性の詳細な分類を可能にすることを目的としている。 1つのドレスから始めて、ドレスヘムの種類、ヘムの長さ、スリーブの長さを分類しようとします。 提案手法は3つの主要な段階から構成される。 (a)意味セグメンテーションを用いた入力画像からの目標項目の局在化 (b)事前訓練されたcnnと境界ボックスを用いた人間のキーポイント(例えば肩のポイント)の検出と、 c)アルゴリズム的アプローチとディープニューラルネットワークの組み合わせを用いて属性を分類する3つのフェーズ。 実験の結果,提案手法は平均精度が93.02%以上であり,既存の畳み込みニューラルネットワーク(CNN)方式よりも優れていることがわかった。

As online retail services proliferate and are pervasive in modern lives, applications for classifying fashion apparel features from image data are becoming more indispensable. Online retailers, from leading companies to start-ups, can leverage such applications in order to increase profit margin and enhance the consumer experience. Many notable schemes have been proposed to classify fashion items, however, the majority of which focused upon classifying basic-level categories, such as T-shirts, pants, skirts, shoes, bags, and so forth. In contrast to most prior efforts, this paper aims to enable an in-depth classification of fashion item attributes within the same category. Beginning with a single dress, we seek to classify the type of dress hem, the hem length, and the sleeve length. The proposed scheme is comprised of three major stages: (a) localization of a target item from an input image using semantic segmentation, (b) detection of human key points (e.g., point of shoulder) using a pre-trained CNN and a bounding box, and (c) three phases to classify the attributes using a combination of algorithmic approaches and deep neural networks. The experimental results demonstrate that the proposed scheme is highly effective, with all categories having average precision of above 93.02%, and outperforms existing Convolutional Neural Networks (CNNs)-based schemes.
翻訳日:2022-10-24 07:45:57 公開日:2020-08-27
# 粒子複合材料の熱物性予測のための機械学習とコンピュータビジョン技術

Machine Learning and Computer Vision Techniques to Predict Thermal Properties of Particulate Composites ( http://arxiv.org/abs/2010.01968v1 )

ライセンス: Link先を確認
Fazlolah Mohaghegh, Jayathi Murthy(参考訳) 複合材料と多孔質媒体の正確な熱分析には, 局所熱特性の詳細なキャラクタリゼーションが必要である。 リチウムイオン電池などの重要な用途では、動作中の特性の変化により解析がさらに難しくなり、迅速なキャラクタリゼーションが必要となる。 本研究では, 粒子状複合材料の熱的特性を, 実際のマイクロイメージに基づいて特徴付ける新しい手法を提案する。 2d sem画像のスタックから3d画像を作成し、ランダムな場所で再構成された画像から数種類の代表要素ボリューム(rev)を抽出することにより、さまざまなレバーの幾何学的特徴を多用する。 深層学習アルゴリズムは、畳み込みニューラルネットワークに基づいて設計され、形状の形状を考慮し、revの効果的な導電性をもたらす。第1に、微細格子からの導電率の平均値と、微細格子のdns溶液から得られる有効導電率を用いた粗いグリッドの実装に基づいて、ネットワークのトレーニングを行う。 他の方法は、各REVから異なる方向の断面の導電率値を使用する。 平均化に基づくトレーニングの結果,ネットワーク内の粗いグリッドはネットワークエラーに有意な影響を及ぼさないが,最大3桁までのトレーニング時間を短縮できることがわかった。 1つの一般ネットワークが異なる電極画像を用いて正確な予測を行い、形状と構成の相違を表現できることを実証した。 また,平均化に基づくトレーニングは,断面に基づくトレーニングよりも正確である。 サーマルパーコレーションの予測における機械学習手法の導入によるロバスト性の研究により,予測誤差は体積分数に基づく予測による誤差のほぼ半分であることが示された。

Accurate thermal analysis of composites and porous media requires detailed characterization of local thermal properties in small scale. For some important applications such as lithium-ion batteries, changes in the properties during the operation makes the analysis even more challenging, necessitating a rapid characterization. We propose a new method to characterize the thermal properties of particulate composites based on actual micro-images. Our computer-vision-based approach constructs 3D images from stacks of 2D SEM images and then extracts several representative elemental volumes (REVs) from the reconstructed images at random places, which leads to having a range of geometrical features for different REVs. A deep learning algorithm is designed based on convolutional neural nets to take the shape of the geometry and result in the effective conductivity of the REV. The training of the network is performed in two methods: First, based on implementing a coarser grid that uses the average values of conductivities from the fine grid and the resulted effective conductivity from the DNS solution of the fine grid. The other method uses conductivity values on cross sections from each REV in different directions. The results of training based on averaging show that using a coarser grid in the network does not have a meaningful effect on the network error; however, it decreases the training time up to three orders of magnitude. We showed that one general network can make accurate predictions using different types of electrode images, representing the difference in the geometry and constituents. Moreover, training based on averaging is more accurate than training based on cross sections. The study of the robustness of implementing a machine learning technique in predicting the thermal percolation shows the prediction error is almost half of the error from predictions based on the volume fraction.
翻訳日:2022-10-24 07:44:35 公開日:2020-08-27
# 関連・人間中心の読書理解

Relation/Entity-Centric Reading Comprehension ( http://arxiv.org/abs/2008.11940v1 )

ライセンス: Link先を確認
Takeshi Onishi(参考訳) 人間の言語を理解する機械を構築することは、人工知能における最もありふれた課題の1つだ。 この論文は、エンティティとその関係を理解することに焦点を当てた読解の研究を通じて、この課題に対処している。 具体的には,読解理解度を測定するための質問応答タスクに着目した。 自然言語のセマンティクスを表現するために一般的に使用されるため、エンティティと関係に焦点をあてる。

Constructing a machine that understands human language is one of the most elusive and long-standing challenges in artificial intelligence. This thesis addresses this challenge through studies of reading comprehension with a focus on understanding entities and their relationships. More specifically, we focus on question answering tasks designed to measure reading comprehension. We focus on entities and relations because they are typically used to represent the semantics of natural language.
翻訳日:2022-10-24 07:44:08 公開日:2020-08-27
# オープンドメインペルソナ・アウェア対話生成のための専用モデルの改良

Improvement of a dedicated model for open domain persona-aware dialogue generation ( http://arxiv.org/abs/2008.11970v1 )

ライセンス: Link先を確認
Qiang Han(参考訳) 本稿では,近年の変圧器アーキテクチャの高速化と性能向上手法について,主に専用モデルトレーニングへの適用について検討する。 ここで研究する専用モデルは、オープンドメインのペルソナ・アウェア対話生成モデルを参照し、データセットはマルチターン・ショート対話であり、単一の入力シーケンスの総長は105トークン以下である。 そこで本論文では,長周期処理のためのトランスアーキテクチャのアーキテクチャとアテンション機構の多くの改善について論じる。 実験のソースコードがオープンソース化された。 https://github.com/ghosthamlet/persona

This paper analyzes some speed and performance improvement methods of Transformer architecture in recent years, mainly its application in dedicated model training. The dedicated model studied here refers to the open domain persona-aware dialogue generation model, and the dataset is multi turn short dialogue, The total length of a single input sequence is no more than 105 tokens. Therefore, many improvements in the architecture and attention mechanism of transformer architecture for long sequence processing are not discussed in this paper. The source code of the experiments has been open sourced: https://github.com/ghosthamlet/persona
翻訳日:2022-10-24 07:44:01 公開日:2020-08-27
# バイオメディカルテキストの多文書要約に着目した検索

Query Focused Multi-document Summarisation of Biomedical Texts ( http://arxiv.org/abs/2008.11986v1 )

ライセンス: Link先を確認
Diego Molla, Christopher Jones, and Vincent Nguyen(参考訳) 本稿では,2020 BioASQ Challenge (BioASQ8b) のマカリー大学とオーストラリア国立B期目の参加について述べる。 本フレームワークは,質問文埋め込みと文埋め込みの比較に分類層と回帰層を併用することにより,問合せに焦点を絞った多文書抽出要約を実現する。 我々は,BERTとBioBERT,Siameseアーキテクチャ,強化学習を用いた変種を実験した。 我々は、bert が単語埋め込みを得るのに使われ、lstm 層が文埋め込みを得るのに最適な結果を観察する。 シームズアーキテクチャやBioBERTを使用した変数は、結果を改善しなかった。

This paper presents the participation of Macquarie University and the Australian National University for Task B Phase B of the 2020 BioASQ Challenge (BioASQ8b). Our overall framework implements Query focused multi-document extractive summarisation by applying either a classification or a regression layer to the candidate sentence embeddings and to the comparison between the question and sentence embeddings. We experiment with variants using BERT and BioBERT, Siamese architectures, and reinforcement learning. We observe the best results when BERT is used to obtain the word embeddings, followed by an LSTM layer to obtain sentence embeddings. Variants using Siamese architectures or BioBERT did not improve the results.
翻訳日:2022-10-24 07:43:52 公開日:2020-08-27
# Uralic Language Identification (ULI) 2020 タスクデータセットと Wanca 2017 コーパスの共有

Uralic Language Identification (ULI) 2020 shared task dataset and the Wanca 2017 corpus ( http://arxiv.org/abs/2008.12169v1 )

ライセンス: Link先を確認
Tommi Jauhiainen, Heidi Jauhiainen, Niko Partanen and Krister Lind\'en(参考訳) 本稿では、ウラル言語識別(uli)2020の共有タスクを利用するために、珍しいウラル言語で書かれた文が収集されたインターネットからクロールされたwanca 2017テキストのコーパスを紹介する。 uliデータセットと、それをwanca 2017コーパスとleipzig corporaコレクションから異なる言語のテキストを用いて構築した方法について説明する。 また,ULI 2020データセットを用いてベースライン言語識別実験を行った。

This article introduces the Wanca 2017 corpus of texts crawled from the internet from which the sentences in rare Uralic languages for the use of the Uralic Language Identification (ULI) 2020 shared task were collected. We describe the ULI dataset and how it was constructed using the Wanca 2017 corpus and texts in different languages from the Leipzig corpora collection. We also provide baseline language identification experiments conducted using the ULI 2020 dataset.
翻訳日:2022-10-24 07:42:53 公開日:2020-08-27
# 分子特性予測のためのグラフニューラルネットワークアーキテクチャ探索

Graph Neural Network Architecture Search for Molecular Property Prediction ( http://arxiv.org/abs/2008.12187v1 )

ライセンス: Link先を確認
Shengli Jiang, Prasanna Balaprakash(参考訳) 分子の構造から分子の性質を予測することは難しい課題である。 近年、ディープラーニング手法は、与えられたデータから有用な特徴を学習できるため、このタスクの最先端を改善している。 分子構造をグラフとして扱うことにより、原子と結合がノードとエッジとしてモデル化され、グラフニューラルネットワーク(GNN)が分子特性の予測に広く利用されている。 しかし、与えられたデータセットに対するGNNの設計と開発は、ネットワークアーキテクチャの労働集約的な設計とチューニングに依存している。 neural architecture search(nas)は、高パフォーマンスニューラルネットワークアーキテクチャを自動的に発見するための有望なアプローチである。 そこで我々は,分子特性予測のためのGNNの設計と開発を自動化するNASアプローチを開発した。 具体的には,分子の量子力学および分子化学データセットにおける分子特性を予測するために,メッセージパスニューラルネットワーク(MPNN)の自動開発に着目する。 自動検出MPNNの優位性をMoreculeNetベンチマークから手作業で設計したGNNと比較することにより示す。 本稿では,MPNN検索空間における選択の相対的重要性について検討し,アーキテクチャのカスタマイズが分子特性予測の性能向上に重要であること,提案手法が最小限の手作業で自動的にカスタマイズできることを示す。

Predicting the properties of a molecule from its structure is a challenging task. Recently, deep learning methods have improved the state of the art for this task because of their ability to learn useful features from the given data. By treating molecule structure as graphs, where atoms and bonds are modeled as nodes and edges, graph neural networks (GNNs) have been widely used to predict molecular properties. However, the design and development of GNNs for a given data set rely on labor-intensive design and tuning of the network architectures. Neural architecture search (NAS) is a promising approach to discover high-performing neural network architectures automatically. To that end, we develop an NAS approach to automate the design and development of GNNs for molecular property prediction. Specifically, we focus on automated development of message-passing neural networks (MPNNs) to predict the molecular properties of small molecules in quantum mechanics and physical chemistry data sets from the MoleculeNet benchmark. We demonstrate the superiority of the automatically discovered MPNNs by comparing them with manually designed GNNs from the MoleculeNet benchmark. We study the relative importance of the choices in the MPNN search space, demonstrating that customizing the architecture is critical to enhancing performance in molecular property prediction and that the proposed approach can perform customization automatically with minimal manual effort.
翻訳日:2022-10-24 07:37:12 公開日:2020-08-27
# あらゆるクエリが数えられる:探索的データ分析のプライバシー損失の分析

Every Query Counts: Analyzing the Privacy Loss of Exploratory Data Analyses ( http://arxiv.org/abs/2008.12282v1 )

ライセンス: Link先を確認
Saskia Nu\~nez von Voigt, Mira Pauli, Johanna Reichert, Florian Tschorsch(参考訳) 探索的データ分析は、すべてのデータアナリストが洞察を得、データ品質を評価し、(必要であれば)さらなる処理のために機械学習モデルを選択するために不可欠なステップである。 プライバシー保護機械学習は増加傾向にあるが、多くの場合、この初期分析はプライバシー予算に向けてカウントされていない。 本稿では,基本統計関数のプライバシ損失の定量化と,機械学習アプローチのプライバシロス予算を計算する上での考慮の重要性を明らかにする。

An exploratory data analysis is an essential step for every data analyst to gain insights, evaluate data quality and (if required) select a machine learning model for further processing. While privacy-preserving machine learning is on the rise, more often than not this initial analysis is not counted towards the privacy budget. In this paper, we quantify the privacy loss for basic statistical functions and highlight the importance of taking it into account when calculating the privacy-loss budget of a machine learning approach.
翻訳日:2022-10-24 07:36:53 公開日:2020-08-27
# 深層sr-ddl : 多変量および動的機能コネクトミクスデータを統合した多次元臨床評価のための深層構造正規化動的辞書学習

Deep sr-DDL: Deep Structurally Regularized Dynamic Dictionary Learning to Integrate Multimodal and Dynamic Functional Connectomics data for Multidimensional Clinical Characterizations ( http://arxiv.org/abs/2008.12410v1 )

ライセンス: Link先を確認
Niharika Shimona D'Souza, Mary Beth Nebel, Deana Crocetti, Nicholas Wymbs, Joshua Robinson, Stewart H. Mostofsky, Archana Venkataraman(参考訳) 本研究では, 静止機能MRI(r-fMRI)と拡散テンソルイメージング(DTI)のトラクトグラフィーから相補的情報を共同でモデル化し, 生体マーカーを抽出する手法を提案する。 本フレームワークは,コネクトロミクスデータの生成モデルと,行動スコアを予測するディープネットワークを結合する。 生成成分は構造的に規則化された動的辞書学習(sr-DDL)モデルであり、動的rs-fMRI相関行列を共有ベースネットワークのコレクションに分解し、時間的に異なる主観的なロードを行う。 このマトリックス因子化を定式化し,解剖学的にインフォームドされた機能的接続プロファイルを学習するためにdtiトラクトグラフィを用いた。 本フレームワークの深部はLSTM-ANNブロックであり,多次元臨床像の予測に主観的Sr-DDL負荷の時間的変化を利用する。 我々の共同最適化戦略は、基礎ネットワーク、主題特異的時間変動負荷、ニューラルネットワーク重みを総合的に推定する。 自閉症スペクトラム障害 (asd) と診断された患者に対して, hcp (human connectome project) データベースからの神経型個体のデータセット上で, 認知にマップし, 個別のマルチスコア予測タスクを5倍のクロス検証設定で検証した。 ハイブリッドモデルは、臨床結果予測における最先端のアプローチを上回り、脳組織の解釈可能なマルチモーダルニューラルシグネチャを学習する。

We propose a novel integrated framework that jointly models complementary information from resting-state functional MRI (rs-fMRI) connectivity and diffusion tensor imaging (DTI) tractography to extract biomarkers of brain connectivity predictive of behavior. Our framework couples a generative model of the connectomics data with a deep network that predicts behavioral scores. The generative component is a structurally-regularized Dynamic Dictionary Learning (sr-DDL) model that decomposes the dynamic rs-fMRI correlation matrices into a collection of shared basis networks and time varying subject-specific loadings. We use the DTI tractography to regularize this matrix factorization and learn anatomically informed functional connectivity profiles. The deep component of our framework is an LSTM-ANN block, which uses the temporal evolution of the subject-specific sr-DDL loadings to predict multidimensional clinical characterizations. Our joint optimization strategy collectively estimates the basis networks, the subject-specific time-varying loadings, and the neural network weights. We validate our framework on a dataset of neurotypical individuals from the Human Connectome Project (HCP) database to map to cognition and on a separate multi-score prediction task on individuals diagnosed with Autism Spectrum Disorder (ASD) in a five-fold cross validation setting. Our hybrid model outperforms several state-of-the-art approaches at clinical outcome prediction and learns interpretable multimodal neural signatures of brain organization.
翻訳日:2022-10-24 07:36:36 公開日:2020-08-27
# 静止状態機能mriデータから臨床重症度を予測するための共同ネットワーク最適化フレームワーク

A Joint Network Optimization Framework to Predict Clinical Severity from Resting State Functional MRI Data ( http://arxiv.org/abs/2009.03238v1 )

ライセンス: Link先を確認
Niharika Shimona D'Souza, Mary Beth Nebel, Nicholas Wymbs, Stewart H. Mostofsky, Archana Venkataraman(参考訳) 静止状態fMRI(rs-fMRI)データから臨床重症度を予測するための新しい最適化フレームワークを提案する。 我々のモデルは2つの結合項からなる。 第1の項は相関行列をネットワーク多様体を定義する代表部分ネットワークのスパース集合に分解する。 これらのサブネットは、脳全体のコアクティベーションの要素パターンに対応するランクワンの外積としてモデル化され、サブネットは患者固有の非負の係数を介して結合される。 第2項は、患者固有の係数を用いて臨床重症度を予測する線形回帰モデルである。 フレームワークを2つの別々のデータセット上で10倍のクロス検証設定で検証する。 1つ目は自閉症スペクトラム障害(ASD)と診断された58例のコホートである。 第2のデータセットは、公開されているASDデータベースから60,3人の患者で構成されている。 本手法は,従来のグラフ理論および統計表現学習手法を用いてrs-fmri相関を行動に関連付ける標準半教師付きフレームワークよりも優れる。 対照的に、我々の共同ネットワーク最適化フレームワークは、rs-fMRI相関行列の構造を利用して、グループレベルの効果と患者の不均一性を同時に捉える。 最後に,本提案手法が臨床関連ネットワークの特徴を強く認識することを示す。

We propose a novel optimization framework to predict clinical severity from resting state fMRI (rs-fMRI) data. Our model consists of two coupled terms. The first term decomposes the correlation matrices into a sparse set of representative subnetworks that define a network manifold. These subnetworks are modeled as rank-one outer-products which correspond to the elemental patterns of co-activation across the brain; the subnetworks are combined via patient-specific non-negative coefficients. The second term is a linear regression model that uses the patient-specific coefficients to predict a measure of clinical severity. We validate our framework on two separate datasets in a ten fold cross validation setting. The first is a cohort of fifty-eight patients diagnosed with Autism Spectrum Disorder (ASD). The second dataset consists of sixty three patients from a publicly available ASD database. Our method outperforms standard semi-supervised frameworks, which employ conventional graph theoretic and statistical representation learning techniques to relate the rs-fMRI correlations to behavior. In contrast, our joint network optimization framework exploits the structure of the rs-fMRI correlation matrices to simultaneously capture group level effects and patient heterogeneity. Finally, we demonstrate that our proposed framework robustly identifies clinically relevant networks characteristic of ASD.
翻訳日:2022-10-24 07:36:04 公開日:2020-08-27
# DVE: 動的変分埋め込みとレコメンダシステムへの応用

DVE: Dynamic Variational Embeddings with Applications in Recommender Systems ( http://arxiv.org/abs/2009.08962v1 )

ライセンス: Link先を確認
Meimei Liu, Hongxia Yang(参考訳) 埋め込みは高次元の機能を低次元空間に投影する上で有用な手法であり、リンク予測、ノード分類、自然言語処理など多くの応用が成功している。 現在のアプローチは主に静的データに重点を置いているが、これは通常、時間とともに大きな変更が伴うアプリケーションの不満足なパフォーマンスにつながる。 組み込み機能のバリエーションを動的に特徴付ける方法はまだ明らかにされていない。 本稿では,近年のリカレントニューラルネットワークの進歩に基づくシーケンス認識データに対する動的変動埋め込み(DVE)手法を提案する。 DVEは、探索に不可欠なノード固有の性質と時間的変動を明示的に同時にモデル化することができる。 さらに,シーケンス認識型レコメンダシステムにもdveを適用し,リンク予測のためのエンドツーエンド・ニューラル・アーキテクチャを開発した。

Embedding is a useful technique to project a high-dimensional feature into a low-dimensional space, and it has many successful applications including link prediction, node classification and natural language processing. Current approaches mainly focus on static data, which usually lead to unsatisfactory performance in applications involving large changes over time. How to dynamically characterize the variation of the embedded features is still largely unexplored. In this paper, we introduce a dynamic variational embedding (DVE) approach for sequence-aware data based on recent advances in recurrent neural networks. DVE can model the node's intrinsic nature and temporal variation explicitly and simultaneously, which are crucial for exploration. We further apply DVE to sequence-aware recommender systems, and develop an end-to-end neural architecture for link prediction.
翻訳日:2022-10-24 07:35:44 公開日:2020-08-27
# タスク蒸留によるドメイン適応

Domain Adaptation Through Task Distillation ( http://arxiv.org/abs/2008.11911v1 )

ライセンス: Link先を確認
Brady Zhou, Nimit Kalra, Philipp Kr\"ahenb\"uhl(参考訳) ディープネットワークは、その複雑で強力な表現を構築するために、何百万もの正確に注釈された画像を掘り起こします。 残念ながら、自動運転のようなタスクは現実世界のトレーニングデータを持っていない。 繰り返し車を木に衝突させるのは、あまりにも高価すぎる。 一般的に定められた解は単純で、シミュレーションで表現を学び、それを現実世界に転送する。 しかし、シミュレーションや現実世界の視覚体験が劇的に変化するため、この移行は困難である。 私たちの中核的な観察は、画像認識のような特定のタスクに対して、データセットは豊富であることです。 それらは、シミュレーションや現実のあらゆる興味深い領域に存在し、ラベル付けや拡張が容易である。 これらの認識データセットを使用して、ソースとターゲットドメインをリンクし、タスク蒸留フレームワークでモデル間を転送します。 提案手法は,ViZDoom,SuperTuxKart,CARLAなど,異なるシミュレータ間でナビゲーションポリシの転送に成功している。 さらに、標準ドメイン適応ベンチマークで有望な結果を示す。

Deep networks devour millions of precisely annotated images to build their complex and powerful representations. Unfortunately, tasks like autonomous driving have virtually no real-world training data. Repeatedly crashing a car into a tree is simply too expensive. The commonly prescribed solution is simple: learn a representation in simulation and transfer it to the real world. However, this transfer is challenging since simulated and real-world visual experiences vary dramatically. Our core observation is that for certain tasks, such as image recognition, datasets are plentiful. They exist in any interesting domain, simulated or real, and are easy to label and extend. We use these recognition datasets to link up a source and target domain to transfer models between them in a task distillation framework. Our method can successfully transfer navigation policies between drastically different simulators: ViZDoom, SuperTuxKart, and CARLA. Furthermore, it shows promising results on standard domain adaptation benchmarks.
翻訳日:2022-10-24 07:35:31 公開日:2020-08-27
# Cloze Test: 完全なビデオイベントへの学習による効果的なビデオ異常検出

Cloze Test Helps: Effective Video Anomaly Detection via Learning to Complete Video Events ( http://arxiv.org/abs/2008.11988v1 )

ライセンス: Link先を確認
Guang Yu, Siqi Wang, Zhiping Cai, En Zhu, Chuanfu Xu, Jianping Yin, Marius Kloft(参考訳) メディアコンテンツの解釈において重要なトピックとして、ビデオ異常検出(VAD)はディープニューラルネットワーク(DNN)を介して実りある進歩を遂げた。 しかし、既存の手法は通常、再構成またはフレーム予測ルーチンに従う。 1)ビデオアクティビティを正確かつ包括的な方法でローカライズすることはできない。 2)高レベルの意味と時間的文脈情報を利用するには十分な能力がない。 言語研究において頻繁に使用されるクローズテストに着想を得て,上記のギャップを埋めるための新しいvadソリューションであるvideo event completion(vec)を提案する。 出現と動きは、関心のある地域(RoIs)をローカライズするための相互補完的な手段として活用される。 ビデオイベントとして各RoIから正規化された時空間立方体(STC)が構築され、VECの基礎を成し、基本的な処理ユニットとして機能する。 第2に,dnnに対して,ビジュアルクローゼテストの解決による高レベルセマンティクスの取得を推奨する。 このような視覚的クローゼテストを構築するために、STCの特定のパッチを消去して不完全なイベント(IE)を生成する。 DNNは、行方不明のパッチを推測することで、元のビデオイベントをIEから復元することを学ぶ。 第三に、よりリッチなモーションダイナミクスを組み込むために、別のDNNは、消去されたパッチの光学的流れを推測するように訓練されている。 最後に、異なるタイプのIEとモダリティを用いた2つのアンサンブル戦略を提案し、VADの時間的文脈とモダリティ情報を完全に活用する。 VECは、一般的に使用されているVADベンチマークにおいて、顕著なマージン(典型的には1.5%-5% AUROC)によって、最先端の手法を一貫して上回ることができる。 我々のコードと結果はgithub.com/yuguangnudt/VEC_VADで検証できる。

As a vital topic in media content interpretation, video anomaly detection (VAD) has made fruitful progress via deep neural network (DNN). However, existing methods usually follow a reconstruction or frame prediction routine. They suffer from two gaps: (1) They cannot localize video activities in a both precise and comprehensive manner. (2) They lack sufficient abilities to utilize high-level semantics and temporal context information. Inspired by frequently-used cloze test in language study, we propose a brand-new VAD solution named Video Event Completion (VEC) to bridge gaps above: First, we propose a novel pipeline to achieve both precise and comprehensive enclosure of video activities. Appearance and motion are exploited as mutually complimentary cues to localize regions of interest (RoIs). A normalized spatio-temporal cube (STC) is built from each RoI as a video event, which lays the foundation of VEC and serves as a basic processing unit. Second, we encourage DNN to capture high-level semantics by solving a visual cloze test. To build such a visual cloze test, a certain patch of STC is erased to yield an incomplete event (IE). The DNN learns to restore the original video event from the IE by inferring the missing patch. Third, to incorporate richer motion dynamics, another DNN is trained to infer erased patches' optical flow. Finally, two ensemble strategies using different types of IE and modalities are proposed to boost VAD performance, so as to fully exploit the temporal context and modality information for VAD. VEC can consistently outperform state-of-the-art methods by a notable margin (typically 1.5%-5% AUROC) on commonly-used VAD benchmarks. Our codes and results can be verified at github.com/yuguangnudt/VEC_VAD.
翻訳日:2022-10-24 07:34:51 公開日:2020-08-27
# dmd:注意と警告分析のためのデータセットを監視する大規模マルチモーダルドライバ

DMD: A Large-Scale Multi-Modal Driver Monitoring Dataset for Attention and Alertness Analysis ( http://arxiv.org/abs/2008.12085v1 )

ライセンス: Link先を確認
Juan Diego Ortega, Neslihan Kose, Paola Ca\~nas, Min-An Chao, Alexander Unnervik, Marcos Nieto, Oihana Otaegui, Luis Salgado(参考訳) ビジョンは運転監視システム(DMS)にとって最も豊かで費用効率のよい技術であり、特に近年のディープラーニング(DL)手法の成功の後である。 十分に大規模で包括的なデータセットの欠如は、現在DMS開発の進展のボトルネックであり、自動走行のSAEレベル2からSAEレベル3への移行に不可欠である。 本稿では,ドライバモニタリングデータセット(DMD)について紹介する。このデータセットは,顔,体,37人のドライバの顔,体,手を取り出す3台のカメラから,41時間分のRGB,深度,赤外線映像などの,リアルかつシミュレートされた運転シナリオを含む。 既存の類似データセットと比較すると、MDDはより広く、多様で、多目的であることが分かる。 dbehaviourmdデータセット(dbehaviourmd dataset)は、dlトレーニングプロセスで使用されるように準備された13の注意をそらすアクティビティを含んでいる。 さらに,dBehaviourMDに基づいて,コスト効率の高いCPU専用プラットフォーム上で動作可能な実世界のアプリケーションを対象とした,堅牢でリアルタイムなドライバ動作認識システムを提案する。 その性能は異なる種類の核融合戦略で評価され、これは全てリアルタイム応答を提供する精度を高める。

Vision is the richest and most cost-effective technology for Driver Monitoring Systems (DMS), especially after the recent success of Deep Learning (DL) methods. The lack of sufficiently large and comprehensive datasets is currently a bottleneck for the progress of DMS development, crucial for the transition of automated driving from SAE Level-2 to SAE Level-3. In this paper, we introduce the Driver Monitoring Dataset (DMD), an extensive dataset which includes real and simulated driving scenarios: distraction, gaze allocation, drowsiness, hands-wheel interaction and context data, in 41 hours of RGB, depth and IR videos from 3 cameras capturing face, body and hands of 37 drivers. A comparison with existing similar datasets is included, which shows the DMD is more extensive, diverse, and multi-purpose. The usage of the DMD is illustrated by extracting a subset of it, the dBehaviourMD dataset, containing 13 distraction activities, prepared to be used in DL training processes. Furthermore, we propose a robust and real-time driver behaviour recognition system targeting a real-world application that can run on cost-efficient CPU-only platforms, based on the dBehaviourMD. Its performance is evaluated with different types of fusion strategies, which all reach enhanced accuracy still providing real-time response.
翻訳日:2022-10-24 07:34:22 公開日:2020-08-27
# 顔と文脈の相違に基づくディープフェイク検出

DeepFake Detection Based on the Discrepancy Between the Face and its Context ( http://arxiv.org/abs/2008.12262v1 )

ライセンス: Link先を確認
Yuval Nirkin, Lior Wolf, Yosi Keller and Tal Hassner(参考訳) 単一画像における顔のスワップやその他のアイデンティティ操作を検出する手法を提案する。 DeepFakeのようなフェイススワップ手法は、顔領域を操作し、コンテキストを変更せずに顔の外観に合わせて調整することを目的としている。 このモダス・オペランディは2つの領域間に相違を生じさせることを示す。 これらの不一致は、悪用可能な操作の兆候を提供する。 私たちのアプローチには2つのネットワークがあります (i)密接な意味セグメンテーションによって境界付けられた顔領域を考慮した顔識別ネットワーク、 (ii)顔の文脈(例えば、髪、耳、首)を考慮した文脈認識ネットワーク。 そこで本研究では,2つのネットワークからの認識信号を用いてこれらの不一致を検出する手法について述べる。 提案手法は,FaceForensics++,Celeb-DF-v2,DFDCベンチマークを用いて顔検出を行い,未知の手法で生成した偽物の検出を一般化する。

We propose a method for detecting face swapping and other identity manipulations in single images. Face swapping methods, such as DeepFake, manipulate the face region, aiming to adjust the face to the appearance of its context, while leaving the context unchanged. We show that this modus operandi produces discrepancies between the two regions. These discrepancies offer exploitable telltale signs of manipulation. Our approach involves two networks: (i) a face identification network that considers the face region bounded by a tight semantic segmentation, and (ii) a context recognition network that considers the face context (e.g., hair, ears, neck). We describe a method which uses the recognition signals from our two networks to detect such discrepancies, providing a complementary detection signal that improves conventional real vs. fake classifiers commonly used for detecting fake images. Our method achieves state of the art results on the FaceForensics++, Celeb-DF-v2, and DFDC benchmarks for face manipulation detection, and even generalizes to detect fakes produced by unseen methods.
翻訳日:2022-10-24 07:27:29 公開日:2020-08-27
# CORD-19の重要課題に対するTREC-COVIDアノテーションの再検討

Repurposing TREC-COVID Annotations to Answer the Key Questions of CORD-19 ( http://arxiv.org/abs/2008.12353v1 )

ライセンス: Link先を確認
Connor T. Heaton, Prasenjit Mitra(参考訳) 新型コロナウイルス感染症(COVID-19)は2019年後半に中国武漢で発生し、これまでに全世界で1400万人以上が感染し、75万人以上が死亡した。 2020年3月10日、世界保健機関(WHO)は世界的なパンデミックを宣言した。 医学領域に限定されない多くの学者や研究者が、新たな発見に関する論文を出版し始めた。 しかし、大量の出版物が流入する中、これらの個人が大量のデータを精査し、その発見を理解することは困難であった。 ホワイトハウスとallen institute for ai率いる業界研究機関は、さまざまな新型コロナウイルスに関する20万以上のジャーナル記事を収集し、コーパスに関連する重要な質問に答え、データセットをcord-19として公開するようコミュニティに指示した。 情報検索(IR)コミュニティは、CORD-19内のジャーナル記事を再利用し、TREC-COVIDと呼ばれる古典的なTRECスタイルのコンペティションに近づいた。 関連する取り組みとして, TREC-COVID タスクの関連アノテーションを再利用し, CORD-19 の重要課題に関連する CORD-19 のジャーナル記事の特定を行った。 この再利用データセットに基づいてトレーニングされたBioBERTモデルは、Cohenのkappaという観点で、一般的な人間のアノテーションと0.4430の合意を持つCORD-19タスクの関連アノテーションを規定している。 本稿では,新しいデータセットの構築に使用する方法論と,その全体的決定過程について述べる。

The novel coronavirus disease 2019 (COVID-19) began in Wuhan, China in late 2019 and to date has infected over 14M people worldwide, resulting in over 750,000 deaths. On March 10, 2020 the World Health Organization (WHO) declared the outbreak a global pandemic. Many academics and researchers, not restricted to the medical domain, began publishing papers describing new discoveries. However, with the large influx of publications, it was hard for these individuals to sift through the large amount of data and make sense of the findings. The White House and a group of industry research labs, lead by the Allen Institute for AI, aggregated over 200,000 journal articles related to a variety of coronaviruses and tasked the community with answering key questions related to the corpus, releasing the dataset as CORD-19. The information retrieval (IR) community repurposed the journal articles within CORD-19 to more closely resemble a classic TREC-style competition, dubbed TREC-COVID, with human annotators providing relevancy judgements at the end of each round of competition. Seeing the related endeavors, we set out to repurpose the relevancy annotations for TREC-COVID tasks to identify journal articles in CORD-19 which are relevant to the key questions posed by CORD-19. A BioBERT model trained on this repurposed dataset prescribes relevancy annotations for CORD-19 tasks that have an overall agreement of 0.4430 with majority human annotations in terms of Cohen's kappa. We present the methodology used to construct the new dataset and describe the decision process used throughout.
翻訳日:2022-10-24 07:27:12 公開日:2020-08-27
# 対話型AIへの道筋としての文書編集アシスタントとモデルに基づく強化学習

Document-editing Assistants and Model-based Reinforcement Learning as a Path to Conversational AI ( http://arxiv.org/abs/2008.12095v1 )

ライセンス: Link先を確認
Katya Kudashkina, Patrick M. Pilarski, Richard S. Sutton(参考訳) コマンドに従ったり、SiriやGoogle検索といった単純な質問に答えるインテリジェントアシスタントは、AIの最も経済的に重要な応用のひとつだ。 将来の会話型aiアシスタントは、ドメインやユーザ、あるいはユーザの目的をより深く理解することで、さらなる機能とより良いユーザエクスペリエンスを約束する。 しかし、この約束を研究、実現するのに最適なドメインと方法は何だろうか? 本稿では,音声文書編集の領域とモデルに基づく強化学習の手法について議論する。 音声文書編集の主な利点は、ドメインが厳密にスコープされ、会話(文書)に関するものを提供し、インテリジェントアシスタントに完全にアクセス可能であることである。 強化学習の利点は、その手法が明示的な指示なしに対話から学ぶように設計され、アシスタントの目的を形式化することである。 モデルに基づく強化学習は、会話の領域を真に理解し、ユーザーが目的を達成するために効率的に働くために必要である。 音声文書編集とモデルに基づく強化学習は、会話型AIを実現するための有望な研究方向を構成する。

Intelligent assistants that follow commands or answer simple questions, such as Siri and Google search, are among the most economically important applications of AI. Future conversational AI assistants promise even greater capabilities and a better user experience through a deeper understanding of the domain, the user, or the user's purposes. But what domain and what methods are best suited to researching and realizing this promise? In this article we argue for the domain of voice document editing and for the methods of model-based reinforcement learning. The primary advantages of voice document editing are that the domain is tightly scoped and that it provides something for the conversation to be about (the document) that is delimited and fully accessible to the intelligent assistant. The advantages of reinforcement learning in general are that its methods are designed to learn from interaction without explicit instruction and that it formalizes the purposes of the assistant. Model-based reinforcement learning is needed in order to genuinely understand the domain of discourse and thereby work efficiently with the user to achieve their goals. Together, voice document editing and model-based reinforcement learning comprise a promising research direction for achieving conversational AI.
翻訳日:2022-10-24 07:26:35 公開日:2020-08-27
# Dota 2における自動プレイヤー識別

Automatic Player Identification in Dota 2 ( http://arxiv.org/abs/2008.12401v1 )

ライセンス: Link先を確認
Sizhe Yuen, John D. Thomson, Oliver Don(参考訳) dota 2は、人気のマルチプレイヤーオンラインゲームである。 多くのオンラインゲームと同様に、プレイヤーはほとんど匿名であり、複数の人間で簡単に入手、販売、共有できるオンラインアカウントにのみ結びついている。 これにより、オンライン上で望ましくない行動を示すプレイヤーの追跡や禁止が困難になる。 本稿では,ゲームプレイ方法の「デジタル指紋」に基づいてプレイヤーを識別する機械学習手法を提案する。 我々は,マッチプレイから抽出したマウスの動き,ゲーム内統計,ゲーム戦略のデータを用いて,最良の結果を得るためには,これらすべてが必要であることを示す。 2つの異なる試合が同じプレイヤーによってプレイされたかどうかを予測する問題に対して,95%の予測精度が得られる。

Dota 2 is a popular, multiplayer online video game. Like many online games, players are mostly anonymous, being tied only to online accounts which can be readily obtained, sold and shared between multiple people. This makes it difficult to track or ban players who exhibit unwanted behavior online. In this paper, we present a machine learning approach to identify players based a `digital fingerprint' of how they play the game, rather than by account. We use data on mouse movements, in-game statistics and game strategy extracted from match replays and show that for best results, all of these are necessary. We are able to obtain an accuracy of prediction of 95\% for the problem of predicting if two different matches were played by the same player.
翻訳日:2022-10-24 07:26:17 公開日:2020-08-27
# パーソナライズとレコメンデーションシステムのための時間に基づくシーケンスモデル

Time-based Sequence Model for Personalization and Recommendation Systems ( http://arxiv.org/abs/2008.11922v1 )

ライセンス: Link先を確認
Tigran Ishkhanov, Maxim Naumov, Xianjie Chen, Yan Zhu, Yuan Zhong, Alisson Gusatti Azzolini, Chonglin Sun, Frank Jiang, Andrey Malevich and Liang Xiong(参考訳) 本稿では,時間情報を明確に組み込んだ新しいレコメンデーションモデルを提案する。 このモデルは、異なるベクトル空間の内部積を持つ埋め込み層とTSLアテンションのようなメカニズムに依存しており、これは多面的アテンションの修正と考えられる。 このメカニズムにより、モデルは異なる長さのユーザー行動のシーケンスを効率的に扱うことができる。 統計的に設計したデータセット上での最先端モデルの特性について検討する。 また,Taobao User Behaviorデータセットでは,シーケンス長が長い複雑なモデルよりも優れていることを示す。

In this paper we develop a novel recommendation model that explicitly incorporates time information. The model relies on an embedding layer and TSL attention-like mechanism with inner products in different vector spaces, that can be thought of as a modification of multi-headed attention. This mechanism allows the model to efficiently treat sequences of user behavior of different length. We study the properties of our state-of-the-art model on statistically designed data set. Also, we show that it outperforms more complex models with longer sequence length on the Taobao User Behavior dataset.
翻訳日:2022-10-24 07:25:39 公開日:2020-08-27
# EHRデータを用いた心血管リスク予測のためのマルチモーダル学習

Multimodal Learning for Cardiovascular Risk Prediction using EHR Data ( http://arxiv.org/abs/2008.11979v1 )

ライセンス: Link先を確認
Ayoub Bagheri, T. Katrien J. Groenhof, Wouter B. Veldhuis, Pim A. de Jong, Folkert W. Asselbergs, Daniel L. Oberski(参考訳) 電子健康記録(EHR)は、重要な臨床および研究価値の構造化および非構造化データを含む。 リスク予測のために、さまざまな機械学習アプローチがEHRに情報を活用するために開発されている。 しかし、これらの試みの大部分は構造化されたEHRフィールドに焦点を当て、構造化されていないテキストの膨大な情報を失う。 そこで本研究では,心血管リスク予測のためのマルチモーダルリカレントニューラルネットワークモデルを提案する。 提案するbidirectional long short-term memory (bilstm)モデルは,完全接続型ニューラルネットワークに適用する前に,古典的臨床予測器への単語埋め込みを結合する。 実験では,臨床変数と胸部X線X線診断のシナリオにおいて,畳み込みニューラルネットワークや長期記憶を含む異なるディープニューラルネットワーク(DNN)アーキテクチャの性能を比較した。 心血管疾患や高リスクの心血管疾患を有する実世界の患者のデータセットに基づいて,提案したBiLSTMモデルは,最先端の性能を示し,他のDNNベースラインアーキテクチャを上回る性能を示す。

Electronic health records (EHRs) contain structured and unstructured data of significant clinical and research value. Various machine learning approaches have been developed to employ information in EHRs for risk prediction. The majority of these attempts, however, focus on structured EHR fields and lose the vast amount of information in the unstructured texts. To exploit the potential information captured in EHRs, in this study we propose a multimodal recurrent neural network model for cardiovascular risk prediction that integrates both medical texts and structured clinical information. The proposed multimodal bidirectional long short-term memory (BiLSTM) model concatenates word embeddings to classical clinical predictors before applying them to a final fully connected neural network. In the experiments, we compare performance of different deep neural network (DNN) architectures including convolutional neural network and long short-term memory in scenarios of using clinical variables and chest X-ray radiology reports. Evaluated on a data set of real world patients with manifest vascular disease or at high-risk for cardiovascular disease, the proposed BiLSTM model demonstrates state-of-the-art performance and outperforms other DNN baseline architectures.
翻訳日:2022-10-24 07:25:30 公開日:2020-08-27
# DeepFolio: リミットオーダーブックデータを備えたポートフォリオのための畳み込みニューラルネットワーク

DeepFolio: Convolutional Neural Networks for Portfolios with Limit Order Book Data ( http://arxiv.org/abs/2008.12152v1 )

ライセンス: Link先を確認
Aiusha Sangadiev, Rodrigo Rivera-Castro, Kirill Stepanov, Andrey Poddubny, Kirill Bubenchikov, Nikita Bekezin, Polina Pilyugina and Evgeny Burnaev(参考訳) この研究は、リミットオーダーブック(LOB)のデータに基づくディープポートフォリオ管理の新しいモデルであるDeepFolioを提案する。 DeepFolioは、LOBデータの最先端にある問題を解決することで、価格の動きを予測する。 我々の評価は、数百万の時系列の大規模なデータセットを用いた2つのシナリオからなる。 この改善は、豊富なデータと少ないデータの両方で優れた結果をもたらす。 実験の結果,DeepFolio はベンチマーク FI-2010 LOB において最先端の手法よりも優れていた。 さらに,リバランスを伴う暗号資産の最適ポートフォリオ割り当てにdeepfolioを用いた。 この目的のために、シャープ比損失と最小ボラティリティリスクの2つの損失関数を用いる。 DeepFolioは文献において広く使われているポートフォリオ割り当て技術より優れていることを示す。

This work proposes DeepFolio, a new model for deep portfolio management based on data from limit order books (LOB). DeepFolio solves problems found in the state-of-the-art for LOB data to predict price movements. Our evaluation consists of two scenarios using a large dataset of millions of time series. The improvements deliver superior results both in cases of abundant as well as scarce data. The experiments show that DeepFolio outperforms the state-of-the-art on the benchmark FI-2010 LOB. Further, we use DeepFolio for optimal portfolio allocation of crypto-assets with rebalancing. For this purpose, we use two loss-functions - Sharpe ratio loss and minimum volatility risk. We show that DeepFolio outperforms widely used portfolio allocation techniques in the literature.
翻訳日:2022-10-24 07:25:10 公開日:2020-08-27
# 非常に低いサンプルサイズを持つ高次元データからの特徴選択:注意物語

Feature Selection from High-Dimensional Data with Very Low Sample Size: A Cautionary Tale ( http://arxiv.org/abs/2008.12025v1 )

ライセンス: Link先を確認
Ludmila I. Kuncheva, Clare E. Matthews, \'Alvar Arnaiz-Gonz\'alez, Juan J. Rodr\'iguez(参考訳) 分類問題において、特徴選択の目的は、元の特徴集合の小さな、非常に識別的な部分集合を特定することである。 多くのアプリケーションでは、データセットには数千のフィーチャと数十のサンプル(時には 'wide' と呼ばれる)しかありません。 このような場合の特徴選択がなぜ望ましくない結果をもたらすかを示す注意深い物語である。 サンプルサイズの問題を強調するためには、2つの特徴を区別するために必要なサンプルサイズを導出する。 例として,特徴集合と分類器の依存性を例に挙げ,分類器に依存しない特徴選択法に疑問を呈する。 しかし、他の例で示すように、優れたセレクタ-クラシファイアペアの選択は、推定値と真の誤差率との相関が低いことで妨げられる。 同様の問題を提起する以前の研究では、ほとんどが合成データでメッセージを検証しているが、ここでは20の実際のデータセットを用いて実験を行った。 私たちは大げさなシナリオを作り、機能選択のためにデータのごく一部(クラス毎に10インスタンス)をカットし、残りのデータをテストに使用しました。 結果は警告を強化し、誤解を招く出力をユーザに返すよりも、非常に広いデータセットからの機能選択を控えた方がよい、と示唆している。

In classification problems, the purpose of feature selection is to identify a small, highly discriminative subset of the original feature set. In many applications, the dataset may have thousands of features and only a few dozens of samples (sometimes termed `wide'). This study is a cautionary tale demonstrating why feature selection in such cases may lead to undesirable results. In view to highlight the sample size issue, we derive the required sample size for declaring two features different. Using an example, we illustrate the heavy dependency between feature set and classifier, which poses a question to classifier-agnostic feature selection methods. However, the choice of a good selector-classifier pair is hampered by the low correlation between estimated and true error rate, as illustrated by another example. While previous studies raising similar issues validate their message with mostly synthetic data, here we carried out an experiment with 20 real datasets. We created an exaggerated scenario whereby we cut a very small portion of the data (10 instances per class) for feature selection and used the rest of the data for testing. The results reinforce the caution and suggest that it may be better to refrain from feature selection from very wide datasets rather than return misleading output to the user.
翻訳日:2022-10-24 07:18:19 公開日:2020-08-27
# モーメントを用いた確率勾配の収束の理解と検出

Understanding and Detecting Convergence for Stochastic Gradient Descent with Momentum ( http://arxiv.org/abs/2008.12224v1 )

ライセンス: Link先を確認
Jerry Chee and Ping Li(参考訳) 反復確率最適化法の収束検出は非常に実用的である。 本稿では,一定の学習率と運動量を有する確率勾配降下(SGD)について考察する。 我々は、反復が興味のある領域に向かって移動する過渡的な位相と、反復が最小点付近でその領域に束縛される定常相が存在することを示す。 我々は,連続勾配間の内積を用いて定常位相に収束する統計的診断テストを構築し,提案する診断が良好であることを実証する。 我々は,モーメントが診断の試験統計にどのような影響を及ぼすか,そして,実験統計が収束の勾配の中で比較的スパースな信号を捕捉するかを理論的かつ実証的に特徴付ける。 最後に、定常度を検出するたびに学習率を自動的に調整するアプリケーションを示し、その手順が不特定初期レートに対して堅牢であることを示す。

Convergence detection of iterative stochastic optimization methods is of great practical interest. This paper considers stochastic gradient descent (SGD) with a constant learning rate and momentum. We show that there exists a transient phase in which iterates move towards a region of interest, and a stationary phase in which iterates remain bounded in that region around a minimum point. We construct a statistical diagnostic test for convergence to the stationary phase using the inner product between successive gradients and demonstrate that the proposed diagnostic works well. We theoretically and empirically characterize how momentum can affect the test statistic of the diagnostic, and how the test statistic captures a relatively sparse signal within the gradients in convergence. Finally, we demonstrate an application to automatically tune the learning rate by reducing it each time stationarity is detected, and show the procedure is robust to mis-specified initial rates.
翻訳日:2022-10-24 07:17:58 公開日:2020-08-27
# スキーマ誘導対話データセットのための高速かつロバストなBERTベース対話状態トラッカー

A Fast and Robust BERT-based Dialogue State Tracker for Schema-Guided Dialogue Dataset ( http://arxiv.org/abs/2008.12335v1 )

ライセンス: Link先を確認
Vahid Noroozi, Yang Zhang, Evelina Bakhturina, Tomasz Kornuta(参考訳) ダイアログ状態追跡(DST)は、ゴール指向対話システムにおいて最も重要なモジュールの1つである。 本稿では,目標指向対話システムにおける状態追跡のための高速かつ堅牢なBERTモデルであるFastSGT(Fast Schema Guided Tracker)を紹介する。 提案モデルは,ユーザ意図,サービス,スロットを含むすべてのエンティティに対する自然言語記述を含むスキーマガイド対話(SGD)データセット用に設計されている。 このモデルには、現在のユーザ発話で明示的に言及されていない値の抽出を扱うための2つの搬送手順が組み込まれている。 また、デコーダのいくつかでマルチヘッドアテンションプロジェクションを使用して、エンコーダ出力のより優れたモデリングを行う。 実験では,FastSGTをSGDデータセットのベースラインモデルと比較した。 本モデルでは,精度を著しく向上しつつ,計算およびメモリ消費の観点から効率性を維持する。 さらに,模型の異なる部位が性能に与える影響を計測するアブレーション実験を行った。 また,計算資源の量を増やすことなく精度を向上させるために,データ拡張の有効性を示す。

Dialog State Tracking (DST) is one of the most crucial modules for goal-oriented dialogue systems. In this paper, we introduce FastSGT (Fast Schema Guided Tracker), a fast and robust BERT-based model for state tracking in goal-oriented dialogue systems. The proposed model is designed for the Schema-Guided Dialogue (SGD) dataset which contains natural language descriptions for all the entities including user intents, services, and slots. The model incorporates two carry-over procedures for handling the extraction of the values not explicitly mentioned in the current user utterance. It also uses multi-head attention projections in some of the decoders to have a better modelling of the encoder outputs. In the conducted experiments we compared FastSGT to the baseline model for the SGD dataset. Our model keeps the efficiency in terms of computational and memory consumption while improving the accuracy significantly. Additionally, we present ablation studies measuring the impact of different parts of the model on its performance. We also show the effectiveness of data augmentation for improving the accuracy without increasing the amount of computational resources.
翻訳日:2022-10-24 07:17:29 公開日:2020-08-27
# 複数の季節による予測

Forecasting with Multiple Seasonality ( http://arxiv.org/abs/2008.12340v1 )

ライセンス: Link先を確認
Tianyang Xie, Jie Ding(参考訳) 最新のアプリケーションでは、短時間のダイナミクスと長時間の季節性の両方を示す時系列データを予測している。 特に、複数の季節性を持つ時系列は、議論が比較的少ない難題である。 本稿では,複数の季節性を持つ時系列の2段階化手法を提案する。 第1段階では、複数の季節状態下での古典的季節自己回帰移動平均(ARMA)モデルを一般化する。 第2段階では,ラグ順選択に適切な基準を用いる。 シミュレーションおよび実証実験により,本手法の優れた予測性能を示し,特に最近人気になった時系列の「Facebook Prophet」モデルと比較した。

An emerging number of modern applications involve forecasting time series data that exhibit both short-time dynamics and long-time seasonality. Specifically, time series with multiple seasonality is a difficult task with comparatively fewer discussions. In this paper, we propose a two-stage method for time series with multiple seasonality, which does not require pre-determined seasonality periods. In the first stage, we generalize the classical seasonal autoregressive moving average (ARMA) model in multiple seasonality regime. In the second stage, we utilize an appropriate criterion for lag order selection. Simulation and empirical studies show the excellent predictive performance of our method, especially compared to a recently popular `Facebook Prophet' model for time series.
翻訳日:2022-10-24 07:17:12 公開日:2020-08-27
# MetaDistiller: メタラーニングトップダウン蒸留によるネットワーク自己発泡

MetaDistiller: Network Self-Boosting via Meta-Learned Top-Down Distillation ( http://arxiv.org/abs/2008.12094v1 )

ライセンス: Link先を確認
Benlin Liu, Yongming Rao, Jiwen Lu, Jie Zhou, Cho-jui Hsieh(参考訳) 知識蒸留(KD)は、コンパクトモデルを学ぶための最も一般的な方法の一つである。 しかしながら、シーケンシャルなトレーディングパイプラインによって引き起こされる、高需要の時間と計算リソースにはまだ苦しんでいる。 さらに, より深いモデルからのソフトターゲットは, コンパチビリティの欠如により, より浅いモデルにとって良い手がかりとなることがしばしばある。 本稿では,これら2つの問題を同時に検討すると共に,ラベル生成器を用いて,より深い段階からトップダウンで特徴マップを融合させることにより,高い適合性を有するより良いソフトターゲットを生成することを提案し,このラベル生成器を最適化するためにメタラーニング手法を用いることができる。 モデルの中間特徴マップから学習したソフトターゲットを利用することで、最先端技術と比較してネットワークの自己形成性を向上する。 実験は CIFAR-100 と ILSVRC2012 の2つの標準分類ベンチマークで実施された。 我々は,MetaDistillerの汎用性を示すために,様々なネットワークアーキテクチャをテストする。 2つのデータセットに対する実験結果は,本手法の有効性を強く示している。

Knowledge Distillation (KD) has been one of the most popu-lar methods to learn a compact model. However, it still suffers from highdemand in time and computational resources caused by sequential train-ing pipeline. Furthermore, the soft targets from deeper models do notoften serve as good cues for the shallower models due to the gap of com-patibility. In this work, we consider these two problems at the same time.Specifically, we propose that better soft targets with higher compatibil-ity can be generated by using a label generator to fuse the feature mapsfrom deeper stages in a top-down manner, and we can employ the meta-learning technique to optimize this label generator. Utilizing the softtargets learned from the intermediate feature maps of the model, we canachieve better self-boosting of the network in comparison with the state-of-the-art. The experiments are conducted on two standard classificationbenchmarks, namely CIFAR-100 and ILSVRC2012. We test various net-work architectures to show the generalizability of our MetaDistiller. Theexperiments results on two datasets strongly demonstrate the effective-ness of our method.
翻訳日:2022-10-24 07:16:15 公開日:2020-08-27
# black-boxモデルに対するadversarial eigen attack

Adversarial Eigen Attack on Black-Box Models ( http://arxiv.org/abs/2009.00097v1 )

ライセンス: Link先を確認
Linjun Zhou, Peng Cui, Yinan Jiang, Shiqiang Yang(参考訳) ブラックボックスの敵攻撃は、AIの安全性を実践するために多くの研究の関心を集めている。 ホワイトボックスアタックと比較して、攻撃されたモデルとクエリ予算に対する追加の制約に関連する情報が少ない場合、ブラックボックス設定はより困難である。 攻撃効率を改善する一般的な方法は、事前訓練された転送可能なホワイトボックスモデルからサポートを引き出すことである。 本稿では,ネットワークパラメータが利用可能な事前学習モデルからの外部情報を利用するが,先行研究と異なり,事前学習モデルの変更やチューニングを行う訓練データの追加は認められないという,転送可能なブラックボックス攻撃の新しい設定を提案する。 そこで我々は,この問題に取り組むための新しいアルゴリズムであるeigenbaを提案する。 本手法は,事前学習されたホワイトボックスモデルのジャコビアン行列を活用し,ブラックボックスモデルの勾配情報を探索し,元の攻撃画像に対する摂動を小さく抑えながら攻撃効率を高めることを目的としている。 最適摂動はジャコビアン行列の右特異ベクトルと密接に関連していることを示す。 ImageNetとCIFAR-10のさらなる実験により、未学習のホワイトボックスモデルでもブラックボックス攻撃の効率が大幅に向上し、提案手法により攻撃効率が向上することが示された。

Black-box adversarial attack has attracted a lot of research interests for its practical use in AI safety. Compared with the white-box attack, a black-box setting is more difficult for less available information related to the attacked model and the additional constraint on the query budget. A general way to improve the attack efficiency is to draw support from a pre-trained transferable white-box model. In this paper, we propose a novel setting of transferable black-box attack: attackers may use external information from a pre-trained model with available network parameters, however, different from previous studies, no additional training data is permitted to further change or tune the pre-trained model. To this end, we further propose a new algorithm, EigenBA to tackle this problem. Our method aims to explore more gradient information of the black-box model, and promote the attack efficiency, while keeping the perturbation to the original attacked image small, by leveraging the Jacobian matrix of the pre-trained white-box model. We show the optimal perturbations are closely related to the right singular vectors of the Jacobian matrix. Further experiments on ImageNet and CIFAR-10 show that even the unlearnable pre-trained white-box model could also significantly boost the efficiency of the black-box attack and our proposed method could further improve the attack efficiency.
翻訳日:2022-10-24 07:10:05 公開日:2020-08-27
# CLAN:コモディティエッジデバイス上での非同期神経進化を用いた継続的学習

CLAN: Continuous Learning using Asynchronous Neuroevolution on Commodity Edge Devices ( http://arxiv.org/abs/2008.11881v1 )

ライセンス: Link先を確認
Parth Mannan, Ananda Samajdar and Tushar Krishna(参考訳) 機械学習アルゴリズムの最近の進歩、特にディープニューラルネットワーク(DNN)の開発は、人工知能(AI)の風景を変えている。 毎日、例外的な結果で新しい問題を解決するためにディープラーニングベースの手法が適用されます。 現実世界へのポータルはエッジです。 AIエージェントが現実世界と継続的に対話し、日々の問題を解決することができれば、AIの真の影響は十分に実現できます。 残念ながら、DNNの高計算およびメモリ要求は、このビジョンにとって大きな障壁となる。 今日では、クラウドからトレーニングされたモデルを取得しながら、エッジに特別な目的推論ハードウェアを配置することでこの問題を回避する。 しかしこのアプローチは、すべてのデータを送信し、巨大なGPUクラスタでトレーニングし、最新のモデルをダウンロードするためのクラウドとの絶え間ないインタラクションに依存している。 これは、自律エージェントが提示する帯域幅、プライバシー、接続性に関する懸念に対して難しい。 本稿では,エッジデバイス上で,ハイエンドクラウド/サーバとのインタラクションがゼロな適応インテリジェンスを実現する手法を評価する。 我々は、NeuroEvolutionary(NE)学習と推論を実行するWiFiを介して通信するRaspberry Piのプロトタイプシステムを構築した。 このような協調システムの性能を評価し,並列性と通信をトレードオフするシステムの異なる配置の計算・通信特性を詳述する。 また,分析から得られた知見を用いて,学習期間中に最大3.6倍の通信を削減し,スケーラビリティをさらに向上し,大規模に高性能なコンピュータ機器の性能に適合させるアルゴリズムの改良を提案する。 これらの洞察によって、エッジ上での継続的学習を可能にするアルゴリズム・ハードウェアの共同設計が可能になると考えています。

Recent advancements in machine learning algorithms, especially the development of Deep Neural Networks (DNNs) have transformed the landscape of Artificial Intelligence (AI). With every passing day, deep learning based methods are applied to solve new problems with exceptional results. The portal to the real world is the edge. The true impact of AI can only be fully realized if we can have AI agents continuously interacting with the real world and solving everyday problems. Unfortunately, high compute and memory requirements of DNNs acts a huge barrier towards this vision. Today we circumvent this problem by deploying special purpose inference hardware on the edge while procuring trained models from the cloud. This approach, however, relies on constant interaction with the cloud for transmitting all the data, training on massive GPU clusters, and downloading updated models. This is challenging for bandwidth, privacy, and constant connectivity concerns that autonomous agents may exhibit. In this paper we evaluate techniques for enabling adaptive intelligence on edge devices with zero interaction with any high-end cloud/server. We build a prototype distributed system of Raspberry Pis communicating via WiFi running NeuroEvolutionary (NE) learning and inference. We evaluate the performance of such a collaborative system and detail the compute/communication characteristics of different arrangements of the system that trade-off parallelism versus communication. Using insights from our analysis, we also propose algorithmic modifications to reduce communication by up to 3.6x during the learning phase to enhance scalability even further and match performance of higher end computing devices at scale. We believe that these insights will enable algorithm-hardware co-design efforts for enabling continuous learning on the edge.
翻訳日:2022-10-24 07:09:26 公開日:2020-08-27
# 感覚処理のためのニューロモルフィック時間ニューラルネットワークのCMOS直接実装

Direct CMOS Implementation of Neuromorphic Temporal Neural Networks for Sensory Processing ( http://arxiv.org/abs/2009.00457v1 )

ライセンス: Link先を確認
Harideep Nair, John Paul Shen, James E. Smith(参考訳) 時間的ニューラルネットワーク(TNN)は、哺乳類の新皮質の行動を模倣し、情報を表現し処理するためのリソースとして時間を使用する。 本研究は,市販のディジタルCMOS技術を用いたTNNの実装に焦点を当てる。 マイクロアーキテクチャフレームワークには、マルチニューロン列、マルチカラム層、マルチレイヤTNNなどのビルディングブロックの階層構造が導入された。 本稿では,TNNのキービルディングブロックとして,マルチニューロン列モデルのCMOSゲートレベル実装を提案する。 合成後の結果はsynopsysツールと45 nm cmos標準セルライブラリを用いて得られる。 TNNマイクロアーキテクチャフレームワークは、TNN設計の総ゲート数、ダイエリア、計算時間、消費電力を評価するための一連の特性方程式に具体化されている。 我々は32Mゲートの多層TNNプロトタイプを開発した。 7nmのCMOSプロセスでは、1.54mm^2ダイ面積と7.26mWの電力しか消費せず、28x28画像を107M FPS (9.34 ns)で処理できる。 我々は,最近の最先端TNNモデルと比較して,プロトタイプの性能と複雑さを評価する。

Temporal Neural Networks (TNNs) use time as a resource to represent and process information, mimicking the behavior of the mammalian neocortex. This work focuses on implementing TNNs using off-the-shelf digital CMOS technology. A microarchitecture framework is introduced with a hierarchy of building blocks including: multi-neuron columns, multi-column layers, and multi-layer TNNs. We present the direct CMOS gate-level implementation of the multi-neuron column model as the key building block for TNNs. Post-synthesis results are obtained using Synopsys tools and the 45 nm CMOS standard cell library. The TNN microarchitecture framework is embodied in a set of characteristic equations for assessing the total gate count, die area, compute time, and power consumption for any TNN design. We develop a multi-layer TNN prototype of 32M gates. In 7 nm CMOS process, it consumes only 1.54 mm^2 die area and 7.26 mW power and can process 28x28 images at 107M FPS (9.34 ns per image). We evaluate the prototype's performance and complexity relative to a recent state-of-the-art TNN model.
翻訳日:2022-10-24 07:09:03 公開日:2020-08-27
# 遺伝的アルゴリズムに基づく確率的セルオートマタを用いたデータ駆動型COVID-19動態の理解

A Data-driven Understanding of COVID-19 Dynamics Using Sequential Genetic Algorithm Based Probabilistic Cellular Automata ( http://arxiv.org/abs/2008.12020v1 )

ライセンス: Link先を確認
Sayantari Ghosh and Saumik Bhattacharya(参考訳) 新型コロナウイルスのパンデミックは世界中の何十億もの人々の生活に深刻な影響を与えている。 全国規模の封鎖、国際便の廃止、厳格な検査など大規模な保護措置を講じた後も、感染は着実に拡大しており、数千人の死者と深刻な社会経済危機を引き起こしている。 そのため、新型コロナウイルスや今後のパンデミックの影響と寿命を最小限に抑えるために、この感染拡大の要因を特定することが重要である。 本研究では,多くの国で感染動態をモデル化するために,確率論的セルオートマトン法を用いている。 本研究は,この感染拡大の正確なデータ駆動モデリングのために,セルオートマトンはダイナミックスパラメータを効率的に推定するための逐次遺伝的アルゴリズムを備えた優れたプラットフォームを提供する。 私たちの知る限りでは、これは遺伝子アルゴリズムを通じて、最適化されたセルオートマトンを用いて新型コロナウイルスのデータを理解し解釈する最初の試みである。 提案手法は, 同時に柔軟かつ堅牢であり, 日常的な活動事例, 感染者総数, 死亡事故総数を, 体系的パラメータ推定によってモデル化することができる。 異なる大陸の40カ国の新型コロナウイルス統計に関する実験分析が行われ、人口統計学的・社会経済的要因により、感染拡大の時間的変化が著しく異なる。 このモデルの実質的な予測力は、パンデミックのダイナミクスにおける主要なプレイヤーの結論とともに確立されている。

COVID-19 pandemic is severely impacting the lives of billions across the globe. Even after taking massive protective measures like nation-wide lockdowns, discontinuation of international flight services, rigorous testing etc., the infection spreading is still growing steadily, causing thousands of deaths and serious socio-economic crisis. Thus, the identification of the major factors of this infection spreading dynamics is becoming crucial to minimize impact and lifetime of COVID-19 and any future pandemic. In this work, a probabilistic cellular automata based method has been employed to model the infection dynamics for a significant number of different countries. This study proposes that for an accurate data-driven modeling of this infection spread, cellular automata provides an excellent platform, with a sequential genetic algorithm for efficiently estimating the parameters of the dynamics. To the best of our knowledge, this is the first attempt to understand and interpret COVID-19 data using optimized cellular automata, through genetic algorithm. It has been demonstrated that the proposed methodology can be flexible and robust at the same time, and can be used to model the daily active cases, total number of infected people and total death cases through systematic parameter estimation. Elaborate analyses for COVID-19 statistics of forty countries from different continents have been performed, with markedly divergent time evolution of the infection spreading because of demographic and socioeconomic factors. The substantial predictive power of this model has been established with conclusions on the key players in this pandemic dynamics.
翻訳日:2022-10-24 07:08:14 公開日:2020-08-27
# アドバンテージレグレスト整合アクター臨界

The Advantage Regret-Matching Actor-Critic ( http://arxiv.org/abs/2008.12234v1 )

ライセンス: Link先を確認
Audr\=unas Gruslys, Marc Lanctot, R\'emi Munos, Finbarr Timbers, Martin Schmid, Julien Perolat, Dustin Morrill, Vinicius Zambaldi, Jean-Baptiste Lespiau, John Schultz, Mohammad Gheshlaghi Azar, Michael Bowling, and Karl Tuyls(参考訳) レジスト最小化はオンライン学習、ゲームにおける平衡計算、強化学習(RL)において重要な役割を果たしてきた。 本稿では,過去の行動の繰り返し再検討に基づく非回帰学習のための汎用モデルフリーrl法について述べる。 過去の状態行動データを保存するのではなく、armacは過去のポリシーのバッファを保存し、それらを再生して過去の行動の隠れた評価を再構築する。 これらのふりかえりの価値見積もりは、後悔の一致とともに新しいポリシーを生み出す条件付き利益を予測するために使われます。 特にARMACは、モンテカルロの反事実的後悔 (CFR) の最小化で一般的に使用される重要サンプリングの応用を必要とせず、集中的なトレーニング環境でサンプリングされた軌跡から学習する。 単一エージェント設定では、ARMACは過去のポリシーをそのままに保つことで、興味深い形の探索を示している。 マルチエージェント設定では、自己プレーのARMACは部分的に観測可能なゼロサムベンチマークでナッシュ平衡にアプローチする。 我々は,テキサスホールディングスの賭けを減らしたゲームにおいて,エクスプロイラビリティーの推定値を提供する。

Regret minimization has played a key role in online learning, equilibrium computation in games, and reinforcement learning (RL). In this paper, we describe a general model-free RL method for no-regret learning based on repeated reconsideration of past behavior. We propose a model-free RL algorithm, the AdvantageRegret-Matching Actor-Critic (ARMAC): rather than saving past state-action data, ARMAC saves a buffer of past policies, replaying through them to reconstruct hindsight assessments of past behavior. These retrospective value estimates are used to predict conditional advantages which, combined with regret matching, produces a new policy. In particular, ARMAC learns from sampled trajectories in a centralized training setting, without requiring the application of importance sampling commonly used in Monte Carlo counterfactual regret (CFR) minimization; hence, it does not suffer from excessive variance in large environments. In the single-agent setting, ARMAC shows an interesting form of exploration by keeping past policies intact. In the multiagent setting, ARMAC in self-play approaches Nash equilibria on some partially-observable zero-sum benchmarks. We provide exploitability estimates in the significantly larger game of betting-abstracted no-limit Texas Hold'em.
翻訳日:2022-10-24 07:07:48 公開日:2020-08-27
# 連結物体上の人間行動認識のためのデータストリーム分類のベンチマーク

A benchmark of data stream classification for human activity recognition on connected objects ( http://arxiv.org/abs/2008.11880v1 )

ライセンス: Link先を確認
Martin Khannouz and Tristan Glatard(参考訳) 本稿では,harのユースケースに着目し,接続デバイスの観点からデータストリーム分類器を評価する。 我々は,従来の5つのストリーム分類アルゴリズムの分類性能と資源消費(ランタイム,メモリ,電力)を一貫したライブラリに実装し,実際の2つの活動データセットと3つの合成データセットに適用した。 分類性能については,ht,mf,nb分類器がfnnおよびmnn近傍(mcnn)を上回って,実データを含む6つのデータセットのうち4つの分類器において,ht,mf,nb分類器の総合的優位を示す。 さらに、HTとある程度のMCNNは、概念ドリフトから回復できる唯一の分類器である。 全体として、3つの主要な分類器は、実際のデータセットのオフライン分類器よりもかなり低い性能を保っている。 リソース消費に関しては、HTとMFが最もメモリ集約的で、実行時間が長いが、分類器間での消費電力の差は見つからない。 接続オブジェクト上でのHARのストリーム学習は、メモリ消費の増大と全体的なF1スコアの低下という、興味深い将来的な作業に繋がる2つの要因によって挑戦されている。

This paper evaluates data stream classifiers from the perspective of connected devices, focusing on the use case of HAR. We measure both classification performance and resource consumption (runtime, memory, and power) of five usual stream classification algorithms, implemented in a consistent library, and applied to two real human activity datasets and to three synthetic datasets. Regarding classification performance, results show an overall superiority of the HT, the MF, and the NB classifiers over the FNN and the Micro Cluster Nearest Neighbor (MCNN) classifiers on 4 datasets out of 6, including the real ones. In addition, the HT, and to some extent MCNN, are the only classifiers that can recover from a concept drift. Overall, the three leading classifiers still perform substantially lower than an offline classifier on the real datasets. Regarding resource consumption, the HT and the MF are the most memory intensive and have the longest runtime, however, no difference in power consumption is found between classifiers. We conclude that stream learning for HAR on connected objects is challenged by two factors which could lead to interesting future work: a high memory consumption and low F1 scores overall.
翻訳日:2022-10-24 07:07:26 公開日:2020-08-27
# Propensity-to-Pay:予測不確かさを推定するための機械学習

Propensity-to-Pay: Machine Learning for Estimating Prediction Uncertainty ( http://arxiv.org/abs/2008.12065v1 )

ライセンス: Link先を確認
Md Abul Bashar, Astin-Walmsley Kieren, Heath Kerina, Richi Nayak(参考訳) 収益サイクルの早い段階で顧客の支払い傾向を予測することは、組織に顧客エクスペリエンスを改善し、困難を減らし、キャッシュフローを損なうリスクと悪い負債の発生を減らす多くの機会を提供することができる。 データサイエンスの進歩により、機械学習技術は顧客の支払い傾向を正確に予測するモデルを構築するのに使うことができる。 大規模かつ詳細なデータセットにアクセスせずに効果的な機械学習モデルを作成することは、いくつかの重要な課題を示している。 本稿では、エネルギー機関のデータセット上で実施したケーススタディについて、住宅顧客が財政難に直面することを予測できる機械学習モデルの作成に関する不確実性について検討し、エネルギー料金を支払う能力を減らすことを目的とした。 誤った予測は、非効率なリソース割り当てをもたらし、脆弱な顧客は積極的に特定されない。 本研究では,機械学習モデルの異なる文脈を考察し,予測の不確かさを推定する能力について検討する。 機械学習アルゴリズムの4つのファミリーの7つのモデルが、その新しい利用のために研究されている。 ベイジアンニューラルネットワークを二元分類問題に活用する新しい概念が提案され,展開に向けて検討されている。

Predicting a customer's propensity-to-pay at an early point in the revenue cycle can provide organisations many opportunities to improve the customer experience, reduce hardship and reduce the risk of impaired cash flow and occurrence of bad debt. With the advancements in data science; machine learning techniques can be used to build models to accurately predict a customer's propensity-to-pay. Creating effective machine learning models without access to large and detailed datasets presents some significant challenges. This paper presents a case-study, conducted on a dataset from an energy organisation, to explore the uncertainty around the creation of machine learning models that are able to predict residential customers entering financial hardship which then reduces their ability to pay energy bills. Incorrect predictions can result in inefficient resource allocation and vulnerable customers not being proactively identified. This study investigates machine learning models' ability to consider different contexts and estimate the uncertainty in the prediction. Seven models from four families of machine learning algorithms are investigated for their novel utilisation. A novel concept of utilising a Baysian Neural Network to the binary classification problem of propensity-to-pay energy bills is proposed and explored for deployment.
翻訳日:2022-10-24 07:01:13 公開日:2020-08-27
# DAVE: 自動検証を英語から派生

DAVE: Deriving Automatically Verilog from English ( http://arxiv.org/abs/2009.01026v1 )

ライセンス: Link先を確認
Hammond Pearce, Benjamin Tan, Ramesh Karri(参考訳) デジタルシステムの仕様は自然言語で提供されるが、技術者はそれらをデジタルシステムのコンパイラが理解するプログラミング言語に変換するために多大な努力を払っている。 このプロセスを自動化することで、デザイナーは最も快適な言語 -- 元の自然言語 -- で作業し、代わりに他の下流設計の課題に焦点を当てることができる。 本稿では,自然言語mlシステムである微調整gpt-2を用いて,英語からverilogスニペットを自動的に導出する機械学習(ml)の利用について検討する。 初級デジタルデザインタスクの適切なデータセットを作成し、GPT-2の詳細な探索を行い、簡単な設計タスクと抽象的な設計タスクの両方を扱う能力を備えたタスクセット間の翻訳性能(94.8%の精度)について述べる。

While specifications for digital systems are provided in natural language, engineers undertake significant efforts to translate them into the programming languages understood by compilers for digital systems. Automating this process allows designers to work with the language in which they are most comfortable --the original natural language -- and focus instead on other downstream design challenges. We explore the use of state-of-the-art machine learning (ML) to automatically derive Verilog snippets from English via fine-tuning GPT-2, a natural language ML system. We describe our approach for producing a suitable dataset of novice-level digital design tasks and provide a detailed exploration of GPT-2, finding encouraging translation performance across our task sets (94.8% correct), with the ability to handle both simple and abstract design tasks.
翻訳日:2022-10-24 07:00:54 公開日:2020-08-27
# データセットにおける6種類の異常検出における離散化法の影響

The Impact of Discretization Method on the Detection of Six Types of Anomalies in Datasets ( http://arxiv.org/abs/2008.12330v1 )

ライセンス: Link先を確認
Ralph Foorthuis(参考訳) 異常検出は、何らかの方法で異常であり、データセットに存在する一般的なパターンに適合しないケース、またはケースのグループを特定するプロセスである。 多くのアルゴリズムは、検出プロセスで数値データの離散化を用いる。 本研究では,最近のデータ異常の類型論で認められた6つの異常タイプについて,教師なし検出に離散化法が与える影響について検討した。 この目的のために、様々なデータセットとSECODAを用いて実験を行い、数値的および分類的属性を持つデータセットにおける教師なし非パラメトリック異常検出のための汎用アルゴリズムである。 このアルゴリズムは、連続属性の離散化、指数関数的に増大する重みと離散化カットポイント、そして最適なイテレーション数で異常を検出するプラニングヒューリスティックを用いる。 その結果、標準のセコダは6つの型をすべて検出できるが、異なる離散化法は特定の異常型の発見を好んでいることが分かった。 主な発見は、離散化を用いた他の検出技術にも当てはまる。

Anomaly detection is the process of identifying cases, or groups of cases, that are in some way unusual and do not fit the general patterns present in the dataset. Numerous algorithms use discretization of numerical data in their detection processes. This study investigates the effect of the discretization method on the unsupervised detection of each of the six anomaly types acknowledged in a recent typology of data anomalies. To this end, experiments are conducted with various datasets and SECODA, a general-purpose algorithm for unsupervised non-parametric anomaly detection in datasets with numerical and categorical attributes. This algorithm employs discretization of continuous attributes, exponentially increasing weights and discretization cut points, and a pruning heuristic to detect anomalies with an optimal number of iterations. The results demonstrate that standard SECODA can detect all six types, but that different discretization methods favor the discovery of certain anomaly types. The main findings also hold for other detection techniques using discretization.
翻訳日:2022-10-24 07:00:00 公開日:2020-08-27
# 機械による心臓疾患診断 : 走査型心電図のデジタル化からBrugada症候群(BrS)検出まで

Teaching a Machine to Diagnose a Heart Disease; Beginning from digitizing scanned ECGs to detecting the Brugada Syndrome (BrS) ( http://arxiv.org/abs/2009.01076v1 )

ライセンス: Link先を確認
Simon Jaxy(参考訳) 医療診断は、人の人生を大きく変えることができる。 したがって、診断について確かな証拠をできるだけ収集することが常に推奨される。 残念ながら、ブルガダ症候群(brs)は稀で遺伝性の心臓疾患であり、心電図(ecg)の典型的なパターンである1つの診断基準しか存在しない。 以下の論文では、機械学習によるECGストリップの調査により、BrS陽性症例の検出が改善し、診断プロセスが改善するかどうかを疑問視する。 本稿では,ECGのスキャン画像を読み込むパイプラインを提案し,複数の処理ステップの後にキャプチャされた信号をデジタル時間電圧データに変換する。 そして,抽出したデータに基づいて構築し,その診断を行うLong Short-term memory(LSTM)分類器を提案する。 提案するパイプラインは,3種類のECGイメージを区別し,各リード信号の再生を行う。 データのデジタル化の間に特徴と品質が保持されるが、遭遇した問題の一部は完全に削除されない(パートI)。 それにもかかわらず、上記のプログラムの結果は、その概念を証明し、将来の研究のアーキテクチャ基盤となる可能性のある分類器などの計算手法により、ECGのさらなる調査に適している(第2部)。 この論文は同じプロセスの一部であるが概念的に異なるため、2つの部分に分けられる。 この研究はbrsとその診断における計算研究の新たな基礎を築くことが期待されている。

Medical diagnoses can shape and change the life of a person drastically. Therefore, it is always best advised to collect as much evidence as possible to be certain about the diagnosis. Unfortunately, in the case of the Brugada Syndrome (BrS), a rare and inherited heart disease, only one diagnostic criterion exists, namely, a typical pattern in the Electrocardiogram (ECG). In the following treatise, we question whether the investigation of ECG strips by the means of machine learning methods improves the detection of BrS positive cases and hence, the diagnostic process. We propose a pipeline that reads in scanned images of ECGs, and transforms the encaptured signals to digital time-voltage data after several processing steps. Then, we present a long short-term memory (LSTM) classifier that is built based on the previously extracted data and that makes the diagnosis. The proposed pipeline distinguishes between three major types of ECG images and recreates each recorded lead signal. Features and quality are retained during the digitization of the data, albeit some encountered issues are not fully removed (Part I). Nevertheless, the results of the aforesaid program are suitable for further investigation of the ECG by a computational method such as the proposed classifier which proves the concept and could be the architectural basis for future research (Part II). This thesis is divided into two parts as they are part of the same process but conceptually different. It is hoped that this work builds a new foundation for computational investigations in the case of the BrS and its diagnosis.
翻訳日:2022-10-24 06:59:13 公開日:2020-08-27
# クラス/クラス構造を用いた深層学習スペクトルのトレース

Traces of Class/Cross-Class Structure Pervade Deep Learning Spectra ( http://arxiv.org/abs/2008.11865v1 )

ライセンス: Link先を確認
Vardan Papyan(参考訳) 多くの研究者が最近のディープラーニング分類器の研究に経験的スペクトル分析を適用した。 我々は、重要な形式的クラス/クラス構造を特定し、議論し、それがディープネットスペクトルで観測された多くの視覚的に印象的な特徴の原点にあることを示し、そのいくつかは最近の記事で報告され、その他はここで初めて披露されている。 スペクトルの外れ値や「スパイク」、小さなが別個の連続分布である「バンプ」は、しばしば「主バルク」の端を越えて見られる。 クロスクラス構造の重要性は次の3つの方法で示される。 (i)多項ロジスティック回帰(multinomial logistic regression)の文脈において、フィッシャー情報行列のスペクトルにおける外れ値とバルクの比率が誤分類の予測であることを証明する。 (ii)段階的に、ネットワークが、クラス別情報をクラス別情報に直交しながら、クラス別情報とクラス別情報とを分離できることを実証する。 3) ディープネットをトレーニングするための2次最適化アルゴリズムであるKFACの補正を提案する。

Numerous researchers recently applied empirical spectral analysis to the study of modern deep learning classifiers. We identify and discuss an important formal class/cross-class structure and show how it lies at the origin of the many visually striking features observed in deepnet spectra, some of which were reported in recent articles, others are unveiled here for the first time. These include spectral outliers, "spikes", and small but distinct continuous distributions, "bumps", often seen beyond the edge of a "main bulk". The significance of the cross-class structure is illustrated in three ways: (i) we prove the ratio of outliers to bulk in the spectrum of the Fisher information matrix is predictive of misclassification, in the context of multinomial logistic regression; (ii) we demonstrate how, gradually with depth, a network is able to separate class-distinctive information from class variability, all while orthogonalizing the class-distinctive information; and (iii) we propose a correction to KFAC, a well-known second-order optimization algorithm for training deepnets.
翻訳日:2022-10-24 06:58:44 公開日:2020-08-27
# amortized variational inferenceを用いたメタラーニング

Meta-Learning with Shared Amortized Variational Inference ( http://arxiv.org/abs/2008.12037v1 )

ライセンス: Link先を確認
Ekaterina Iakovleva, Jakob Verbeek, Karteek Alahari(参考訳) 本稿では,モデルパラメータを潜在変数として扱う経験的ベイズメタラーニングモデルのための,新しい不定形変分推論スキームを提案する。 制限トレーニングデータに基づくモデルパラメータの事前分布を変分オートエンコーダ法を用いて学習する。 本稿では,モデルパラメータ上の条件付き前置分布と変動型後続分布とを同一の償却推論ネットワークで共有することを提案する。 後段はラベル付きサポートとクエリデータの両方を活用するが、条件付きプリミティブはラベル付きサポートデータのみに基づいている。 初期の研究ではモンテカルロ近似を頼りに、条件付き事前崩壊はディラックデルタ関数に作用することを示した。 対照的に、我々の変分アプローチは、この崩壊を防ぎ、モデルパラメータに対する不確実性を保持します。 本稿では,miniimagenet,cifar-fs,fc100データセットのアプローチを評価し,その利点を示す結果を示す。

We propose a novel amortized variational inference scheme for an empirical Bayes meta-learning model, where model parameters are treated as latent variables. We learn the prior distribution over model parameters conditioned on limited training data using a variational autoencoder approach. Our framework proposes sharing the same amortized inference network between the conditional prior and variational posterior distributions over the model parameters. While the posterior leverages both the labeled support and query data, the conditional prior is based only on the labeled support data. We show that in earlier work, relying on Monte-Carlo approximation, the conditional prior collapses to a Dirac delta function. In contrast, our variational approach prevents this collapse and preserves uncertainty over the model parameters. We evaluate our approach on the miniImageNet, CIFAR-FS and FC100 datasets, and present results demonstrating its advantages over previous work.
翻訳日:2022-10-24 06:58:27 公開日:2020-08-27