このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200326となっている論文です。

PDF登録状況(公開日: 20200326)

TitleAuthorsAbstract論文公表日・翻訳日
# ジョゼフ・ポルチンスキー:伝記的回想録

Joseph Polchinski: A Biographical Memoir ( http://arxiv.org/abs/2002.02371v2 )

ライセンス: Link先を確認
Raphael Bousso, Fernando Quevedo, Steven Weinberg(参考訳) ジョゼフ・ポルチンスキー(1954-2018)は、過去50年間の理論物理学者のひとりであり、非常に広く深い思想家であった。 彼は場の量子論に基本的な貢献を行い、再正規化群の役割を前進させ、宇宙論的な定数問題に対処した。 d-ブレーンに関するポルチンスキーの研究は弦理論に革命をもたらし、重力の非摂動量子論の発見につながった。 彼の最近のブラックホール情報パラドックスの切開的再構成は、大きな挑戦を与えてくれる。 ジョーは家族、愛する同僚、助言者、優れた作家、優れたスポーツ選手に深く傾倒した。

Joseph Polchinski (1954-2018), one of the the leading theoretical physicists of the past 50 years, was an exceptionally broad and deep thinker. He made fundamental contributions to quantum field theory, advancing the role of the renormalization group, and to cosmology, addressing the cosmological constant problem. Polchinski's work on D-branes revolutionized string theory and led to the discovery of a nonperturbative quantum theory of gravity. His recent, incisive reformulation of the black hole information paradox presents us with a profound challenge. Joe was deeply devoted to his family, a beloved colleague and advisor, an excellent writer, and an accomplished athlete.
翻訳日:2023-06-04 13:53:50 公開日:2020-03-26
# bose-einstein condensatesを用いたschr\"odinger方程式における対数非線形性の検出

Detecting a logarithmic nonlinearity in the Schr\"odinger equation using Bose-Einstein condensates ( http://arxiv.org/abs/2002.08877v2 )

ライセンス: Link先を確認
Sascha Vowe, Claus L\"ammerzahl and Markus Krutzik(参考訳) 自由膨張ボース・アインシュタイン凝縮(BEC)の力学に及ぼすシュル・オーディンガー方程式(SE)の対数非線形性の影響について検討した。 対数非線形性は、線形理論の重要な物理的性質の保存、例えば非相互作用状態の分離性を強調したSEへの最初の非線形拡張の1つである。 この分離性を用いて、対数Gross-Pittaevskii方程式に従うBECの記述に組み込む。 このようなBECの力学を変動的および数値的手法を用いて検討し、デルタキックコリメーションのような実験手法を用いて、微小重力プラットフォーム上で利用可能な自由落下時間の拡張実験により、対数非線形性の強度を少なくとも1桁下げることができることを示した。

We study the effect of a logarithmic nonlinearity in the Schr\"odinger equation (SE) on the dynamics of a freely expanding Bose-Einstein condensate (BEC). The logarithmic nonlinearity was one of the first proposed nonlinear extensions to the SE which emphasized the conservation of important physical properties of the linear theory, e.g.: the separability of noninteracting states. Using this separability, we incorporate it into the description of a BEC obeying a logarithmic Gross-Pittaevskii equation. We investigate the dynamics of such BECs using variational and numerical methods and find that, using experimental techniques like delta kick collimation, experiments with extended free-fall times as available on microgravity platforms could be able to lower the bound on the strength of the logarithmic nonlinearity by at least one order of magnitude.
翻訳日:2023-06-03 02:39:52 公開日:2020-03-26
# ピアツーピアエネルギー市場に向けて:概要

Towards a Peer-to-Peer Energy Market: an Overview ( http://arxiv.org/abs/2003.07940v2 )

ライセンス: Link先を確認
Luca Mazzola, Alexander Denzler and Ramon Christen(参考訳) 本研究は電力市場に着目し,現状とプロシューマーの分散自己生成能力向上に向けた最近の傾向を比較した。 本研究は, 配電網の階層的電流構造と, 実質的に分散した自己組織的自己生成特性との既存の緊張関係から, 現状に課される制約について検討する。 まず,P2P(Peer-to-Peer)エネルギー市場のための多層アーキテクチャを導入し,マイクログリッドの一部としての地域生産と地域消費の基本的な側面について議論する。 第2に,電力生産の分散化に関連するいくつかのインセンティブモデルに関連して,異なるユーザの役割の連続的な変化を分析した。 読者に全体像を示すため、スマートコントラクトやグリッド安定性といったエネルギー取引の関連要素についても精査する。 第3に、これまでに分析されたすべての側面の役割を示す典型的なP2P解決の例を示す。 結論として、我々は、この領域における関連する活動のレビューを行い、既存のプロジェクトがどこに進んでいるのか、最も重要なテーマは何かを説明しました。 これは進行中の作業であるため、多くの公開質問はまだテーブル上にあり、研究の次の段階で取り扱われる予定である。 最終的には、さらなる議論と改善の基盤として参照モデルを提供することで、将来的な電力市場に対するより公正で環境に優しいソリューションを目指して、異なるユーザと幅広いコミュニティとの対話に自らを関与させたいと思っています。

This work focuses on the electric power market, comparing the status quo with the recent trend towards the increase in distributed self-generation capabilities by prosumers. Starting from the existing tension between the intrinsically hierarchical current structure of the electricity distribution network and the substantially distributed and self-organising nature of the self-generation, we explore the limitations imposed by the current conditions. Initially, we introduce a potential multi-layered architecture for a Peer-to-Peer (P2P) energy market, discussing the fundamental aspects of local production and local consumption as part of a microgrid. Secondly, we analyse the consequent changes for the different users' roles, also in connection with some incentive models connected with the decentralisation of the power production. To give a full picture to the reader, we also scrutinise relevant elements of energy trading, such as Smart Contract and grid stability. Thirdly, we present an example of a typical P2P settlement, showcasing the role of all the previously analysed aspects. To conclude, we performed a review of relevant activities in this domain, to showcase where existing projects are going and what are the most important themes covered. Being this a work in progress, many open questions are still on the table and will be addressed in the next stages of the research. Eventually, by providing a reference model as base for further discussions and improvements, we would like to engage ourselves in a dialog with the different users and the broad community, oriented towards a more fair and ecological-friendly solution for the electricity market of the future.
翻訳日:2023-05-31 12:02:42 公開日:2020-03-26
# qfast:階層型連続回路空間を用いた量子合成

QFAST: Quantum Synthesis Using a Hierarchical Continuous Circuit Space ( http://arxiv.org/abs/2003.04462v2 )

ライセンス: Link先を確認
Ed Younis, Koushik Sen, Katherine Yelick, Costin Iancu(参考訳) 提案するqfastは,短絡回路を生成でき,実際にスケールしやすい量子合成ツールである。 私たちの貢献は 1) 配置及びトポロジーを符号化可能な新しい回路の表現 2) 回路構造探索における「粗い」高速最適化と, 最終回路インスタンス化段階においてのみ, よいが遅い最適化段階を組み合わさった, 反復的洗練された定式化による階層的手法。 最先端技術と比較して最適ではないが、QFASTはドメイン科学者が使用する「時間依存進化」アルゴリズムのためにはるかに短い回路を生成することができる。 また,回路深度および走行時間の観点から,定式化の構成可能性とチューニング性を示す。 例えば、最適なサードパーティ合成アルゴリズムを与えられた階層レベルでプラグインすることで、より短い回路を生成する方法を示す。 構成性は、利用可能なアプローチに欠けているチップアーキテクチャ間のポータビリティを可能にする。

We present QFAST, a quantum synthesis tool designed to produce short circuits and to scale well in practice. Our contributions are: 1) a novel representation of circuits able to encode placement and topology; 2) a hierarchical approach with an iterative refinement formulation that combines "coarse-grained" fast optimization during circuit structure search with a good, but slower, optimization stage only in the final circuit instantiation stage. When compared against state-of-the-art techniques, although not optimal, QFAST can generate much shorter circuits for "time dependent evolution" algorithms used by domain scientists. We also show the composability and tunability of our formulation in terms of circuit depth and running time. For example, we show how to generate shorter circuits by plugging in the best available third party synthesis algorithm at a given hierarchy level. Composability enables portability across chip architectures, which is missing from the available approaches.
翻訳日:2023-05-30 03:07:40 公開日:2020-03-26
# NELA-GT-2019:ニュース記事における誤情報研究のための大規模マルチラベルニュースデータセット

NELA-GT-2019: A Large Multi-Labelled News Dataset for The Study of Misinformation in News Articles ( http://arxiv.org/abs/2003.08444v2 )

ライセンス: Link先を確認
Maur\'icio Gruppi and Benjamin D. Horne and Sibel Adal{\i}(参考訳) 本稿では,NELA-GT-2018データセット(N{\o}rregaard,Horne,Adal{\i} 2019)の更新版について述べる。 nela-gt-2019には、2019年1月1日から12月31日までに収集された260のソースから12万件のニュース記事が含まれている。 nela-gt-2018と同様に、これらの情報源は幅広い主流のニュースソースと代替ニュースソースから来ている。 データセットには、複数の精度の次元をカバーする7つの異なるアセスメントサイトからのソースレベル基底真理ラベルが含まれている。 NELA-GT-2019データセットは、https://doi.org/10.7910/DVN/O7FWPOで見ることができる。

In this paper, we present an updated version of the NELA-GT-2018 dataset (N{\o}rregaard, Horne, and Adal{\i} 2019), entitled NELA-GT-2019. NELA-GT-2019 contains 1.12M news articles from 260 sources collected between January 1st 2019 and December 31st 2019. Just as with NELA-GT-2018, these sources come from a wide range of mainstream news sources and alternative news sources. Included with the dataset are source-level ground truth labels from 7 different assessment sites covering multiple dimensions of veracity. The NELA-GT-2019 dataset can be found at: https://doi.org/10.7910/DVN/O7FWPO
翻訳日:2023-05-28 20:06:29 公開日:2020-03-26
# 閉じ込められたイオンの強結合量子論理

Strong-coupling quantum logic of trapped ions ( http://arxiv.org/abs/2003.11718v1 )

ライセンス: Link先を確認
Mahdi Sameti, Jake Lishman, Florian Mintert(参考訳) 本質的に、すべての既知の量子ゲートは、線形ダイナミクスをもたらす弱結合近似に依存する。 トラップイオンの明示的な例では、そのような近似の外部で高忠実度量子ゲートがいかに達成できるかを示し、ドップラー冷却のみによって得られる運動温度のランブ・ディッケ系外において、非常に高い忠実度を持つゲートを実現するための実装可能な駆動場を導出する。

Essentially all known quantum gates rely on a weak-coupling approximation resulting in linear dynamics. With the explicit example of trapped ions, we show how high-fidelity quantum gates can be achieved outside such an approximation, and we derive readily implementable driving fields to realize gates with extremely high fidelities for ions well outside the Lamb-Dicke regime with motional temperatures achievable by only Doppler cooling.
翻訳日:2023-05-27 20:49:17 公開日:2020-03-26
# 量子時間領域干渉法によるバックアクションフリー量子相関測定

Backaction-free measurement of quantum correlations via quantum time-domain interferometry ( http://arxiv.org/abs/2003.11900v1 )

ライセンス: Link先を確認
Salvatore Castrignano and J\"org Evers(参考訳) 時間領域干渉法(TDI)は、凝縮物質系の粒子間の時空相関を探索する手法である。 量子システムへのtdiの適用は、測定の反作用がシステムのダイナミクスに悪影響を及ぼすことなく、2つの時間相関を確実に測定できるかどうかという一般的な疑問を提起する。 本稿では、最近開発されたTDI(QTDI)の量子バージョンが、バックアクションなしで完全な量子力学的2時間相関にアクセスできることを示す。 さらに、QTDIを古典的連続モードコヒーレント入力状態に一般化し、単一光子入力フィールドの必要性を軽減する。 最後に, 時空相関を2つの部分に分割することにより, 結果の解釈を行う。 第1のコントリビューションはプロジェクティブ測定と関連付けられており, バックアクションに敏感ではないが, 第2のコントリビューションは, プローブ対象系の状態のコヒーレンス特性から生じるものであり, システム上の測定によって摂動あるいは破壊される。

Time-domain interferometry (TDI) is a method to probe space-time correlations among particles in condensed matter systems. Applying TDI to quantum systems raises the general question, whether two-time correlations can be reliably measured without adverse impact of the measurement backaction onto the dynamics of the system. Here, we show that a recently developed quantum version of TDI (QTDI) indeed can access the full quantum-mechanical two-time correlations without backaction. We further generalize QTDI to weak classical continuous-mode coherent input states, alleviating the need for single-photon input fields. Finally, we interpret our results by splitting the space-time correlations into two parts. While the first one is associated to projective measurements and thus insensitive to backaction, we identify the second contribution as arising from the coherence properties of the state of the probed target system, such that it is perturbed or even destroyed by measurements on the system.
翻訳日:2023-05-27 20:46:47 公開日:2020-03-26
# 孤立量子系における確率的ヒステリシス:量子から見た可逆性の微視的オンセット

Probabilistic Hysteresis in an Isolated Quantum System: The Microscopic Onset of Irreversibility from a Quantum Perspective ( http://arxiv.org/abs/2003.11887v1 )

ライセンス: Link先を確認
Ralf B\"urkle, James R. Anglin(参考訳) 近年, 超低温原子のハミルトン系における確率的ヒステリシスは, 半古典的処理が十分である大粒子数の限界において研究されている。 これらのスイープ実験における可逆性の起源は、制御パラメータがゆっくりと(断続的に)前後に調整され、セパラトリクス(可積分の場合)を行き来する通路または位相空間におけるカオス海の内外への通路(カオスの場合)であることが判明した。 ここでは、可積分系の完全な量子力学的記述に注目し、半古典的結果が大粒子数の極限にどのように現れるかを示す。 古典的断熱性が失敗する位相空間におけるセパラトリクスの交差の代わりに、量子系における非可逆性の起源は断熱エネルギー準位の一連の回避された交差である。 遅いが有限のスイープレートでは、量子結果が半古典的結果と一致するような広い体系が見つかるが、その極限である$n\to \infty$ の他に、状態の初期アンサンブルが十分に初期エネルギー幅を持つ場合に限る。 単一の初期エネルギー固有状態に対して、逆スイープは、非常に大きな粒子数であっても強い量子効果を示すことが分かる。

Recently probabilistic hysteresis in isolated Hamiltonian systems of ultracold atoms has been studied in the limit of large particle numbers, where a semiclassical treatment is adequate. The origin of irreversibility in these sweep experiments, where a control parameter is slowly (adiabatically) tuned back and forth, turned out to be a passage blue back and forth across a separatrix (integrable case) or a passage in and out of a chaotic sea in phase space (chaotic case). Here we focus on the full quantum mechanical description of the integrable system and show how the semiclassical results emerge in the limit of large particle numbers. Instead of the crossing of a separatrix in phase space, where classical adiabaticity fails, the origin of irreversibility in the quantum system is a series of avoided crossings of the adiabatic energy levels: they become so close that already for modest particle numbers the change of the external parameter has to be unrealistically slow to reach the quantum adiabatic limit of perfectly reversible evolution. For a slow but finite sweep rate we find a broad regime where the quantum results agree with the semiclassical results, but only if besides the limit $N\to \infty$ an initial ensemble of states is considered, with sufficient initial energy width. For a single initial energy eigenstate we find in contrast that the backward sweep reveals strong quantum effects even for very large particle numbers.
翻訳日:2023-05-27 20:46:30 公開日:2020-03-26
# 局所的な熱散逸に対する局所的・グローバルなアプローチを超えて

Going beyond Local and Global approaches for localized thermal dissipation ( http://arxiv.org/abs/2003.11845v1 )

ライセンス: Link先を確認
Donato Farina, Giulio De Filippis, Vittorio Cataudella, Marco Polini and Vittorio Giovannetti(参考訳) 多成分の開量子システムの記述にどのマスター方程式が好ましいかを特定することは自明ではなく、近年ではマルコフ散逸の文脈で局所的対大域的議論に繋がった。 ここでは,熱浴とのみ相互作用する2つの調和振動子a,bと,他の調和振動子群と相互作用する2つの調和振動子a,bからなるパラダイムシナリオを扱い,まずは基底状態と浴の有限温度で系の平衡過程を考察する。 粗粒法と局所解と大域解の適切な時間依存凸混合法を用いて得られたレッドフィールド方程式の完全正則バージョンは、完全系力学全体の最も正確な半群近似、すなわち短時間および長時間のスケール、すなわち局所的および大域的なアプローチよりも優れることを示した。

Identifying which master equation is preferable for the description of a multipartite open quantum system is not trivial and has led in the recent years to the local vs. global debate in the context of Markovian dissipation. We treat here a paradigmatic scenario in which the system is composed of two interacting harmonic oscillators A and B, with only A interacting with a thermal bath - collection of other harmonic oscillators - and we study the equilibration process of the system initially in the ground state with the bath finite temperature. We show that the completely positive version of the Redfield equation obtained using coarse-grain and an appropriate time-dependent convex mixture of the local and global solutions give rise to the most accurate semigroup approximations of the whole exact system dynamics, i.e. both at short and at long time scales, outperforming the local and global approaches.
翻訳日:2023-05-27 20:45:49 公開日:2020-03-26
# quantum alice と silent bob: 古典的通信をほとんど含まない qubit ベースの量子鍵リサイクル

Quantum Alice and Silent Bob: Qubit-based Quantum Key Recycling with almost no classical communication ( http://arxiv.org/abs/2003.11799v1 )

ライセンス: Link先を確認
Daan Leermakers and Boris Skoric(参考訳) 量子鍵リサイクル(qkr: quantum key recycling)に関するオープン質問に答える: キュービット数を増加させることなく、メッセージ全体をキュービットに格納することは可能か? これは実際に可能であることを示す。 本稿では,Alice から Bob への通信は完全に qubit で構成されたQKRプロトコルを提案する。 いつものように、bobは認証された1ビットのaccept/rejectクラシックメッセージで応答する。 量子鍵分布(QKD)と比較して、QKRはラウンドの複雑さを減らしている。 従来のqubit-wise QKRプロトコルと比較して、我々のスキームは古典的なコミュニケーションがはるかに少ない。 ユニバーサルコンポーザビリティ・フレームワークにおけるセキュリティ証明を行い,一方的な後処理を伴うQKDと漸近的に通信速度が同じであることを示す。

We answer an open question about Quantum Key Recycling (QKR): Is it possible to put the message entirely in the qubits without increasing the number of qubits? We show that this is indeed possible. We introduce a prepare-and-measure QKR protocol where the communication from Alice to Bob consists entirely of qubits. As usual, Bob responds with an authenticated one-bit accept/reject classical message. Compared to Quantum Key Distribution (QKD), QKR has reduced round complexity. Compared to previous qubit-wise QKR protocols, our scheme has far less classical communication. We provide a security proof in the universal composability framework and find that the communication rate is asymptotically the same as for QKD with one-way postprocessing.
翻訳日:2023-05-27 20:45:23 公開日:2020-03-26
# 超伝導トポロジカル表面状態からのトポロジカル超伝導体とフォールトトレラント量子コンピューティング

Topological superconductor from superconducting topological surface states and fault-tolerant quantum computing ( http://arxiv.org/abs/2003.11752v1 )

ライセンス: Link先を確認
Xi Luo, Yu-Ge Chen, Ziqiang Wang, Yue Yu(参考訳) 2次元(2次元)のカイラル$p$-wave超伝導体/超流体は、トポロジカル量子計算の最も単純かつ最も堅牢なシステムである。 このような位相超伝導体や超流動の候補は非常に稀である。 広く信じられている「p$-wave superfluid」は、実験的な証拠はまだ確定していないが、$\nu=\frac{5}2$分数量子ホール効果のムーア読み状態である。 量子異常ホール-超伝導ハイブリッド構造を用いたキラル$p$波超伝導体の実験的実現は議論されている。 本稿では,鉄系超伝導体fe(te,se)などの超伝導表面状態(sc-tss)をサポートする3d$s$-wave超伝導体の表面上の2dキラル$p$-wave超伝導体を実現する新しいメカニズムについて述べる。 薄膜上面と下面のSC-TSS間のトンネルとペアリング,あるいは2つの超伝導体の対向する2つの面の間には,キラルトポロジカル超伝導体を破る2次元時間反転対称性が生じる。 マヨラナゼロモードとキラルマヨラナフェルミオンエッジモードを備えた位相的に保護されたエノニック渦は、より有利な非可換ブレイディング操作のプラットフォームとして使用できる。 本稿では,6つのキラルマヨラナフェミオンエッジモードを持つCNOTゲートの新たなデバイスを提案し,フォールトトレラントな普遍量子コンピューティングの道を開く。

The chiral $p$-wave superconductor/superfluid in two dimensions (2D) is the simplest and most robust system for topological quantum computation . Candidates for such topological superconductors/superfluids in nature are very rare. A widely believed chiral $p$-wave superfluid is the Moore-Read state in the $\nu=\frac{5}2$ fractional quantum Hall effect, although experimental evidence are not yet conclusive. Experimental realizations of chiral $p$-wave superconductors using quantum anomalous Hall insulator-superconductor hybrid structures have been controversial. Here we report a new mechanism for realizing 2D chiral $p$-wave superconductors on the surface of 3D $s$-wave superconductors that have a topological band structure and support superconducting topological surface states (SC-TSS), such as the iron-based superconductor Fe(Te,Se). We find that tunneling and pairing between the SC-TSS on the top and bottom surfaces in a thin film or between two opposing surfaces of two such superconductors can produce an emergent 2D time-reversal symmetry breaking chiral topological superconductor. The topologically protected anyonic vortices with Majorana zero modes as well as the chiral Majorana fermion edge modes can be used as a platform for more advantageous non-abelian braiding operations. We propose a novel device for the CNOT gate with six chiral Majorana fermion edge modes, which paves the way for fault-tolerant universal quantum computing.
翻訳日:2023-05-27 20:44:54 公開日:2020-03-26
# STEM以外にも、ビッグデータ、アナリティクス、ロボティクス、人工知能の活用は可能か? 新興技術波における女性の役割と影響に影響を及ぼす自信と教育的要因の探索的分析

Beyond STEM, How Can Women Engage Big Data, Analytics, Robotics and Artificial Intelligence? An Exploratory Analysis of Confidence and Educational Factors in the Emerging Technology Waves Influencing the Role of, and Impact Upon, Women ( http://arxiv.org/abs/2003.11746v1 )

ライセンス: Link先を確認
Yana Samuel, Jean George and Jim Samuel(参考訳) 急速に進展する世界的技術環境にもかかわらず、テクノロジー、ビッグデータ、分析、人工知能、情報システム関連分野における女性のプロフェッショナルな参加は、比例的に低いままである。 さらに、これらの領域におけるリーダーシップの女性の数は、さらに低い割合にあるという懸念もある。 技術領域における女性の参加向上に向けた取り組みは数多くあるが、特に女性教育の急激な増加が見られた国や地理において、それに対応する情報システムや女性に対する技術役割への翻訳が増加することなく、この現象についてさらなる洞察を得る必要性が高まっている。 本稿では,女性の役割や影響に影響を及ぼす新興技術波の教育的要因を把握するための枠組みについて,探索分析から得られた知見を概説する。 我々は、学習と自己効力感を重要な要因として特定し、同時にAWT(Advancedment of Women in Technology)の洞察フレームワークにもたらします。 awtフレームワークに基づいて、新興および先進技術における女性のより高い職業的関与を促すために使用できる原則も提案します。 主な言葉は、女性教育、技術、人工知能、知識、自信、自己効力、学習である。

In spite of the rapidly advancing global technological environment, the professional participation of women in technology, big data, analytics, artificial intelligence and information systems related domains remains proportionately low. Furthermore, it is of no less concern that the number of women in leadership in these domains are in even lower proportions. In spite of numerous initiatives to improve the participation of women in technological domains, there is an increasing need to gain additional insights into this phenomenon especially since it occurs in nations and geographies which have seen a sharp rise in overall female education, without such increase translating into a corresponding spurt in information systems and technological roles for women. The present paper presents findings from an exploratory analysis and outlines a framework to gain insights into educational factors in the emerging technology waves influencing the role of, and impact upon, women. We specifically identify ways for learning and self-efficacy as key factors, which together lead us to the Advancement of Women in Technology (AWT) insights framework. Based on the AWT framework, we also proposition principles that can be used to encourage higher professional engagement of women in emerging and advanced technologies. Key Words- Women's Education, Technology, Artificial Intelligence, Knowing, Confidence, Self-Efficacy, Learning.
翻訳日:2023-05-27 20:44:27 公開日:2020-03-26
# 位相空間における高調波発振器の拡張ウィグナー関数

Extended Wigner function for the harmonic oscillator in the phase space ( http://arxiv.org/abs/2003.11737v1 )

ライセンス: Link先を確認
E.E. Perepelkin, B.I. Sadovnikov, N.G. Inozemtseva, E.V. Burlakov(参考訳) この研究で量子調和振動子に対する新しい時間依存ウィグナー関数が得られた。 調和振動子のモヤル方程式は位相平面内の2次元膜の波動方程式として提示されている。 ウィグナー関数の値は、平衡状態から膜表面上の点の偏差値に等しい。 ウィグナー関数の正と負の値は平衡状態からの偏差の方向に対応する。 例えば、位相平面で発生する準確率密度の定在波に対応する時間依存ウィグナー関数を考える。

New time dependent Wigner functions for the quantum harmonic oscillator have been obtained in this work. The Moyal equation for the harmonic oscillator has been presented as the wave equation of a 2D membrane in the phase plane. The values of the Wigner function are equal to the deviation values of the points on the surface of the membrane from the equilibrium state. The positive and negative values of the Wigner function correspond to the direction of the deviation from the equilibrium state. As an example, a time dependent Wigner function corresponding to the standing wave of quasi-probability density arising in the phase plane is considered.
翻訳日:2023-05-27 20:44:05 公開日:2020-03-26
# レーザー安定化に応用した変調転移分光の最適化手法

Optimization strategies for modulation transfer spectroscopy applied to laser stabilization ( http://arxiv.org/abs/2003.12035v1 )

ライセンス: Link先を確認
Tilman Preuschoff, Malte Schlosser, Gerhard Birkl(参考訳) 本稿では,変調伝達分光法の最適変調パラメータを決定するための一般解析を行う。 この結果は普遍的に有効であり、有効線幅 $\gamma_{eff}$ の知識のみを必要とする原子種の分光法に適用することができる。 最適化された傾きと振幅を有する信号は、大きな変調指数$m$と、分光遷移の自然な線幅に匹敵する変調周波数とで予測される。 競合する実用的な考察の結果、3ドル m \le 10$の範囲の変調指数が最適であることが判明した。 このパラメータ構造は、音響光学変調器に基づく設定で実験的にアクセス可能である。 ルビジウムD2線の分光のための最適化信号を示す。 信号の形状と変調パラメータへの依存は、与えられた理論的な記述と非常によく一致している。 残留振幅変調の強い抑制を達成するための実験的手順を示す。 最適化された信号に基づいて, レーザー線幅が150\,khz (16\,s平均) であり, 周波数安定性が18\,khz (rms) で15時間以上となる長期レーザー安定化を示す。

We present a general analysis for determining the optimal modulation parameters for the modulation transfer spectroscopy scheme. The results are universally valid and can be applied to spectroscopy of any atomic species requiring only the knowledge of the effective linewidth $\Gamma_{eff}$. A signal with optimized slope and amplitude is predicted for a large modulation index $M$ and a modulation frequency comparable to the natural linewidth of the spectroscopic transition. As a result of competing practical considerations, a modulation index in the range of $3 \le M \le 10$ has been identified as optimal. This parameter regime is experimentally accessible with a setup based on an acousto-optic modulator. An optimized signal for spectroscopy of the rubidium D2 line is presented. The signal shape and the dependence on the modulation parameters are in very good agreement with the theoretical description given. An experimental procedure for achieving a strong suppression of residual amplitude modulation is presented. Based on the optimized signal, we demonstrate long-term laser stabilization resulting in a laser linewidth of 150\,kHz (16\,s average) and a frequency stability of 18\,kHz (rms) over 15 hours.
翻訳日:2023-05-27 20:37:41 公開日:2020-03-26
# XACCにおけるパルスレベルプログラミング、コンパイル、実行の実現

Enabling Pulse-level Programming, Compilation, and Execution in XACC ( http://arxiv.org/abs/2003.11971v1 )

ライセンス: Link先を確認
Thien Nguyen, Alexander McCaskey(参考訳) ノイズの多いゲートモデル量子処理ユニット(QPU)は、現在クラウド上のベンダーから利用可能であり、物理ハードウェア上で低深度回路を実行するためのデジタル量子プログラミングアプローチが存在する。 これらのデジタル表現は最終的にベンダー量子制御システムによるパルスレベル命令に下げられ、送信されたデジタル回路のユニタリ進化に影響を及ぼす。 ベンダーはこのパルスレベル制御システムを、特定のインターフェースを通じて一般公開し始めている。 量子計算のアナログモデルのためのロバストプログラミング方法論、ソフトウェアフレームワーク、バックエンドシミュレーション技術は、パルスレベル制御の研究と開発を進める上で重要である。 典型的な用途としては、誤差緩和、最適パルス制御、物理に触発されたパルス構成などがある。 本稿では、超伝導、ゲートモデル量子コンピュータのパルスレベルプログラミングを可能にするxacc量子古典的ソフトウェアフレームワークの拡張と、mpiを介して古典的な計算クラスタにスケールするxaccの新規で汎用的で拡張可能なパルスレベルシミュレーションバックエンドを提案する。 私たちの作業は、パフォーマンスとスケーラビリティを重視したカスタムバックエンドのハミルトン定義とゲートレベルのコンパイルを利用可能なパルスに提供します。 最後に、この機能のデモを行い、関連するパルスレベルプログラミングタスクにXACCを使用する方法を示す。

Noisy gate-model quantum processing units (QPUs) are currently available from vendors over the cloud, and digital quantum programming approaches exist to run low-depth circuits on physical hardware. These digital representations are ultimately lowered to pulse-level instructions by vendor quantum control systems to affect unitary evolution representative of the submitted digital circuit. Vendors are beginning to open this pulse-level control system to the public via specified interfaces. Robust programming methodologies, software frameworks, and backend simulation technologies for this analog model of quantum computation will prove critical to advancing pulse-level control research and development. Prototypical use cases for this include error mitigation, optimal pulse control, and physics-inspired pulse construction. Here we present an extension to the XACC quantum-classical software framework that enables pulse-level programming for superconducting, gate-model quantum computers, and a novel, general, and extensible pulse-level simulation backend for XACC that scales on classical compute clusters via MPI. Our work enables custom backend Hamiltonian definitions and gate-level compilation to available pulses with a focus on performance and scalability. We end with a demonstration of this capability, and show how to use XACC for pertinent pulse-level programming tasks.
翻訳日:2023-05-27 20:36:58 公開日:2020-03-26
# 半導体超格子における超高速ひずみ誘起電荷輸送

Ultrafast strain-induced charge transport in semiconductor superlattices ( http://arxiv.org/abs/2003.11969v1 )

ライセンス: Link先を確認
F. Wang, C.L. Poyser, M.T. Greenaway, A.V. Akimov, R.P. Campion, A.J. Kent, T.M. Fromhold and A.G. Balanov(参考訳) 半導体超格子の電子輸送に及ぼす超音速(>1GHz)音響フォノン波束の影響について検討する。 量子力学的シミュレーションにより,超格子を伝搬するピコ秒変形ひずみパルスのghz列が,ひずみパルス列の周波数数倍の電流振動を発生できることが示されている。 計算された電流パルスの形状と極性は実験的に測定された電気信号とよく一致した。 また, ひずみパルス振幅とバイアス電圧を用いて, 誘導電流パルスの大きさの変動を解析し, 高精度に再現した。 以上の結果から, ミリメートルおよびミリメートル以下の電磁波源として, 音響駆動型半導体超格子の開発への道を開く。

We investigate the effect of hypersonic (> 1 GHz) acoustic phonon wavepackets on electron transport in a semiconductor superlattice. Our quantum mechanical simulations demonstrate that a GHz train of picosecond deformation strain pulses propagating through a superlattice can generate current oscillations whose frequency is several times higher than that of the strain pulse train. The shape and polarity of the calculated current pulses agree well with experimentally measured electric signals. The calculations also explain and accurately reproduce the measured variation of the induced current pulse magnitude with the strain pulse amplitude and applied bias voltage. Our results open a route to developing acoustically-driven semiconductor superlattices as sources of millimetre and sub-millimetre electromagnetic waves.
翻訳日:2023-05-27 20:36:40 公開日:2020-03-26
# フェルミオンガウス系上の近似プライベート量子チャネル

Approximate private quantum channels on fermionic Gaussian systems ( http://arxiv.org/abs/2003.11907v1 )

ライセンス: Link先を確認
Kabgyun Jeong(参考訳) プライベート量子チャネル (pqc) は任意の量子状態を離散的およびボソニックガウス量子系に対する最大混合状態にマッピングし、量子量子量子タスクと量子チャネル容量問題において基本的な意味を持つ。 本稿では、フェルミオン型ガウス系(例えば、$\varepsilon$-FPQC)における近似プライベート量子チャネル(\varepsilon$-PQC)の概念を導入し、フェルミオン型(ガウス型)プライベート量子チャネルの明示的な形式を構築する。 まず第一に、フェルミオンガウス系におけるシュラッテン $p$-ノルム類に対する$\varepsilon$-fpqc の一般構造を提案し、次にトレースノルムにおけるステートメントの明示的な証明を与える。 さらに、フェルミオンユニタリ作用素の集合の濃度が、トレースノルムの場合の$\varepsilon$-fpqc条件で一致することを研究する。

The private quantum channel (PQC) maps any quantum state to the maximally mixed state for the discrete as well as the bosonic Gaussian quantum systems, and it has fundamental meaning on the quantum cryptographic tasks and the quantum channel capacity problems. In this paper, we introduce a notion of approximate private quantum channel ($\varepsilon$-PQC) on fermionic Gaussian systems (i.e., $\varepsilon$-FPQC), and construct its explicit form of the fermionic (Gaussian) private quantum channel. First of all, we suggest a general structure for $\varepsilon$-FPQC on the fermionic Gaussian systems with respect to the Schatten $p$-norm class, and then we give an explicit proof of the statement in the trace norm. In addition, we study that the cardinality of a set of fermionic unitary operators agrees on the $\varepsilon$-FPQC condition in the trace norm case.
翻訳日:2023-05-27 20:36:07 公開日:2020-03-26
# Echoの室内に落ちてくる: イタリアのワクチン論争をTwitterで

Falling into the Echo Chamber: the Italian Vaccination Debate on Twitter ( http://arxiv.org/abs/2003.11906v1 )

ライセンス: Link先を確認
Alessandro Cossard, Gianmarco De Francisci Morales, Kyriaki Kalimeri, Yelena Mejova, Daniela Paolotti, Michele Starnini(参考訳) 米国とヨーロッパでの麻疹の再出現は2000年代初頭に解消されたと考えられる病気であり、ソーシャルメディア上でのワクチン接種のメリットに関する議論が増えている。 本研究では,Twitter上での予防接種に関する議論が,予防接種ヘシタントへの不安感にどのように影響するかを検討する。 われわれは最新の麻疹の流行で最も影響を受けた国の一つであるイタリアに焦点を当てている。 我々は、予防接種懐疑派や擁護派が独自の「エチョ室」に居住していることを発見した。 これらのコミュニティの構造も異なり、懐疑派は緊密に結びついたクラスタに配置され、権威的なハブはほとんどない。 これらのエコーチャンバーの中心には熱心な支持者がいて、高い精度のネットワークとコンテンツベースの分類器(95%のクロスバリデーション精度)を構築しています。 本研究の洞察は,ネットワーク誘導ターゲティング,政治状況の把握,代替情報源の監視など,今後の介入へのいくつかの道を提供する。

The reappearance of measles in the US and Europe, a disease considered eliminated in early 2000s, has been accompanied by a growing debate on the merits of vaccination on social media. In this study we examine the extent to which the vaccination debate on Twitter is conductive to potential outreach to the vaccination hesitant. We focus on Italy, one of the countries most affected by the latest measles outbreaks. We discover that the vaccination skeptics, as well as the advocates, reside in their own distinct "echo chambers". The structure of these communities differs as well, with skeptics arranged in a tightly connected cluster, and advocates organizing themselves around few authoritative hubs. At the center of these echo chambers we find the ardent supporters, for which we build highly accurate network- and content-based classifiers (attaining 95% cross-validated accuracy). Insights of this study provide several avenues for potential future interventions, including network-guided targeting, accounting for the political context, and monitoring of alternative sources of information.
翻訳日:2023-05-27 20:35:29 公開日:2020-03-26
# 民主党選択の流動的展望

A Liquid Perspective on Democratic Choice ( http://arxiv.org/abs/2003.12393v1 )

ライセンス: Link先を確認
Bryan Ford(参考訳) 液体民主主義の考え方は、民主主義をより「流動的」かつ継続的な参加型にしたいという広く強固な願望に反応する。 その中心的な前提は、ユーザがネットワーク技術を使って投票力を制御し委任し、時間と注意の限界を考慮に入れたスケーラブルな方法で直接民主主義の理想を近似できるようにすることである。 しかし、液状民主主義を実現するための多くの潜在的な定義、意味、方法、そしてそれが展開される可能性のある多くの異なる目的がある。 本稿では,投票権の拡大,比例代表制度の改善,投票者の選択の簡素化や支援,専門化による直接民主主義の拡大など,投票者選択の促進を目的とした「流動的」概念を展開・検討する。 本研究の目的は、流動民主主義の理念がしばしば具現化している多くの概念と目標のいくつかを解き放ち、その正当性を、移譲可能な投票や政党といった既存の民主的伝統に関して探求し、流動民主主義システムにおける潜在的なリスクや対処方法を探ることである。

The idea of liquid democracy responds to a widely-felt desire to make democracy more "fluid" and continuously participatory. Its central premise is to enable users to employ networked technologies to control and delegate voting power, to approximate the ideal of direct democracy in a scalable fashion that accounts for time and attention limits. There are many potential definitions, meanings, and ways to implement liquid democracy, however, and many distinct purposes to which it might be deployed. This paper develops and explores the "liquid" notion and what it might mean for purposes of enhancing voter choice by spreading voting power, improving proportional representation systems, simplifying or aiding voters in their choice, or scaling direct democracy through specialization. The goal of this paper is to disentangle and further develop some of the many concepts and goals that liquid democracy ideas often embody, to explore their justification with respect to existing democratic traditions such as transferable voting and political parties, and to explore potential risks in liquid democracy systems and ways to address them.
翻訳日:2023-05-27 20:27:14 公開日:2020-03-26
# 分散デジタル社会のための民主的価値と金銭

Democratic Value and Money for Decentralized Digital Society ( http://arxiv.org/abs/2003.12375v1 )

ライセンス: Link先を確認
Bryan Ford(参考訳) 旧来の通貨制度は、世界の人口の最も脆弱な多数派を金融ショックの弱体化に導いており、長期的には制御不能なグローバル不平等を許容している。 こうした基本的な失敗を考えると、主流のマクロ経済原則が、平等や人権や尊厳の保護といった民主的原則と実際に相容れないかどうかを問うことはできないだろうか。 このアイデアの論文は、この質問を建設的な見地から見て、代替の金融原則が、民主主義の原則とより互換性のある金銭の形式をいかに生み出すかを探っている。 この代替マクロ経済哲学では、すべての人々が経済的参加の機会を平等に得るために、資金の供給と需要の両方を国民に根ざさなければならない。 金銭は、ある瞬間に生きているすべての人々だけでなく、過去と将来の世代にわたって平等に設計されなければならず、我々の子孫が先祖の経済的幸運や不運によって奴隷化されないことを保証しなければならない。 民主的な資金は、日々の商業、投資、価値創造を善時と悪時に確実に可能にする手段を与え、金融の不平等に厳しい制限を課さなければならない。 民主的な金銭はそれ自体が民主的に統治されなければならず、経済的に民主主義における市民のニーズを助長しなければならない。 民主的資金の実施と展開の興味深いアプローチは、身元証明の基盤上に構築された暗号通貨を通じて、各オプトインの人間参加者に平等な利害単位を1つ与えることである。 このような暗号通貨は、既存の通貨でデノミネーションされたUniversal Basic Income(UBI)と興味深い類似点と重要な違いの両方を持っている。

Classical monetary systems regularly subject the most vulnerable majority of the world's population to debilitating financial shocks, and have manifestly allowed uncontrolled global inequality over the long term. Given these basic failures, how can we avoid asking whether mainstream macroeconomic principles are actually compatible with democratic principles such as equality or the protection of human rights and dignity? This idea paper takes a constructive look at this question, by exploring how alternate monetary principles might result in a form of money more compatible with democratic principles -- dare we call it "democratic money"? In this alternative macroeconomic philosophy, both the supply of and the demand for money must be rooted in people, so as to give all people both equal opportunities for economic participation. Money must be designed around equality, not only across all people alive at a given moment, but also across past and future generations of people, guaranteeing that our descendants cannot be enslaved by their ancestors' economic luck or misfortune. Democratic money must reliably give all people a means to enable everyday commerce, investment, and value creation in good times and bad, and must impose hard limits on financial inequality. Democratic money must itself be governed democratically, and must economically facilitate the needs of citizens in a democracy for trustworthy and unbiased information with which to make wise collective decisions. An intriguing approach to implementing and deploying democratic money is via a cryptocurrency built on a proof-of-personhood foundation, giving each opt-in human participant one equal unit of stake. Such a cryptocurrency would have both interesting similarities to, and important differences from, a Universal Basic Income (UBI) denominated in an existing currency.
翻訳日:2023-05-27 20:26:46 公開日:2020-03-26
# n$-level system 上で作用するlindblad半群のlog-convex集合

Log-Convex set of Lindblad semigroups acting on $N$-level system ( http://arxiv.org/abs/2003.12184v1 )

ライセンス: Link先を確認
Fereshte Shahbeigi (1 and 2), David Amaro-Alcal\'a (3), Zbigniew Pucha{\l}a (4 and 5), Karol \.Zyczkowski (5 and 6 and 7) ((1) Department of Physics Ferdowsi University of Mashhad Mashhad Iran, (2) Department of Physics Sharif University of Technology Tehran Iran, (3) Instituto de F\'isica Universidad Nacional Aut\'onoma de M\'exico Mexico City Mexico, (4) Institute of Theoretical and Applied Informatics Polish Academy of Sciences Poland, (5) Faculty of Physics Astronomy and Applied Computer Science Jagiellonian University Krakow Poland, (6) Center for Theoretical Physics Polish Academy of Sciences Warszawa Poland (7) National Quantum Information Centre University of Gdansk Poland)(参考訳) ワイル基底で表される混合ユニタリチャネルのセット${\cal a}_n^q$を解析し、n$-レベル量子系に作用するリンドブラッド半群によってアクセス可能とする。 半群によってアクセス可能な任意の次元の混合ワイル量子チャネルに対する一般的な必要十分条件が確立される。 集合 ${\cal a}_n^q$ は、完全偏極チャンネルに関して対数凸かつ星形であることが示されている。 リンドブラッド作用素の空間に作用するデコヒーレンススーパーマップは、それらを古典半群のコルモゴロフ生成子の空間に変換する。 混合ワイルチャネルの場合、ハイパーデコヒーレンスはダイナミクスと可換であり、量子アクセス可能なチャネルをデコヒーレンスするように、半群によってアクセス可能な古典写像の集合 ${\cal a}_n^c$ を形成するビスタキスティック行列を得る。 3ドルレベルのシステムに着目して、量子アクセス可能マップの集合の幾何学、その古典的対応、スペクトルの支持について検討する。 我々は、集合 ${\cal A}_3^Q$ が、量子的非正則チャネルの集合 ${\cal U}^Q_3$ には含まれないことを示したが、類似の関係は$N=2$ である。 位数$N\ge 3$の非正則チャネルの超脱コヒーレンスによって得られる遷移行列の集合は、この位数の非正則行列の集合よりも大きいことが示され、より大きい$k$非正則行列を導入する動機となる。

We analyze the set ${\cal A}_N^Q$ of mixed unitary channels represented in the Weyl basis and accessible by a Lindblad semigroup acting on an $N$-level quantum system. General necessary and sufficient conditions for a mixed Weyl quantum channel of an arbitrary dimension to be accessible by a semigroup are established. The set ${\cal A}_N^Q$ is shown to be log--convex and star-shaped with respect to the completely depolarizing channel. A decoherence supermap acting in the space of Lindblad operators transforms them into the space of Kolmogorov generators of classical semigroups. We show that for mixed Weyl channels the hyper-decoherence commutes with the dynamics, so that decohering a quantum accessible channel we obtain a bistochastic matrix form the set ${\cal A}_N^C$ of classical maps accessible by a semigroup. Focusing on $3$-level systems we investigate the geometry of the sets of quantum accessible maps, its classical counterpart and the support of their spectra. We demonstrate that the set ${\cal A}_3^Q$ is not included in the set ${\cal U}^Q_3$ of quantum unistochastic channels, although an analogous relation holds for $N=2$. The set of transition matrices obtained by hyper-decoherence of unistochastic channels of order $N\ge 3$ is shown to be larger than the set of unistochastic matrices of this order, and yields a motivation to introduce the larger sets of $k$-unistochastic matrices.
翻訳日:2023-05-27 20:26:18 公開日:2020-03-26
# 拘束相互作用を用いた高速高忠実量子演算

Engineering Fast High-Fidelity Quantum Operations With Constrained Interactions ( http://arxiv.org/abs/2003.12096v1 )

ライセンス: Link先を確認
Thales Figueiredo Roque, Aashish A. Clerk, Hugo Ribeiro(参考訳) 望ましい進化を達成するために量子力学を調整する方法を理解することは、ほとんど全ての量子技術において重要な問題である。 本稿では、利用可能な相互作用とチューナビリティに関する実験的な制約に常に完全に適合する高効率制御シーケンスを設計するための非常に一般的な方法を提案する。 我々の手法は、時間非依存の線形方程式の集合を解くことによって制御場を見つけるために、最後に減少する。 提案手法は,2レベルシステムの強い運転限界,パラメトリック駆動キャビティでの高速スキューズ,トランスモンキュービットゲートの漏れ問題,およびキュービットキャビティシステムにおけるSNAPゲートの加速など,多くの物理的問題に適用することによって述べる。

Understanding how to tailor quantum dynamics to achieve a desired evolution is a crucial problem in almost all quantum technologies. We present a very general method for designing high-efficiency control sequences that are always fully compatible with experimental constraints on available interactions and their tunability. Our approach reduces in the end to finding control fields by solving a set of time-independent linear equations. We illustrate our method by applying it to a number of physically-relevant problems: the strong-driving limit of a two-level system, fast squeezing in a parametrically driven cavity, the leakage problem in transmon qubit gates, and the acceleration of SNAP gates in a qubit-cavity system.
翻訳日:2023-05-27 20:24:50 公開日:2020-03-26
# 極限決定論的一般化B\"内オートマタを用いた線形時間論理仕様制御の強化学習

Reinforcement Learning of Control Policy for Linear Temporal Logic Specifications Using Limit-Deterministic Generalized B\"uchi Automata ( http://arxiv.org/abs/2001.04669v3 )

ライセンス: Link先を確認
Ryohei Oura, Ami Sakakibara, Toshimitsu Ushio(参考訳) 線形時間論理式で記述された制御仕様を満たす制御ポリシーを合成するための新しい強化学習法を提案する。 制御システムはマルコフ決定プロセス(MDP)によってモデル化されていると仮定する。 我々はこの仕様を、式を満たす無限列をすべて受け入れるいくつかの受け入れ集合を持つ極限決定論的一般化B\"uchi Automaticon (LDGBA) に変換する。 LDGBAは拡張され、前回の訪問を受信セットに明示的に記録する。 我々は報酬関数を定義するために拡張ldgbaとmdpの積を取ります。 エージェントは、状態遷移が特定の数回のステップで訪問されていない受信セットにあるとき、報酬を受け取る。 これにより、報酬のスパース性が緩和され、受理集合間の最適循環が学習される。 提案手法は,割引係数が十分に近い場合に最適なポリシーを学習できることを示す。

This letter proposes a novel reinforcement learning method for the synthesis of a control policy satisfying a control specification described by a linear temporal logic formula. We assume that the controlled system is modeled by a Markov decision process (MDP). We convert the specification to a limit-deterministic generalized B\"uchi automaton (LDGBA) with several accepting sets that accepts all infinite sequences satisfying the formula. The LDGBA is augmented so that it explicitly records the previous visits to accepting sets. We take a product of the augmented LDGBA and the MDP, based on which we define a reward function. The agent gets rewards whenever state transitions are in an accepting set that has not been visited for a certain number of steps. Consequently, sparsity of rewards is relaxed and optimal circulations among the accepting sets are learned. We show that the proposed method can learn an optimal policy when the discount factor is sufficiently close to one.
翻訳日:2023-01-11 12:34:13 公開日:2020-03-26
# レイテンシアウェアな微分可能なニューラルネットワークの検索

Latency-Aware Differentiable Neural Architecture Search ( http://arxiv.org/abs/2001.06392v2 )

ライセンス: Link先を確認
Yuhui Xu, Lingxi Xie, Xiaopeng Zhang, Xin Chen, Bowen Shi, Qi Tian, Hongkai Xiong(参考訳) 近年、検索コストの低さと検索空間の設計の柔軟性から、差別化可能なニューラルネットワーク検索手法が普及した。 しかし、これらの手法はネットワークの最適化が困難であり、検索されたネットワークはハードウェアに不向きであることが多い。 本稿では,この問題を最適化に微分可能な遅延損失項を追加することにより,精度とレイテンシをバランス係数でトレードオフすることができる。 遅延予測のコアとなるのは、複数のアーキテクチャをランダムにサンプリングしてハードウェア上で評価することから容易に収集できるトレーニングデータを使って、各ネットワークアーキテクチャをエンコードし、それを多層回帰器にフィードすることだ。 NVIDIA Tesla-P100 GPUに対する我々のアプローチを評価する。 100Kのサンプルアーキテクチャ(数時間要求)では、レイテンシ予測モジュールが10%未満の相対エラーに到達する。 このモジュールを組み込んだ検索手法では,精度を保ちながら遅延を20%削減することができる。 当社のアプローチは,非常に少ない労力で幅広いハードウェアプラットフォームに移植したり,消費電力などの他の非差別要因を最適化する能力も享受しています。

Differentiable neural architecture search methods became popular in recent years, mainly due to their low search costs and flexibility in designing the search space. However, these methods suffer the difficulty in optimizing network, so that the searched network is often unfriendly to hardware. This paper deals with this problem by adding a differentiable latency loss term into optimization, so that the search process can tradeoff between accuracy and latency with a balancing coefficient. The core of latency prediction is to encode each network architecture and feed it into a multi-layer regressor, with the training data which can be easily collected from randomly sampling a number of architectures and evaluating them on the hardware. We evaluate our approach on NVIDIA Tesla-P100 GPUs. With 100K sampled architectures (requiring a few hours), the latency prediction module arrives at a relative error of lower than 10%. Equipped with this module, the search method can reduce the latency by 20% meanwhile preserving the accuracy. Our approach also enjoys the ability of being transplanted to a wide range of hardware platforms with very few efforts, or being used to optimizing other non-differentiable factors such as power consumption.
翻訳日:2023-01-10 12:36:11 公開日:2020-03-26
# OIAD: アンタングル学習による一対一画像異常検出

OIAD: One-for-all Image Anomaly Detection with Disentanglement Learning ( http://arxiv.org/abs/2001.06640v2 )

ライセンス: Link先を確認
Shuo Wang, Tianle Chen, Shangyu Chen, Carsten Rudolph, Surya Nepal, Marthie Grobler(参考訳) 異常検出は、正常なデータの集合に関して異常なパターンと異常なパターンを持つサンプルを認識することを目的としている。 これは、産業検査、医療画像検査、セキュリティ執行など、多くのドメイン応用において重要である。 既存の異常検出手法には2つの重要な研究課題がある:(1)低次元問題では多くのアプローチがうまく機能するが、画像などの高次元のインスタンスでは性能は限られている; (2) 従来の教師付きアプローチや機能手動技術に頼っていることが多いが、そのトピックは十分に研究されていない。 本稿では,クリーンサンプルのみを用いた異種学習に基づく1対1の画像異常検出システム(oiad)を提案する。 私たちの重要な洞察は、潜在表現に対する小さな摂動の影響は通常のサンプルでは境界づけられるが、異常画像は通常そのような境界された間隔の外側であり、構造的一貫性(structure consistency)と呼ばれる。 我々はこのアイデアを実装し、異常検出の性能を評価する。 3つのデータセットを用いた実験により,oiadは,誤報率の低さを保ちながら,90\%$以上の異常を検出できることが分かった。 また、人間が異常だと判断するのと一致して、クリーンとラベル付けされたサンプルから不審なサンプルを検出することもできる。

Anomaly detection aims to recognize samples with anomalous and unusual patterns with respect to a set of normal data. This is significant for numerous domain applications, such as industrial inspection, medical imaging, and security enforcement. There are two key research challenges associated with existing anomaly detection approaches: (1) many approaches perform well on low-dimensional problems however the performance on high-dimensional instances, such as images, is limited; (2) many approaches often rely on traditional supervised approaches and manual engineering of features, while the topic has not been fully explored yet using modern deep learning approaches, even when the well-label samples are limited. In this paper, we propose a One-for-all Image Anomaly Detection system (OIAD) based on disentangled learning using only clean samples. Our key insight is that the impact of small perturbation on the latent representation can be bounded for normal samples while anomaly images are usually outside such bounded intervals, referred to as structure consistency. We implement this idea and evaluate its performance for anomaly detection. Our experiments with three datasets show that OIAD can detect over $90\%$ of anomalies while maintaining a low false alarm rate. It can also detect suspicious samples from samples labeled as clean, coincided with what humans would deem unusual.
翻訳日:2023-01-10 04:54:58 公開日:2020-03-26
# 連続的暗黙的形状表現の逆生成

Adversarial Generation of Continuous Implicit Shape Representations ( http://arxiv.org/abs/2002.00349v2 )

ライセンス: Link先を確認
Marian Kleineberg, Matthias Fey, Frank Weichert(参考訳) 本稿では,符号付き距離表現に基づく3次元形状生成のための生成的逆構造を提案する。 形状の深層生成はvoxelやsurface point cloudのアプローチによって取り組まれてきたが,事前の潜在情報から空間内の任意の点の符号付き距離を近似することを学ぶ。 構造的には生成点雲のアプローチと似ているが、この定式化は推論中に任意の点密度で評価することができ、生成した出力の詳細な詳細をもたらす。 さらに,ボクセルやポイントプロセッシングネットワークを識別器として使用する効果について検討し,形状のゼロ等面決定境界のモデル化における生成器の能力を強化するための改良手法を提案する。 本研究では,ShapeNetベンチマークデータセットにアプローチをトレーニングし,定量的かつ質的に,現実的な3次元形状を生成する上での性能を評価する。

This work presents a generative adversarial architecture for generating three-dimensional shapes based on signed distance representations. While the deep generation of shapes has been mostly tackled by voxel and surface point cloud approaches, our generator learns to approximate the signed distance for any point in space given prior latent information. Although structurally similar to generative point cloud approaches, this formulation can be evaluated with arbitrary point density during inference, leading to fine-grained details in generated outputs. Furthermore, we study the effects of using either progressively growing voxel- or point-processing networks as discriminators, and propose a refinement scheme to strengthen the generator's capabilities in modeling the zero iso-surface decision boundary of shapes. We train our approach on the ShapeNet benchmark dataset and validate, both quantitatively and qualitatively, its performance in generating realistic 3D shapes.
翻訳日:2023-01-04 20:04:55 公開日:2020-03-26
# 部分注釈データを用いたびまん性肺疾患のセグメンテーションのための畳み込みニューラルネットワークの弱い監督

Weak Supervision in Convolutional Neural Network for Semantic Segmentation of Diffuse Lung Diseases Using Partially Annotated Dataset ( http://arxiv.org/abs/2002.11936v2 )

ライセンス: Link先を確認
Yuki Suzuki, Kazuki Yamagata, Yanagawa Masahiro, Shoji Kido, Noriyuki Tomiyama(参考訳) 肺疾患の客観的評価には拡散性肺疾患(DLD)のコンピュータ支援診断システムが必要である。 本稿では,5種類のdldに対する意味セグメンテーションモデルを開発した。 この研究で考慮されたDLDは、凝縮、ガラス不透明度、ハニカム、気腫、正常である。 畳み込みニューラルネットワーク(CNN)は、機械学習アルゴリズムにおけるセマンティックセグメンテーションの最も有望なテクニックの1つである。 意味セグメンテーションのための注釈付きデータセットの作成は手間がかかり、時間もかかるが、アノテーションタスク中にアノテータが一度に1つのクラスに集中する必要があるため、選択されたクラスのみを各イメージにアノテートする部分的なアノテーション付きデータセットの作成は容易である。 本稿では,部分注釈付きデータセットを効果的に活用する,新しい弱い監視手法を提案する。 372ct画像からなる部分注釈データセットを用いた実験により,提案手法がセグメント化精度を大幅に向上した。

Computer-aided diagnosis system for diffuse lung diseases (DLDs) is necessary for the objective assessment of the lung diseases. In this paper, we develop semantic segmentation model for 5 kinds of DLDs. DLDs considered in this work are consolidation, ground glass opacity, honeycombing, emphysema, and normal. Convolutional neural network (CNN) is one of the most promising technique for semantic segmentation among machine learning algorithms. While creating annotated dataset for semantic segmentation is laborious and time consuming, creating partially annotated dataset, in which only one chosen class is annotated for each image, is easier since annotators only need to focus on one class at a time during the annotation task. In this paper, we propose a new weak supervision technique that effectively utilizes partially annotated dataset. The experiments using partially annotated dataset composed 372 CT images demonstrated that our proposed technique significantly improved segmentation accuracy.
翻訳日:2022-12-28 08:05:26 公開日:2020-03-26
# RKHSにおける勾配ランゲヴィンダイナミクスの次元自由収束速度

Dimension-free convergence rates for gradient Langevin dynamics in RKHS ( http://arxiv.org/abs/2003.00306v2 )

ライセンス: Link先を確認
Boris Muzellec, Kanji Sato, Mathurin Massias, Taiji Suzuki(参考訳) グラディエントランゲヴィンダイナミクス(GLD)と確率GLD(SGLD)は,近年,非凸条件下で収束保証を提供する手段として注目されている。 しかし、既知の速度は空間の次元とともに指数関数的に増加する。 本研究では、最適化空間が無限次元ヒルベルト空間であるとき、GLD と SGLD の収束解析を提供する。 より正確には、再生核ヒルベルト空間において正則化非凸最適化を行う場合、gld/sgldに対する非漸近的次元自由収束率を求める。 中でも収束解析は確率微分方程式の性質、その離散時間ガレルキン近似、および関連するマルコフ鎖の幾何学的エルゴード性に依存する。

Gradient Langevin dynamics (GLD) and stochastic GLD (SGLD) have attracted considerable attention lately, as a way to provide convergence guarantees in a non-convex setting. However, the known rates grow exponentially with the dimension of the space. In this work, we provide a convergence analysis of GLD and SGLD when the optimization space is an infinite dimensional Hilbert space. More precisely, we derive non-asymptotic, dimension-free convergence rates for GLD/SGLD when performing regularized non-convex optimization in a reproducing kernel Hilbert space. Amongst others, the convergence analysis relies on the properties of a stochastic differential equation, its discrete time Galerkin approximation and the geometric ergodicity of the associated Markov chains.
翻訳日:2022-12-27 20:35:24 公開日:2020-03-26
# 医療システムのための臨床AIモデル開発ライフサイクルの概要と事例研究

An Overview and Case Study of the Clinical AI Model Development Life Cycle for Healthcare Systems ( http://arxiv.org/abs/2003.07678v3 )

ライセンス: Link先を確認
Charles Lu, Julia Strout, Romane Gauriau, Brad Wright, Fabiola Bezerra De Carvalho Marcruz, Varun Buch, Katherine Andriole(参考訳) 医療は、機械学習モデルがポジティブな影響を与える最も有望な分野の1つだ。 しかし、医療におけるAIベースのシステムの採用の成功は、AIモデルの開発プロセスに関するさまざまなバックグラウンドからステークホルダーの関与と教育に依存している。 本稿では,ほとんどの機械学習プロジェクトに適用可能な臨床AIモデルの開発ライフサイクルについて概説するとともに,CT検査における大動脈瘤検出のための深層学習ベースシステムの開発過程について,詳細な事例研究を行う。 他の医療機関や臨床実践者が、自分たちのモデル開発活動を伝える上で有用な開発プロセスに関する洞察を見つけ、医療におけるAIの展開と統合を成功させる可能性を高めることを願っています。

Healthcare is one of the most promising areas for machine learning models to make a positive impact. However, successful adoption of AI-based systems in healthcare depends on engaging and educating stakeholders from diverse backgrounds about the development process of AI models. We present a broadly accessible overview of the development life cycle of clinical AI models that is general enough to be adapted to most machine learning projects, and then give an in-depth case study of the development process of a deep learning based system to detect aortic aneurysms in Computed Tomography (CT) exams. We hope other healthcare institutions and clinical practitioners find the insights we share about the development process useful in informing their own model development efforts and to increase the likelihood of successful deployment and integration of AI in healthcare.
翻訳日:2022-12-27 06:06:01 公開日:2020-03-26
# 内在的構造表現点の教師なし学習

Unsupervised Learning of Intrinsic Structural Representation Points ( http://arxiv.org/abs/2003.01661v2 )

ライセンス: Link先を確認
Nenglun Chen, Lingjie Liu, Zhiming Cui, Runnan Chen, Duygu Ceylan, Changhe Tu, Wenping Wang(参考訳) 3次元形状の学習構造は、コンピュータグラフィックスと幾何学処理の分野における根本的な問題である。 本稿では,3次元構造点の形で新しい構造表現を学習するための簡易かつ解釈不能な手法を提案する。 本手法により得られた3次元構造点を内在的に形状構造を符号化し, 類似構造を持つ全ての形状インスタンスに対して意味的整合性を示す。 これは他の方法では完全に達成されていない挑戦的な目標です。 具体的には、3dポイントクラウドを入力として、それをローカル機能のセットとしてエンコードします。 局所的な特徴は、3D構造点の集合を生成するために新しい点積分モジュールに渡される。 チャンファー距離は、入力点雲に近接する構造点を確保するために再構成損失として使用される。 提案手法は,セグメンテーションラベル転送タスクにおける最先端技術と同等の性能が得られることを示す広範な実験を行った。 さらに、一貫した構造点上に構築されたPCAベースの形状埋め込みは、形状構造を保存する上で優れた性能を示す。 コードはhttps://github.com/NolenChen/3DStructurePointsで入手できる。

Learning structures of 3D shapes is a fundamental problem in the field of computer graphics and geometry processing. We present a simple yet interpretable unsupervised method for learning a new structural representation in the form of 3D structure points. The 3D structure points produced by our method encode the shape structure intrinsically and exhibit semantic consistency across all the shape instances with similar structures. This is a challenging goal that has not fully been achieved by other methods. Specifically, our method takes a 3D point cloud as input and encodes it as a set of local features. The local features are then passed through a novel point integration module to produce a set of 3D structure points. The chamfer distance is used as reconstruction loss to ensure the structure points lie close to the input point cloud. Extensive experiments have shown that our method outperforms the state-of-the-art on the semantic shape correspondence task and achieves comparable performance with the state-of-the-art on the segmentation label transfer task. Moreover, the PCA based shape embedding built upon consistent structure points demonstrates good performance in preserving the shape structures. Code is available at https://github.com/NolenChen/3DStructurePoints
翻訳日:2022-12-26 23:02:27 公開日:2020-03-26
# $\pi-$nets:ディープ多項式ニューラルネットワーク

$\Pi-$nets: Deep Polynomial Neural Networks ( http://arxiv.org/abs/2003.03828v2 )

ライセンス: Link先を確認
Grigorios G. Chrysos, Stylianos Moschoglou, Giorgos Bouritsas, Yannis Panagakis, Jiankang Deng, Stefanos Zafeiriou(参考訳) 深層畳み込みニューラルネットワーク(deep convolutional neural networks, dcnns)は現在、生成とコンピュータビジョンと機械学習における識別学習の両方の方法である。 dcnnの成功は、そのビルディングブロック(例えば、残差ブロック、整流器、洗練された正規化スキームなど)を慎重に選択することに起因する。 本稿では,DCNNの新しいクラスである$\Pi$-Netsを提案する。 $\pi$-nets は多項式ニューラルネットワーク、すなわち出力は入力の高階多項式である。 $\pi$-nets は特別な種類のスキップ接続を使って実装でき、それらのパラメータは高階テンソルで表現できる。 我々は、$\Pi$-Netsが標準のDCNNよりも優れた表現能力を持つことを実証的に証明し、画像、グラフ、オーディオなどのタスクや信号の大きなバッテリーで非線形のアクティベーション関数を使わずに良い結果が得られることを示した。 アクティベーション関数と併用すると、$\Pi$-Netsは画像生成のような困難なタスクで最先端の結果を生成する。 最後に、我々のフレームワークは、最近の生成モデルであるStyleGANが、前者であるProGANを改良する理由を解明する。

Deep Convolutional Neural Networks (DCNNs) is currently the method of choice both for generative, as well as for discriminative learning in computer vision and machine learning. The success of DCNNs can be attributed to the careful selection of their building blocks (e.g., residual blocks, rectifiers, sophisticated normalization schemes, to mention but a few). In this paper, we propose $\Pi$-Nets, a new class of DCNNs. $\Pi$-Nets are polynomial neural networks, i.e., the output is a high-order polynomial of the input. $\Pi$-Nets can be implemented using special kind of skip connections and their parameters can be represented via high-order tensors. We empirically demonstrate that $\Pi$-Nets have better representation power than standard DCNNs and they even produce good results without the use of non-linear activation functions in a large battery of tasks and signals, i.e., images, graphs, and audio. When used in conjunction with activation functions, $\Pi$-Nets produce state-of-the-art results in challenging tasks, such as image generation. Lastly, our framework elucidates why recent generative models, such as StyleGAN, improve upon their predecessors, e.g., ProGAN.
翻訳日:2022-12-25 13:58:25 公開日:2020-03-26
# 遠隔監督関係抽出のためのハイブリッド注意型変圧器ブロックモデル

Hybrid Attention-Based Transformer Block Model for Distant Supervision Relation Extraction ( http://arxiv.org/abs/2003.11518v2 )

ライセンス: Link先を確認
Yan Xiao, Yaochu Jin, Ran Cheng, Kuangrong Hao(参考訳) 様々なデジタルテキスト情報の指数関数的な爆発的増加に伴い、膨大な非構造化テキスト情報から効率的に特定の知識を得ることが困難である。 自然言語処理(NLP)の1つの基本課題として、関係抽出は、与えられたテキストに基づいてエンティティペア間の意味関係を抽出することを目的としている。 データセットを手動でラベル付けすることを避けるため,データセットの自動アノテートに知識ベースを活用することを目的とした,遠隔監視関係抽出(DSRE)が広く用いられている。 残念ながら、この手法は根底にある強い仮定のために間違ったラベル付けに悩まされている。 この問題に対処するため,DSREタスクの実行にマルチインスタンス学習を用いたハイブリッドアテンションベースのTransformerブロックを用いた新しいフレームワークを提案する。 より具体的には、Transformerブロックは、単語レベルから特徴を抽出するために主に多頭部自己認識を利用する文の構文情報をキャプチャする文エンコーダとして最初に使用される。 そして、より簡潔な文レベルの注目機構を採用してバッグ表現を構成し、各文の有効情報を組み込んでバッグを効果的に表現することを目的とする。 The public dataset New York Times (NYT) の実験結果は、提案手法が評価データセット上で最先端のアルゴリズムより優れており、DSREタスクに対する我々のモデルの有効性が検証できることを示している。

With an exponential explosive growth of various digital text information, it is challenging to efficiently obtain specific knowledge from massive unstructured text information. As one basic task for natural language processing (NLP), relation extraction aims to extract the semantic relation between entity pairs based on the given text. To avoid manual labeling of datasets, distant supervision relation extraction (DSRE) has been widely used, aiming to utilize knowledge base to automatically annotate datasets. Unfortunately, this method heavily suffers from wrong labelling due to the underlying strong assumptions. To address this issue, we propose a new framework using hybrid attention-based Transformer block with multi-instance learning to perform the DSRE task. More specifically, the Transformer block is firstly used as the sentence encoder to capture syntactic information of sentences, which mainly utilizes multi-head self-attention to extract features from word level. Then, a more concise sentence-level attention mechanism is adopted to constitute the bag representation, aiming to incorporate valid information of each sentence to effectively represent the bag. Experimental results on the public dataset New York Times (NYT) demonstrate that the proposed approach can outperform the state-of-the-art algorithms on the evaluation dataset, which verifies the effectiveness of our model for the DSRE task.
翻訳日:2022-12-24 20:38:12 公開日:2020-03-26
# 教師なし翻訳のためのビデオにおける視覚的グラウンドイング

Visual Grounding in Video for Unsupervised Word Translation ( http://arxiv.org/abs/2003.05078v2 )

ライセンス: Link先を確認
Gunnar A. Sigurdsson, Jean-Baptiste Alayrac, Aida Nematzadeh, Lucas Smaira, Mateusz Malinowski, Jo\~ao Carreira, Phil Blunsom, Andrew Zisserman(参考訳) 地球上には何千もの活発な言語があるが、単一の視覚世界がある。 この視覚的な世界では、これらの言語間のギャップを埋める可能性がある。 私たちのゴールは、言語間の教師なしワードマッピングを改善するためにビジュアルグラウンドを使用することです。 キーとなるアイデアは、ネイティブ言語でナレーションされたあいまいなインストラクションビデオからの埋め込みを学習することで、2つの言語間の共通の視覚的表現を確立することである。 この共有埋め込みを考えると (i)言語、特に「視覚的」単語間の単語をマッピングできます。 (II)共有埋め込みは、既存の教師なしテキストベースの単語翻訳技術に対して優れた初期化を提供し、提案したハイブリッドビジュアルテキストマッピングアルゴリズムMUVEの基礎を形成する。 3)本手法は,テキストベースの手法の欠点に対処し,より堅牢で,より共通性の低いデータセットを処理し,低リソース言語に適用することで,優れたパフォーマンスを実現する。 これらの手法を英語からフランス語、韓国語、日本語への翻訳に適用します。

There are thousands of actively spoken languages on Earth, but a single visual world. Grounding in this visual world has the potential to bridge the gap between all these languages. Our goal is to use visual grounding to improve unsupervised word mapping between languages. The key idea is to establish a common visual representation between two languages by learning embeddings from unpaired instructional videos narrated in the native language. Given this shared embedding we demonstrate that (i) we can map words between the languages, particularly the 'visual' words; (ii) that the shared embedding provides a good initialization for existing unsupervised text-based word translation techniques, forming the basis for our proposed hybrid visual-text mapping algorithm, MUVE; and (iii) our approach achieves superior performance by addressing the shortcomings of text-based methods -- it is more robust, handles datasets with less commonality, and is applicable to low-resource languages. We apply these methods to translate words from English to French, Korean, and Japanese -- all without any parallel corpora and simply by watching many videos of people speaking while doing things.
翻訳日:2022-12-24 13:20:03 公開日:2020-03-26
# テキスト分類における逆領域適応のためのラベル比例推定手法

A Label Proportions Estimation Technique for Adversarial Domain Adaptation in Text Classification ( http://arxiv.org/abs/2003.07444v3 )

ライセンス: Link先を確認
Zhuohao Chen, Singla Karan, David C. Atkins, Zac E Imel, Shrikanth Narayanan(参考訳) 多くのテキスト分類タスクはドメインに依存しており、新しいドメインでラベルなしデータを予測するために様々なドメイン適応アプローチが提案されている。 domain-adversarial neural network (dann)とその変種は近年広く使われており、この問題に有望な結果をもたらしている。 しかしながら、これらのアプローチの多くは、ソースとターゲットドメインのラベル比率が似ていると仮定しており、ほとんどの実世界のシナリオではまれである。 時にはラベルシフトが大きくなり、DANNはドメイン不変の機能を学ぶのに失敗することがある。 本研究では,ラベルシフトを伴うテキスト分類の教師なしドメイン適応に着目し,ラベル比例推定(dan-lpe)フレームワークを用いたドメイン逆ネットワークを提案する。 DAN−LPEは、同時にドメイン敵ネットを訓練し、ソースドメインとターゲットドメインの予測との混同によるラベル比の推定を行う。 実験により, DAN-LPEは対象ラベルの分布を適切に推定し, ラベルシフトを低減し, 分類性能を向上させる。

Many text classification tasks are domain-dependent, and various domain adaptation approaches have been proposed to predict unlabeled data in a new domain. Domain-adversarial neural networks (DANN) and their variants have been used widely recently and have achieved promising results for this problem. However, most of these approaches assume that the label proportions of the source and target domains are similar, which rarely holds in most real-world scenarios. Sometimes the label shift can be large and the DANN fails to learn domain-invariant features. In this study, we focus on unsupervised domain adaptation of text classification with label shift and introduce a domain adversarial network with label proportions estimation (DAN-LPE) framework. The DAN-LPE simultaneously trains a domain adversarial net and processes label proportions estimation by the confusion of the source domain and the predictions of the target domain. Experiments show the DAN-LPE achieves a good estimate of the target label distributions and reduces the label shift to improve the classification performance.
翻訳日:2022-12-23 02:38:25 公開日:2020-03-26
# 安定線形系の有限時間同定:最小二乗推定器の最適性

Finite-time Identification of Stable Linear Systems: Optimality of the Least-Squares Estimator ( http://arxiv.org/abs/2003.07937v3 )

ライセンス: Link先を確認
Yassir Jedra and Alexandre Proutiere(参考訳) 線形時間不変系に対する正規最小方形推定器(OLS)の推定誤差の新しい有限時間解析法を提案する。 我々は、OLS推定器が$(\varepsilon,\delta)$-PAC、すなわち、少なくとも1-\delta$の確率で$\varepsilon$未満の推定誤差を得るのに十分な観測サンプル(観測軌道の長さ)の数を特徴付ける。 この数は、既存のサンプル複雑性の下限 [1,2] と普遍的乗算因子 (システムの (\varepsilon,\delta)$ とに依存しない) との一致を示す。 そこで本論文では, 安定系に対するOLS推定器の最適性, [1] で予想される結果について述べる。 OLS推定器の性能解析は,既存の解析よりもシンプルで,より鋭く,解釈しやすくなっている。 これは共変量行列に対する新しい濃度結果に依存する。

We present a new finite-time analysis of the estimation error of the Ordinary Least Squares (OLS) estimator for stable linear time-invariant systems. We characterize the number of observed samples (the length of the observed trajectory) sufficient for the OLS estimator to be $(\varepsilon,\delta)$-PAC, i.e., to yield an estimation error less than $\varepsilon$ with probability at least $1-\delta$. We show that this number matches existing sample complexity lower bounds [1,2] up to universal multiplicative factors (independent of ($\varepsilon,\delta)$ and of the system). This paper hence establishes the optimality of the OLS estimator for stable systems, a result conjectured in [1]. Our analysis of the performance of the OLS estimator is simpler, sharper, and easier to interpret than existing analyses. It relies on new concentration results for the covariates matrix.
翻訳日:2022-12-22 21:13:04 公開日:2020-03-26
# 6-DoFポーズ推定のためのニューラルメッシュ精錬器

Neural Mesh Refiner for 6-DoF Pose Estimation ( http://arxiv.org/abs/2003.07561v3 )

ライセンス: Link先を確認
Di Wu, Yihao Chen, Xianbiao Qi, Yongjian Yu, Weixuan Chen, and Rong Xiao(参考訳) 視覚オブジェクトの6次元ポーズ(6-DoF)を回復するために2次元単眼画像情報を効果的に活用する方法 ディープラーニングは、堅牢でリアルタイムな単眼ポーズ推定に有効であることが示されている。 しばしば、ネットワークは単純な損失関数を使って6-DoFポーズを回帰する。 しかし、直接回帰したポーズ推定からの幾何学的シーン理解の欠如により、3Dオブジェクトからのレンダリングメッシュと2Dインスタンスのセグメンテーション結果、例えばバウンディングボックスやマスク予測との間には不一致がある。 本稿では、2次元マスク生成と3次元位置予測のギャップをニューラルネットワークレンダラーで埋める。 我々は、正確なマスク予測とより正確なメッシュ予測のオーバーレイを利用して、直接回帰した6Dポーズ情報を翻訳推定に焦点をあてて反復的に最適化する。 幾何学の活用により,本手法は翻訳推定の困難な作業において,直接回帰性能を著しく向上させ,北京大学・Baidu-Autonomous DrivingデータセットとApolloScape 3D Car Instanceデータセット上での成果の達成を実証した。 コードは \url{https://bit.ly/2IRihfU} で見ることができる。

How can we effectively utilise the 2D monocular image information for recovering the 6D pose (6-DoF) of the visual objects? Deep learning has shown to be effective for robust and real-time monocular pose estimation. Oftentimes, the network learns to regress the 6-DoF pose using a naive loss function. However, due to a lack of geometrical scene understanding from the directly regressed pose estimation, there are misalignments between the rendered mesh from the 3D object and the 2D instance segmentation result, e.g., bounding boxes and masks prediction. This paper bridges the gap between 2D mask generation and 3D location prediction via a differentiable neural mesh renderer. We utilise the overlay between the accurate mask prediction and less accurate mesh prediction to iteratively optimise the direct regressed 6D pose information with a focus on translation estimation. By leveraging geometry, we demonstrate that our technique significantly improves direct regression performance on the difficult task of translation estimation and achieve the state of the art results on Peking University/Baidu - Autonomous Driving dataset and the ApolloScape 3D Car Instance dataset. The code can be found at \url{https://bit.ly/2IRihfU}.
翻訳日:2022-12-22 20:46:00 公開日:2020-03-26
# 臨床内視鏡画像分類のためのわずかなショット学習のための添加角マージン

Additive Angular Margin for Few Shot Learning to Classify Clinical Endoscopy Images ( http://arxiv.org/abs/2003.10033v2 )

ライセンス: Link先を確認
Sharib Ali, Binod Bhattarai, Tae-Kyun Kim, and Jens Rittscher(参考訳) 内視鏡は、消化管、腎臓、肝臓などの中空臓器の疾患を診断し治療するために広く用いられている画像モダリティである。 しかし、様々な臨床センターで異なるモダリティと異なるイメージングプロトコルの使用により、ディープラーニングモデルの一般化には大きな課題が伴う。 さらに、異なる臨床センターからの大規模なデータセットの集合は、学習したモデルを使用不能にする巨大なラベルバイアスを導入することができる。 また、新しいモダリティや希少なパターンを持つ画像が存在する場合、これらのモデルのトレーニングには大量の類似画像データとそのラベルが必要となる。 本研究では,未発見のデータセットからテストサンプルのラベルクラスを予測できる,少ないトレーニングデータを必要とする数ショット学習手法を提案する。 少人数学習環境におけるプロトタイプネットワークの枠組みにおいて,新たな角マージン計量を提案する。 本研究では,マルチセンタ,マルチオーガン,マルチモーダル内視鏡データの大規模コホートにおける複数の確立した方法と比較した。 提案アルゴリズムは既存の最先端手法よりも優れている。

Endoscopy is a widely used imaging modality to diagnose and treat diseases in hollow organs as for example the gastrointestinal tract, the kidney and the liver. However, due to varied modalities and use of different imaging protocols at various clinical centers impose significant challenges when generalising deep learning models. Moreover, the assembly of large datasets from different clinical centers can introduce a huge label bias that renders any learnt model unusable. Also, when using new modality or presence of images with rare patterns, a bulk amount of similar image data and their corresponding labels are required for training these models. In this work, we propose to use a few-shot learning approach that requires less training data and can be used to predict label classes of test samples from an unseen dataset. We propose a novel additive angular margin metric in the framework of prototypical network in few-shot learning setting. We compare our approach to the several established methods on a large cohort of multi-center, multi-organ, and multi-modal endoscopy data. The proposed algorithm outperforms existing state-of-the-art methods.
翻訳日:2022-12-20 23:58:47 公開日:2020-03-26
# G2L-Net: 埋め込みベクトル特徴を用いたリアルタイム6次元空間推定のためのグローバル・ローカルネットワーク

G2L-Net: Global to Local Network for Real-time 6D Pose Estimation with Embedding Vector Features ( http://arxiv.org/abs/2003.11089v2 )

ライセンス: Link先を確認
Wei Chen, Xi Jia, Hyung Jin Chang, Jinming Duan, Ales Leonardis(参考訳) 本稿では,G2L-Netという新しいリアルタイム6次元オブジェクトポーズ推定フレームワークを提案する。 我々のネットワークは、RGB-D検出の点雲を分割・分散方式で運用している。 具体的には、ネットワークは3つのステップから構成される。 まず,RGB-D画像から粗い物体点雲を2次元検出により抽出する。 第二に、粗いオブジェクトポイントクラウドを翻訳ローカライズネットワークに供給し、3次元セグメント化とオブジェクト翻訳予測を行う。 第三に, 予測されたセグメンテーションと変換により, 細かい物体点雲を局所的な正準座標に移し, 回転定位ネットワークを訓練し, 初期物体回転を推定する。 第3のステップでは,視点認識情報を取り込むために,視点埋め込みベクトル特徴を定義する。 より正確な回転を計算するために、初期回転と地上真実の間の残差を推定する回転残差推定器を用い、初期ポーズ推定性能を向上する。 提案するG2L-Netは,提案する粗大なフレームワークによって複数のステップが積み重ねられているにもかかわらず,リアルタイムである。 2つのベンチマークデータセットの大規模な実験は、G2L-Netが精度と速度の両方で最先端のパフォーマンスを達成することを示している。

In this paper, we propose a novel real-time 6D object pose estimation framework, named G2L-Net. Our network operates on point clouds from RGB-D detection in a divide-and-conquer fashion. Specifically, our network consists of three steps. First, we extract the coarse object point cloud from the RGB-D image by 2D detection. Second, we feed the coarse object point cloud to a translation localization network to perform 3D segmentation and object translation prediction. Third, via the predicted segmentation and translation, we transfer the fine object point cloud into a local canonical coordinate, in which we train a rotation localization network to estimate initial object rotation. In the third step, we define point-wise embedding vector features to capture viewpoint-aware information. To calculate more accurate rotation, we adopt a rotation residual estimator to estimate the residual between initial rotation and ground truth, which can boost initial pose estimation performance. Our proposed G2L-Net is real-time despite the fact multiple steps are stacked via the proposed coarse-to-fine framework. Extensive experiments on two benchmark datasets show that G2L-Net achieves state-of-the-art performance in terms of both accuracy and speed.
翻訳日:2022-12-20 09:27:54 公開日:2020-03-26
# プリエンライズドビデオとモーションロバストビデオ

Prior-enlightened and Motion-robust Video Deblurring ( http://arxiv.org/abs/2003.11209v2 )

ライセンス: Link先を確認
Ya Zhou, Jianfeng Xu, Kazuyuki Tasaka, Zhibo Chen, Weiping Li(参考訳) ビデオ内の様々なぼやけた歪みは、人間の視聴とビデオベースのアプリケーションの両方に悪影響を及ぼす。 既存の作業の多くは、強いデータセット依存と、低コントラストのぼやけや激しい動き領域、一様でないぼやけといった挑戦的なシナリオを扱うための限定的な一般化能力を持っている。 そこで我々は,難解なぼかしに適したPriOr-enlightened and MOTION-robust video deblurring model (PROMOTION)を提案する。 一方,3次元群畳み込みを用いて,不均質な先行情報を効率的にエンコードし,出力の成果物を緩和しながらシーンの知覚を明示的に強化する。 一方,時空間の非一様ぼかしをよりよく扱うために,前者はぼかし分布を表すように設計する。 従来のカメラの揺らぎがグローバルなぼやけを引き起こしたのに加えて,局所的ぼやけに苦しむ下流作業の一般化も証明した。 大規模な実験では、よく知られたREDSやGoProのデータセットで最先端のパフォーマンスを実現し、マシンタスクのゲインを実現することができる。

Various blur distortions in video will cause negative impact on both human viewing and video-based applications, which makes motion-robust deblurring methods urgently needed. Most existing works have strong dataset dependency and limited generalization ability in handling challenging scenarios, like blur in low contrast or severe motion areas, and non-uniform blur. Therefore, we propose a PRiOr-enlightened and MOTION-robust video deblurring model (PROMOTION) suitable for challenging blurs. On the one hand, we use 3D group convolution to efficiently encode heterogeneous prior information, explicitly enhancing the scenes' perception while mitigating the output's artifacts. On the other hand, we design the priors representing blur distribution, to better handle non-uniform blur in spatio-temporal domain. Besides the classical camera shake caused global blurry, we also prove the generalization for the downstream task suffering from local blur. Extensive experiments demonstrate we can achieve the state-of-the-art performance on well-known REDS and GoPro datasets, and bring machine task gain.
翻訳日:2022-12-20 03:41:33 公開日:2020-03-26
# ロジスティックモデルと遺伝的アルゴリズムを用いたインドにおける新型コロナウイルス流行の予測と最終規模の推定

Prediction of number of cases expected and estimation of the final size of coronavirus epidemic in India using the logistic model and genetic algorithm ( http://arxiv.org/abs/2003.12017v1 )

ライセンス: Link先を確認
Ganesh Kumar M, Soman K.P, Gopalakrishnan E.A, Vijay Krishna Menon, Sowmya V(参考訳) 本稿では,ロジスティック・グロース・レグレッション・モデルと遺伝的アルゴリズムを用いて,今後インドで予想される新型コロナウイルス感染者数を予測するとともに,インドにおける新型コロナウイルス流行の最終規模と最盛期を推定した。

In this paper, we have applied the logistic growth regression model and genetic algorithm to predict the number of coronavirus infected cases that can be expected in upcoming days in India and also estimated the final size and its peak time of the coronavirus epidemic in India.
翻訳日:2022-12-19 22:16:35 公開日:2020-03-26
# ロバスト量子最小探索と仮説選択への応用

Robust quantum minimum finding with an application to hypothesis selection ( http://arxiv.org/abs/2003.11777v1 )

ライセンス: Link先を確認
Yihui Quek, Clement Canonne, Patrick Rebentrost(参考訳) 我々は、ノイズの多いコンパレータを用いて長さ$n$のリストから最小要素を見つける問題を考える。 このノイズは以下のようにモデル化される: 比較するために2つの要素が与えられると、要素の値が要素に定義されたある計量によって少なくとも$\alpha$で異なる場合、その比較は正しく行われる。 ノイズのないケースの二次的なスピードアップを保存するノイズ量子最小探索のための量子アルゴリズムを実証する:我々のアルゴリズムは時間$\tilde o(\sqrt{n (1+\delta)})$で実行され、ここで$\delta$は区間$\alpha$内の要素数の上界であり、真の最小値のよい近似を高い確率で出力する。 我々のノイズコンパレータモデルは仮説選択の問題によって動機づけられ、未知のターゲット分布からn$の既知の候補確率分布とサンプルが与えられたとき、未知のターゲットに近いいくつかの候補分布$o(\varepsilon)$を出力しようとする。 古典的側面に関する多くの研究は、シェフ\'{e} テストのような統計的な原始的手法を用いて、古典的仮説の選択の実行時間を $o(n^2)$ から $o(n)$ に短縮することに費やされている。 古典的データアクセスの量子オラクル一般化を仮定し、ノイズの多い量子最小フィニングアルゴリズムを適用すると、この実行時間をサブ線形状態にします。 最終的な実行時間は$\tilde O( \sqrt{N(1+\Delta)})$で、古典的アルゴリズムと同じ未知の分布からO(\log N)$サンプルの複雑さを持つ。 我々は、ロバストな量子最小探索は、コンパレータ(量子アルゴリズムや古典アルゴリズム)が解像度制限されたり、不確かさの対象となるような状況において、アルゴリズムにとって有用な構築ブロックであると期待する。

We consider the problem of finding the minimum element in a list of length $N$ using a noisy comparator. The noise is modelled as follows: given two elements to compare, if the values of the elements differ by at least $\alpha$ by some metric defined on the elements, then the comparison will be made correctly; if the values of the elements are closer than $\alpha$, the outcome of the comparison is not subject to any guarantees. We demonstrate a quantum algorithm for noisy quantum minimum-finding that preserves the quadratic speedup of the noiseless case: our algorithm runs in time $\tilde O(\sqrt{N (1+\Delta)})$, where $\Delta$ is an upper-bound on the number of elements within the interval $\alpha$, and outputs a good approximation of the true minimum with high probability. Our noisy comparator model is motivated by the problem of hypothesis selection, where given a set of $N$ known candidate probability distributions and samples from an unknown target distribution, one seeks to output some candidate distribution $O(\varepsilon)$-close to the unknown target. Much work on the classical front has been devoted to speeding up the run time of classical hypothesis selection from $O(N^2)$ to $O(N)$, in part by using statistical primitives such as the Scheff\'{e} test. Assuming a quantum oracle generalization of the classical data access and applying our noisy quantum minimum-finding algorithm, we take this run time into the sublinear regime. The final expected run time is $\tilde O( \sqrt{N(1+\Delta)})$, with the same $O(\log N)$ sample complexity from the unknown distribution as the classical algorithm. We expect robust quantum minimum-finding to be a useful building block for algorithms in situations where the comparator (which may be another quantum or classical algorithm) is resolution-limited or subject to some uncertainty.
翻訳日:2022-12-19 22:16:28 公開日:2020-03-26
# 不均一な動的グラフニューラルネットワークによる科学的影響の定量化

A Heterogeneous Dynamical Graph Neural Networks Approach to Quantify Scientific Impact ( http://arxiv.org/abs/2003.12042v1 )

ライセンス: Link先を確認
Fan Zhou, Xovee Xu, Ce Li, Goce Trajcevski, Ting Zhong, Kunpeng Zhang(参考訳) 科学的著作や個々の学者の長期的な影響の定量化と予測は、提案評価や新興研究分野の特定など、多くの政策決定に重要な意味を持つ。 本研究では,ヘテロジニアスな動的グラフニューラルネットワーク(hdgnn)に基づいて,論文や著者の累積影響を明示的にモデル化し,予測する手法を提案する。 hdgnnは、時間発展する特性を取り入れて不均質なgnnを拡張し、帰着グラフの構造的性質と引用行動の連続を捉えている。 HDGNNは、ノード間の複雑な関係を考慮して、動的にノードの影響をモデル化する能力において、従来のモデルと大きく異なる。 実際の引用データセットで行った実験は、論文と著者の両方の影響を予測する優れた性能を示した。

Quantifying and predicting the long-term impact of scientific writings or individual scholars has important implications for many policy decisions, such as funding proposal evaluation and identifying emerging research fields. In this work, we propose an approach based on Heterogeneous Dynamical Graph Neural Network (HDGNN) to explicitly model and predict the cumulative impact of papers and authors. HDGNN extends heterogeneous GNNs by incorporating temporally evolving characteristics and capturing both structural properties of attributed graph and the growing sequence of citation behavior. HDGNN is significantly different from previous models in its capability of modeling the node impact in a dynamic manner while taking into account the complex relations among nodes. Experiments conducted on a real citation dataset demonstrate its superior performance of predicting the impact of both papers and authors.
翻訳日:2022-12-19 22:15:38 公開日:2020-03-26
# 音イベント検出のためのインクリメンタル学習アルゴリズム

Incremental Learning Algorithm for Sound Event Detection ( http://arxiv.org/abs/2003.12175v1 )

ライセンス: Link先を確認
Eunjeong Koh, Fatemeh Saki, Yinyi Guo, Cheng-Yu Hung, Erik Visser(参考訳) 本稿では,音イベント検出(sed)システムのための新しい学習戦略を提案する。 一 事前訓練されたモデルから新しいターゲットモデルへの知識の移転及び 二 学習したことを忘れずに新しい音のイベントを学習し、ゼロから再学習すること。 学習済みの知識をソースモデルからターゲットモデルに移行するために、ソースモデルの上にニューラルネットワークアダプタが使用される。 ソースモデルとターゲットモデルは、このニューラルネットワークアダプタ層を介してマージされる。 ニューラルアダプタ層は、ターゲットモデルが最小限のトレーニングデータで新しいサウンドイベントを学習し、ソースモデルに似た学習済みサウンドイベントのパフォーマンスを維持するように支援する。 dcase16とus-sedデータセットの広範な解析により,新たに学習した音響イベントに対する競合検出性能を得るとともに,学習した音響イベントに性能劣化を生じさせることなく,音源と対象モデル間の知識伝達における提案手法の有効性が明らかになった。

This paper presents a new learning strategy for the Sound Event Detection (SED) system to tackle the issues of i) knowledge migration from a pre-trained model to a new target model and ii) learning new sound events without forgetting the previously learned ones without re-training from scratch. In order to migrate the previously learned knowledge from the source model to the target one, a neural adapter is employed on the top of the source model. The source model and the target model are merged via this neural adapter layer. The neural adapter layer facilitates the target model to learn new sound events with minimal training data and maintaining the performance of the previously learned sound events similar to the source model. Our extensive analysis on the DCASE16 and US-SED dataset reveals the effectiveness of the proposed method in transferring knowledge between source and target models without introducing any performance degradation on the previously learned sound events while obtaining a competitive detection performance on the newly learned sound events.
翻訳日:2022-12-19 22:15:11 公開日:2020-03-26
# 連続予測学習による行動局在化

Action Localization through Continual Predictive Learning ( http://arxiv.org/abs/2003.12185v1 )

ライセンス: Link先を確認
Sathyanarayanan N. Aakur, Sudeep Sarkar(参考訳) アクション認識の問題は、映像内の動作を時間と空間の両方で位置付けすることである。 現在の主流のアプローチでは、教師あり学習を用いてこの問題を解決し、関心領域を囲むフレームレベルのバウンディングボックスアノテーションという形で、大量の注釈付きトレーニングデータを必要とする。 本稿では,自己監督のための特徴レベルの予測を用いた連続学習に基づく新しいアプローチを提案する。 フレームレベルのバウンディングボックスに関して、トレーニング用のアノテーションは必要ない。 このアプローチは、予測に基づくイベント理解アプローチを提案する視覚イベント知覚の認知モデルにインスパイアされている。 我々は,cnnエンコーダと組み合わせたlstmのスタックと,新たなアテンション機構を用いてビデオ内のイベントをモデル化し,このモデルを用いて将来のフレームの高レベル特徴を予測する。 予測誤差はモデルのパラメータを継続的に学習するために使用される。 この自己教師型フレームワークは他のアプローチほど複雑ではないが、ラベリングとローカライゼーションの両方で堅牢な視覚表現を学ぶのに非常に効果的である。 このアプローチはストリーミング形式で出力され、動画を1回だけ通過するだけで、リアルタイム処理に適している点に注意が必要だ。 UCFスポーツ、JHMDB、THUMOS'13の3つのデータセットでこれを実証し、提案手法が弱教師付きベースライン、非教師付きベースラインより優れ、完全に教師付きベースラインよりも競争性能が高いことを示す。 最後に,提案手法をエゴセントリックビデオに一般化し,教師なし視線予測に最先端の結果を得ることができることを示す。

The problem of action recognition involves locating the action in the video, both over time and spatially in the image. The dominant current approaches use supervised learning to solve this problem, and require large amounts of annotated training data, in the form of frame-level bounding box annotations around the region of interest. In this paper, we present a new approach based on continual learning that uses feature-level predictions for self-supervision. It does not require any training annotations in terms of frame-level bounding boxes. The approach is inspired by cognitive models of visual event perception that propose a prediction-based approach to event understanding. We use a stack of LSTMs coupled with CNN encoder, along with novel attention mechanisms, to model the events in the video and use this model to predict high-level features for the future frames. The prediction errors are used to continuously learn the parameters of the models. This self-supervised framework is not complicated as other approaches but is very effective in learning robust visual representations for both labeling and localization. It should be noted that the approach outputs in a streaming fashion, requiring only a single pass through the video, making it amenable for real-time processing. We demonstrate this on three datasets - UCF Sports, JHMDB, and THUMOS'13 and show that the proposed approach outperforms weakly-supervised and unsupervised baselines and obtains competitive performance compared to fully supervised baselines. Finally, we show that the proposed framework can generalize to egocentric videos and obtain state-of-the-art results in unsupervised gaze prediction.
翻訳日:2022-12-19 22:10:04 公開日:2020-03-26
# 血管造影画像からの3次元冠動脈再建術の検討

Weakly-supervised 3D coronary artery reconstruction from two-view angiographic images ( http://arxiv.org/abs/2003.11846v1 )

ライセンス: Link先を確認
Lu Wang, Dong-xue Liang, Xiao-lei Yin, Jing Qiu, Zhi-yun Yang, Jun-hui Xing, Jian-zeng Dong, Zhao-yuan Ma(参考訳) 冠動脈の3次元モデルの再構築は,冠動脈の狭窄とプラークの局在,評価,診断,および外科的介入の補助的ナビゲーションに非常に重要である。 臨床的には, 冠動脈造影のいくつかの角度を用いて動脈像を撮影するので, 冠動脈造影画像から直接3D再構成を行うことは極めて有用である。 しかし、これは、冠動脈の複雑な形状やデータセットの欠如、キーポイントのラベル付けが原因で、非常に難しいコンピュータビジョンタスクである。 ディープラーニングの台頭に伴い、深層ニューラルネットワークを使用して医療画像から人間の臓器の3dモデルを再構築する作業がますます増えている。 冠動脈の血管像の異なる2つの視点から,3次元冠動脈モデルを構築するための逆行性および生成的方法を提案する。 3D完全教師付き学習法と2D弱教師付き学習法により,最先端技術を上回る再現精度を得た。

The reconstruction of three-dimensional models of coronary arteries is of great significance for the localization, evaluation and diagnosis of stenosis and plaque in the arteries, as well as for the assisted navigation of interventional surgery. In the clinical practice, physicians use a few angles of coronary angiography to capture arterial images, so it is of great practical value to perform 3D reconstruction directly from coronary angiography images. However, this is a very difficult computer vision task due to the complex shape of coronary blood vessels, as well as the lack of data set and key point labeling. With the rise of deep learning, more and more work is being done to reconstruct 3D models of human organs from medical images using deep neural networks. We propose an adversarial and generative way to reconstruct three dimensional coronary artery models, from two different views of angiographic images of coronary arteries. With 3D fully supervised learning and 2D weakly supervised learning schemes, we obtained reconstruction accuracies that outperform state-of-art techniques.
翻訳日:2022-12-19 22:09:13 公開日:2020-03-26
# 胸部ct画像の定量的特徴を用いた2019年covid-19の重症度評価

Severity Assessment of Coronavirus Disease 2019 (COVID-19) Using Quantitative Features from Chest CT Images ( http://arxiv.org/abs/2003.11988v1 )

ライセンス: Link先を確認
Zhenyu Tang, Wei Zhao, Xingzhi Xie, Zheng Zhong, Feng Shi, Jun Liu, Dinggang Shen(参考訳) 背景: 胸部CTは新型コロナウイルス重症度評価の重要なツールとして認識されている。 患者数の増加に伴い、手作業による重症度評価は労働集約的な課題となり、治療の遅れにつながる可能性がある。 目的: 胸部CT画像に基づいて, 自動重症度評価(非重症度又は重症度)を実現するための機械学習手法を用いて, 得られた評価モデルから重症度関連特徴を探索する。 材料・方法:新型コロナウイルスと診断された176例(年齢45.3$\pm$16.5歳、男性96名、女性80名)の胸部CT画像を用いて、肺全体の感染量・比率やグラウンドグラス不透明(GGO)領域の量など63の定量的特徴を算出する。 ランダムフォレスト(rf)モデルは、量的特徴に基づいて重症度(非持続性または重篤性)を評価するように訓練される。 rfモデルから,covid-19の重症度との関連性を反映した定量的特徴量の重要性を算出した。 結果: rfモデルは3倍のクロス検証を用いて, 真正率0.933, 真負率 0.745, 精度0.875, 受信特性曲線 (auc) 下の面積 0.91 という有望な結果を示す。 その結果, 定量的特徴量の重要性は, グラウンドグラス不透明度 (ggo) 領域の体積とその比がcovid-19の重症度と高い相関を示し, 右肺から算出した定量的特徴量と左肺の重症度評価との関係が示唆された。 結語:RFベースのモデルは、新型コロナウイルス感染症の自動重症度評価(非重症または重症)を達成でき、その性能は有望である。 新型コロナウイルスの重症度を反映する可能性のあるいくつかの定量的特徴が明らかになった。

Background: Chest computed tomography (CT) is recognized as an important tool for COVID-19 severity assessment. As the number of affected patients increase rapidly, manual severity assessment becomes a labor-intensive task, and may lead to delayed treatment. Purpose: Using machine learning method to realize automatic severity assessment (non-severe or severe) of COVID-19 based on chest CT images, and to explore the severity-related features from the resulting assessment model. Materials and Method: Chest CT images of 176 patients (age 45.3$\pm$16.5 years, 96 male and 80 female) with confirmed COVID-19 are used, from which 63 quantitative features, e.g., the infection volume/ratio of the whole lung and the volume of ground-glass opacity (GGO) regions, are calculated. A random forest (RF) model is trained to assess the severity (non-severe or severe) based on quantitative features. Importance of each quantitative feature, which reflects the correlation to the severity of COVID-19, is calculated from the RF model. Results: Using three-fold cross validation, the RF model shows promising results, i.e., 0.933 of true positive rate, 0.745 of true negative rate, 0.875 of accuracy, and 0.91 of area under receiver operating characteristic curve (AUC). The resulting importance of quantitative features shows that the volume and its ratio (with respect to the whole lung volume) of ground glass opacity (GGO) regions are highly related to the severity of COVID-19, and the quantitative features calculated from the right lung are more related to the severity assessment than those of the left lung. Conclusion: The RF based model can achieve automatic severity assessment (non-severe or severe) of COVID-19 infection, and the performance is promising. Several quantitative features, which have the potential to reflect the severity of COVID-19, were revealed.
翻訳日:2022-12-19 22:08:41 公開日:2020-03-26
# 改良型3D領域検出ネットワーク:画像誘導放射線治療における第12胸椎の自動検出

An improved 3D region detection network: automated detection of the 12th thoracic vertebra in image guided radiation therapy ( http://arxiv.org/abs/2003.12163v1 )

ライセンス: Link先を確認
Yunhe Xie and Gregory Sharp and David P. Gierga and Theodore S. Hong and Thomas Bortfeld and Kongbin Kang(参考訳) 抽象。 画像指導は放射線治療で広く使われている。 第12胸椎(t12)のように解剖学的ランドマークを正確に同定することが成功の鍵である。 最近まで、これらのランドマークの検出には、退屈な手作業による検査と注釈が必要である。 画像からこれらのランドマークを検出する自動アプローチを開発する必要がある。 t12椎骨の自動識別には3つの大きな課題があります 1)類似度が高い構造物の微妙な差異 2 限定注釈訓練データ、及び 3) 3dネットワークの高メモリ使用。 抽象。 本研究では,3次元ボリュームデータから解剖学的構造を検出するために,少量のトレーニングデータのみを必要とする新しい3次元完全畳み込みネットワーク(FCN)を提案する。 既存のアプローチと比較すると、医療画像特有の課題に対処するため、ネットワークアーキテクチャ、ターゲット生成、損失関数が大幅に改善された。 本実験では,少量のアノテート画像からトレーニングしたネットワークを用いて,高い類似性を有する構造を正確に検出できることを実証した。 さらに,訓練されたネットワークは相互モダリティ学習の能力を示した。 これは、あるモダリティにおける画像アノテーションが他のモダリティよりも簡単に取得できる状況において意味がある。 クロスモーダル学習能力は、学習した特徴が異なる画像モダリティのノイズに対して頑健であることを示す。 まとめると,本手法は画像誘導放射線治療の安全性を高めるために臨床ワークフローに統合される可能性が大きい。

Abstract. Image guidance has been widely used in radiation therapy. Correctly identifying anatomical landmarks, like the 12th thoracic vertebra (T12), is the key to success. Until recently, the detection of those landmarks still requires tedious manual inspections and annotations; and superior-inferior misalignment to the wrong vertebral body is still relatively common in image guided radiation therapy. It is necessary to develop an automated approach to detect those landmarks from images. There are three major challenges to identify T12 vertebra automatically: 1) subtle difference in the structures with high similarity, 2) limited annotated training data, and 3) high memory usage of 3D networks. Abstract. In this study, we propose a novel 3D full convolutional network (FCN) that is trained to detect anatomical structures from 3D volumetric data, requiring only a small amount of training data. Comparing with existing approaches, the network architecture, target generation and loss functions were significantly improved to address the challenges specific to medical images. In our experiments, the proposed network, which was trained from a small amount of annotated images, demonstrated the capability of accurately detecting structures with high similarity. Furthermore, the trained network showed the capability of cross-modality learning. This is meaningful in the situation where image annotations in one modality are easier to obtain than others. The cross-modality learning ability also indicated that the learned features were robust to noise in different image modalities. In summary, our approach has a great potential to be integrated into the clinical workflow to improve the safety of image guided radiation therapy.
翻訳日:2022-12-19 22:07:30 公開日:2020-03-26
# リアルタイム行動認識のためのポーズと物体手がかりからの同時学習

Simultaneous Learning from Human Pose and Object Cues for Real-Time Activity Recognition ( http://arxiv.org/abs/2004.03453v1 )

ライセンス: Link先を確認
Brian Reily, Qingzhao Zhu, Christopher Reardon, and Hao Zhang(参考訳) リアルタイムな人間活動認識は、生活支援や人間ロボットのコラボレーションなど、現実世界の人間中心ロボットアプリケーションにおいて重要な役割を果たす。 人間のポーズを符号化するための骨格データに基づく従来の手法は、リアルタイムな活動認識において有望な結果を示したが、シーン内のオブジェクトや人間の使用場面で提供されるコンテキストを考慮できないため、人間の活動カテゴリのさらなる識別が可能であった。 本稿では,人間の行動と行動に関わる物体の両方の観察から同時に学習することで,リアルタイムな人間の行動認識のための新しいアプローチを提案する。 本研究では,人間のポーズと物体の手がかりを統合する回帰的損失関数を用いて,身体関節と物体属性を識別するための構造的スパーシティ誘導ノルムを定義する統一数学的枠組みの下で,人間行動認識を共同最適化問題として定式化する。 提案手法を評価するため、2つのベンチマークデータセットと1つの物理ロボットをホームアシスト環境で広範囲に実験した。 実験の結果,提案手法は従来の手法よりも優れ,処理速度が10^4Hzの人間行動認識のリアルタイム性能が得られた。

Real-time human activity recognition plays an essential role in real-world human-centered robotics applications, such as assisted living and human-robot collaboration. Although previous methods based on skeletal data to encode human poses showed promising results on real-time activity recognition, they lacked the capability to consider the context provided by objects within the scene and in use by the humans, which can provide a further discriminant between human activity categories. In this paper, we propose a novel approach to real-time human activity recognition, through simultaneously learning from observations of both human poses and objects involved in the human activity. We formulate human activity recognition as a joint optimization problem under a unified mathematical framework, which uses a regression-like loss function to integrate human pose and object cues and defines structured sparsity-inducing norms to identify discriminative body joints and object attributes. To evaluate our method, we perform extensive experiments on two benchmark datasets and a physical robot in a home assistance setting. Experimental results have shown that our method outperforms previous methods and obtains real-time performance for human activity recognition with a processing speed of 10^4 Hz.
翻訳日:2022-12-19 22:07:05 公開日:2020-03-26
# 未編集ビデオにおけるオンライン行動検出の再考:新しいオンライン評価プロトコル

Rethinking Online Action Detection in Untrimmed Videos: A Novel Online Evaluation Protocol ( http://arxiv.org/abs/2003.12041v1 )

ライセンス: Link先を確認
Marcos Baptista Rios, Roberto J. L\'opez-Sastre, Fabian Caba Heilbron, Jan van Gemert, F. Javier Acevedo-Rodr\'iguez, and S. Maldonado-Basc\'on(参考訳) オンラインアクション検出(OAD)問題を再検討する必要がある。 評価基準が明確で十分に確立されている従来のオフラインアクション検出アプローチとは異なり、OAD設定では、非常に少ない作業と、使用する評価プロトコルに関するコンセンサスがない。 本稿では,OADのシナリオを再考し,問題そのものと,オンラインとみなすモデルが従わなければならない主な特徴を明確に定義する。 また、新しい指標であるInstantaneous Accuracy(IA$)も導入する。 この新しい計量は \emph{online} の性質を示し、以前の計量の制限のほとんどを解決する。 本研究では,様々なベースライン法の性能を最先端法と比較した3つの挑戦的データセットについて,徹底的な実験評価を行う。 本結果は,従来の評価プロトコルの問題点を確認し,IAベースのプロトコルがオンラインシナリオに適していることを示唆している。 ベースラインモデルと新しい評価プロトコルを備えた開発キットが公開されている。 https://github.com/gramuah/ia。

The Online Action Detection (OAD) problem needs to be revisited. Unlike traditional offline action detection approaches, where the evaluation metrics are clear and well established, in the OAD setting we find very few works and no consensus on the evaluation protocols to be used. In this work we propose to rethink the OAD scenario, clearly defining the problem itself and the main characteristics that the models which are considered online must comply with. We also introduce a novel metric: the Instantaneous Accuracy ($IA$). This new metric exhibits an \emph{online} nature and solves most of the limitations of the previous metrics. We conduct a thorough experimental evaluation on 3 challenging datasets, where the performance of various baseline methods is compared to that of the state-of-the-art. Our results confirm the problems of the previous evaluation protocols, and suggest that an IA-based protocol is more adequate to the online scenario. The baselines models and a development kit with the novel evaluation protocol are publicly available: https://github.com/gramuah/ia.
翻訳日:2022-12-19 21:59:28 公開日:2020-03-26
# 実世界ビデオから顔の逆レンダリングを学ぶ

Learning Inverse Rendering of Faces from Real-world Videos ( http://arxiv.org/abs/2003.12047v1 )

ライセンス: Link先を確認
Yuda Qiu, Zhangyang Xiong, Kai Han, Zhongyuan Wang, Zixiang Xiong, Xiaoguang Han(参考訳) 本稿では,実顔画像の逆レンダリングの問題について検討する。 既存の方法は、合成顔データに対する教師あり訓練により、顔画像を3つの構成要素(アルベド、ノーマル、照明)に分解する。 しかし、実画像と合成画像の領域ギャップのため、合成データに基づいて訓練されたモデルは、しばしば実データにうまく一般化しない。 一方、実画像にはいかなる要素も根拠となる事実がないため、実画像で教師あり学習を行うことは不可能である。 この問題を軽減するために,本研究では,アルベドの整合性の仮定と,異なるフレーム間の正規化の仮定に基づいて,実際の顔画像と合成顔画像とのギャップを埋める,弱教師付きトレーニング手法を提案する。 さらに、IlluRes-SfSNetと呼ばれる学習フレームワークを導入し、残余マップを抽出して、既存の手法で無視されている細部の詳細を与えるグローバル照明効果を捉える。 私たちのネットワークは、実データと合成データの両方でトレーニングされています。 提案手法を様々なベンチマークで総合的に評価し,その逆レンダリング結果が最先端技術よりも優れていることを示す。

In this paper we examine the problem of inverse rendering of real face images. Existing methods decompose a face image into three components (albedo, normal, and illumination) by supervised training on synthetic face data. However, due to the domain gap between real and synthetic face images, a model trained on synthetic data often does not generalize well to real data. Meanwhile, since no ground truth for any component is available for real images, it is not feasible to conduct supervised learning on real face images. To alleviate this problem, we propose a weakly supervised training approach to train our model on real face videos, based on the assumption of consistency of albedo and normal across different frames, thus bridging the gap between real and synthetic face images. In addition, we introduce a learning framework, called IlluRes-SfSNet, to further extract the residual map to capture the global illumination effects that give the fine details that are largely ignored in existing methods. Our network is trained on both real and synthetic data, benefiting from both. We comprehensively evaluate our methods on various benchmarks, obtaining better inverse rendering results than the state-of-the-art.
翻訳日:2022-12-19 21:59:12 公開日:2020-03-26
# 接地状況認識

Grounded Situation Recognition ( http://arxiv.org/abs/2003.12058v1 )

ライセンス: Link先を確認
Sarah Pratt, Mark Yatskar, Luca Weihs, Ali Farhadi, Aniruddha Kembhavi(参考訳) 基本活動,その役割(エージェント,ツール),エンティティのバウンディングボックスグラウンドといった,イメージの構造化された意味的要約を生成するタスクである,接地状況認識(grounded situation recognition,gsr)を紹介する。 GSRは、セマンティック・サリエンシの識別、大規模で多様なエンティティの分類とローカライズ、セマンティック・スペシャリティの克服、役割の曖昧化といった重要な技術的課題を提示している。 さらに、字幕化とは異なり、GSRは容易に評価できる。 この新たなタスクを研究するために、Imsituデータセットの11,538のエンティティクラスに278,336のバウンディングボックスグラウンドを追加して、SWiGデータセットを作成しました。 本研究は,共同状況ローカライザを提案し,エンド・ツー・エンドのトレーニングによる状況予測と接地が,8%から32%の相対的な利得で,単独のトレーニングよりも良好であることを示す。 最後に,条件付き問合せ,視覚連鎖,接地した意味認識画像検索という3つのエキサイティングな将来的方向性について最初の知見を示す。 コードとデータはhttps://prior.allenai.org/projects/gsrで入手できる。

We introduce Grounded Situation Recognition (GSR), a task that requires producing structured semantic summaries of images describing: the primary activity, entities engaged in the activity with their roles (e.g. agent, tool), and bounding-box groundings of entities. GSR presents important technical challenges: identifying semantic saliency, categorizing and localizing a large and diverse set of entities, overcoming semantic sparsity, and disambiguating roles. Moreover, unlike in captioning, GSR is straightforward to evaluate. To study this new task we create the Situations With Groundings (SWiG) dataset which adds 278,336 bounding-box groundings to the 11,538 entity classes in the imsitu dataset. We propose a Joint Situation Localizer and find that jointly predicting situations and groundings with end-to-end training handily outperforms independent training on the entire grounding metric suite with relative gains between 8% and 32%. Finally, we show initial findings on three exciting future directions enabled by our models: conditional querying, visual chaining, and grounded semantic aware image retrieval. Code and data available at https://prior.allenai.org/projects/gsr.
翻訳日:2022-12-19 21:58:51 公開日:2020-03-26
# 適応的近傍合意を用いた対応ネットワーク

Correspondence Networks with Adaptive Neighbourhood Consensus ( http://arxiv.org/abs/2003.12059v1 )

ライセンス: Link先を確認
Shuda Li, Kai Han, Theo W. Costain, Henry Howard-Jenkins, and Victor Prisacariu(参考訳) 本稿では,同じカテゴリのオブジェクトを含む画像間の密接な視覚的対応を確立する作業に取り組む。 これは、クラス内の大きなバリエーションと高密度のピクセルレベルのアノテーションがないため、難しいタスクである。 本稿では,この課題に対処するために,分散キーポイントアノテーションを用いてエンドツーエンドで訓練できる畳み込み型ニューラルネットワークアーキテクチャ,adaptive neighborhood consensus network (anc-net)を提案する。 ANC-Netの中核は非等方性4D畳み込みカーネルであり、ロバストマッチングのための適応近傍コンセンサスモジュールのビルディングブロックを形成する。 また,ANC-Netにおいて,学習機能をクラス内変動に対して堅牢にするために,シンプルで効率的なマルチスケール自己相似モジュールを導入する。 さらに、1対1のマッチング制約を強制できる新しい直交損失を提案する。 提案手法の有効性を様々なベンチマークで徹底的に評価し,最先端の手法を著しく上回っている。

In this paper, we tackle the task of establishing dense visual correspondences between images containing objects of the same category. This is a challenging task due to large intra-class variations and a lack of dense pixel level annotations. We propose a convolutional neural network architecture, called adaptive neighbourhood consensus network (ANC-Net), that can be trained end-to-end with sparse key-point annotations, to handle this challenge. At the core of ANC-Net is our proposed non-isotropic 4D convolution kernel, which forms the building block for the adaptive neighbourhood consensus module for robust matching. We also introduce a simple and efficient multi-scale self-similarity module in ANC-Net to make the learned feature robust to intra-class variations. Furthermore, we propose a novel orthogonal loss that can enforce the one-to-one matching constraint. We thoroughly evaluate the effectiveness of our method on various benchmarks, where it substantially outperforms state-of-the-art methods.
翻訳日:2022-12-19 21:58:31 公開日:2020-03-26
# idカードからのリアルタイム情報検索

Real-time information retrieval from Identity cards ( http://arxiv.org/abs/2003.12103v1 )

ライセンス: Link先を確認
Niloofar Tavakolian, Azadeh Nazemi, Donal Fitzpatrick(参考訳) 情報はしばしば、認可された組織によって有効な個人IDカードから取得され、異なる目的に対処する。 成功情報検索(IR)は、精度とタイミングのプロセスに依存する。 データの交換において、応答に長時間を要するプロセスは、双方にとってフラストレーションとなる。 本稿では,識別カード(ID)を走査・キャプチャフェーズから光学文字認識(OCR)以前の点まで,一連の最先端手法を提案する。 この提案の鍵となる要素は、旅中のプロセスの正確性と速度である。 本研究の実験的結果は,従来の手法に代えて,EAST(Efficient and Accurate Scene Text)検出器やディープニューラルネットワーク(Deep Neural Network, DNN)などの深層学習に基づく手法を顔検出に活用することが証明された。

Information is frequently retrieved from valid personal ID cards by the authorised organisation to address different purposes. The successful information retrieval (IR) depends on the accuracy and timing process. A process which necessitates a long time to respond is frustrating for both sides in the exchange of data. This paper aims to propose a series of state-of-the-art methods for the journey of an Identification card (ID) from the scanning or capture phase to the point before Optical character recognition (OCR). The key factors for this proposal are the accuracy and speed of the process during the journey. The experimental results of this research prove that utilising the methods based on deep learning, such as Efficient and Accurate Scene Text (EAST) detector and Deep Neural Network (DNN) for face detection, instead of traditional methods increase the efficiency considerably.
翻訳日:2022-12-19 21:58:15 公開日:2020-03-26
# SaccadeNet: 高速で正確なオブジェクト検出器

SaccadeNet: A Fast and Accurate Object Detector ( http://arxiv.org/abs/2003.12125v1 )

ライセンス: Link先を確認
Shiyi Lan, Zhou Ren, Yi Wu, Larry S. Davis, Gang Hua(参考訳) オブジェクト検出は、総合的なシーン理解への重要なステップである。 既存のオブジェクト検出アルゴリズムは、特定のオブジェクト領域に一度参加し、オブジェクトの位置を予測する。 しかし、神経科学者は、人間が一定の安定状態にある場面を見ていないことを明らかにした。 代わりに人間の目は動き回り、対象の位置を理解するために情報的な部分を見つける。 このアクティブな知覚運動過程は \textit{saccade} と呼ばれる。 本稿では,このような機構に触発されて,高速かつ高精度な物体検出器である \textit{saccadenet} を提案する。 このモジュールには4つの主要なモジュールが含まれている: \cenam、 \coram、 \atm、および \aggatt は、異なる情報的オブジェクトキーポイントに出席でき、粗いものから細かいものまでオブジェクトの位置を予測できる。 \coram~はトレーニング中にのみ使用され、フリーランチのパフォーマンス向上をもたらす、より有益なコーナー機能を抽出する。 MS COCOデータセットでは,28 FPSで40.4\% mAP,118 FPSで30.5\% mAPの性能が得られた。 すべてのリアルタイムオブジェクト検出器のうち、25fpsよりも高速に動作可能な%のうち、saccadenetは最良の検出性能を達成し、提案する検出機構の有効性を実証する。

Object detection is an essential step towards holistic scene understanding. Most existing object detection algorithms attend to certain object areas once and then predict the object locations. However, neuroscientists have revealed that humans do not look at the scene in fixed steadiness. Instead, human eyes move around, locating informative parts to understand the object location. This active perceiving movement process is called \textit{saccade}. %In this paper, Inspired by such mechanism, we propose a fast and accurate object detector called \textit{SaccadeNet}. It contains four main modules, the \cenam, the \coram, the \atm, and the \aggatt, which allows it to attend to different informative object keypoints, and predict object locations from coarse to fine. The \coram~is used only during training to extract more informative corner features which brings free-lunch performance boost. On the MS COCO dataset, we achieve the performance of 40.4\% mAP at 28 FPS and 30.5\% mAP at 118 FPS. Among all the real-time object detectors, %that can run faster than 25 FPS, our SaccadeNet achieves the best detection performance, which demonstrates the effectiveness of the proposed detection mechanism.
翻訳日:2022-12-19 21:58:03 公開日:2020-03-26
# BERTを用いた周期テキスト・画像GAN

Cycle Text-To-Image GAN with BERT ( http://arxiv.org/abs/2003.12137v1 )

ライセンス: Link先を確認
Trevor Tsue, Samir Sen, Jason Li(参考訳) 我々は,最先端のganアーキテクチャを基盤とした,それぞれのキャプションから画像生成タスクへの新たなアプローチを検討する。 特に、単語から画像特徴への注意マッピングを学習する注意型GANを用いて、モデルをベースライン化する。 説明文の特徴をよりよく把握するために,画像を元のキャプションにマッピングする逆関数を学習する,新しいサイクリックデザインを構築した。 さらに,最近開発されたBERT事前学習単語埋め込みを初期テキストデファクチャライザとして組み込んで,Attention GANベースラインと比較して定性的,定量的な性能向上を目立たせるようにした。

We explore novel approaches to the task of image generation from their respective captions, building on state-of-the-art GAN architectures. Particularly, we baseline our models with the Attention-based GANs that learn attention mappings from words to image features. To better capture the features of the descriptions, we then built a novel cyclic design that learns an inverse function to maps the image back to original caption. Additionally, we incorporated recently developed BERT pretrained word embeddings as our initial text featurizer and observe a noticeable improvement in qualitative and quantitative performance compared to the Attention GAN baseline.
翻訳日:2022-12-19 21:57:40 公開日:2020-03-26
# アナログニューロモルフィックコンピューティングの高速化

Accelerated Analog Neuromorphic Computing ( http://arxiv.org/abs/2003.11996v1 )

ライセンス: Link先を確認
Johannes Schemmel, Sebastian Billaudelle, Phillip Dauer, Johannes Weis(参考訳) 本稿では,BrainScales (BSS) を加速したアナログニューロモルフィックコンピューティングアーキテクチャの背景にある概念について述べる。 第2世代のBrainScales-2(BSS-2)と、その最新のシリコン内実現であるHICANN-Xアプリケーション固有集積回路(ASIC)について記述し、欧州人脳プロジェクト(HBP)におけるニューロモルフィックコンピューティング活動の一部として開発されている。 第1世代は180nmプロセスで実装されるが、第2世代は65nm技術を使用する。 これにより、加速されたアナログニューロモルフィックシステムにおける学習の計算ニーズのために特別に構築された高並列マイクロプロセッサであるデジタル可塑性処理ユニットが統合される。 提示されたアーキテクチャは、構築されたデジタル計算コアに取り付けられたアナログニューロモルフィック加速器に似た、ニューロンとシナプスの連続的、アナログ、物理モデル実装に基づいている。 アナログ部分は、ニューラルネットワークのスパイクベースのダイナミクスを連続的にエミュレートするが、後者は、構造やパラメータの変化など、遅い時間スケールで発生する生物学的プロセスをシミュレートする。 生物の時間スケールと比較すると、エミュレーションは高度に加速され、全ての時定数は生物学よりも数桁小さい。 プログラム可能なイオンチャネルエミュレーションとコンパートメント間のコンダクタンスは、非線形デンドライト、バックプロパゲーション作用ポテンシャル、NMDAおよびカルシウムプラトーポテンシャルのモデリングを可能にする。 アナログ加速器の使用性を拡張するため、ベクトル行列乗算もサポートする。 これにより、BSS-2は深層畳み込みネットワークの推論と、同じ基質内でスパイキングニューロンの複雑なアンサンブルによる局所学習をサポートする。

This paper presents the concepts behind the BrainScales (BSS) accelerated analog neuromorphic computing architecture. It describes the second-generation BrainScales-2 (BSS-2) version and its most recent in-silico realization, the HICANN-X Application Specific Integrated Circuit (ASIC), as it has been developed as part of the neuromorphic computing activities within the European Human Brain Project (HBP). While the first generation is implemented in an 180nm process, the second generation uses 65nm technology. This allows the integration of a digital plasticity processing unit, a highly-parallel micro processor specially built for the computational needs of learning in an accelerated analog neuromorphic systems. The presented architecture is based upon a continuous-time, analog, physical model implementation of neurons and synapses, resembling an analog neuromorphic accelerator attached to build-in digital compute cores. While the analog part emulates the spike-based dynamics of the neural network in continuous-time, the latter simulates biological processes happening on a slower time-scale, like structural and parameter changes. Compared to biological time-scales, the emulation is highly accelerated, i.e. all time-constants are several orders of magnitude smaller than in biology. Programmable ion channel emulation and inter-compartmental conductances allow the modeling of nonlinear dendrites, back-propagating action-potentials as well as NMDA and Calcium plateau potentials. To extend the usability of the analog accelerator, it also supports vector-matrix multiplication. Thereby, BSS-2 supports inference of deep convolutional networks as well as local-learning with complex ensembles of spiking neurons within the same substrate.
翻訳日:2022-12-19 21:52:13 公開日:2020-03-26
# Navel Orange Segmentationのための高速注意ネットワーク

Fastidious Attention Network for Navel Orange Segmentation ( http://arxiv.org/abs/2003.11734v1 )

ライセンス: Link先を確認
Xiaoye Sun, Gongyan Li, Shaoyun Xu(参考訳) 深層学習は多くの領域において優れた性能を発揮するため、欠陥カテゴリを識別し、茎端と花の端を識別する2つの問題を解くために、オレンジのセマンティックセマンティックセマンティクスタスクに適用するだけでなく、モデル性能をさらに改善するためのファッショニング機構も提案する。 この軽量な注意機構は、2つの学習可能なパラメータ、アクティベーションとしきい値を含み、長距離依存を捉える。 具体的には、閾値が空間的特徴マップの一部を選び、活性化がこの領域を興奮させる。 異なる種類の特徴マップからのアクティベーションとしきい値のトレーニングに基づいて、ファシダス・セルフアテンション・モジュール(FSAM)とファシダス・インターアテンション・モジュール(FIAM)を設計する。 そして、u-netをバックボーンとして使用し、これら2つのモジュールを組み込むfastidious attention network(fanet)を構築して、stem end、bloom end、crash and ulcerのセマンティックセグメンテーションの問題を解決する。 いくつかの最先端のディープラーニングベースのネットワークと比較すると、我々のネットワークは99.105%、平均精度77.468%、平均IU 70.375%、周波数重み98.335%で最高のパフォーマンスを示している。 組込みモジュールは、背景を含む5つのカテゴリのより良い識別を示し、特に欠陥のIUは3.165%増加した。

Deep learning achieves excellent performance in many domains, so we not only apply it to the navel orange semantic segmentation task to solve the two problems of distinguishing defect categories and identifying the stem end and blossom end, but also propose a fastidious attention mechanism to further improve model performance. This lightweight attention mechanism includes two learnable parameters, activations and thresholds, to capture long-range dependence. Specifically, the threshold picks out part of the spatial feature map and the activation excite this area. Based on activations and thresholds training from different types of feature maps, we design fastidious self-attention module (FSAM) and fastidious inter-attention module (FIAM). And then construct the Fastidious Attention Network (FANet), which uses U-Net as the backbone and embeds these two modules, to solve the problems with semantic segmentation for stem end, blossom end, flaw and ulcer. Compared with some state-of-the-art deep-learning-based networks under our navel orange dataset, experiments show that our network is the best performance with pixel accuracy 99.105%, mean accuracy 77.468%, mean IU 70.375% and frequency weighted IU 98.335%. And embedded modules show better discrimination of 5 categories including background, especially the IU of flaw is increased by 3.165%.
翻訳日:2022-12-19 21:51:01 公開日:2020-03-26
# リアルタイム3次元深層カメラ追跡

Real-time 3D Deep Multi-Camera Tracking ( http://arxiv.org/abs/2003.11753v1 )

ライセンス: Link先を確認
Quanzeng You, Hao Jiang(参考訳) 複数のRGBカメラを使って3Dで群衆を追跡することは難しい課題だ。 従来のマルチカメラトラッキングアルゴリズムのほとんどは、オフライン設定用に設計されており、計算の複雑さが高い。 ロバストなリアルタイムマルチカメラ3Dトラッキングはまだ未解決の問題だ。 本研究では,エンド・ツー・エンドのトラッキングパイプラインであるディープ・マルチカメラ・トラッキング(dmct)を提案し,信頼性の高いリアルタイム・マルチカメラ・パーソン・トラッキングを実現する。 私たちのDMCTは 1)高速かつ斬新な視点対応Deep GroudPoint Network 2)地上面占有熱マップ推定のための融合手順 3)人物検出のための新しいディープ・スピープ・ネットワーク 4) 高速で正確なオンライントラッカー。 本設計では,深層ニューラルネットワークのパワーを完全に解き放ち,各カラー画像における各人物の「接地点」を推定し,効率的かつロバストに動作するように最適化する。 我々の融合手順、ネットワークとトラッカーは、異なるビューから結果をマージし、複数のビデオフレームを使って候補者を見つけ、融合したヒートマップで人々を追跡します。 本システムは,リアルタイム性能を維持しつつ,最先端の追跡結果を実現する。 WILDTRACKデータセットの評価とは別に、2つの異なる環境とカメラ設定から高品質なラベルを持つ2つの追跡データセットも収集する。 実験結果から,提案した実時間パイプラインが従来手法よりも優れていることを確認した。

Tracking a crowd in 3D using multiple RGB cameras is a challenging task. Most previous multi-camera tracking algorithms are designed for offline setting and have high computational complexity. Robust real-time multi-camera 3D tracking is still an unsolved problem. In this work, we propose a novel end-to-end tracking pipeline, Deep Multi-Camera Tracking (DMCT), which achieves reliable real-time multi-camera people tracking. Our DMCT consists of 1) a fast and novel perspective-aware Deep GroudPoint Network, 2) a fusion procedure for ground-plane occupancy heatmap estimation, 3) a novel Deep Glimpse Network for person detection and 4) a fast and accurate online tracker. Our design fully unleashes the power of deep neural network to estimate the "ground point" of each person in each color image, which can be optimized to run efficiently and robustly. Our fusion procedure, glimpse network and tracker merge the results from different views, find people candidates using multiple video frames and then track people on the fused heatmap. Our system achieves the state-of-the-art tracking results while maintaining real-time performance. Apart from evaluation on the challenging WILDTRACK dataset, we also collect two more tracking datasets with high-quality labels from two different environments and camera settings. Our experimental results confirm that our proposed real-time pipeline gives superior results to previous approaches.
翻訳日:2022-12-19 21:50:30 公開日:2020-03-26
# 第1回リモート生理信号センシング(RePSS)の課題

The 1st Challenge on Remote Physiological Signal Sensing (RePSS) ( http://arxiv.org/abs/2003.11756v1 )

ライセンス: Link先を確認
Xiaobai Li, Hu Han, Hao Lu, Xuesong Niu, Zitong Yu, Antitza Dantcheva, Guoying Zhao, Shiguang Shan(参考訳) ビデオからの生理的信号のリモート測定が話題となっている。 この話題には大きな関心が寄せられているが、公開利用可能なベンチマークデータベースと公正な検証プラットフォームがないことが、さらなる開発を妨げている。 そこで我々は, リモート生理信号センシング (Remote Physiological Signal Sensing, RePSS) の最初の課題を整理し, VIPL と OBF の2つのデータベースを親族研究者のアプローチ評価のベンチマークとして提供する。 RePSSの第一の課題は、遠隔生理的測定の基本的な問題である顔ビデオの平均心拍数を測定することである。 本稿では、データ、プロトコル、結果の分析、議論を含む課題の概要について述べる。 上位のソリューションは研究者に洞察を提供するために強調され、このトピックと課題について今後の方向性が概説されている。

Remote measurement of physiological signals from videos is an emerging topic. The topic draws great interests, but the lack of publicly available benchmark databases and a fair validation platform are hindering its further development. For this concern, we organize the first challenge on Remote Physiological Signal Sensing (RePSS), in which two databases of VIPL and OBF are provided as the benchmark for kin researchers to evaluate their approaches. The 1st challenge of RePSS focuses on measuring the average heart rate from facial videos, which is the basic problem of remote physiological measurement. This paper presents an overview of the challenge, including data, protocol, analysis of results and discussion. The top ranked solutions are highlighted to provide insights for researchers, and future directions are outlined for this topic and this challenge.
翻訳日:2022-12-19 21:50:11 公開日:2020-03-26
# 集合検索のための小型深部集合

Compact Deep Aggregation for Set Retrieval ( http://arxiv.org/abs/2003.11794v1 )

ライセンス: Link先を確認
Yujie Zhong, Relja Arandjelovi\'c, Andrew Zisserman(参考訳) 本研究の目的は,個々のディスクリプタの識別性を維持しつつ,効率的な検索とランキングに適したディスクリプタの集合のコンパクトな組込みを学ぶことである。 We focus on a specific example of this general problem -- that of retrieving images containing multiple faces from a large scale dataset of images. Here the set consists of the face descriptors in each image, and given a query for multiple identities, the goal is then to retrieve, in order, images which contain all the identities, all but one, \etc To this end, we make the following contributions: first, we propose a CNN architecture -- {\em SetNet} -- to achieve the objective: it learns face descriptors and their aggregation over a set to produce a compact fixed length descriptor designed for set retrieval, and the score of an image is a count of the number of identities that match the query; second, we show that this compact descriptor has minimal loss of discriminability up to two faces per image, and degrades slowly after that -- far exceeding a number of baselines; third, we explore the speed vs. このコンパクトディスクリプタを用いた集合検索における検索品質トレードオフについて検討し,最後に,様々なセレブを含む画像の膨大なデータセットを収集し,注釈を付けて評価し,公開する。

The objective of this work is to learn a compact embedding of a set of descriptors that is suitable for efficient retrieval and ranking, whilst maintaining discriminability of the individual descriptors. We focus on a specific example of this general problem -- that of retrieving images containing multiple faces from a large scale dataset of images. Here the set consists of the face descriptors in each image, and given a query for multiple identities, the goal is then to retrieve, in order, images which contain all the identities, all but one, \etc To this end, we make the following contributions: first, we propose a CNN architecture -- {\em SetNet} -- to achieve the objective: it learns face descriptors and their aggregation over a set to produce a compact fixed length descriptor designed for set retrieval, and the score of an image is a count of the number of identities that match the query; second, we show that this compact descriptor has minimal loss of discriminability up to two faces per image, and degrades slowly after that -- far exceeding a number of baselines; third, we explore the speed vs.\ retrieval quality trade-off for set retrieval using this compact descriptor; and, finally, we collect and annotate a large dataset of images containing various number of celebrities, which we use for evaluation and is publicly released.
翻訳日:2022-12-19 21:49:56 公開日:2020-03-26
# Hit-Detector: オブジェクト検出のための階層型トリニティアーキテクチャ検索

Hit-Detector: Hierarchical Trinity Architecture Search for Object Detection ( http://arxiv.org/abs/2003.11818v1 )

ライセンス: Link先を確認
Jianyuan Guo, Kai Han, Yunhe Wang, Chao Zhang, Zhaohui Yang, Han Wu, Xinghao Chen and Chang Xu(参考訳) neural architecture search (nas)は画像分類タスクで大きな成功を収めた。 いくつかの最近の研究は、効率的なバックボーンやオブジェクト検出のための機能融合層の自動設計を調査している。 しかし、これらの手法は対象検出器の特定のコンポーネントのみを探索することに集中し、他のコンポーネントは手動で設計する。 探索されたコンポーネントと手動で設計したコンポーネントの矛盾は、より強い性能の検知を控えることになる。 この目的のために,対象検出器のすべてのコンポーネント(バックボーン,ネック,ヘッド)の効率的なアーキテクチャをエンドツーエンドで同時に発見する階層的トリニティ探索フレームワークを提案する。 さらに,検出器の異なる部分が異なる操作者を好むことを実証的に明らかにする。 そこで本研究では,異なるコンポーネントに対して異なるサブ検索空間を自動的に表示し,それに対応するサブ検索空間上で各コンポーネントのエンドツーエンド検索を効率的に行う手法を提案する。 ベルやホイッスルがなければ、我々は27mのパラメータを持つcocoミニバルセットで41.4\%のマップを検索した。 実装はhttps://github.com/ggjy/hitdet.pytorchで利用可能です。

Neural Architecture Search (NAS) has achieved great success in image classification task. Some recent works have managed to explore the automatic design of efficient backbone or feature fusion layer for object detection. However, these methods focus on searching only one certain component of object detector while leaving others manually designed. We identify the inconsistency between searched component and manually designed ones would withhold the detector of stronger performance. To this end, we propose a hierarchical trinity search framework to simultaneously discover efficient architectures for all components (i.e. backbone, neck, and head) of object detector in an end-to-end manner. In addition, we empirically reveal that different parts of the detector prefer different operators. Motivated by this, we employ a novel scheme to automatically screen different sub search spaces for different components so as to perform the end-to-end search for each component on the corresponding sub search space efficiently. Without bells and whistles, our searched architecture, namely Hit-Detector, achieves 41.4\% mAP on COCO minival set with 27M parameters. Our implementation is available at https://github.com/ggjy/HitDet.pytorch.
翻訳日:2022-12-19 21:49:40 公開日:2020-03-26
# 異常値付きグラフマッチングに対するゼロ割り当て制約

Zero-Assignment Constraint for Graph Matching with Outliers ( http://arxiv.org/abs/2003.11928v1 )

ライセンス: Link先を確認
Fudong Wang and Nan Xue and Jin-Gang Yu and Gui-Song Xia(参考訳) コンピュータビジョンとパターン認識における長年の課題であるグラフマッチング(GM)は、実用的な応用において多くの散らかった外れ値に悩まされている。 この問題に対処するために,ゼロ割り当て制約 (zero-assignment constraints, zac) を提案する。 基本となる考え方は、得られた最適対応行列のポテンシャル外れ値にゼロ値ベクトルを割り当てることで、外れ値のマッチングを抑制することである。 本稿では,ZAC を用いた GM 問題に対する厳密な理論的解析を行い,アウトリーチの有無による GM 問題と本質的な相違点を考察し,有効かつ合理的な目的関数を構築するための十分な条件を提示する。 その結果,多数の外乱が原因で生じる誤りや冗長なマッチングを著しく低減する効率的な外乱アルゴリズムを設計した。 大規模な実験により, 精度, 効率, 特に多くのアウトレーヤの存在下で, 最先端の性能を達成できることが実証された。

Graph matching (GM), as a longstanding problem in computer vision and pattern recognition, still suffers from numerous cluttered outliers in practical applications. To address this issue, we present the zero-assignment constraint (ZAC) for approaching the graph matching problem in the presence of outliers. The underlying idea is to suppress the matchings of outliers by assigning zero-valued vectors to the potential outliers in the obtained optimal correspondence matrix. We provide elaborate theoretical analysis to the problem, i.e., GM with ZAC, and figure out that the GM problem with and without outliers are intrinsically different, which enables us to put forward a sufficient condition to construct valid and reasonable objective function. Consequently, we design an efficient outlier-robust algorithm to significantly reduce the incorrect or redundant matchings caused by numerous outliers. Extensive experiments demonstrate that our method can achieve the state-of-the-art performance in terms of accuracy and efficiency, especially in the presence of numerous outliers.
翻訳日:2022-12-19 21:48:57 公開日:2020-03-26
# 画像キャプション特徴を用いたfMRIに基づく高次視覚皮質のニューラルエンコーディングと解釈

Neural encoding and interpretation for high-level visual cortices based on fMRI using image caption features ( http://arxiv.org/abs/2003.11797v1 )

ライセンス: Link先を確認
Kai Qiao, Chi Zhang, Jian Chen, Linyuan Wang, Li Tong, Bin Yan(参考訳) 機能的磁気共鳴イメージング(fmri)に基づき、研究者は提示された画像刺激に応答して人のニューロン活動を予測する視覚符号化モデルの設計と、人間の視覚皮質の内部機構の解析に力を入れている。 階層的処理層からなるディープネットワーク構造は、ビッグデータを通じて特定のタスクに関するデータの特徴を学習することでディープネットワークモデルを形成する。 ディープネットワークモデルは、強力な階層的データ表現を持ち、視覚エンコーディングのブレークスルーをもたらし、人間の視覚皮質における情報処理の方法と階層的構造的類似性を明らかにする。 しかし、以前の研究では、分類タスクで事前訓練された深層ネットワークモデルの画像特徴を利用して視覚的エンコーディングモデルを構築していた。 ディープネットワーク構造を除けば、タスクまたはそれに対応するbig datasetはディープネットワークモデルでも重要であるが、以前の研究では無視されている。 画像分類は比較的基本的な課題であるため,高次視覚皮質の符号化性能が制限されるため,深層ネットワークモデルを用いてデータの高次意味表現を習得することは困難である。 本研究では,高レベルの視覚野のボクセルを符号化するために,画像キャプション(ic)タスクを導入し,ic特徴量(icfvem)に基づく視覚符号化モデルを提案した。 実験の結果、ICFVEMは従来のディープネットワークモデルよりも符号化性能が優れていた。 さらに, ボクセルの解釈により, 意味的単語の可視化に基づくボクセルの詳細な特徴を解明し, 比較分析により, 高次視覚皮質が画像内容の相関表現を振舞うことが示唆された。

On basis of functional magnetic resonance imaging (fMRI), researchers are devoted to designing visual encoding models to predict the neuron activity of human in response to presented image stimuli and analyze inner mechanism of human visual cortices. Deep network structure composed of hierarchical processing layers forms deep network models by learning features of data on specific task through big dataset. Deep network models have powerful and hierarchical representation of data, and have brought about breakthroughs for visual encoding, while revealing hierarchical structural similarity with the manner of information processing in human visual cortices. However, previous studies almost used image features of those deep network models pre-trained on classification task to construct visual encoding models. Except for deep network structure, the task or corresponding big dataset is also important for deep network models, but neglected by previous studies. Because image classification is a relatively fundamental task, it is difficult to guide deep network models to master high-level semantic representations of data, which causes into that encoding performance for high-level visual cortices is limited. In this study, we introduced one higher-level vision task: image caption (IC) task and proposed the visual encoding model based on IC features (ICFVEM) to encode voxels of high-level visual cortices. Experiment demonstrated that ICFVEM obtained better encoding performance than previous deep network models pre-trained on classification task. In addition, the interpretation of voxels was realized to explore the detailed characteristics of voxels based on the visualization of semantic words, and comparative analysis implied that high-level visual cortices behaved the correlative representation of image content.
翻訳日:2022-12-19 21:43:06 公開日:2020-03-26
# 糖尿病網膜症画像における小病変検出のための擬似ラベル法

Pseudo-Labeling for Small Lesion Detection on Diabetic Retinopathy Images ( http://arxiv.org/abs/2003.12040v1 )

ライセンス: Link先を確認
Qilei Chen, Ping Liu, Jing Ni, Yu Cao, Benyuan Liu, Honggang Zhang(参考訳) 糖尿病網膜症(dr)は、世界中の勤労者の視覚障害の主な原因である。 糖尿病患者の約300~400万人は、DRのために視力を失います。 色眼底画像によるDRの診断は、そのような問題を緩和するための一般的なアプローチである。 しかし、dr診断は困難で時間のかかる作業であり、経験豊富な臨床医は高解像度画像上の多くの小さな特徴の存在と重要性を特定する必要がある。 畳み込みニューラルネットワーク(CNN)は,最近,バイオメディカル画像の自動解析において有望なアプローチであることが証明された。 そこで本研究では,CNNを用いた物体検出手法を用いてDR基底画像の病変検出を行う。 眼底画像の病変検出には2つの課題がある。 ひとつは、データセットが完全にラベル付けされていないことです。つまり、すべての病原体インスタンスのサブセットのみがマークされています。 これらのラベルのない病変インスタンスはモデルのトレーニングに寄与しないだけでなく、誤って偽陰性と数えられ、モデルが反対方向に移動する。 2つめの課題は、病変のインスタンスは通常非常に小さく、通常の物体検出器では発見が困難である。 最初の課題に対処するために、擬似ラベル方式の半教師付き手法に対する反復的トレーニングアルゴリズムを導入し、かなりの数の未ラベル病変を発見でき、病変検出器の性能を高めることができる。 小型ターゲット問題では,入力サイズと特徴ピラミッドネットワーク(FPN)の深さの両方を拡張して,小さな病変の詳細を保存し,病変検出の有効性を高めることができる大規模なCNN特徴マップを作成する。 実験の結果,提案手法はベースラインを著しく上回ることがわかった。

Diabetic retinopathy (DR) is a primary cause of blindness in working-age people worldwide. About 3 to 4 million people with diabetes become blind because of DR every year. Diagnosis of DR through color fundus images is a common approach to mitigate such problem. However, DR diagnosis is a difficult and time consuming task, which requires experienced clinicians to identify the presence and significance of many small features on high resolution images. Convolutional Neural Network (CNN) has proved to be a promising approach for automatic biomedical image analysis recently. In this work, we investigate lesion detection on DR fundus images with CNN-based object detection methods. Lesion detection on fundus images faces two unique challenges. The first one is that our dataset is not fully labeled, i.e., only a subset of all lesion instances are marked. Not only will these unlabeled lesion instances not contribute to the training of the model, but also they will be mistakenly counted as false negatives, leading the model move to the opposite direction. The second challenge is that the lesion instances are usually very small, making them difficult to be found by normal object detectors. To address the first challenge, we introduce an iterative training algorithm for the semi-supervised method of pseudo-labeling, in which a considerable number of unlabeled lesion instances can be discovered to boost the performance of the lesion detector. For the small size targets problem, we extend both the input size and the depth of feature pyramid network (FPN) to produce a large CNN feature map, which can preserve the detail of small lesions and thus enhance the effectiveness of the lesion detector. The experimental results show that our proposed methods significantly outperform the baselines.
翻訳日:2022-12-19 21:42:11 公開日:2020-03-26
# 力を使って、ルーク! 効果のシミュレーションによる身体力予測の学習

Use the Force, Luke! Learning to Predict Physical Forces by Simulating Effects ( http://arxiv.org/abs/2003.12045v1 )

ライセンス: Link先を確認
Kiana Ehsani, Shubham Tulsiani, Saurabh Gupta, Ali Farhadi, Abhinav Gupta(参考訳) 人間と物体の相互作用のビデオを見ると、何が起きているのかを推測するだけでなく、実行可能な情報を抽出し、それらの相互作用を模倣することもできる。 一方、現在の認識や幾何学的アプローチでは、行動表現の物理性が欠如している。 本稿では,アクションをより物理的に理解するための一歩を踏み出す。 本稿では,物体と対話する人間の映像から接触点や物理的力を推測する問題に対処する。 この問題に取り組む上での最大の課題のひとつは、力の接地ラベルを得ることである。 我々は、物理シミュレーターを監督に利用することで、この問題を横取りする。 具体的には、シミュレーションを用いて効果を予測し、推定された力がビデオに描かれたものと同じ効果をもたらすことを強制する。 我々の量的および質的な結果は、 (a)観察した動きの正確な模倣につながる映像から有意義な力を予測することができる。 (b)接触点と力予測を共同で最適化することで、独立訓練と比較して両タスクのパフォーマンスを向上させることができる。 (c) 少数ショット例を用いて,新しいオブジェクトに一般化したモデルから表現を学ぶことができる。

When we humans look at a video of human-object interaction, we can not only infer what is happening but we can even extract actionable information and imitate those interactions. On the other hand, current recognition or geometric approaches lack the physicality of action representation. In this paper, we take a step towards a more physical understanding of actions. We address the problem of inferring contact points and the physical forces from videos of humans interacting with objects. One of the main challenges in tackling this problem is obtaining ground-truth labels for forces. We sidestep this problem by instead using a physics simulator for supervision. Specifically, we use a simulator to predict effects and enforce that estimated forces must lead to the same effect as depicted in the video. Our quantitative and qualitative results show that (a) we can predict meaningful forces from videos whose effects lead to accurate imitation of the motions observed, (b) by jointly optimizing for contact point and force prediction, we can improve the performance on both tasks in comparison to independent training, and (c) we can learn a representation from this model that generalizes to novel objects using few shot examples.
翻訳日:2022-12-19 21:41:47 公開日:2020-03-26
# ビデオオブジェクト検出のためのメモリ拡張グローバルローカルアグリゲーション

Memory Enhanced Global-Local Aggregation for Video Object Detection ( http://arxiv.org/abs/2003.12063v1 )

ライセンス: Link先を確認
Yihong Chen, Yue Cao, Han Hu, Liwei Wang(参考訳) ビデオの中の物体を人間はどうやって認識するのか? 単一フレームの品質が低下しているため、一つの画像内で情報を利用することで、隠蔽対象を識別することは困難である。 ビデオ中のオブジェクトを認識するための重要な方法として,グローバルな意味情報と局所的な位置情報という2つがある,と我々は主張する。 近年,グローバルなセマンティック情報や局所的なローカライゼーション情報によってキーフレームの特徴を高めるための自己認識機構が数多く採用されている。 本稿では,グローバル情報とローカル情報の両方を十分に考慮した最初のトライアルである,メモリ強化グローバルローカルアグリゲーション(MEGA)ネットワークを紹介する。 さらに,新規かつ慎重に設計されたLong Range Memory (LRM)モジュールにより,提案したMEGAにより,キーフレームが従来手法よりもはるかに多くのコンテンツにアクセスできるようになる。 この2つの情報ソースにより,imagenet vidデータセット上での最先端のパフォーマンスを実現する。 コードは \url{https://github.com/scalsol/mega.pytorch} で入手できる。

How do humans recognize an object in a piece of video? Due to the deteriorated quality of single frame, it may be hard for people to identify an occluded object in this frame by just utilizing information within one image. We argue that there are two important cues for humans to recognize objects in videos: the global semantic information and the local localization information. Recently, plenty of methods adopt the self-attention mechanisms to enhance the features in key frame with either global semantic information or local localization information. In this paper we introduce memory enhanced global-local aggregation (MEGA) network, which is among the first trials that takes full consideration of both global and local information. Furthermore, empowered by a novel and carefully-designed Long Range Memory (LRM) module, our proposed MEGA could enable the key frame to get access to much more content than any previous methods. Enhanced by these two sources of information, our method achieves state-of-the-art performance on ImageNet VID dataset. Code is available at \url{https://github.com/Scalsol/mega.pytorch}.
翻訳日:2022-12-19 21:41:31 公開日:2020-03-26
# FFR V1.0: Fon-French Neural Machine Translation

FFR V1.0: Fon-French Neural Machine Translation ( http://arxiv.org/abs/2003.12111v1 )

ライセンス: Link先を確認
Bonaventure F. P. Dossou and Chris C. Emezue(参考訳) アフリカは世界で最も言語多様性が高い。 現代の文化間コミュニケーションにおいて、言語がコミュニケーションに重要であること、信頼性があり強力で正確な機械翻訳モデルの重要性から、多くのアフリカの言語に対して最先端の翻訳モデルを作成するための努力が(まだ)行われている。 しかしながら、アフリカ言語の低資源、ダイアクリティカル、トーナルな複雑さは、今日ではアフリカNLPが直面している主要な問題である。 FFRは、非常に低リソースでトーナルな言語であるFonから、研究と公共利用のためにフランス語への堅牢な翻訳モデルを作成するための大きなステップである。 本稿では,fon-to- french翻訳のための大規模コーパスの作成と,このデータセットで学習したffr v1.0モデルについて述べる。 データセットとモデルが公開されている。

Africa has the highest linguistic diversity in the world. On account of the importance of language to communication, and the importance of reliable, powerful and accurate machine translation models in modern inter-cultural communication, there have been (and still are) efforts to create state-of-the-art translation models for the many African languages. However, the low-resources, diacritical and tonal complexities of African languages are major issues facing African NLP today. The FFR is a major step towards creating a robust translation model from Fon, a very low-resource and tonal language, to French, for research and public use. In this paper, we describe our pilot project: the creation of a large growing corpora for Fon-to-French translations and our FFR v1.0 model, trained on this dataset. The dataset and model are made publicly available.
翻訳日:2022-12-19 21:40:02 公開日:2020-03-26
# 因果関係の介入的検出に関する批判

A Critique on the Interventional Detection of Causal Relationships ( http://arxiv.org/abs/2003.11706v1 )

ライセンス: Link先を確認
Mehrzad Saremi(参考訳) 介入はパールの確率的因果関係体制において基本的に重要である。 本稿では,介入が特定の状況下での因果関係の解釈にどのように影響するかを検討する。 この目的のために,因果システムにおいて,非因果関係として先行関係を導入する。 次に,介入が急激な因果解釈につながる事例について議論する。 これには、先行関係の介入検出や、因果関係の介入検出が自然の状況では有効でない構造因果モデルを形成する場合が含まれる。 また、それらの構造方程式に事前情報を持つ事前関係とSCMの他の性質についても論じる。

Interventions are of fundamental importance in Pearl's probabilistic causality regime. In this paper, we will inspect how interventions influence the interpretation of causation in causal models in specific situation. To this end, we will introduce a priori relationships as non-causal relationships in a causal system. Then, we will proceed to discuss the cases that interventions can lead to spurious causation interpretations. This includes the interventional detection of a priori relationships, and cases where the interventional detection of causality forms structural causal models that are not valid in natural situations. We will also discuss other properties of a priori relations and SCMs that have a priori information in their structural equations.
翻訳日:2022-12-19 21:39:49 公開日:2020-03-26
# クラウドにおけるディープラーニングのための効率的なフレキシブルFPGA仮想化

Enabling Efficient and Flexible FPGA Virtualization for Deep Learning in the Cloud ( http://arxiv.org/abs/2003.12101v1 )

ライセンス: Link先を確認
Shulin Zeng, Guohao Dai, Hanbo Sun, Kai Zhong, Guangjun Ge, Kaiyuan Guo, Yu Wang, Huazhong Yang(参考訳) FPGAは、ディープニューラルネットワーク(DNN)推論アプリケーションに低レイテンシでエネルギー効率のソリューションを提供する大きな可能性を示している。 現在、クラウド上のFPGAベースのDNNアクセラレータのほとんどは、複数のユーザがひとつのFPGAを共有するために、タイムディビジョンの多重化方式で実行されており、$\sim$100 sオーバーヘッドで再コンパイルする必要がある。 このような設計は、複数のユーザにとって、分離性やパフォーマンスの低下を招き、パブリックでもプライベートでも、効率的なFPGA仮想化を提供するには程遠い。 これらの問題を解決するために,DNNアクセラレータをベースとした命令アーキテクチャセット(ISA)を1つのFPGAで共有する新しい仮想化フレームワークを提案する。 本研究では,2レベル命令ディスパッチモジュールとマルチコアハードウェアリソースプールを導入することで,分離を可能にする。 このような設計は、独立した実行時プログラム可能なハードウェアリソースを提供し、さらに複数のユーザのパフォーマンスを分離する。 一方,重大な再コンパイルオーバーヘッドを克服するために,タイリングベースの命令フレームパッケージ設計と2段階静的動的コンパイルを提案する。 軽量なランタイム情報のみが$\sim$1msのオーバーヘッドで再コンパイルされるため、プライベートクラウドのパフォーマンスが保証される。 提案した仮想化設計は,従来の静的設計よりも1.07-1.69xと1.88-3.12xのスループット向上を実現している。

FPGAs have shown great potential in providing low-latency and energy-efficient solutions for deep neural network (DNN) inference applications. Currently, the majority of FPGA-based DNN accelerators in the cloud run in a time-division multiplexing way for multiple users sharing a single FPGA, and require re-compilation with $\sim$100 s overhead. Such designs lead to poor isolation and heavy performance loss for multiple users, which are far away from providing efficient and flexible FPGA virtualization for neither public nor private cloud scenarios. To solve these problems, we introduce a novel virtualization framework for instruction architecture set (ISA) based on DNN accelerators by sharing a single FPGA. We enable the isolation by introducing a two-level instruction dispatch module and a multi-core based hardware resources pool. Such designs provide isolated and runtime-programmable hardware resources, further leading to performance isolation for multiple users. On the other hand, to overcome the heavy re-compilation overheads, we propose a tiling-based instruction frame package design and two-stage static-dynamic compilation. Only the light-weight runtime information is re-compiled with $\sim$1 ms overhead, thus the performance is guaranteed for the private cloud. Our extensive experimental results show that the proposed virtualization design achieves 1.07-1.69x and 1.88-3.12x throughput improvement over previous static designs using the single-core and the multi-core architectures, respectively.
翻訳日:2022-12-19 21:33:02 公開日:2020-03-26
# 高次元カテゴリー観測によるガウス-ディリクレランダム場の推定

Gaussian-Dirichlet Random Fields for Inference over High Dimensional Categorical Observations ( http://arxiv.org/abs/2003.12120v1 )

ライセンス: Link先を確認
John E. San Soucie, Heidi M. Sosik, Yogesh Girdhar(参考訳) 本研究では,高次元カテゴリー観測の時空間分布の生成モデルを提案する。 これらは一般的に、カメラのような撮像センサーを備えたロボットが生成し、画像分類器と組み合わせることで、何千ものカテゴリーで観測される可能性がある。 提案手法は、潜在変数を用いた観測圏間の疎共起関係をモデル化するディリクレ分布と、潜在変数の時空間分布をモデル化するガウス過程を組み合わせたものである。 本研究は, 海洋における微小生物の分類学的観察のような高次元のカテゴリー計測の時間分布を, 他の試料から遠く離れた観測場所においても, 効率的に高精度に近似できることを示す実験である。 この研究の主な動機は、これまでスカラーや低次元のベクトル観測に限られていた高次元のカテゴリー上の情報経路計画技術の展開を可能にすることである。

We propose a generative model for the spatio-temporal distribution of high dimensional categorical observations. These are commonly produced by robots equipped with an imaging sensor such as a camera, paired with an image classifier, potentially producing observations over thousands of categories. The proposed approach combines the use of Dirichlet distributions to model sparse co-occurrence relations between the observed categories using a latent variable, and Gaussian processes to model the latent variable's spatio-temporal distribution. Experiments in this paper show that the resulting model is able to efficiently and accurately approximate the temporal distribution of high dimensional categorical measurements such as taxonomic observations of microscopic organisms in the ocean, even in unobserved (held out) locations, far from other samples. This work's primary motivation is to enable deployment of informative path planning techniques over high dimensional categorical fields, which until now have been limited to scalar or low dimensional vector observations.
翻訳日:2022-12-19 21:32:25 公開日:2020-03-26
# 新しい疾患に対するプラセボ制御臨床試験に代わる機械学習:プライマー

A Machine Learning alternative to placebo-controlled clinical trials upon new diseases: A primer ( http://arxiv.org/abs/2003.12454v1 )

ライセンス: Link先を確認
Ezequiel Alvarez (ICAS, Argentina), Federico Lamagna (CAB, Argentina) and Manuel Szewc (ICAS, Argentina)(参考訳) 新たな危険かつ伝染性疾患の出現は、通常のメカニズムによって予測されるよりも早く薬物療法の開発を必要とする。 多くの薬物療法の開発は、異なる臨床試験を通じて、異なる特定の薬物の組み合わせの効果を検査するために、病気患者のテストグループに提供し、一方、プラセボ治療は、コントロールグループとして知られる残りの病気患者に提供される。 以上の手法を、全ての患者が異なる、合理的な組み合わせの薬物を受け取り、この結果を用いてニューラルネットワークをフィードする新しい手法と比較する。 変動を平均化し、異なる患者の特徴を認識することにより、ニューラルネットワークは、患者の初期状態と治療結果とをつなぐパターンを学習し、上記の方法よりも最適な薬物療法を予測することができる。 多くの利用可能な作品とは対照的に、我々は薬物組成や相互作用の詳細を研究せず、現象学的観点からその問題を解決することで、両方の方法を比較することができる。 結論は数学的モデリングによって達成され、任意の妥当なモデル上で安定であるが、これは概念実証であり、実際のシナリオに直面する前に他の専門知識で研究されるべきである。 すべての計算、ツール、スクリプトは、コミュニティがそれをテスト、修正、拡張するためにオープンソースにされている。 最後に、本研究の結果は、医学における新しい疾患の文脈にあるが、これらは、コントロールグループによる実験技術を必要とする分野において有用である。

The appearance of a new dangerous and contagious disease requires the development of a drug therapy faster than what is foreseen by usual mechanisms. Many drug therapy developments consist in investigating through different clinical trials the effects of different specific drug combinations by delivering it into a test group of ill patients, meanwhile a placebo treatment is delivered to the remaining ill patients, known as the control group. We compare the above technique to a new technique in which all patients receive a different and reasonable combination of drugs and use this outcome to feed a Neural Network. By averaging out fluctuations and recognizing different patient features, the Neural Network learns the pattern that connects the patients initial state to the outcome of the treatments and therefore can predict the best drug therapy better than the above method. In contrast to many available works, we do not study any detail of drugs composition nor interaction, but instead pose and solve the problem from a phenomenological point of view, which allows us to compare both methods. Although the conclusion is reached through mathematical modeling and is stable upon any reasonable model, this is a proof-of-concept that should be studied within other expertises before confronting a real scenario. All calculations, tools and scripts have been made open source for the community to test, modify or expand it. Finally it should be mentioned that, although the results presented here are in the context of a new disease in medical sciences, these are useful for any field that requires a experimental technique with a control group.
翻訳日:2022-12-19 21:31:48 公開日:2020-03-26
# deepcrashtest:dashcamビデオを自動走行システムのためのバーチャルクラッシュテストに変える

DeepCrashTest: Turning Dashcam Videos into Virtual Crash Tests for Automated Driving Systems ( http://arxiv.org/abs/2003.11766v1 )

ライセンス: Link先を確認
Sai Krishna Bashetty, Heni Ben Amor, Georgios Fainekos(参考訳) この論文の目的は、自動運転車の訓練とテストのために、現実世界の衝突シナリオをシミュレーションすることである。 インターネットにアップロードされたダッシュカムのクラッシュビデオを使って、貴重な衝突データを抽出し、シミュレータでクラッシュシナリオを再現します。 モジュラーアプローチを用いて,未知・未対応の単眼カメラ源が記録した映像から3次元車両軌跡を抽出する問題に取り組む。 オープンソース実装とともに動作するアーキテクチャとデモビデオが論文で紹介されている。

The goal of this paper is to generate simulations with real-world collision scenarios for training and testing autonomous vehicles. We use numerous dashcam crash videos uploaded on the internet to extract valuable collision data and recreate the crash scenarios in a simulator. We tackle the problem of extracting 3D vehicle trajectories from videos recorded by an unknown and uncalibrated monocular camera source using a modular approach. A working architecture and demonstration videos along with the open-source implementation are provided with the paper.
翻訳日:2022-12-19 21:31:24 公開日:2020-03-26
# 行列平滑化:DNNの雑音下での遷移行列の正規化

Matrix Smoothing: A Regularization for DNN with Transition Matrix under Noisy Labels ( http://arxiv.org/abs/2003.11904v1 )

ライセンス: Link先を確認
Xianbin Lv, Dongxian Wu, Shu-Tao Xia(参考訳) ノイズラベルの存在下でのディープニューラルネットワーク(DNN)のトレーニングは重要かつ困難な課題である。 確率的モデリングは分類器と遷移行列から構成され、真ラベルから雑音ラベルへの変換を描いており、有望なアプローチである。 しかし、近年の確率論的手法は、DNNへの遷移行列を直接適用し、DNNの過度な適合性を無視し、特に一様雑音下では不満足な性能を達成する。 本稿では,ラベルスムーシングにヒントを得て,DNNの更新にスムーズな遷移行列を用いることで,確率的モデリングにおけるDNNの過度な適合を抑える手法を提案する。 本手法はMatrix Smoothing と呼ばれる。 また,本手法は確率モデリングのロバスト性を大幅に向上させるだけでなく,遷移行列の推定精度も向上することを示した。

Training deep neural networks (DNNs) in the presence of noisy labels is an important and challenging task. Probabilistic modeling, which consists of a classifier and a transition matrix, depicts the transformation from true labels to noisy labels and is a promising approach. However, recent probabilistic methods directly apply transition matrix to DNN, neglect DNN's susceptibility to overfitting, and achieve unsatisfactory performance, especially under the uniform noise. In this paper, inspired by label smoothing, we proposed a novel method, in which a smoothed transition matrix is used for updating DNN, to restrict the overfitting of DNN in probabilistic modeling. Our method is termed Matrix Smoothing. We also empirically demonstrate that our method not only improves the robustness of probabilistic modeling significantly, but also even obtains a better estimation of the transition matrix.
翻訳日:2022-12-19 21:24:08 公開日:2020-03-26
# オンラインマルチタッチ属性に対する解釈可能な深層学習モデル

Interpretable Deep Learning Model for Online Multi-touch Attribution ( http://arxiv.org/abs/2004.00384v1 )

ライセンス: Link先を確認
Dongdong Yang, Kevin Dyer, Senzhang Wang(参考訳) オンライン広告では、ユーザーは、最終的な取引に至る前に、自然言語検索、参照、有機検索などの様々な広告キャンペーンに晒されることがある。 広告キャンペーンのユーザの旅への貢献を見積もることは、非常に有意義で重要なことです。 マーケターは、各顧客の異なるマーケティングチャネルとのやりとりを観察し、投資戦略を変更することができる。 従来のラストクリック手法と最近のマルチタッチ属性(MTA)問題に対するデータ駆動アプローチの両方を含む既存の手法では、メソッドが機能する理由について十分な解釈が欠けている。 本稿では,深層学習モデルとオンラインマルチタッチ属性を解釈可能な付加的特徴説明モデルを組み合わせたDeepMTAという新しいモデルを提案する。 DeepMTAは主に、異なる時間間隔をキャッチする位相付きLSTMベースの変換予測モデルと、シェーリー値と組み合わせた付加的特徴属性モデルである。 付加的特徴属性は、バイナリ変数の線形関数を含む説明である。 MTAの最初の解釈可能なディープラーニングモデルとして、DeepMTAは、イベントシーケンス順序、イベント頻度、イベントの時間遅延効果の3つの重要な特徴について検討している。 実データを用いた評価により,提案する変換予測モデルは91\%精度を達成した。

In online advertising, users may be exposed to a range of different advertising campaigns, such as natural search or referral or organic search, before leading to a final transaction. Estimating the contribution of advertising campaigns on the user's journey is very meaningful and crucial. A marketer could observe each customer's interaction with different marketing channels and modify their investment strategies accordingly. Existing methods including both traditional last-clicking methods and recent data-driven approaches for the multi-touch attribution (MTA) problem lack enough interpretation on why the methods work. In this paper, we propose a novel model called DeepMTA, which combines deep learning model and additive feature explanation model for interpretable online multi-touch attribution. DeepMTA mainly contains two parts, the phased-LSTMs based conversion prediction model to catch different time intervals, and the additive feature attribution model combined with shaley values. Additive feature attribution is explanatory that contains a linear function of binary variables. As the first interpretable deep learning model for MTA, DeepMTA considers three important features in the customer journey: event sequence order, event frequency and time-decay effect of the event. Evaluation on a real dataset shows the proposed conversion prediction model achieves 91\% accuracy.
翻訳日:2022-12-19 21:23:00 公開日:2020-03-26
# ベルヌーイ変分オートエンコーダのELBOに対する下界

A lower bound for the ELBO of the Bernoulli Variational Autoencoder ( http://arxiv.org/abs/2003.11830v1 )

ライセンス: Link先を確認
Robert Sicks, Ralf Korn, Stefanie Schwaar(参考訳) 我々はバイナリデータのための変分オートエンコーダ(vae)を考える。 我々の主なイノベーションは、トレーニング目標に対する解釈可能な下位境界、より高速なトレーニングにつながるVAEの初期化とアーキテクチャの変更、PCAを用いて潜伏空間の適切な次元を見つけるための決定支援である。 数値的な例は、新しいアーキテクチャの理論的結果と性能を示しています。

We consider a variational autoencoder (VAE) for binary data. Our main innovations are an interpretable lower bound for its training objective, a modified initialization and architecture of such a VAE that leads to faster training, and a decision support for finding the appropriate dimension of the latent space via using a PCA. Numerical examples illustrate our theoretical result and the performance of the new architecture.
翻訳日:2022-12-19 21:21:43 公開日:2020-03-26
# 深層学習を用いたカオス信号分類のための3次元状態空間構築

Triad State Space Construction for Chaotic Signal Classification with Deep Learning ( http://arxiv.org/abs/2003.11931v1 )

ライセンス: Link先を確認
Yadong Zhang and Xin Chen(参考訳) The well-known permutation entropy (PE), a effective image encoding scheme for chaotic time series, Triad State Space Construction (TSSC) が提案されている。 tssc画像は、高次時間パターンを認識し、バンド・ポンペ確率を超えた時系列モチーフの新たな禁止領域を識別することができる。 Convolutional Neural Network (ConvNet) は画像分類において広く使われている。 TSSC画像(TSSC-ConvNet)に基づくConvNet分類器は、カオス信号分類において非常に正確で、非常に堅牢である。

Inspired by the well-known permutation entropy (PE), an effective image encoding scheme for chaotic time series, Triad State Space Construction (TSSC), is proposed. The TSSC image can recognize higher-order temporal patterns and identify new forbidden regions in time series motifs beyond the Bandt-Pompe probabilities. The Convolutional Neural Network (ConvNet) is widely used in image classification. The ConvNet classifier based on TSSC images (TSSC-ConvNet) are highly accurate and very robust in the chaotic signal classification.
翻訳日:2022-12-19 21:21:36 公開日:2020-03-26
# 短文の2項モデリングの袋

Bag of biterms modeling for short texts ( http://arxiv.org/abs/2003.11948v1 )

ライセンス: Link先を確認
Anh Phan Tuan, Bach Tran, Thien Nguyen Huu, Linh Ngo Van, Khoat Than(参考訳) ソーシャルメディアからテキストを分析すると、短さ、重大さ、動的さという独特の特徴から、多くの課題に直面する。 短いテキストは十分な文脈情報を提供しておらず、従来の統計モデルの失敗を引き起こしている。 さらに、多くのアプリケーションは大規模で動的に短いテキストに直面することが多く、現在のバッチ学習アルゴリズムに様々な計算上の問題を引き起こす。 本稿では,大規模,動的,短文のコレクションをモデリングするための新しいフレームワークであるbag of biterms modeling (bbm)を提案する。 bbmは、(1)文書を表す二項袋(bob)の概念、(2)統計モデルがbobを含むのを助ける簡単な方法の2つの主成分から構成されている。 我々のフレームワークは,多種多様な確率モデルに対して容易に展開でき,その有用性はLDA(Latent Dirichlet Allocation)とHDP(Hierarchical Dirichlet Process)の2つのよく知られたモデルで実証できる。 用語(単語)と二項(単語のペア)の両方を利用することで、(1)文書の長さを増加させ、二項の袋を通して単語の含意と共起を強調することで文脈をより一貫性を持たせ、(2)テキストのオンラインおよびストリーミングアルゴリズムの設計を容易にするために、プリミティブから推論と学習のアルゴリズムを継承する。 広範な実験は、bbmがいくつかの最先端モデルを上回ることを示唆している。 また、通常のテキストであっても、BoB表現は従来の表現(例えば、Bag of Words, tf-idf)よりも優れています。

Analyzing texts from social media encounters many challenges due to their unique characteristics of shortness, massiveness, and dynamic. Short texts do not provide enough context information, causing the failure of the traditional statistical models. Furthermore, many applications often face with massive and dynamic short texts, causing various computational challenges to the current batch learning algorithms. This paper presents a novel framework, namely Bag of Biterms Modeling (BBM), for modeling massive, dynamic, and short text collections. BBM comprises of two main ingredients: (1) the concept of Bag of Biterms (BoB) for representing documents, and (2) a simple way to help statistical models to include BoB. Our framework can be easily deployed for a large class of probabilistic models, and we demonstrate its usefulness with two well-known models: Latent Dirichlet Allocation (LDA) and Hierarchical Dirichlet Process (HDP). By exploiting both terms (words) and biterms (pairs of words), the major advantages of BBM are: (1) it enhances the length of the documents and makes the context more coherent by emphasizing the word connotation and co-occurrence via Bag of Biterms, (2) it inherits inference and learning algorithms from the primitive to make it straightforward to design online and streaming algorithms for short texts. Extensive experiments suggest that BBM outperforms several state-of-the-art models. We also point out that the BoB representation performs better than the traditional representations (e.g, Bag of Words, tf-idf) even for normal texts.
翻訳日:2022-12-19 21:15:37 公開日:2020-03-26
# 順序回帰リカレントニューラルネットワークを用いたゼロショットおよび少数ショット時系列予測

Zero-shot and few-shot time series forecasting with ordinal regression recurrent neural networks ( http://arxiv.org/abs/2003.12162v1 )

ライセンス: Link先を確認
Bernardo P\'erez Orozco and Stephen J Roberts(参考訳) リカレントニューラルネットワーク(recurrent neural networks, rnns)は、いくつかの逐次学習タスクにおいて最先端のものだが、うまく一般化するには大量のデータを必要とすることが多い。 多くの時系列予測(TSF)タスクでは、トレーニング時に数十の観測しか利用できないため、この種のモデルの使用を制限することができる。 本稿では,数量化時系列の空間に埋め込まれた共有特徴を学習することにより,この問題を直接解決する新しいrnnモデルを提案する。 これにより、トレーニングデータが少ない場合であっても、RNNフレームワークが不適切な時系列を正確かつ確実に予測できることを示す。

Recurrent neural networks (RNNs) are state-of-the-art in several sequential learning tasks, but they often require considerable amounts of data to generalise well. For many time series forecasting (TSF) tasks, only a few dozens of observations may be available at training time, which restricts use of this class of models. We propose a novel RNN-based model that directly addresses this problem by learning a shared feature embedding over the space of many quantised time series. We show how this enables our RNN framework to accurately and reliably forecast unseen time series, even when there is little to no training data available.
翻訳日:2022-12-19 21:14:52 公開日:2020-03-26
# ファジィラフセット理論を用いた腫瘍分類のための新しい遺伝子選択アルゴリズム

A New Gene Selection Algorithm using Fuzzy-Rough Set Theory for Tumor Classification ( http://arxiv.org/abs/2003.12386v1 )

ライセンス: Link先を確認
Seyedeh Faezeh Farahbakhshian, Milad Taleby Ahvanooey(参考訳) 統計学や機械学習では、機能選択(feature selection)は、予測モデルで活用するために関連する属性のサブセットを選択するプロセスである。 近年,機能依存を利用して選択処理を行う,粗いセットベース特徴選択技術が注目されている。 遺伝子発現に基づく腫瘍の分類は、バイオインフォマティクスにおける疾患の適切な治療と予後の診断に利用される。 マイクロアレイ遺伝子発現データは、高次元およびより少ないトレーニングインスタンスの過剰な特徴遺伝子を含む。 このような高次元問題における遺伝子発現インスタンスの正確な分類は非常に複雑であるため、適切な遺伝子の選択は腫瘍分類にとって重要な課題である。 本研究では,ファジィロー集合の識別性行列を用いた新しい遺伝子選択手法を提案する。 提案手法は,遺伝子選択結果を改善するために同一および異なるクラスラベルを持つインスタンスの類似性を考慮し,先行技術は異なるクラスラベルを持つインスタンスの類似性にのみ対処する。 その要件を満たすために、johnson reducer のテクニックをファジィケースに拡張します。 実験により, この手法は最先端の手法に比べて効率が良いことを示した。

In statistics and machine learning, feature selection is the process of picking a subset of relevant attributes for utilizing in a predictive model. Recently, rough set-based feature selection techniques, that employ feature dependency to perform selection process, have been drawn attention. Classification of tumors based on gene expression is utilized to diagnose proper treatment and prognosis of the disease in bioinformatics applications. Microarray gene expression data includes superfluous feature genes of high dimensionality and smaller training instances. Since exact supervised classification of gene expression instances in such high-dimensional problems is very complex, the selection of appropriate genes is a crucial task for tumor classification. In this study, we present a new technique for gene selection using a discernibility matrix of fuzzy-rough sets. The proposed technique takes into account the similarity of those instances that have the same and different class labels to improve the gene selection results, while the state-of-the art previous approaches only address the similarity of instances with different class labels. To meet that requirement, we extend the Johnson reducer technique into the fuzzy case. Experimental results demonstrate that this technique provides better efficiency compared to the state-of-the-art approaches.
翻訳日:2022-12-19 21:14:12 公開日:2020-03-26
# multi-user remote lab: simplex nondominated sorting genetic algorithm を用いた時刻表スケジューリング

Multi-User Remote lab: Timetable Scheduling Using Simplex Nondominated Sorting Genetic Algorithm ( http://arxiv.org/abs/2003.11708v1 )

ライセンス: Link先を確認
Seid Miad Zandavi, Vera Chung, Ali Anaissi(参考訳) 提案アルゴリズムのマルチモーダル関数として,マルチユーザ遠隔実験室のスケジューリングをモデル化した。 遠隔研究室が共有アクセスを協調するための時刻表問題の最適化のために,nelder-mead simplexアルゴリズムとnon-dominated sorting genetic algorithm (nsga)のハイブリッド最適化法を提案する。 提案アルゴリズムは,探索においてSimplexアルゴリズムとNSGAを用いて,潜在領域を考慮した局所最適点のソートを行う。 提案手法は難解な非線形連続型マルチモーダル関数に適用され,その性能はハイブリッドなsimplex particle swarm optimization,simplex genetic algorithm,および他のヒューリスティックアルゴリズムと比較される。

The scheduling of multi-user remote laboratories is modeled as a multimodal function for the proposed optimization algorithm. The hybrid optimization algorithm, hybridization of the Nelder-Mead Simplex algorithm and Non-dominated Sorting Genetic Algorithm (NSGA), is proposed to optimize the timetable problem for the remote laboratories to coordinate shared access. The proposed algorithm utilizes the Simplex algorithm in terms of exploration, and NSGA for sorting local optimum points with consideration of potential areas. The proposed algorithm is applied to difficult nonlinear continuous multimodal functions, and its performance is compared with hybrid Simplex Particle Swarm Optimization, Simplex Genetic Algorithm, and other heuristic algorithms.
翻訳日:2022-12-19 21:07:05 公開日:2020-03-26
# 深い心は似ているか? 複数のディープニューラルネットワークの細粒度操作に対する選択的逆攻撃

Do Deep Minds Think Alike? Selective Adversarial Attacks for Fine-Grained Manipulation of Multiple Deep Neural Networks ( http://arxiv.org/abs/2003.11816v1 )

ライセンス: Link先を確認
Zain Khan, Jirong Yi, Raghu Mudumbai, Xiaodong Wu, Weiyu Xu(参考訳) 近年の研究では、単一の機械学習システムをターゲットにした逆例の存在が実証されている。 同一の分類問題を解くために割り当てられ、同じ入力信号を取る機械学習システムが与えられたとき、これらの「it多重」機械学習システムの出力を同時に操作する入力信号に対する摂動を任意の方法で構築することは可能か? 例えば、"敵"の機械学習システムを選択的に騙すことは可能ですが、他の"友達"の機械学習システムを騙すことはできませんか? この問いに対する答えは、これらの異なる機械学習システムが「同じように考える」程度に依存する。 我々は、新しい最適化問題として「選択的不正」問題を定式化し、MNISTデータセットに関する一連の実験について報告する。 これらの実験から得られた予備的な結果から,複数のMNIST分類器を同時に選択的に操作することは,訓練中のランダム初期化以外は,分類器がアーキテクチャ,訓練アルゴリズム,訓練データセットと同一である場合でも極めて容易であることがわかった。 これは、名目上等価な2つの機械学習システムが実際には「似ている」とは考えておらず、多くの新しい応用の可能性とディープニューラルネットワークの動作原理のより深い理解を開くことを示唆している。

Recent works have demonstrated the existence of {\it adversarial examples} targeting a single machine learning system. In this paper we ask a simple but fundamental question of "selective fooling": given {\it multiple} machine learning systems assigned to solve the same classification problem and taking the same input signal, is it possible to construct a perturbation to the input signal that manipulates the outputs of these {\it multiple} machine learning systems {\it simultaneously} in arbitrary pre-defined ways? For example, is it possible to selectively fool a set of "enemy" machine learning systems but does not fool the other "friend" machine learning systems? The answer to this question depends on the extent to which these different machine learning systems "think alike". We formulate the problem of "selective fooling" as a novel optimization problem, and report on a series of experiments on the MNIST dataset. Our preliminary findings from these experiments show that it is in fact very easy to selectively manipulate multiple MNIST classifiers simultaneously, even when the classifiers are identical in their architectures, training algorithms and training datasets except for random initialization during training. This suggests that two nominally equivalent machine learning systems do not in fact "think alike" at all, and opens the possibility for many novel applications and deeper understandings of the working principles of deep neural networks.
翻訳日:2022-12-19 21:06:51 公開日:2020-03-26
# グラフニューラルネットワークにおけるスペクトル領域と空間領域のギャップの橋渡し

Bridging the Gap Between Spectral and Spatial Domains in Graph Neural Networks ( http://arxiv.org/abs/2003.11702v1 )

ライセンス: Link先を確認
Muhammet Balcilar, Guillaume Renton, Pierre Heroux, Benoit Gauzere, Sebastien Adam, Paul Honeine(参考訳) 本稿では,グラフ畳み込みのスペクトル設計と空間設計のギャップを埋めることで,グラフ畳み込みニューラルネットワークを再検討することを目的とする。 理論的には、空間領域やスペクトル領域で設計されているかに関わらず、グラフ畳み込み過程の等価性を示す。 得られた一般的なフレームワークは、最も人気のあるConvGNNのスペクトル分析を導出し、その性能を説明し、その限界を示す。 さらに,提案手法を用いて,空間領域に適用しながら,周波数プロファイルをカスタマイズしたスペクトル領域の新しい畳み込みを設計する。 また,グラフ畳み込みネットワークのための奥行き分離可能な畳み込みフレームワークの一般化を提案し,モデルのキャパシティを保ちながらトレーニング可能なパラメータの総数を削減する。 我々の知る限りでは、そのようなフレームワークはGNNの文献で一度も使われていない。 本提案は,トランスダクティブグラフ学習問題とインダクティブグラフ学習問題の両方について評価する。 その結果,提案手法の妥当性を示し,あるグラフから別のグラフへのスペクトルフィルタ係数の移動可能性に関する最初の実験結果が得られた。 私たちのソースコードは、https://github.com/balcilar/Spectral-Designed-Graph-Convolutionsで公開されています。

This paper aims at revisiting Graph Convolutional Neural Networks by bridging the gap between spectral and spatial design of graph convolutions. We theoretically demonstrate some equivalence of the graph convolution process regardless it is designed in the spatial or the spectral domain. The obtained general framework allows to lead a spectral analysis of the most popular ConvGNNs, explaining their performance and showing their limits. Moreover, the proposed framework is used to design new convolutions in spectral domain with a custom frequency profile while applying them in the spatial domain. We also propose a generalization of the depthwise separable convolution framework for graph convolutional networks, what allows to decrease the total number of trainable parameters by keeping the capacity of the model. To the best of our knowledge, such a framework has never been used in the GNNs literature. Our proposals are evaluated on both transductive and inductive graph learning problems. Obtained results show the relevance of the proposed method and provide one of the first experimental evidence of transferability of spectral filter coefficients from one graph to another. Our source codes are publicly available at: https://github.com/balcilar/Spectral-Designed-Graph-Convolutions
翻訳日:2022-12-19 21:05:32 公開日:2020-03-26
# 科学的発見のための深層学習に関する調査

A Survey of Deep Learning for Scientific Discovery ( http://arxiv.org/abs/2003.11755v1 )

ライセンス: Link先を確認
Maithra Raghu, Eric Schmidt(参考訳) 過去数年間、深層ニューラルネットワークの進歩によって主に引き起こされる機械学習のコア問題において、基本的なブレークスルーが見られた。 同時に、幅広い科学領域で収集されたデータ量は、サイズと複雑さの両方において劇的に増加している。 まとめると、これは科学的な設定でディープラーニングを応用するための多くのエキサイティングな機会を示唆している。 しかし、これに対する大きな課題は、どこから始めるべきかを知ることだ。 さまざまな深層学習技術の広さと多様性は、これらの方法に最も適応可能な科学的問題や、最も有望な最初のアプローチを提供する方法の特定の組み合わせを決定するのを難しくしている。 この調査では、この中心的な問題に対処することに集中し、視覚、シーケンシャル、グラフ構造化データ、関連するタスク、異なるトレーニングメソッドにまたがる多くの広く使われているディープラーニングモデルの概要と、より少ないデータでディープラーニングを使い、これらの複雑なモデルをよりよく解釈するテクニックを提供する。 また、コミュニティによって開発されたチュートリアルや研究要約、オープンソースのディープラーニングパイプライン、事前訓練済みモデルなど、完全な設計プロセスの概要、実装ヒント、リンクも含んでいます。 この調査が、さまざまな科学領域におけるディープラーニングの利用を加速させることを願っている。

Over the past few years, we have seen fundamental breakthroughs in core problems in machine learning, largely driven by advances in deep neural networks. At the same time, the amount of data collected in a wide array of scientific domains is dramatically increasing in both size and complexity. Taken together, this suggests many exciting opportunities for deep learning applications in scientific settings. But a significant challenge to this is simply knowing where to start. The sheer breadth and diversity of different deep learning techniques makes it difficult to determine what scientific problems might be most amenable to these methods, or which specific combination of methods might offer the most promising first approach. In this survey, we focus on addressing this central issue, providing an overview of many widely used deep learning models, spanning visual, sequential and graph structured data, associated tasks and different training methods, along with techniques to use deep learning with less data and better interpret these complex models --- two central considerations for many scientific use cases. We also include overviews of the full design process, implementation tips, and links to a plethora of tutorials, research summaries and open-sourced deep learning pipelines and pretrained models, developed by the community. We hope that this survey will help accelerate the use of deep learning across different scientific domains.
翻訳日:2022-12-19 21:04:39 公開日:2020-03-26
# リグレッションのためのプール型逐次アクティブラーニングにおける情報性,代表性,多様性の統合

Integrating Informativeness, Representativeness and Diversity in Pool-Based Sequential Active Learning for Regression ( http://arxiv.org/abs/2003.11786v1 )

ライセンス: Link先を確認
Ziang Liu and Dongrui Wu(参考訳) 多くの現実世界の機械学習アプリケーションでは、ラベルのないサンプルは簡単に手に入るが、ラベル付けは高価で時間がかかる。 アクティブラーニングは、このデータラベリングの労力を減らすための一般的なアプローチです。 ラベル付けに最適なサンプルを最適に選択するので、同じ数のラベル付きサンプルからより良い機械学習モデルをトレーニングすることができる。 本稿では,回帰(ALR)問題に対する能動的学習について考察する。 ALRには、情報性、代表性、多様性の3つの必須基準が提案されている。 しかし、文学における3つのアプローチはいずれも同時に検討されているものはほとんどない。 3つの基準を統合するための異なる戦略を持つ3つの新しいALRアプローチを提案する。 様々な領域における12のデータセットに対する大規模な実験は、その効果を実証した。

In many real-world machine learning applications, unlabeled samples are easy to obtain, but it is expensive and/or time-consuming to label them. Active learning is a common approach for reducing this data labeling effort. It optimally selects the best few samples to label, so that a better machine learning model can be trained from the same number of labeled samples. This paper considers active learning for regression (ALR) problems. Three essential criteria -- informativeness, representativeness, and diversity -- have been proposed for ALR. However, very few approaches in the literature have considered all three of them simultaneously. We propose three new ALR approaches, with different strategies for integrating the three criteria. Extensive experiments on 12 datasets in various domains demonstrated their effectiveness.
翻訳日:2022-12-19 21:04:17 公開日:2020-03-26
# ロボティクスのためのファッションランドマーク検出とカテゴリー分類

Fashion Landmark Detection and Category Classification for Robotics ( http://arxiv.org/abs/2003.11827v1 )

ライセンス: Link先を確認
Thomas Ziegler, Judith Butepage, Michael C. Welle, Anastasiia Varava, Tonci Novkovic and Danica Kragic(参考訳) 衣料品カテゴリーやファッションランドマークの自動識別に関する研究は, ロボット衣料品の操作, 自動衣料品選別・リサイクル, オンラインショッピングといった分野への潜在的な影響から, 最近大きな関心を集めている。 この方向の研究を促進するために、いくつかの公開および注釈付きファッションデータセットが作成されている。 本研究では,視覚に基づくロボット服の操作作業において,ファッション画像解析のために開発されたデータと技術を活用するための第一歩を踏み出す。 我々は、大規模なファッションデータセットから、ロボットラボで収集されたあまり構造化されていない小さなデータセットまでを一般化できる技術に焦点を当てる。 具体的には、弾性ワープなどのトレーニングデータ拡張手法と回転不変の畳み込みなどのモデル調整を提案し、モデルをより一般化する。 提案手法は,従来未発見のデータセットでテストした服の分類やファッションランドマークの検出に関して,最先端の美術モデルよりも優れることを示す。 さらに,実験室で収集した異なる衣服をロボットが保持する画像からなる新しいデータセットについて実験を行った。

Research on automated, image based identification of clothing categories and fashion landmarks has recently gained significant interest due to its potential impact on areas such as robotic clothing manipulation, automated clothes sorting and recycling, and online shopping. Several public and annotated fashion datasets have been created to facilitate research advances in this direction. In this work, we make the first step towards leveraging the data and techniques developed for fashion image analysis in vision-based robotic clothing manipulation tasks. We focus on techniques that can generalize from large-scale fashion datasets to less structured, small datasets collected in a robotic lab. Specifically, we propose training data augmentation methods such as elastic warping, and model adjustments such as rotation invariant convolutions to make the model generalize better. Our experiments demonstrate that our approach outperforms stateof-the art models with respect to clothing category classification and fashion landmark detection when tested on previously unseen datasets. Furthermore, we present experimental results on a new dataset composed of images where a robot holds different garments, collected in our lab.
翻訳日:2022-12-19 21:04:07 公開日:2020-03-26
# ベイズ確率モデリングの産業応用への展開

Advances in Bayesian Probabilistic Modeling for Industrial Applications ( http://arxiv.org/abs/2003.11939v1 )

ライセンス: Link先を確認
Sayan Ghosh, Piyush Pandita, Steven Atkinson, Waad Subber, Yiming Zhang, Natarajan Chennimalai Kumar, Suryarghya Chakrabarti, and Liping Wang(参考訳) 産業応用はしばしば、最適化、実験の設計、未知の物理応答のモデリングといった文脈における最先端の手法に対して悪名高い課題を提起する。 この問題は、クリーンデータの可用性の制限、利用可能な物理モデルにおける不確実性、実験に関連したロジスティックおよび計算コストの増加によって悪化する。 このようなシナリオでは、ベイズ法は、限られた資源の下で異なるタイプの不確かさを定量化することで、上記の障害を軽減する上で大きな役割を果たしてきた。 これらの手法は、通常フレームワークとしてデプロイされ、意思決定者が不確実性の下でインフォームドな選択をすることができる一方で、問題に関する物理的な直観と一致しつつ、データ形式で、通常、複数のソースから情報を取り込むことができる。 これは、特に工業的文脈においてベイズ的手法が実りをもたらす大きな利点である。 本論文はGE Researchで一貫して開発されているベイズモデリング方法論の要約である。 この手法はGEのベイズハイブリッドモデリング(GEBHM)と呼ばれ、ケネディとオハーガンの枠組みに基づく確率論的モデリング手法であり、数年間にわたって継続的にスケールアップされ工業化されてきた。 本稿では,GEBHMの手法の様々な進歩について解説し,いくつかの産業問題に対するその影響を実証する。

Industrial applications frequently pose a notorious challenge for state-of-the-art methods in the contexts of optimization, designing experiments and modeling unknown physical response. This problem is aggravated by limited availability of clean data, uncertainty in available physics-based models and additional logistic and computational expense associated with experiments. In such a scenario, Bayesian methods have played an impactful role in alleviating the aforementioned obstacles by quantifying uncertainty of different types under limited resources. These methods, usually deployed as a framework, allows decision makers to make informed choices under uncertainty while being able to incorporate information on the the fly, usually in the form of data, from multiple sources while being consistent with the physical intuition about the problem. This is a major advantage that Bayesian methods bring to fruition especially in the industrial context. This paper is a compendium of the Bayesian modeling methodology that is being consistently developed at GE Research. The methodology, called GE's Bayesian Hybrid Modeling (GEBHM), is a probabilistic modeling method, based on the Kennedy and O'Hagan framework, that has been continuously scaled-up and industrialized over several years. In this work, we explain the various advancements in GEBHM's methods and demonstrate their impact on several challenging industrial problems.
翻訳日:2022-12-19 21:03:49 公開日:2020-03-26
# 深層学習とデータ合成を用いた高次元分光データのロバスト分類

Robust Classification of High-Dimensional Spectroscopy Data Using Deep Learning and Data Synthesis ( http://arxiv.org/abs/2003.11842v1 )

ライセンス: Link先を確認
James Houston, Frank G. Glavin, Michael G. Madden(参考訳) 本稿では,高次元分光データの分類への新たなアプローチを提案する。 我々が検討する特定の課題は、試料が塩素化溶媒を含むかどうかをラマンスペクトルに基づいて同定することである。 また、トレーニングセット(負の外れ値)では表現されない外れ値サンプルの分類に対するロバスト性についても検討する。 スペクトルデータのバイナリ分類に対する局所結合ニューラルネットワーク(nn)の新たな応用を提案し,従来のアルゴリズムよりも精度が向上することを示した。 さらに, 合成訓練スペクトルを用いて, 局所連結nnアルゴリズムの精度をさらに向上させる能力を示し, オートエンコーダを用いた一クラス分類器と異常検出器の利用について検討した。 最後に、2段階の分類プロセスが二項分類パラダイムと一級分類パラダイムの代替として提示される。 このプロセスは、局所接続されたNN分類器、合成トレーニングデータの使用、およびオートエンコーダベースのアウトレイア検出器を組み合わせて、高い分類精度と負のアウトレイアの存在に対して堅牢であることを示すモデルを生成する。

This paper presents a new approach to classification of high dimensional spectroscopy data and demonstrates that it outperforms other current state-of-the art approaches. The specific task we consider is identifying whether samples contain chlorinated solvents or not, based on their Raman spectra. We also examine robustness to classification of outlier samples that are not represented in the training set (negative outliers). A novel application of a locally-connected neural network (NN) for the binary classification of spectroscopy data is proposed and demonstrated to yield improved accuracy over traditionally popular algorithms. Additionally, we present the ability to further increase the accuracy of the locally-connected NN algorithm through the use of synthetic training spectra and we investigate the use of autoencoder based one-class classifiers and outlier detectors. Finally, a two-step classification process is presented as an alternative to the binary and one-class classification paradigms. This process combines the locally-connected NN classifier, the use of synthetic training data, and an autoencoder based outlier detector to produce a model which is shown to both produce high classification accuracy, and be robust to the presence of negative outliers.
翻訳日:2022-12-19 20:57:38 公開日:2020-03-26
# t2fsnn:time-to-first-spikeコーディングによるディープスパイキングニューラルネットワーク

T2FSNN: Deep Spiking Neural Networks with Time-to-first-spike Coding ( http://arxiv.org/abs/2003.11741v1 )

ライセンス: Link先を確認
Seongsik Park, Seijoon Kim, Byunggook Na, Sungroh Yoon(参考訳) スパイキングニューラルネットワーク(SNN)は、そのエネルギー効率特性からかなりの関心を集めているが、スケーラブルなトレーニングアルゴリズムの欠如は、実践的な機械学習問題における適用性を制限している。 ディープニューラルネットワーク-SNN変換アプローチは、SNNの適用性を広げるために広く研究されている。 しかし、これまでのほとんどの研究はsnsの時空間的側面を十分に活用しておらず、スパイク数や推論遅延の点で非効率化につながった。 本稿では,カーネルベースの動的しきい値とデンドライトを用いた深部SNNへのタイム・ツー・ファースト・スパイク符号化の概念を導入し,その欠点を克服するT2FSNNを提案する。 さらに,T2FSNNの効率を高めるため,勾配に基づく最適化と早期点火手法を提案する。 その結果,提案手法は,CIFAR-100の最先端技術であるバースト符号化と比較して,推定遅延とスパイク回数を22%,1%以下に削減できることがわかった。

Spiking neural networks (SNNs) have gained considerable interest due to their energy-efficient characteristics, yet lack of a scalable training algorithm has restricted their applicability in practical machine learning problems. The deep neural network-to-SNN conversion approach has been widely studied to broaden the applicability of SNNs. Most previous studies, however, have not fully utilized spatio-temporal aspects of SNNs, which has led to inefficiency in terms of number of spikes and inference latency. In this paper, we present T2FSNN, which introduces the concept of time-to-first-spike coding into deep SNNs using the kernel-based dynamic threshold and dendrite to overcome the aforementioned drawback. In addition, we propose gradient-based optimization and early firing methods to further increase the efficiency of the T2FSNN. According to our results, the proposed methods can reduce inference latency and number of spikes to 22% and less than 1%, compared to those of burst coding, which is the state-of-the-art result on the CIFAR-100.
翻訳日:2022-12-19 20:57:18 公開日:2020-03-26
# 深層強化学習によるオピオイドアンタゴニストの改善に向けて

Towards Better Opioid Antagonists Using Deep Reinforcement Learning ( http://arxiv.org/abs/2004.04768v1 )

ライセンス: Link先を確認
Jianyuan Deng, Zhibo Yang, Yao Li, Dimitris Samaras, Fusheng Wang(参考訳) オピオイドアンタゴニストであるナロキソンは、オピオイドの流行で死因となったオピオイドの過剰摂取から命を救うために広く使われている。 しかし、ナロキソンは脳の保持能力が短く、治療効果が制限される。 優れたオピオイド・アンタゴニストの開発はオピオイドの流行対策に不可欠であり,優れたオピオイド・アンタゴニストのための巨大な化学空間内を徹底的に探索する代わりに,物理化学的および/または生物学的特性が要求される分子に対する効率的な勾配に基づく探索を可能にする強化学習を採用する。 具体的には,脳の保持能力を増強した優れたオピオイドアンタゴニストとして,潜在的な鉛化合物を発見するための深層強化学習フレームワークを実装した。 カスタマイズされた多目的報酬関数は、十分なオピオイドアンタゴニスト効果と脳保持能力の両方を持つ分子に対して生成をバイアスするように設計されている。 より詳細な評価は、この枠組みにより、医薬品発見の可能性が高い複数の望ましい性質を持つ有効で新規で実現可能な分子を同定できることを示した。

Naloxone, an opioid antagonist, has been widely used to save lives from opioid overdose, a leading cause for death in the opioid epidemic. However, naloxone has short brain retention ability, which limits its therapeutic efficacy. Developing better opioid antagonists is critical in combating the opioid epidemic.Instead of exhaustively searching in a huge chemical space for better opioid antagonists, we adopt reinforcement learning which allows efficient gradient-based search towards molecules with desired physicochemical and/or biological properties. Specifically, we implement a deep reinforcement learning framework to discover potential lead compounds as better opioid antagonists with enhanced brain retention ability. A customized multi-objective reward function is designed to bias the generation towards molecules with both sufficient opioid antagonistic effect and enhanced brain retention ability. Thorough evaluation demonstrates that with this framework, we are able to identify valid, novel and feasible molecules with multiple desired properties, which has high potential in drug discovery.
翻訳日:2022-12-19 20:56:58 公開日:2020-03-26
# SEVAのための共通知識概念認識

Common-Knowledge Concept Recognition for SEVA ( http://arxiv.org/abs/2003.11687v1 )

ライセンス: Link先を確認
Jitin Krishnan, Patrick Coronado, Hemant Purohit, and Huzefa Rangwala(参考訳) 我々は,システムエンジニアの仮想アシスタント(SEVA)のための共通知識概念認識システムを構築し,関係抽出,知識グラフ構築,質問応答などの下流タスクに使用できる。 この問題は、名前付きエンティティ抽出と同様のトークン分類タスクとして定式化される。 ドメインエキスパートとテキスト処理手法の助けを借りて、システム工学の概念を認識するためのシーケンスモデルをトレーニングするためのラベル付けスキームを慎重に定義し、単語レベルで注釈付けされたデータセットを構築する。 事前訓練された言語モデルを使用して、ラベル付き概念データセットで微調整します。 さらに,システム工学領域から略語や定義などの情報のための重要なデータセットも作成する。 最後に,これらの概念を用いた単純な知識グラフを構築した。

We build a common-knowledge concept recognition system for a Systems Engineer's Virtual Assistant (SEVA) which can be used for downstream tasks such as relation extraction, knowledge graph construction, and question-answering. The problem is formulated as a token classification task similar to named entity extraction. With the help of a domain expert and text processing methods, we construct a dataset annotated at the word-level by carefully defining a labelling scheme to train a sequence model to recognize systems engineering concepts. We use a pre-trained language model and fine-tune it with the labeled dataset of concepts. In addition, we also create some essential datasets for information such as abbreviations and definitions from the systems engineering domain. Finally, we construct a simple knowledge graph using these extracted concepts along with some hyponym relations.
翻訳日:2022-12-19 20:56:34 公開日:2020-03-26
# ネガティブなマージン: 少しの分類でマージンを理解する

Negative Margin Matters: Understanding Margin in Few-shot Classification ( http://arxiv.org/abs/2003.12060v1 )

ライセンス: Link先を確認
Bin Liu, Yue Cao, Yutong Lin, Qi Li, Zheng Zhang, Mingsheng Long, Han Hu(参考訳) 本稿では,メトリクス学習に基づく数ショット学習手法に負のマージン損失を導入する。 負のマージン損失は、通常のソフトマックス損失よりも著しく優れており、ベルやホイッスルがほとんどない3つの標準的な数ショット分類ベンチマークで最先端の精度を達成する。 これらの結果は、マージンがゼロか正かという、計量学習の分野での一般的な実践とは反対である。 数発の分類において負のマージン損失がうまく機能する理由を理解するため,実験的にも理論的にも,学習対象と異なるマージンの識別性を分析する。 負のマージンはトレーニングクラスの特徴判別性を低下させるが、同一の新規クラスのサンプルを複数のピークやクラスタに誤マッピングすることも回避できるため、新規クラスの識別にメリットがある。 コードはhttps://github.com/bl0/ negative-margin.few-shotで入手できる。

This paper introduces a negative margin loss to metric learning based few-shot learning methods. The negative margin loss significantly outperforms regular softmax loss, and achieves state-of-the-art accuracy on three standard few-shot classification benchmarks with few bells and whistles. These results are contrary to the common practice in the metric learning field, that the margin is zero or positive. To understand why the negative margin loss performs well for the few-shot classification, we analyze the discriminability of learned features w.r.t different margins for training and novel classes, both empirically and theoretically. We find that although negative margin reduces the feature discriminability for training classes, it may also avoid falsely mapping samples of the same novel class to multiple peaks or clusters, and thus benefit the discrimination of novel classes. Code is available at https://github.com/bl0/negative-margin.few-shot.
翻訳日:2022-12-19 20:55:39 公開日:2020-03-26
# 重み付き二部グラフの最大被覆に対する信念伝播とテキスト要約への応用

Belief Propagation for Maximum Coverage on Weighted Bipartite Graph and Application to Text Summarization ( http://arxiv.org/abs/2004.08301v1 )

ライセンス: Link先を確認
Hiroki Kitano, Koujin Takeda(参考訳) 最大カバレッジ問題の観点からテキスト要約について検討する。 グラフ理論では、テキスト要約のタスクは重み付きノードを持つ二部グラフの最大カバレッジ問題と見なされる。 近年,統計力学の考え方を用いて,非重み付けグラフの最大カバレッジに対する信念伝達に基づくアルゴリズムが提案されている。 テキスト要約のための重み付きグラフに一般化する。 次に,重み付き二正則乱数グラフにアルゴリズムを適用し,最大被覆性能の検証を行う。 また、オープンテキストデータセットにおける実文書を表す二部グラフに適用し、テキスト要約の性能を確認する。 その結果,本アルゴリズムはテキスト要約の設定において,欲求型アルゴリズムよりも優れた性能を示した。

We study text summarization from the viewpoint of maximum coverage problem. In graph theory, the task of text summarization is regarded as maximum coverage problem on bipartite graph with weighted nodes. In recent study, belief-propagation based algorithm for maximum coverage on unweighted graph was proposed using the idea of statistical mechanics. We generalize it to weighted graph for text summarization. Then we apply our algorithm to weighted biregular random graph for verification of maximum coverage performance. We also apply it to bipartite graph representing real document in open text dataset, and check the performance of text summarization. As a result, our algorithm exhibits better performance than greedy-type algorithm in some setting of text summarization.
翻訳日:2022-12-19 20:54:49 公開日:2020-03-26