このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20210920となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 量子コンピュータにおける非マルコフダイナミクスのキャプチャ Capturing Non-Markovian Dynamics on Near-Term Quantum Computers ( http://arxiv.org/abs/2005.00029v2 ) ライセンス: Link先を確認 | Kade Head-Marsden, Stefan Krastanov, David A. Mazziotti and Prineha Narang | (参考訳) 量子ハードウェアの急速な進歩により、複雑な多体システムを記述する新しい量子アルゴリズムへの関心が高まり、「有用な量子優位性」という未解決の目標が求められている。
驚くべきことに、オープン量子システム(OQS)の処理のための量子アルゴリズムは、非ユニタリ進化をユニタリゲートの枠組みにマッピングするという固有の課題のために、まだ未発見のままである。
オープンシステムの進化は、重要な環境自由度を組み込むために、新しい効果的なシステムにダイレーションを一元的に必要とします。
この文脈では、リンドブラッドの軌道の集合に基づくOQSにおける非マルコフ力学を扱い、Szを呼び起こす新しい量子アルゴリズムを提示し、検証する。
-Nagy Dilation theorem。
ここでは,量子光学および駆動型量子システム研究に関連する強結合とデチューン状態におけるjaynes-cummingsモデルに基づくアルゴリズムを実証する。
このアルゴリズムは、ノイズ量子デバイス上の非マルコフ力学の一般化モデリングに向けた重要なステップであり、幅広い種類のダイナミクスを捕捉し、OQS問題の新たな方向性を開く。 With the rapid progress in quantum hardware, there has been an increased interest in new quantum algorithms to describe complex many-body systems searching for the still-elusive goal of 'useful quantum advantage'. Surprisingly, quantum algorithms for the treatment of open quantum systems (OQSs) have remained under-explored, in part due to the inherent challenges of mapping non-unitary evolution into the framework of unitary gates. Evolving an open system unitarily necessitates dilation into a new effective system to incorporate critical environmental degrees of freedom. In this context, we present and validate a new quantum algorithm to treat non-Markovian dynamics in OQSs built on the Ensemble of Lindblad's Trajectories approach, invoking the Sz.-Nagy dilation theorem. Here we demonstrate our algorithm on the Jaynes-Cummings model in the strong coupling and detuned regimes, relevant in quantum optics and driven quantum systems studies. This algorithm, a key step towards generalized modeling of non-Markovian dynamics on a noisy-quantum device, captures a broad class of dynamics and opens up a new direction in OQS problems. | 翻訳日:2023-05-21 17:05:52 公開日:2021-09-20 |
# ノイズによる量子電池の高速充電 Fast charging of quantum battery assisted by noise ( http://arxiv.org/abs/2005.12859v2 ) ライセンス: Link先を確認 | Srijon Ghosh, Titas Chanda, Shiladitya Mal, Aditi Sen De | (参考訳) 局所マルコフ性および非マルコフ性雑音に曝露した量子電池の性能について検討する。
バッテリーは当初、開放境界条件を持つ1次元横方向のxy$モデルの基底状態として準備され、局所ボソニック貯水池との相互作用を通じて充電(放電)される。
過渡的な状態下では、量子電池(QB)はエネルギーを高速に保存でき、エルゴトロピーによって定量化される最大抽出可能な作業が、システムにノイズがない場合と比較して、局所位相フリップまたはビットフリップマルコフ雑音の影響を受けやすいことを示す。
帯電および放電の両過程において,全てのスピンが過渡的および定常的状態のいずれにおいても非マルコフオーミック浴の影響を受ければ,ワークアウトプットおよびエルゴトロピーの増大が報告され,QBにおけるデコヒーレンスに対する直感的優位性を示す。
マルコフと非マルコフの場合の両方において、作業出力とエルゴトロピーの最大化につながるシステムパラメータと対応するノイズモデルを特定する。
また, 初期状態が適度な温度で準備されても, 騒音による利点は持続することを示した。 We investigate the performance of a quantum battery exposed to local Markovian and non-Markovian dephasing noises. The battery is initially prepared as the ground state of a one-dimensional transverse $XY$ model with open boundary condition and is charged (discharged) via interactions with local bosonic reservoirs. We show that in the transient regime, quantum battery (QB) can store energy faster and has a higher maximum extractable work, quantified via ergotropy, when it is affected by local phase-flip or bit-flip Markovian noise compared to the case when there is no noise in the system. In both the charging and discharging processes, we report the enhancement in work-output as well as in ergotropy when all the spins are affected by non-Markovian Ohmic bath both in the transient and the steady-state regimes, thereby showing a counter-intuitive advantage of decoherence in QB. Both in Markovian and non-Markovian cases, we identify the system parameters and the corresponding noise models which lead to maximum enhancement of work-output and ergotropy. Moreover, we show that the benefit due to noise persists even with the initial state being prepared at a moderate temperature. | 翻訳日:2023-05-18 07:34:06 公開日:2021-09-20 |
# poliwam:whatsapp messengerにおける政治的議論の大規模なコーパスの探索 PoliWAM: An Exploration of a Large Scale Corpus of Political Discussions on WhatsApp Messenger ( http://arxiv.org/abs/2010.13263v2 ) ライセンス: Link先を確認 | Vivek Srivastava, Mayank Singh | (参考訳) whatsapp messengerは、現在180カ国以上、20億人の人々にリーチし、情報を広める最も人気のあるチャンネルの1つだ。
広く使われているため、社会的なイベントにおいて、大衆の間で情報伝達の最も人気のあるメディアの1つとなっている。
近年、いくつかの国が政治的・社会的キャンペーンにその効果と影響を目撃している。
我々は選挙運動中の情報とプロパガンダの流れを観察する。
本論文では、インド総選挙2019の前後で共有された281のグループ、31,078のユニークユーザ、223,404のメッセージからなるWhatsAppから収集された高品質な大規模ユーザ生成データセットについて検討する。
生の騒々しいユーザー生成データに加えて、WhatsAppの政治キャンペーンのさまざまな側面を理解するのに役立つ3,848件の詳細な注釈付きデータセットも提示する。
我々は,同時代の調査的・センセーショナルなニュース記事に対する補完的洞察をいくつか提示する。
探索的データ分析と実験は、いくつかのエキサイティングな結果と将来の研究機会を示している。
再現可能な研究を容易にするために、匿名化されたデータセットをパブリックドメインで利用可能にする。 WhatsApp Messenger is one of the most popular channels for spreading information with a current reach of more than 180 countries and 2 billion people. Its widespread usage has made it one of the most popular media for information propagation among the masses during any socially engaging event. In the recent past, several countries have witnessed its effectiveness and influence in political and social campaigns. We observe a high surge in information and propaganda flow during election campaigning. In this paper, we explore a high-quality large-scale user-generated dataset curated from WhatsApp comprising of 281 groups, 31,078 unique users, and 223,404 messages shared before, during, and after the Indian General Elections 2019, encompassing all major Indian political parties and leaders. In addition to the raw noisy user-generated data, we present a fine-grained annotated dataset of 3,848 messages that will be useful to understand the various dimensions of WhatsApp political campaigning. We present several complementary insights into the investigative and sensational news stories from the same period. Exploratory data analysis and experiments showcase several exciting results and future research opportunities. To facilitate reproducible research, we make the anonymized datasets available in the public domain. | 翻訳日:2023-04-27 11:36:15 公開日:2021-09-20 |
# 量子グラフにおける隠れた層の発見 Discovering hidden layers in quantum graphs ( http://arxiv.org/abs/2012.01454v4 ) ライセンス: Link先を確認 | {\L}ukasz G. Gajewski, Julian Sienkiewicz, Janusz A. Ho{\l}yst | (参考訳) 複雑なネットワークに隠された層を見つけることは、現代科学において重要で非自明な問題である。
我々は、量子グラフの枠組みを探求し、多層系の隠れた部分が存在するかどうか、それゆえその範囲、すなわち未知の層がいくつあるかを決定する。
すべての情報がネットワークの単一層上の波動伝播の時間的進化であると仮定すると、その波動を単に観察することによって隠されていることを明らかにすることができる。
合成および実世界のネットワークにおいて、波動力学の周波数スペクトルが追加周波数ピークの形で異なる特徴を表現できることを示す。
これらのピークは伝播に関与する層数に依存しており、それによってその数の抽出が可能となる。
実際、十分な観測時間で、行正規化隣接行列スペクトルを完全に再構成できることが示される。
提案手法を,マルチ層システム,ウェーブパケットシグネチャ法のために改良した機械学習手法と比較した。 Finding hidden layers in complex networks is an important and a non-trivial problem in modern science. We explore the framework of quantum graphs to determine whether concealed parts of a multi-layer system exist and if so then what is their extent, i.e., how many unknown layers there are. Assuming that all information available is the time evolution of a wave propagation on a single layer of a network it is indeed possible to uncover that which is hidden by merely observing the dynamics. We present evidence on both synthetic and real-world networks that the frequency spectrum of the wave dynamics can express distinct features in the form of additional frequency peaks. These peaks exhibit dependence on the number of layers taking part in the propagation and thus allowing for the extraction of said number. We show that in fact, with sufficient observation time, one can fully reconstruct the row-normalised adjacency matrix spectrum. We compare our propositions to a machine learning approach using a modified, for the purposes of multi-layer systems, wave packet signature method. | 翻訳日:2023-04-22 07:37:50 公開日:2021-09-20 |
# 実用的な量子鍵分散システムのための高性能リコンシリエーション High performance reconciliation for practical quantum key distribution systems ( http://arxiv.org/abs/2101.12565v2 ) ライセンス: Link先を確認 | Hao-Kun Mao, Qiong Li, Peng-Lei Hao, Bassem Abd-El-Atty, Abdullah M. Iliyasu | (参考訳) 量子鍵分布(QKD)は、量子力学原理に基づくセキュアな通信技術である。
QKDシステムのセキュアな鍵レートを改善するために、主に効率の向上に焦点を当てた和解に関する研究がほとんどである。
QKDシステムの性能向上に伴い、研究の優先度はスループットと効率の両方の改善に移行した。
本稿では,高スループット指向フレームワークと統合最適化指向スキームを含むカスケード和解の高性能解を提案する。
完全活用された計算資源とストレージ資源、効果的な通信遅延処理、統合最適化指向パラメータ設定等により、全体的な性能が向上した。
実験の結果,1.038の効率で最大570Mbpsのスループットを達成した。
さらに、実際のデータセットのスループットは、組み込みプラットフォームでも最大86Mbpsに達することができた。
さらに、我々のソリューションは、変動する通信遅延と量子ビット誤り率(QBER)に優れた適応性を提供する。
本研究により,CPUプラットフォームの性能低下(低消費電力とコスト効率)は,既存のQKDシステムと短期的なQKDシステムの和解に十分であることがわかった。 Quantum key distribution (QKD) is a promising technique for secure communication based on quantum mechanical principles. To improve the secure key rate of a QKD system, most studies on reconciliation primarily focused on improving the efficiency. With the increasing performance of QKD systems, the research priority has shifted to the improvement of both throughput and efficiency. In this paper, we propose a high performance solution of Cascade reconciliation, including a high-throughput-oriented framework and an integrated-optimization-oriented scheme. Benefiting from the fully utilizing computation and storage resources, effectively dealing with communication delays, the integrated-optimization-oriented parameters setting, etc., an excellent overall performance was achieved. Experimental results showed that, the throughput of up to 570Mbps with an efficiency of 1.038 was achieved, which, to our knowledge, was more than four times faster than any throughput previously demonstrated. Furthermore, throughputs on real data sets were capable of reaching up to 86Mbps even on embedded platforms. Additionally, our solution offers good adaptability to the fluctuating communication delay and quantum bit error rate (QBER). Based on our study, low performance (i.e. low power-consumption and cost-effective) CPU platforms will be sufficient for reconciliation in the existing and near-term QKD systems. | 翻訳日:2023-04-13 09:02:57 公開日:2021-09-20 |
# 量子回路の対称性強化位相 Symmetry enriched phases of quantum circuits ( http://arxiv.org/abs/2102.09164v2 ) ライセンス: Link先を確認 | Yimu Bao, Soonwon Choi, Ehud Altman | (参考訳) ランダムなユニタリゲートと局所的な測定対象からなる量子回路は、体積法則の絡み合った状態から領域法則の状態へ、測定速度によって調整された位相遷移を経ることが示されている。
より広い視点から見ると、これらの回路は出力における量子多体状態の新しいアンサンブルを生成する。
本稿では,このアンサンブルを特徴付け,定常状態として確立可能な位相を分類する。
対称性は、回路要素に課される物理対称性がそれ自体が可能な位相を定めていないという非標準的役割を担っている。
代わりに、このアンサンブルに付随する動的対称性によって拡張され、拡大対称性を形成する。
したがって、平衡相が無く、物理回路の対称性だけでは支持できなかった位相を予測できる。
以下の例を挙げる。
まず、量子ビット鎖上の回路の位相を$\mathbb{z}_2$対称性で分類する。
数値シミュレーションと相関した1つの顕著な予測は、1次元に異なるボリュームロー位相が存在することである。
さらに、拡大対称性により、このシステムは、回路対称性と動的置換対称性の組み合わせによって保護される位相的領域法相を原則として支持できると主張する。
第二に、フェルミオンパリティのみを保存するガウス型フェルミオン回路を考える。
ここで拡大された対称性は、適度な測定速度でのU(1)$臨界相と、Kosterlitz-Thouless の領域-法則相への遷移をもたらす。
我々は、量子情報をエンコードする能力の観点から、異なる位相の解釈についてコメントする。
我々は、エドワーズとアンダーソンが開拓したスピングラスの理論と、回路アンサンブルの量子性に起因する重要な違いとの密接な類似性について議論する。 Quantum circuits consisting of random unitary gates and subject to local measurements have been shown to undergo a phase transition, tuned by the rate of measurement, from a state with volume-law entanglement to an area-law state. From a broader perspective, these circuits generate a novel ensemble of quantum many-body states at their output. In this paper, we characterize this ensemble and classify the phases that can be established as steady states. Symmetry plays a nonstandard role in that the physical symmetry imposed on the circuit elements does not on its own dictate the possible phases. Instead, it is extended by dynamical symmetries associated with this ensemble to form an enlarged symmetry. Thus, we predict phases that have no equilibrium counterpart and could not have been supported by the physical circuit symmetry alone. We give the following examples. First, we classify the phases of a circuit operating on qubit chains with $\mathbb{Z}_2$ symmetry. One striking prediction, corroborated with numerical simulation, is the existence of distinct volume-law phases in one dimension, which nonetheless support true long-range order. We furthermore argue that owing to the enlarged symmetry, this system can in principle support a topological area-law phase, protected by the combination of the circuit symmetry and a dynamical permutation symmetry. Second, we consider a Gaussian fermionic circuit that only conserves fermion parity. Here the enlarged symmetry gives rise to a $U(1)$ critical phase at moderate measurement rates and a Kosterlitz-Thouless transition to area-law phases. We comment on the interpretation of the different phases in terms of the capacity to encode quantum information. We discuss close analogies to the theory of spin glasses pioneered by Edwards and Anderson as well as crucial differences that stem from the quantum nature of the circuit ensemble. | 翻訳日:2023-04-10 20:18:29 公開日:2021-09-20 |
# 局所ハミルトニアンのヌル空間からの領域ロー絡み合い固有状態 Area-law entangled eigenstates from nullspaces of local Hamiltonians ( http://arxiv.org/abs/2102.13633v2 ) ライセンス: Link先を確認 | Volker Karle, Maksym Serbyn, Alexios A. Michailidis | (参考訳) 量子多体系の固有状態熱化は、高エネルギーの固有状態がランダムベクトルと似ていることを示唆している。
少なくともいくつかの固有状態が非熱的であるような同定システムは注目すべき問題である。
本研究では、零空間を持つ相互作用量子モデル -- 無限温度に対応するゼロエネルギー(ゼロモード)における固有状態の退化部分空間- が非熱的固有状態への経路を与えることを示す。
本研究では,ある局所ハミルトニアンのクラスに対して行列積状態として表現できるゼロモードの存在を解析的に示す。
より一般的な場合、我々は部分空間解離アルゴリズムを用いて、絡み合いエントロピーの増加を特徴とするゼロモードの直交基底を生成する。
広パラメータ系における最小絡み付きゼロモードの領域内エンタングルメントスケーリングの証拠を示し、ヌル空間を持つすべての局所ハミルトニアンは、領域内エンタングルメントスケーリングを持つゼロモードを特徴付けると推測され、強い熱化仮説を破る。
最後に、制約付きモデルでゼロモードを見つけ、実験的なシグネチャを観察するためのセットアップを提案する。 Eigenstate thermalization in quantum many-body systems implies that eigenstates at high energy are similar to random vectors. Identifying systems where at least some eigenstates are non-thermal is an outstanding question. In this work we show that interacting quantum models that have a nullspace -- a degenerate subspace of eigenstates at zero energy (zero modes), which corresponds to infinite temperature, provide a route to non-thermal eigenstates. We analytically show the existence of a zero mode which can be represented as a matrix product state for a certain class of local Hamiltonians. In the more general case we use a subspace disentangling algorithm to generate an orthogonal basis of zero modes characterized by increasing entanglement entropy. We show evidence for an area-law entanglement scaling of the least entangled zero mode in the broad parameter regime, leading to a conjecture that all local Hamiltonians with the nullspace feature zero modes with area-law entanglement scaling, and as such, break the strong thermalization hypothesis. Finally, we find zero-modes in constrained models and propose setup for observing their experimental signatures. | 翻訳日:2023-04-09 20:34:24 公開日:2021-09-20 |
# 量子光を用いた無秩序強化量子プロセストモグラフィ Disorder Enhanced Quantum Process Tomography using Quantum Light ( http://arxiv.org/abs/2103.00696v2 ) ライセンス: Link先を確認 | Max Marcus | (参考訳) 量子プロセストモグラフィーは、理論化学に完全には翻訳されていない最も重要なパラダイムシフトである。
量子情報科学において長年確立されてきたその基本的な強さは、多くの(すべてではないとしても)化学プロセスの中心にある量子力学過程に関する豊富な情報を提供する。
しかし、その複雑さのため、実際の化学系への応用は実験の範囲を超えている。
さらに, 実験的, 理論的不正確さによる誤認や障害は, 適用可能性の障害として長い間考えられてきた。
本稿では,量子プロセストモグラフィにおける量子光の利用に関する研究の最初の結果を示す。
おもちゃモデルを用い, 数値シミュレーションを理論予測と比較することにより, 非コンベンション光を用いる可能性について検討した。
しかし、障害が必要な場合、プロセストモグラフィに適した量子光を使用し、従来の知識とは対照的に、乱れは順序付けされたシステムよりも結果が正確になる。 Quantum process tomography might be the most important paradigm shift which has yet to be translated fully into theoretical chemistry. Its fundamental strength, long established in quantum information science, offers a wealth of information about quantum dynamic processes which lie at the heart of many (if not all) chemical processes. However, due to its complexity its application to real chemical systems is currently beyond experimental reach. Furthermore, it is susceptible to errors due to experimental and theoretical inaccuracies and disorder has long been thought to be an obstacle in its applicability. Here, I present the first results of a study into the use of quantum light for quantum process tomography. By using a toy model and comparing numerical simulations to theoretical predictions the possible enhancement of using non-conventional light is studied. It is found, however, that disorder is necessary make the use of quantum light suitable for process tomography and that, in contrast to conventional wisdom, disorder can make the results more accurate than in an ordered system. | 翻訳日:2023-04-09 14:50:04 公開日:2021-09-20 |
# 埋込み炭化ケイ素における希薄スピンコヒーレンスの温度依存性 Temperature dependence of divacancy spin coherence in implanted silicon carbide ( http://arxiv.org/abs/2104.12089v3 ) ライセンス: Link先を確認 | Wu-Xi Lin, Fei-Fei Yan, Qiang Li, Jun-feng Wang, Zhi-He Hao, Ji-Yang Zhou, Hao Li, Li-Xing You, Jin-Shi Xu, Chuan-Feng Li, and Guang-Can Guo | (参考訳) 炭化ケイ素(SiC)のスピン欠陥は、量子情報処理に有用な優れた光学特性とスピン特性により、関心が高まりつつある。
本稿では, 4\emph{H}-SiC を注入した場合の空孔欠陥のスピン特性の温度依存性を系統的に検討する。
ゼロフィールド分割パラメータ$d$,不均質なデファスメント時間$t_2^{*}$,コヒーレンス時間$t_2$,脱分極時間$t_1$を5~300kの範囲で広範囲に探索し,異なる窒素分子イオンフルエンス (\rm {n_2}^{+}$, $1\times 10^{14}/\rm cm^{2}$, $1\times 10^{13}/\rm cm^{2}$) を注入した2つの試料について,スピン特性が類似した温度依存性を持つことを示す。
それでも、低いイオンフルエンスで注入されたサンプルは、より長いT_{2}$とT_{1}$である。
観測された温度依存ダイナミクスの理論的説明を提供する。
本研究は, 固体系におけるスピン特性の温度依存性の理解を促進し, 成熟半導体材料に基づく広い温度範囲温度計の構築に有用である。 Spin defects in silicon carbide (SiC) have attracted increasing interest due to their excellent optical and spin properties, which are useful in quantum information processing. In this paper, we systematically investigate the temperature dependence of the spin properties of divacancy defects in implanted 4\emph{H}-SiC. The zero-field splitting parameter $D$, the inhomogeneous dephasing time $T_2^{*}$, the coherence time $T_2$, and the depolarization time $T_1$ are extensively explored in a temperature range from 5 to 300 K. Two samples implanted with different nitrogen molecule ion fluences ($\rm {N_2}^{+}$, $1\times 10^{14}/\rm cm^{2}$ and $1\times 10^{13}/\rm cm^{2}$) are investigated, whose spin properties are shown to have similar temperature-dependent behaviors. Still, the sample implanted with a lower ion fluence has longer $T_{2}$ and $T_{1}$. We provide possible theoretical explanations for the observed temperature-dependent dynamics. Our work promotes the understanding of the temperature dependence of spin properties in solid-state systems, which can be helpful for constructing wide temperature-range thermometers based on the mature semiconductor material. | 翻訳日:2023-04-02 11:15:02 公開日:2021-09-20 |
# NFT革命のマッピング:市場動向、貿易ネットワーク、視覚的特徴 Mapping the NFT revolution: market trends, trade networks and visual features ( http://arxiv.org/abs/2106.00647v4 ) ライセンス: Link先を確認 | Matthieu Nadini, Laura Alessandretti, Flavio Di Giacinto, Mauro Martino, Luca Maria Aiello, Andrea Baronchelli | (参考訳) Non Fungible Tokens (NFT) は、アート、コレクション、ゲーム内アイテムなどのオブジェクトを表すデジタル資産である。
通常は暗号通貨で取引され、一般的にブロックチェーン上のスマートコントラクト内にエンコードされる。
NFTに対する大衆の関心は、2021年に市場が記録的な売上を経験したときに爆発的に高まっているが、市場の全体構造と進化についてはほとんど知られていない。
ここでは、主にEthereumとWAXブロックチェーンから得られた2017年6月23日から2021年4月27日までの470万NFTの6100万取引に関するデータを分析する。
まず、市場の統計特性を特徴付ける。
第二に、インタラクションのネットワークを構築し、トレーダーが通常、類似したオブジェクトに関連するNFTを専門とし、同じ種類のオブジェクトを交換する他のトレーダーと密なクラスタを形成することを示す。
第3に,NFTに関連付けられたオブジェクトを視覚的特徴に応じてクラスタリングし,コレクションが視覚的に均質なオブジェクトを含むことを示す。
最後に、単純な機械学習アルゴリズムを用いてNFT販売の予測可能性を調査し、販売履歴と第2に、視覚的特徴が価格の予測因子であることを示す。
我々はこれらの発見がNFTの生産、採用、取引に関するさらなる研究を異なる文脈で促進することを期待している。 Non Fungible Tokens (NFTs) are digital assets that represent objects like art, collectible, and in-game items. They are traded online, often with cryptocurrency, and are generally encoded within smart contracts on a blockchain. Public attention towards NFTs has exploded in 2021, when their market has experienced record sales, but little is known about the overall structure and evolution of its market. Here, we analyse data concerning 6.1 million trades of 4.7 million NFTs between June 23, 2017 and April 27, 2021, obtained primarily from Ethereum and WAX blockchains. First, we characterize statistical properties of the market. Second, we build the network of interactions, show that traders typically specialize on NFTs associated with similar objects and form tight clusters with other traders that exchange the same kind of objects. Third, we cluster objects associated to NFTs according to their visual features and show that collections contain visually homogeneous objects. Finally, we investigate the predictability of NFT sales using simple machine learning algorithms and find that sale history and, secondarily, visual features are good predictors for price. We anticipate that these findings will stimulate further research on NFT production, adoption, and trading in different contexts. | 翻訳日:2023-03-28 03:29:27 公開日:2021-09-20 |
# カメラを用いた量子ノイズ検出による低光シャドーイメージング Low-Light Shadow Imaging using Quantum-Noise Detection with a Camera ( http://arxiv.org/abs/2106.00785v2 ) ライセンス: Link先を確認 | Savannah L. Cuozzo, Pratik J. Barge, Nikunjkumar Prajapati, Narayan Bhusal, Hwang Lee, Lior Cohen, Irina Novikova, Eugeniy E. Mikhailov | (参考訳) 不透明物体との相互作用後の量子ノイズ修正に基づくイメージング手法を実験的に実証する。
ホモダインのような検出手法を用いることで、カメラの暗騒音による有害な効果を排除し、弱い照明を必要とする撮像シナリオに対して特に魅力的となる。
ここでは, 圧縮真空で照らされた物体の像を, 合計800光子を用いて再構成し, 平均1フレーム当たり1光トン以下で再現する。 We experimentally demonstrate an imaging technique based on quantum noise modification after interaction with an opaque object. By using a homodyne-like detection scheme, we eliminate the detrimental effect of the camera's dark noise, making this approach particularly attractive for imaging scenarios that require weak illumination. Here, we reconstruct the image of an object illuminated with a squeezed vacuum using a total of 800 photons, utilizing less than one photon per frame on average. | 翻訳日:2023-03-28 03:21:04 公開日:2021-09-20 |
# 反強磁性長距離相互作用を持つ量子スピン模型の動的相転移 Dynamical phase transitions in quantum spin models with antiferromagnetic long-range interactions ( http://arxiv.org/abs/2106.05282v2 ) ライセンス: Link先を確認 | Jad C. Halimeh, Maarten Van Damme, Lingzhen Guo, Johannes Lang, Philipp Hauke | (参考訳) 近年,超低温ガスや凝縮物研究の最前線では,動的相転移と非平衡臨界性が注目されている。
普遍性とスケーリングは平衡量子多体物理学において確立された話題であるのに対し、そのような概念の非平衡拡張はいまだに望んでいない。
正対角化と一様マートリクス積状態における時間依存性の変動原理を用いて、反強磁性力法則の相互作用を持つ横場イジング鎖における局所順序パラメータとロシミット戻り率の時間発展を計算し、対応するリッチな動的位相図をマッピングする。
強磁性の長距離相互作用の場合, 規則相内の小さなクエンチで発生するリターン率のカスプは, 反強磁性の場合において, シミュレーションのアクセス可能な時間尺度には含まれず, 長距離相互作用は出現に十分な条件ではないことを示す。
反強磁性の場合、より弱いドメイン壁結合を示す。
量子臨界点を横断する待ち行列に対して、 \textit{regular} カスプは戻り値に現れ、局所順序パラメータ変化符号に接続し、動的相転移の2つの主要な概念の一致を示す。
以上の結果から, 逐次相内のクエンチ後の帰納率における異常なカスプの出現に必要な条件は, 位相的に自明な局所スピンフリップがクエンチハミルトニアンスペクトルのエネルギー的に支配的な励起であることがわかった。
この知見は, 現代のイオン閉じ込め装置で容易にアクセス可能であり, 関連する実験的考察を概説する。 In recent years, dynamical phase transitions and out-of-equilibrium criticality have been at the forefront of ultracold gases and condensed matter research. Whereas universality and scaling are established topics in equilibrium quantum many-body physics, out-of-equilibrium extensions of such concepts still leave much to be desired. Using exact diagonalization and the time-dependent variational principle in uniform martrix product states, we calculate the time evolution of the local order parameter and Loschmidt return rate in transverse-field Ising chains with antiferromagnetic power law-decaying interactions, and map out the corresponding rich dynamical phase diagram. \textit{Anomalous} cusps in the return rate, which are ubiquitous at small quenches within the ordered phase in the case of ferromagnetic long-range interactions, are absent within the accessible timescales of our simulations in the antiferromagnetic case, showing that long-range interactions are not a sufficient condition for their appearance. We attribute this to much weaker domain-wall binding in the antiferromagnetic case. For quenches across the quantum critical point, \textit{regular} cusps appear in the return rate and connect to the local order parameter changing sign, indicating the concurrence of two major concepts of dynamical phase transitions. Our results consolidate conclusions of previous works that a necessary condition for the appearance of anomalous cusps in the return rate after quenches within the ordered phase is for topologically trivial local spin flips to be the energetically dominant excitations in the spectrum of the quench Hamiltonian. Our findings are readily accessible in modern trapped-ion setups, and we outline the associated experimental considerations. | 翻訳日:2023-03-27 04:10:20 公開日:2021-09-20 |
# 光量子状態の生成・操作・キャラクタリゼーション入門 Introduction to generation, manipulation and characterization of optical quantum states ( http://arxiv.org/abs/2107.02519v2 ) ライセンス: Link先を確認 | Stefano Olivares | (参考訳) なぜ視覚を記述するのに量子化が必要なのか?
電磁界の二次作用素とは何か?
測定することは可能ですか?
特徴関数は何に役立ちますか?
この簡単なチュートリアルでは、光量子状態の生成、操作、キャラクタリゼーション、および香港-ウー-マンデル干渉計や連続変数量子テレポーテーションのような実験に関わる主受動(ビームスプリッター)およびアクティブ(スキーザー)デバイスを記述するのに必要な理論的ツールを提供する。
また、演算子順序付けの概念と、$p$-ordered characteristic関数によるシステム記述についても紹介する。
次に,準確率分布に着目し,特にウィグナー関数の辺数と二次作用素測定の結果との関係について考察する。
最後に,非単位量子効率の存在下での量子光学状態を特徴付ける手段として,二次作用素とホモダイントモグラフィを測定するために,平衡ホモダイン検出を導入する。 Why do we need quantization to describe vision? What are the quadrature operators of the electromagnetic field? Is it possible to measure them? What are the characteristic functions useful for? In this brief tutorial we provide the theoretical tools needed to describe the generation, manipulation and characterization of optical quantum states and of the main passive (beam splitters) and active (squeezers) devices involved in experiments, such as the Hong-Ou-Mandel interferometer and the continuous-variable quantum teleportation. We also introduce the concept of operator ordering and the description of a system by means of the $p$-ordered characteristic functions. Then we focus on the quasi-probability distributions and, in particular, on the relation between the marginals of the Wigner function and the outcomes of the quadrature operator measurement. Finally, we introduce the balanced homodyne detection to measure the quadrature operator and the homodyne tomography as a tool for characterizing quantum optical states also in the presence of non-unit quantum efficiency. | 翻訳日:2023-03-23 06:49:53 公開日:2021-09-20 |
# ハイブリッド原子-オプトメカニクス系における時間結晶とカオス Time crystal and chaos in the hybrid atom-optomechanics system ( http://arxiv.org/abs/2109.09278v1 ) ライセンス: Link先を確認 | Xingran Xu and Tanjung Krisnanda and Timothy C. H. Liew | (参考訳) 我々は、異なるレーザーによって誘導される2つの異なる周期ポテンシャル中の原子を、放射圧によって機械膜に結合する。
原子は本質的に光子を吸収または放出できる2段階の系であるが、その位置と運動量のダイナミクスは古典的に扱われる。
一方, 膜, 空洞場, 内在性二層原子は量子力学的に処理される。
これら3つの系の平均励起は, 結合の強さによって安定, 周期的振動, カオス状態にすることができることを示す。
本研究では, 規則相, 時間結晶相, カオス相を定義し, 電界-膜および電界-原子結合強度を操作することで三相を実現できる相図を示す。
異なる位相における第1次および第2次相関関数も計算され、実験で観察できる。
本稿では, 確立された原子オプトメカニクス系において, 時間結晶とカオス相を生成・調整する新しい方法を提案する。 We consider atoms in two different periodic potentials induced by different lasers, one of which is coupled to a mechanical membrane via radiation pressure force. The atoms are intrinsically two-level systems that can absorb or emit photons, but the dynamics of their position and momentum are treated classically. On the other hand, the membrane, the cavity field, and the intrinsic two-level atoms are treated quantum mechanically. We show that the mean excitation of the three systems can be stable, periodically oscillating, or in a chaotic state depending on the strength of the coupling between them. We define regular, time crystal, and chaotic phases, and present a phase diagram where the three phases can be achieved by manipulating the field-membrane and field-atom coupling strengths. The first and second-order correlation functions in different phases are also calculated, which can be observed in experiments. Our proposal offers a new way to generate and tune time crystal and chaotic phases in a well-established atom-optomechanics system. | 翻訳日:2023-03-14 05:43:43 公開日:2021-09-20 |
# 改良型進化的クラスタリングアルゴリズムスターを用いた新型コロナウイルスの新規クラスター検出と病状の検討 A Novel Cluster Detection of COVID-19 Patients and Medical Disease Conditions Using Improved Evolutionary Clustering Algorithm Star ( http://arxiv.org/abs/2109.09492v1 ) ライセンス: Link先を確認 | Bryar A. Hassan, Tarik A. Rashid, Hozan K. Hamarashid | (参考訳) サンプル数の増加に伴い、新型コロナウイルスと医療疾患のデータサンプルの手動クラスタリングは時間がかかり、高度に熟練した労働を必要とする。
近年,医療データセットのクラスタリングにいくつかのアルゴリズムが用いられているが,これらの定義は医学疾患の分類や分析には有効ではない。
進化的クラスタリングアルゴリズムの使用は、これらの病気を効果的にクラスタリングするのに役立ちます。
この推定に基づいて、我々は現在の進化的クラスタリングアルゴリズムであるiECA*を3つの方法で改善した。
(i)肘法を用いて、クラスタの正確な数を求めること。
(ii)多変量及びドメイン理論データセットに適用するためのieca*の一部としてのデータのクリーニング及び処理
3)iECA*を用いて、新型コロナウイルスおよび医療疾患データセットのクラスタリングを行う。
評価基準,統計的ベンチマーク,性能評価フレームワークを用いて,iECA*の最先端アルゴリズムに対する性能評価実験を行った。
結果は3つの主要な所見を示した。
まず,iECA*は,クラスタ検証基準に従って選択した疾患データセットをグループ化するアルゴリズムよりも有効であった。
第2に、iECA*は、分析された現在のクラスタリング方法と比較して、すべてのデータセットをクラスタリングする際の実行時間とメモリ消費を低くした。
第3に,iECA*が分析したデータセットにおける他のアルゴリズムに対して有効性を評価するための運用フレームワークが提案され,その結果,iECA*がすべての医療データセットをクラスタリングする上で最高の性能を示した。
進化的アルゴリズムと比較して,iECA*を実験的に検証するために,複雑な知識分野を含む実世界の多次元データについてさらなる研究が必要である。 With the increasing number of samples, the manual clustering of COVID-19 and medical disease data samples becomes time-consuming and requires highly skilled labour. Recently, several algorithms have been used for clustering medical datasets deterministically; however, these definitions have not been effective in grouping and analysing medical diseases. The use of evolutionary clustering algorithms may help to effectively cluster these diseases. On this presumption, we improved the current evolutionary clustering algorithm star (ECA*), called iECA*, in three manners: (i) utilising the elbow method to find the correct number of clusters; (ii) cleaning and processing data as part of iECA* to apply it to multivariate and domain-theory datasets; (iii) using iECA* for real-world applications in clustering COVID-19 and medical disease datasets. Experiments were conducted to examine the performance of iECA* against state-of-the-art algorithms using performance and validation measures (validation measures, statistical benchmarking, and performance ranking framework). The results demonstrate three primary findings. First, iECA* was more effective than other algorithms in grouping the chosen medical disease datasets according to the cluster validation criteria. Second, iECA* exhibited the lower execution time and memory consumption for clustering all the datasets, compared to the current clustering methods analysed. Third, an operational framework was proposed to rate the effectiveness of iECA* against other algorithms in the datasets analysed, and the results indicated that iECA* exhibited the best performance in clustering all medical datasets. Further research is required on real-world multi-dimensional data containing complex knowledge fields for experimental verification of iECA* compared to evolutionary algorithms. | 翻訳日:2023-03-14 05:39:55 公開日:2021-09-20 |
# 複素基底関数をもつ量子シミュレーションのための低ランク分解 Low-rank decomposition for quantum simulations with complex basis functions ( http://arxiv.org/abs/2109.09404v1 ) ライセンス: Link先を確認 | Michael P. Kaicher | (参考訳) クーロン作用素を量子シミュレーションに適したペアワイズ形式に還元するローランク分解は、基礎基底関数が実数値である量子化学においてよく知られている。
我々は Motta \textit{et al の結果を一般化する。
} [arxiv:1808.02625] to \textit{complex} 基底関数 $\psi_p(\mathbf r)\in\mathds c$ シューア分解と行列の分解によって、対称で反対称な成分に与えられる。
これにより、低ランク分解戦略を一般基底集合に適用することができる。 Low-rank decompositions to reduce the Coulomb operator to a pairwise form suitable for its quantum simulation are well-known in quantum chemistry, where the underlying basis functions are real-valued. We generalize the result of Motta \textit{et al.} [arXiv:1808.02625] to \textit{complex} basis functions $\psi_p(\mathbf r)\in\mathds C$ by means of the Schur decomposition and decomposing matrices into their symmetric and anti-symmetric components. This allows the application of low-rank decomposition strategies to general basis sets. | 翻訳日:2023-03-14 05:39:29 公開日:2021-09-20 |
# tssソフトハンドによる遠隔操作型口腔咽頭swab(toos)ロボットによる安全かつ有効covid-19opサンプリング Tele-Operated Oropharyngeal Swab (TOOS) RobotEnabled by TSS Soft Hand for Safe and EffectiveCOVID-19 OP Sampling ( http://arxiv.org/abs/2109.09403v1 ) ライセンス: Link先を確認 | Wei Chen, Jianshu Zhou, Shing Shin Cheng, Yiang Lu, Fangxun Zhong, Yuan Gao, Yaqing Wang, Lingbin Xue, Michael C. F. Tong and Yun-Hui Liu | (参考訳) 新型コロナウイルス(COVID-19)のパンデミックは、さまざまな視点で人間の生活に深刻な課題を課している。
新型コロナウイルスの診断には、一般にウイルス核酸(VNA)検体採取に口咽頭スワブ(OP SWAB)サンプリングが用いられる。
しかし、手動サンプリングは感染リスクの高い医療スタッフを露出させる。
ロボットサンプリングは、このリスクを最小レベルまで軽減することを約束しているが、従来のロボットは、大規模展開のための安全性、コスト、および複雑さの制御に苦しむ。
本研究では,軟式ロボット技術が,制限された口腔空間におけるスワブ操作性に優れたロボットOPスワブサンプリングを実現することを約束し,既存の手動アプローチと同じくらい巧妙に機能する。
これは、人間のサンプリング観察と生体吸気から設計されたソフトハンドとソフトグリップからなる、新しいTstone soft (TSS)ハンドによって実現されている。
TSSハンドはコンパクトなサイズで、ワークスペースを大きくし、人間の手と比べてデキスタリティが同等である。
柔らかい手首は、調整可能な剛性で全方向の曲げが可能である。
端子軟グリップは、使い捨てスワブピンチ及び交換に有効である。
OPサンプリング力は、ハイブリッドモーションおよび剛性仮想フィクスチャベースのコントローラの下で、安全で快適な範囲(スロートサンプリング快適領域)で維持が容易である。
3 DOF 専用の RCM プラットフォームが TSS ハンドグローバルな位置決めに使用されている。
TSSハンドの設計, モデリング, 制御について, 専用実験により詳細に検討した。
ヒトの遠隔操作に基づくサンプリングテストは、良好な成功率で口腔モデルで処理される。
toosロボットは、遠隔操作、安全、コスト効率、迅速なデプロイが可能なcovid-19 op swabサンプリングのための、非常に有望なソリューションを示している。 The COVID-19 pandemic has imposed serious challenges in multiple perspectives of human life. To diagnose COVID-19, oropharyngeal swab (OP SWAB) sampling is generally applied for viral nucleic acid (VNA) specimen collection. However, manual sampling exposes medical staff to a high risk of infection. Robotic sampling is promising to mitigate this risk to the minimum level, but traditional robot suffers from safety, cost, and control complexity issues for wide-scale deployment. In this work, we present soft robotic technology is promising to achieve robotic OP swab sampling with excellent swab manipulability in a confined oral space and works as dexterous as existing manual approach. This is enabled by a novel Tstone soft (TSS) hand, consisting of a soft wrist and a soft gripper, designed from human sampling observation and bio-inspiration. TSS hand is in a compact size, exerts larger workspace, and achieves comparable dexterity compared to human hand. The soft wrist is capable of agile omnidirectional bending with adjustable stiffness. The terminal soft gripper is effective for disposable swab pinch and replacement. The OP sampling force is easy to be maintained in a safe and comfortable range (throat sampling comfortable region) under a hybrid motion and stiffness virtual fixture-based controller. A dedicated 3 DOFs RCM platform is used for TSS hand global positioning. Design, modeling, and control of the TSS hand are discussed in detail with dedicated experimental validations. A sampling test based on human tele-operation is processed on the oral cavity model with excellent success rate. The proposed TOOS robot demonstrates a highly promising solution for tele-operated, safe, cost-effective, and quick deployable COVID-19 OP swab sampling. | 翻訳日:2023-03-14 05:39:19 公開日:2021-09-20 |
# ホン・ウー・マンデル干渉法における半パラメトリック推定 Semiparametric estimation in Hong-Ou-Mandel interferometry ( http://arxiv.org/abs/2109.09368v1 ) ライセンス: Link先を確認 | Valeria Cimini, Francesco Albarelli, Ilaria Gianani, Marco Barbieri | (参考訳) 半パラメトリック推定理論を自然パラメトリックダウンコンバージョンにより生じるスペクトル交絡2光子状態を用いた香港・奥羽・マンデル干渉実験に適用する。
半パラメトリックなアプローチにより、Cram\'er-Rao境界を評価し、2光子波動関数の完全な知識を仮定することなく、興味のある特定のパラメータの最適推定子を見つけることができる。
特に、辺対称波動関数のエルミート・ガウス成分の推定に焦点をあて、フーリエ変換が時間的一致プロファイルの形状を決定する。
これらの成分の負性性は2光子状態の絡み合いの証であることを示す。 We apply the theory of semiparametric estimation to a Hong-Ou-Mandel interference experiment with a spectrally entangled two-photon state generated by spontaneous parametric downconversion. Thanks to the semiparametric approach we can evaluate the Cram\'er-Rao bound and find an optimal estimator for a particular parameter of interest without assuming perfect knowledge of the two-photon wave function, formally treated as an infinity of nuisance parameters. In particular, we focus on the estimation of the Hermite-Gauss components of the marginal symmetrised wavefunction, whose Fourier transform governs the shape of the temporal coincidence profile. We show that negativity of these components is an entanglement witness of the two-photon state. | 翻訳日:2023-03-14 05:38:48 公開日:2021-09-20 |
# 決定論的カオス、デコヒーレンス、ド・ブロイ=ボーム量子論を用いたボルンの規則の正当性 Justifying Born's rule $P_\alpha=|\Psi_\alpha|^2$ using deterministic chaos, decoherence, and the de Broglie-Bohm quantum theory ( http://arxiv.org/abs/2109.09353v1 ) ライセンス: Link先を確認 | Aur\'elien Drezet | (参考訳) この研究でボルンの法則は、ド・ブロイとボームのパイロット波理論から導かれる。
量子ビットからなるエンビオネメント(すなわちボヘミアンポインター)に結合した粒子を含むおもちゃモデルに基づいて、決定論的カオスを伴う絡み合いは、任意の統計分布$\rho(x)$(点$x$の粒子を見つける)からボルン確率法$|\Psi(x)|^2$への高速な緩和をもたらすことを示す。
我々のモデルはボルツマンの運動論の文脈で議論され、量子平衡状態への緩和のためのある種のH定理を示す。 In this work we derive Born's rule from the pilot-wave theory of de Broglie and Bohm. Based on a toy model involving a particle coupled to a environement made of "qubits" (i.e., Bohmian pointers) we show that entanglement together with deterministic chaos lead to a fast relaxation from any statistitical distribution $\rho(x)$ (of finding a particle at point $x$) to the Born probability law $|\Psi(x)|^2$. Our model is discussed in the context of Boltzmann's kinetic theory and we demonstrate a kind of H theorem for the relaxation to the quantum equilibrium regime. | 翻訳日:2023-03-14 05:38:36 公開日:2021-09-20 |
# 新しいクラスタリングに基づく変異演算子を用いた微分進化アルゴリズム An Enhanced Differential Evolution Algorithm Using a Novel Clustering-based Mutation Operator ( http://arxiv.org/abs/2109.09351v1 ) ライセンス: Link先を確認 | Seyed Jalaleddin Mousavirad, Gerald Schaefer, Iakov Korovin, Mahshid Helali Moghadam, Mehrdad Saadatmand, Mahdi Pedram | (参考訳) 微分進化(DE)は、複雑な最適化問題を解くための効果的な集団に基づくメタヒューリスティックアルゴリズムである。
しかし、deの性能は変異演算子に敏感である。
本稿では,新しいクラスタリングに基づく突然変異演算子を用いたdeの有効性を向上させる新しいdeアルゴリズムであるclu-deを提案する。
まず、クラスタリングアルゴリズムを用いて、検索空間における勝者クラスタを見つけ、このクラスタのベスト候補ソリューションを突然変異演算子のベースベクターとして選択する。
次に、現在の人口に新しい候補解を含むように更新方式を導入する。
CEC-2017ベンチマーク関数の寸法が30, 50, 100の試験結果から, Clu-DEはDに比べて性能が向上することを確認した。 Differential evolution (DE) is an effective population-based metaheuristic algorithm for solving complex optimisation problems. However, the performance of DE is sensitive to the mutation operator. In this paper, we propose a novel DE algorithm, Clu-DE, that improves the efficacy of DE using a novel clustering-based mutation operator. First, we find, using a clustering algorithm, a winner cluster in search space and select the best candidate solution in this cluster as the base vector in the mutation operator. Then, an updating scheme is introduced to include new candidate solutions in the current population. Experimental results on CEC-2017 benchmark functions with dimensionalities of 30, 50 and 100 confirm that Clu-DE yields improved performance compared to DE. | 翻訳日:2023-03-14 05:38:23 公開日:2021-09-20 |
# 非偏極2レベルエミッタから循環キャビティへの干渉誘起指向性放出 Interference-induced directional emission from an unpolarized two level emitter into a circulating cavity ( http://arxiv.org/abs/2109.09332v1 ) ライセンス: Link先を確認 | Lucas Ostrowski, Scott Parkins, Morito Shirane and Mark Sadgrove | (参考訳) 量子エミッタとエバネッセント場の間のキラル結合は、ナノフォトニックデバイスへの指向性放出を可能にし、量子ネットワークの実現に不可欠な要素であると考えられている。
しかし、このようなカップリングはエミッタに対して十分に定義された円双極子モーメントを必要とする - 利用可能なスピン状態の熱人口による室温での固体エミッタでは達成が難しい。
本稿では,二極子モーメントがランダムに偏極された2段階のエミッタを用いて,別々のエミッタが同一キャビティにキラルに結合されている場合,エミッタとキャビティのカップリングが強くても悪いキャビティ配置の場合,循環キャビティに方向的に放出できることを実証する。
本システムの解析は,まず,2レベルエミッタのキャビティへの指向性放出を引き起こす物理的メカニズムを強調する過渡的なシナリオを考察する。
弱レーザー場を連続的に駆動する別の設定も考慮され、指向性(このスキームで提案されたメリットの図)はノイズ処理に対してかなり堅牢であることが示されている。
本研究の結果は, システム全体の数値シミュレーションによる近似解析式(英語版)の形式を取り入れたものである。 Chiral coupling between quantum emitters and evanescent fields allows directional emission into nanophotonic devices and is now considered to be a vital ingredient for the realization of quantum networks. However, such coupling requires a well defined circular dipole moment for the emitter -- something difficult to achieve for solid state emitters at room temperature due to thermal population of available spin states. Here, we demonstrate that a two level emitter with a randomly polarized dipole moment can be made to emit directionally into a circulating cavity if a separate emitter is chirally coupled to the same cavity, for the case when both emitter-cavity couplings are strong but in the bad-cavity regime. Our analysis of this system first considers a transient scenario, which highlights the physical mechanism giving rise to the directional emission of the two level emitter into the cavity. An alternative setup involving a weak laser field continuously driving the system is also considered, where the directionality (our proposed figure of merit for this scheme) is shown to be significantly more robust against noise processes. The results presented here take the form of approximate analytical expressions backed by complete numerical simulations of the system. | 翻訳日:2023-03-14 05:38:12 公開日:2021-09-20 |
# 加速鏡は真空に支障をきたすのか? Does an accelerated mirror suffer hindrance from vacuum? ( http://arxiv.org/abs/2109.09295v1 ) ライセンス: Link先を確認 | E. Sadurn\'i, M. A. Est\'evez, J. L. D\'iaz-Cruz | (参考訳) ミラーの加速度運動と光子unruh効果について検討した。
リンドラー座標における適切な境界条件を持つマクスウェル方程式の解が見つかる。
フィールドの正準量子化を適切に行う。
重要な結果は鏡や偏光器の存在から生じる。
単一の反射面は、非慣性観測者に対して$-1/(\alpha x)^2$異常ポテンシャルに適用されるディリクレ条件による周波数量子化を生成する。
加速モード当たりの光子数はハンケル関数によって推定される。 We study the accelerated motion of mirrors and the photonic Unruh effect. The solutions of Maxwell's equations with appropriate boundary conditions in Rindler coordinates are found. The canonical quantization of the field is carried out properly. Important consequences arise from the presence of mirrors or polarizers. It is shown that a single reflective surface produces frequency quantization due to Dirichlet conditions applied to the $-1/(\alpha x)^2$ anomalous potential for non-inertial observers. The number of photons per accelerated mode is estimated via Hankel functions. | 翻訳日:2023-03-14 05:37:21 公開日:2021-09-20 |
# デジタル通貨のUTXO:口座ベースかトークンベースか?
両方? UTXO in Digital Currencies: Account-based or Token-based? Or Both? ( http://arxiv.org/abs/2109.09294v1 ) ライセンス: Link先を確認 | Aldar C-F. Chan | (参考訳) トークンベースのシステムとアカウントベースのシステムの区別は経済学においてよく絡み合っているが、ブロックチェーンとデジタル通貨に関する文献では「トケン」と「トケンベースのシステム」という用語の解釈が異なる。
トークンとトークン化の用語が広く使われているにもかかわらず、基礎となる概念は経済的な概念とうまく一致しない場合や、それに反対する場合さえある。
BitcoinのUTXO設計はトークンベースのシステムの一部の特徴とアカウントベースのシステムの一部の特徴を示している。
デジタルドメインにおけるトークンの経済的概念の実施の難しさとUTXOの設計の提示について論じるとともに、UTXOベースのシステムをなぜ古典的経済概念に基づいて会計ベースとみなすべきかについて議論する。
さらに,UTXOベースのシステムとアカウントベースのシステムとの詳細な比較を行った。
システム状態表現のデータ構造を定義機能として用いて,デジタルトークンベースのシステムとアカウントベースのシステムを区別する。
このトークンベースのシステムの拡張定義は、物理的なトークンとデジタルトークンの両方をカバーし、トークンベースのシステムとアカウントベースのシステムを適切に区別する。 There are different interpretations of the terms "tokens" and "token-based systems" in the literature around blockchain and digital currencies although the distinction between token-based and account-based systems is well entrenched in economics. Despite the wide use of the terminologies of tokens and tokenisation in the cryptocurrency community, the underlying concept sometimes does not square well with the economic notions, or is even contrary to them. The UTXO design of Bitcoin exhibits partially characteristics of a token-based system and partially characteristics of an account-based system. A discussion on the difficulty to implement the economic notion of tokens in the digital domain, along with an exposition of the design of UTXO, is given in order to discuss why UTXO-based systems should be viewed as account-based according to the classical economic notion. Besides, a detailed comparison between UTXO-based systems and account-based systems is presented. Using the data structure of the system state representation as the defining feature to distinguish digital token-based and account-based systems is therefore suggested. This extended definition of token-based systems covers both physical and digital tokens while neatly distinguishing token-based and account-based systems. | 翻訳日:2023-03-14 05:37:15 公開日:2021-09-20 |
# 閉じ込められたイオン量子コンピュータによる低深度振幅推定 Low depth amplitude estimation on a trapped ion quantum computer ( http://arxiv.org/abs/2109.09685v1 ) ライセンス: Link先を確認 | Tudor Giurgica-Tiron, Sonika Johri, Iordanis Kerenidis, Jason Nguyen, Neal Pisenti, Anupam Prakash, Ksenia Sosnova, Ken Wright and William Zeng | (参考訳) 振幅推定は基本的な量子アルゴリズムプリミティブであり、モンテカルロ法を含む多くの統計量推定問題に対する量子コンピュータの二次速度向上を可能にする。
近距離ハードウェア実装の観点からの主な欠点は、振幅推定アルゴリズムが非常に深い量子回路を必要とすることである。
最近の研究は、低深度回路の高速化のいくつかをトレードオフすることで、そのようなアルゴリズムに必要なリソースを幾分減らすことに成功したが、そのようなアルゴリズムの実証には高品質な量子ビットが必要である。
本稿では,最先端の閉じ込め型イオン量子コンピュータ上での振幅推定実験結果について報告する。
振幅推定アルゴリズムは、ランダムに選択された4次元単位ベクトルの内部積を推定するために用いられ、最大極大推定(MLE)と中国の剰余定理(CRT)技術に基づいていた。
mleに基づくアプローチでは、90以上の2量子ビットゲートと深さ60の回路を含む深い量子回路を考慮した場合の精度が大幅に向上し、平均加算誤差は10^{-2}$となった。
CRTに基づくアプローチは、多くのデータポイントに対して正確な推定を提供するが、平均的なノイズに対する堅牢性は低い。
最後に,ハードウェアノイズの固有性を考慮した2つの振幅推定アルゴリズムを解析し,結果をさらに改善する。 Amplitude estimation is a fundamental quantum algorithmic primitive that enables quantum computers to achieve quadratic speedups for a large class of statistical estimation problems, including Monte Carlo methods. The main drawback from the perspective of near term hardware implementations is that the amplitude estimation algorithm requires very deep quantum circuits. Recent works have succeeded in somewhat reducing the necessary resources for such algorithms, by trading off some of the speedup for lower depth circuits, but high quality qubits are still needed for demonstrating such algorithms. Here, we report the results of an experimental demonstration of amplitude estimation on a state-of-the-art trapped ion quantum computer. The amplitude estimation algorithms were used to estimate the inner product of randomly chosen four-dimensional unit vectors, and were based on the maximum likelihood estimation (MLE) and the Chinese remainder theorem (CRT) techniques. Significant improvements in accuracy were observed for the MLE based approach when deeper quantum circuits were taken into account, including circuits with more than ninety two-qubit gates and depth sixty, achieving a mean additive estimation error on the order of $10^{-2}$. The CRT based approach was found to provide accurate estimates for many of the data points but was less robust against noise on average. Last, we analyze two more amplitude estimation algorithms that take into account the specifics of the hardware noise to further improve the results. | 翻訳日:2023-03-14 05:30:26 公開日:2021-09-20 |
# 0-忠実性に関する短い注記 A short note on the 0-fidelity ( http://arxiv.org/abs/2109.09629v1 ) ライセンス: Link先を確認 | Karl Mayer | (参考訳) 最近の記事では、量子過程の忠実度を近似し精度を高めた$k$-fidelityと呼ばれる量の階層を導入した。
このhiearchyの最小近似は$0$-fidelityである。
著者らは、$0$-fidelityを推定するためのプロトコルを与え、プロセス忠実度を近似する数値的な証拠を示した。
ここでは、プロセス忠実度に対する下限と上限を、0-忠実度の線型関数として証明する。
半定値プログラムを解くことにより、下界が厳密であることを示す。 A recent article introduced a hierarchy of quantities called $k$-fidelities that approximate the quantum process fidelity with increasing accuracy. The lowest approximation in this hiearchy is the $0$-fidelity. The authors gave a protocol for estimating the $0$-fidelity and showed numerical evidence that it approximates the process fidelity. In this note, we prove lower and upper bounds on the process fidelity as linear functions of the 0-fidelity. By solving a semidefinite program, we provide evidence that the lower bound is tight. | 翻訳日:2023-03-14 05:29:24 公開日:2021-09-20 |
# 電気制御可能なビームスプリッタを用いた広帯域量子ノイズ源 Broadband chip-based source of a quantum noise with electrically-controllable beam splitter ( http://arxiv.org/abs/2109.09570v1 ) ライセンス: Link先を確認 | E. A. Vashukevich, V. V. Lebedev, I. V. Ilichev, P. M. Agruzov, A. V. Shamrai, V. M. Petrov, T. Yu. Golubeva | (参考訳) 初めて、mach-zehnder干渉計の形で独自の集積光ビームスプリッタを用いた広帯域量子ノイズ発生器の理論と実用性が実証された。
ニオブ酸リチウム基板上に作られた二重出力のビームスプリッタは、ホモダイン量子ノイズ検出回路の正確な電気光学バランスを提供する。
我々の知見によれば、古典的雑音に対する量子ノイズの超過は4ghz以上の周波数帯域で12dbであり、これは文献から知られている量子ノイズ発生器の最良のパラメータである。 For the first time, the theory and practical realization of a broadband quantum noise generator based on original integrated optical beam splitter in the form of a Mach-Zehnder interferometer is demonstrated. The beam splitter with a double output, made on a lithium niobate substrate, provided accurate electro-optical balancing of the homodyne quantum noise detection circuit. According to our knowledge, the experimentally obtained excess of quantum noise over classical noise by 12 dB in the frequency band over 4 GHz, which is the best parameters of quantum noise generators known from the literature. | 翻訳日:2023-03-14 05:29:05 公開日:2021-09-20 |
# Twitter上での新型コロナウイルスの誤情報に対する利用者の認識 Characterizing User Susceptibility to COVID-19 Misinformation on Twitter ( http://arxiv.org/abs/2109.09532v1 ) ライセンス: Link先を確認 | Xian Teng, Yu-Ru Lin, Wen-Ting Chung, Ang Li, Adriana Kovashka | (参考訳) 偽りのクレームの除去や信頼できる情報源の促進といった重要な努力は、新型コロナウイルスの「誤報」と闘うために増加しているが、もし感受性のあるオンラインユーザーの適切な理解が欠如している場合には、未解決の社会的課題である。
本研究は、パンデミックにおけるオンライン誤報に弱い人口を構成する人々と、感受性のあるユーザと他のユーザを区別する堅牢な特徴と短期的行動信号とに答えようとするものである。
米国内の地政学的に多様なネットワーク階層化サンプルから収集されたTwitter上の6ヶ月の縦長のユーザーパネルを使用して、ソーシャルボットから、新型コロナウイルスに関連するさまざまなエンゲージメントを持つ人間まで、さまざまなタイプのユーザーを区別する。
次に、新型コロナウイルスの誤情報に対する感受性と相関するユーザのオンライン機能と状況予測を識別する。
この研究は、ボットの影響に関する以前の研究とは対照的に、社会的なボットの誤情報共有への貢献は驚くほど低く、人間のようなユーザーの誤情報行動は異質性や時間的変動を示す。
誤報の共有は高度に集中していたが, 平均的な利用者に対して時折誤報を共有するリスクは著しく高いままであった。
第2に, 情緒的なコンテンツに対する政治的感受性と応答性について検討した。
第3に、短期的なニュース消費とネットワークからの露出のみに基づいて、ユーザの過渡的感受性を効率的に予測する実現可能なソリューションを実証する。
本研究は,誤情報伝達を緩和するための効果的な介入機構の設計に影響を及ぼす。 Though significant efforts such as removing false claims and promoting reliable sources have been increased to combat COVID-19 "misinfodemic", it remains an unsolved societal challenge if lacking a proper understanding of susceptible online users, i.e., those who are likely to be attracted by, believe and spread misinformation. This study attempts to answer {\it who} constitutes the population vulnerable to the online misinformation in the pandemic, and what are the robust features and short-term behavior signals that distinguish susceptible users from others. Using a 6-month longitudinal user panel on Twitter collected from a geopolitically diverse network-stratified samples in the US, we distinguish different types of users, ranging from social bots to humans with various level of engagement with COVID-related misinformation. We then identify users' online features and situational predictors that correlate with their susceptibility to COVID-19 misinformation. This work brings unique contributions: First, contrary to the prior studies on bot influence, our analysis shows that social bots' contribution to misinformation sharing was surprisingly low, and human-like users' misinformation behaviors exhibit heterogeneity and temporal variability. While the sharing of misinformation was highly concentrated, the risk of occasionally sharing misinformation for average users remained alarmingly high. Second, our findings highlight the political sensitivity activeness and responsiveness to emotionally-charged content among susceptible users. Third, we demonstrate a feasible solution to efficiently predict users' transient susceptibility solely based on their short-term news consumption and exposure from their networks. Our work has an implication in designing effective intervention mechanism to mitigate the misinformation dissipation. | 翻訳日:2023-03-14 05:28:55 公開日:2021-09-20 |
# 異なる進化するメモリアンサンブル:システムレベルでの埋め込み記憶のための計算知に基づくパレート最適化 Differentially Evolving Memory Ensembles: Pareto Optimization based on Computational Intelligence for Embedded Memories on a System Level ( http://arxiv.org/abs/2109.09502v1 ) ライセンス: Link先を確認 | Felix Last, Ceren Yeni, Ulf Schlichtmann | (参考訳) 組込みメモリの相対的パワー、性能、面積(PPA)の影響が増大し続けており、チップ上の数千のメモリの適切なパラメータ化が不可欠である。
製品の全記憶のパラメータが単一のシステムの一部として一緒に最適化された場合、同じ記憶が独立して最適化された場合よりもより良いトレードオフが得られる。
しかし、スパース解空間、競合する目的、計算コストの高いPPA推定といった課題は、共通の最適化ヒューリスティックスの適用を妨げる。
本稿では,メモリシステムの最適化問題を計算知能を用いて解く方法を示す。
複数のPPA目標の偏りのない最適化を保証するために,Paretoに基づく微分進化法を適用した。
スパース解空間の効率的な探索を実現するため, 個人を修復し, 実現可能なパラメータ化を行う。
PPAは、事前学習された回帰ニューラルネットワークによって、大規模なバッチで効率的に推定される。
私たちのフレームワークは、少ないリソースフットプリントを維持しながら、数千のメモリのシステム最適化を可能にします。
提案手法をトラクタブルシステム上で評価した結果, 既知のグローバルオプティマから0.5%未満の距離を示す多様な解が得られた。 As the relative power, performance, and area (PPA) impact of embedded memories continues to grow, proper parameterization of each of the thousands of memories on a chip is essential. When the parameters of all memories of a product are optimized together as part of a single system, better trade-offs may be achieved than if the same memories were optimized in isolation. However, challenges such as a sparse solution space, conflicting objectives, and computationally expensive PPA estimation impede the application of common optimization heuristics. We show how the memory system optimization problem can be solved through computational intelligence. We apply a Pareto-based Differential Evolution to ensure unbiased optimization of multiple PPA objectives. To ensure efficient exploration of a sparse solution space, we repair individuals to yield feasible parameterizations. PPA is estimated efficiently in large batches by pre-trained regression neural networks. Our framework enables the system optimization of thousands of memories while keeping a small resource footprint. Evaluating our method on a tractable system, we find that our method finds diverse solutions which exhibit less than 0.5% distance from known global optima. | 翻訳日:2023-03-14 05:28:24 公開日:2021-09-20 |
# 因果ホモトピー Causal Homotopy ( http://arxiv.org/abs/2112.01847v1 ) ライセンス: Link先を確認 | Sridhar Mahadevan | (参考訳) 我々は、因果DAGモデル間のホモトピー的等価性を特徴付け、DAGの部分的に順序付けられた集合表現と有限アレクサンドロフ位相の間の密接な接続を利用する。
位相は、xを含むすべての開集合の交叉として定義される各変数 x に対して開集合によって定義される一意の極小基底によって定義される。
アレクサンドロフ空間は(反射的、推移的)プレオーダーを誘導する。
開集合が変数を区別するコルモゴロフ T0 分離基準を満たすアレクサンドロフ空間は、事前順序付けを部分順序付けに変換する。
我々のアプローチは、データからポーズのトポロジ的表現を構築し、その後、ポーズ表現を使用して従来のDAG因果モデルを構築することである。
これまでに提案した異種アルゴリズムとケーススタディを統一する方法について説明する。
トポロジーは因果発見において2つの重要な役割を果たす。
まず、データセットに対するトポロジカルな分離性制約は、観測と介入から因果構造を推測するいくつかの過去のアプローチで使用されている。
第二に、因果構造を表すために用いられる多種多様な図形モデルは、誘導ポジェット構造の位相表現の観点から統一的に表現することができる。
本研究では、アレクサンドロフ空間のホモトピー理論を利用して、可能なDAG構造の数を大幅に削減し、探索空間を桁違いに小さくすることができることを示す。 We characterize homotopical equivalences between causal DAG models, exploiting the close connections between partially ordered set representations of DAGs (posets) and finite Alexandroff topologies. Alexandroff spaces yield a directional topological space: the topology is defined by a unique minimal basis defined by an open set for each variable x, specified as the intersection of all open sets containing x. Alexandroff spaces induce a (reflexive, transitive) preorder. Alexandroff spaces satisfying the Kolmogorov T0 separation criterion, where open sets distinguish variables, converts the preordering into a partial ordering. Our approach broadly is to construct a topological representation of posets from data, and then use the poset representation to build a conventional DAG causal model. We illustrate our framework by showing how it unifies disparate algorithms and case studies proposed previously. Topology plays two key roles in causal discovery. First, topological separability constraints on datasets have been used in several previous approaches to infer causal structure from observations and interventions. Second, a diverse range ofgraphical models used to represent causal structures can be represented in a unified way in terms of a topological representation of the induced poset structure. We show that the homotopy theory of Alexandroff spaces can be exploited to significantly efficiently reduce the number of possible DAG structures, reducing the search space by several orders of magnitude. | 翻訳日:2023-03-14 05:21:33 公開日:2021-09-20 |
# ASRと言語モデルがアルツハイマー病の検出に及ぼす影響 Influence of ASR and Language Model on Alzheimer's Disease Detection ( http://arxiv.org/abs/2110.15704v1 ) ライセンス: Link先を確認 | Joan Codina-Filb\`a and Guillermo C\'ambara and Jordi Luque and Mireia Farr\'us | (参考訳) アルツハイマー病は認知症の最も一般的な形態である。
音声からの自動検出は、早期の症状を識別するのに役立ち、予防行動を実行することができる。
本研究はADReSSo Challengeへの貢献であり,画像から参加者の音声記述を転写するためのSotA ASRシステムの使用状況を分析する。
本研究は,2020年のadressチャレンジにおけるヒトの転写の使用に関する性能の低下を分析した。
さらに,ASRから仮説を復号する言語モデルが欠如していることから,単語の非標準順序を補正する言語モデルの影響について検討する。このシステムは,患者からの音響情報のみに基づいて,言語バイアスを研究し,より意味のある書き起こしを得ることを目的としている。提案システムは,韻律と声質に基づく音響と,最も一般的な単語の最初の出現に基づく語彙的特徴を組み合わせた。
報告した結果から,言語モデルの有無にかかわらず,自動書き起こしを用いることの効果が示された。
最高の完全自動システムは76.06 %の精度を達成する(言語モデルなしで)が、汎用言語モデルを用いて復号された単語の書き起こしを用いるシステムよりも大幅に高く、3%高い。 Alzheimer's Disease is the most common form of dementia. Automatic detection from speech could help to identify symptoms at early stages, so that preventive actions can be carried out. This research is a contribution to the ADReSSo Challenge, we analyze the usage of a SotA ASR system to transcribe participant's spoken descriptions from a picture. We analyse the loss of performance regarding the use of human transcriptions (measured using transcriptions from the 2020 ADReSS Challenge). Furthermore, we study the influence of a language model -- which tends to correct non-standard sequences of words -- with the lack of language model to decode the hypothesis from the ASR. This aims at studying the language bias and get more meaningful transcriptions based only on the acoustic information from patients. The proposed system combines acoustic -- based on prosody and voice quality -- and lexical features based on the first occurrence of the most common words. The reported results show the effect of using automatic transcripts with or without language model. The best fully automatic system achieves up to 76.06 % of accuracy (without language model), significantly higher, 3 % above, than a system employing word transcriptions decoded using general purpose language models. | 翻訳日:2023-03-14 05:21:09 公開日:2021-09-20 |
# フェルミオン場からの量子ホログラフィ Quantum Holography from Fermion Fields ( http://arxiv.org/abs/2109.10236v1 ) ライセンス: Link先を確認 | Paola Zizzi | (参考訳) 我々は,空間の領域を囲む境界面の面積がプランク単位あたりの量子ビットを符号化する,量子ホログラフィ原理のループ量子重力の文脈で示す。
この目的のために,境界面が二次元球面であるバルクにフェルミオン場を導入する。
フェルミオン自由度を2倍にし、ボゴルジュボフ変換を用いると、スピンネットワークのエッジのペアが境界面に二重の穴をあけ、量子ビットを符号化する領域のピクセルを生成する。
この証明はファジィ球面の場合にも有効である。 We demonstrate, in the context of Loop Quantum Gravity, the Quantum Holographic Principle, according to which the area of the boundary surface enclosing a region of space encodes a qubit per Planck unit. To this aim, we introduce fermion fields in the bulk, whose boundary surface is the two-dimensional sphere. The doubling of the fermionic degrees of freedom and the use of the Bogoljubov transformations lead to pairs of spin network's edges piercing the boundary surface with double punctures, giving rise to pixels of area encoding a qubit. The proof is also valid in the case of a fuzzy sphere. | 翻訳日:2023-03-14 05:20:41 公開日:2021-09-20 |
# ブロックチェーンベースのCovidワクチン登録とモニタリング Blockchain-based Covid Vaccination Registration and Monitoring ( http://arxiv.org/abs/2109.10213v1 ) ライセンス: Link先を確認 | Shirajus Salekin Nabil, Md. Sabbir Alam Pran, Ali Abrar Al Haque, Narayan Ranjan Chakraborty, Mohammad Jabed Morshed Chowdhury, Md Sadek Ferdous | (参考訳) Covid-19(SARS-CoV-2)は、私たちの生活のほとんどすべての側面を変えました。
世界中の政府は、送信を遅くするためにロックダウンを課している。
その間、研究者たちはワクチンの発見に懸命に取り組みました。
幸いなことに、私たちはこのワクチンを発見した。
しかし、総人口の検査とワクチン接種のプロセスを管理することはマンモスの仕事である。
適切な検査とワクチン接種を確保するために協力している複数の政府と民間の組織があります。
しかし、多組織的な作業には遅延やデータサイロの問題は常にある。
したがって、このプロセスの合理化は効率を改善し、より多くの命を救うために不可欠である。
ブロックチェーンを含む医療分野にテクノロジーが大きな影響を与えることは、すでに証明されている。
ブロックチェーンは、より高度なプライバシ、透明性、信頼性を備えた分散システムを提供する。
本稿では、テストとワクチンシステムをシームレスに統合し、システムを透明化するためのブロックチェーンベースのシステムを提案する。
あらゆるタンパー防御結果と透明で効率的なワクチン接種システムの即時検証が本研究で示され,実施されている。
また,本システムをDVP(Digital Vaccine Passport)として実装し,その性能解析を行った。 Covid-19 (SARS-CoV-2) has changed almost all the aspects of our living. Governments around the world have imposed lockdown to slow down the transmissions. In the meantime, researchers worked hard to find the vaccine. Fortunately, we have found the vaccine, in fact a good number of them. However, managing the testing and vaccination process of the total population is a mammoth job. There are multiple government and private sector organisations that are working together to ensure proper testing and vaccination. However, there is always delay or data silo problems in multi-organisational works. Therefore, streamlining this process is vital to improve the efficiency and save more lives. It is already proved that technology has a significant impact on the health sector, including blockchain. Blockchain provides a distributed system along with greater privacy, transparency and authenticity. In this article, we have presented a blockchain-based system that seamlessly integrates testing and vaccination system, allowing the system to be transparent. The instant verification of any tamper-proof result and a transparent and efficient vaccination system have been exhibited and implemented in the research. We have also implemented the system as "Digital Vaccine Passport" (DVP) and analysed its performance. | 翻訳日:2023-03-14 05:20:29 公開日:2021-09-20 |
# NISQハードウェアにおける正規化グループ固定点の準備 Preparing Renormalization Group Fixed Points on NISQ Hardware ( http://arxiv.org/abs/2109.09787v1 ) ライセンス: Link先を確認 | Troy J. Sewell and Stephen P. Jordan | (参考訳) ノイズの多い中間スケール量子(NISQ)ハードウェアは、信頼できない量子ゲートによるエラー発生の回数を制限するために、通常低深さの量子回路に限られる。
探索の少ない別のアプローチは、希望する量子状態の量子チャネルを安定な固定点として繰り返し適用することである。
この場合の回路深度の増加は、散逸性自己補正による有害性よりも有益である。
MERA回路から構築された量子チャネルは、再正規化群(RG)の観点から解釈することができ、それらの固定点はRG固定点、すなわち共形場理論のようなスケール不変系である。
ここでは,キムとスウィングルの理論的提案に基づいて,イブリーとホワイトの業績に適応した回路を用いて,臨界イジングモデルの基底状態の堅牢な準備を数値的および実験的に検討する。
実験では、局所観測器の収束と安定性に見られる再正規化による自己補正を示し、ハネウェルイオントラップの「量子ccd」アーキテクチャによって得られる個々の量子ビットの測定とリセットを本質的に活用する。
また, 正規化回路に特化して適応するゼロノイズ外挿方式による誤差低減を数値的に検証し, ゲートオーバヘッドによる典型的な外挿方式よりも優れることを示した。 Noisy intermediate-scale quantum (NISQ) hardware is typically limited to low-depth quantum circuits to limit the number of opportunities for introduction of error by unreliable quantum gates. A less-explored alternative approach is to repeatedly apply a quantum channel with a desired quantum state as a stable fixed point. Increased circuit depth can in this case be beneficial rather than harmful due to dissipative self-correction. The quantum channels constructed from MERA circuits can be interpreted in terms of the renormalization group(RG), and their fixed points are RG fixed points, i.e. scale-invariant systems such as conformal field theories. Here, building upon the theoretical proposal of Kim and Swingle, we numerically and experimentally study the robust preparation of the ground state of the critical Ising model using circuits adapted from the work of Evenbly and White. The experimental implementation exhibits self-correction through renormalization seen in the convergence and stability of local observables, and makes essential use of the ability to measure and reset individual qubits afforded by the "quantum CCD" architecture of the Honeywell ion-trap. We also numerically test error mitigation by zero-noise extrapolation schemes specially adapted for renormalization circuits, which are able to outperform typical extrapolation schemes using lower gate overhead. | 翻訳日:2023-03-14 05:19:42 公開日:2021-09-20 |
# シャッフル型勾配法の統一収束解析 A Unified Convergence Analysis for Shuffling-Type Gradient Methods ( http://arxiv.org/abs/2002.08246v2 ) ライセンス: Link先を確認 | Lam M. Nguyen, Quoc Tran-Dinh, Dzung T. Phan, Phuong Ha Nguyen, Marten van Dijk | (参考訳) 本稿では,有限サム最適化問題の解法として,一般シャッフル型勾配法の一群に対する統一収束解析を提案する。
本分析は,代替戦略を用いず,無作為化再シャッフル,決定論的あるいは無作為化単一置換,循環的および漸進的勾配スキームなど,多くの既知の変種をカバーする。
我々は、強い凸問題と非凸問題という2つの異なる設定に焦点を当てている。
本研究の主な貢献は,非凸および凸の双方において,シャッフル型勾配法を多種に含む新しい非漸近および漸近収束率である。
また,学習率の異なる一様化シャッフル変種とモデル仮定についても検討した。
非凸の場合の速度は、標準仮定の下での既存の作業よりも新しく、大幅に改善されているが、強い凸の場合の速度は、有界勾配条件を課すことなく、この論文以前の既知の最もよく知られた速度と一致する。
最後に、非凸ロジスティック回帰とニューラルネットワークトレーニングの2つの数値例を通して、理論的結果を実証的に説明する。
副産物として,特定のシャッフル変種における学習率の低下に対する適切な選択が示唆された。 In this paper, we propose a unified convergence analysis for a class of generic shuffling-type gradient methods for solving finite-sum optimization problems. Our analysis works with any sampling without replacement strategy and covers many known variants such as randomized reshuffling, deterministic or randomized single permutation, and cyclic and incremental gradient schemes. We focus on two different settings: strongly convex and nonconvex problems, but also discuss the non-strongly convex case. Our main contribution consists of new non-asymptotic and asymptotic convergence rates for a wide class of shuffling-type gradient methods in both nonconvex and convex settings. We also study uniformly randomized shuffling variants with different learning rates and model assumptions. While our rate in the nonconvex case is new and significantly improved over existing works under standard assumptions, the rate on the strongly convex one matches the existing best-known rates prior to this paper up to a constant factor without imposing a bounded gradient condition. Finally, we empirically illustrate our theoretical results via two numerical examples: nonconvex logistic regression and neural network training examples. As byproducts, our results suggest some appropriate choices for diminishing learning rates in certain shuffling variants. | 翻訳日:2022-12-30 13:34:24 公開日:2021-09-20 |
# IG-RL:大規模信号制御のためのインダクティブグラフ強化学習 IG-RL: Inductive Graph Reinforcement Learning for Massive-Scale Traffic Signal Control ( http://arxiv.org/abs/2003.05738v6 ) ライセンス: Link先を確認 | Fran\c{c}ois-Xavier Devailly, Denis Larocque, Laurent Charlin | (参考訳) 適応的な交通信号制御は、組合せ状態と行動空間を扱う。
マルチエージェント強化学習は、特殊エージェントに制御を分散することでこの問題に対処しようとする。
しかし、特殊化は一般化と転送性を妨げ、ニューラルネットワークアーキテクチャの基礎となる計算グラフ -- マルチエージェント設定において支配的な -- は、道路ネットワークと車両がネットワークを横断する時間とともに変化する任意の数のエンティティを扱う柔軟性を提供していない。
道路網の構造に適応するグラフ畳み込みネットワークに基づく誘導グラフ強化学習(IG-RL)を導入し,交通制御装置とその周辺環境の詳細な表現を学習する。
分散アプローチは,転送可能適応型信号制御ポリシの学習を可能にする。
任意の種類の道路網上でトレーニングされた後、新たな道路網、交通分布、交通レジームに一般化し、追加のトレーニングやパラメータの一定数を必要とせず、従来の手法よりも高いスケーラビリティを実現します。
さらに,車線レベルと車両レベルの両方で(動的)需要を捉えることで,利用可能なデータの粒度を活用できる。
提案手法は,トレーニング中に経験したことのない道路網と交通条件の両方で検証される。
IG-RLとマルチエージェント強化学習とドメイン固有ベースラインを比較した。
合成道路網とマンハッタンの3,971の交通信号の制御に関するより大きな実験において、IG-RLの異なるインスタンス化がベースラインより優れていることを示す。 Scaling adaptive traffic-signal control involves dealing with combinatorial state and action spaces. Multi-agent reinforcement learning attempts to address this challenge by distributing control to specialized agents. However, specialization hinders generalization and transferability, and the computational graphs underlying neural-networks architectures -- dominating in the multi-agent setting -- do not offer the flexibility to handle an arbitrary number of entities which changes both between road networks, and over time as vehicles traverse the network. We introduce Inductive Graph Reinforcement Learning (IG-RL) based on graph-convolutional networks which adapts to the structure of any road network, to learn detailed representations of traffic-controllers and their surroundings. Our decentralized approach enables learning of a transferable-adaptive-traffic-signal-control policy. After being trained on an arbitrary set of road networks, our model can generalize to new road networks, traffic distributions, and traffic regimes, with no additional training and a constant number of parameters, enabling greater scalability compared to prior methods. Furthermore, our approach can exploit the granularity of available data by capturing the (dynamic) demand at both the lane and the vehicle levels. The proposed method is tested on both road networks and traffic settings never experienced during training. We compare IG-RL to multi-agent reinforcement learning and domain-specific baselines. In both synthetic road networks and in a larger experiment involving the control of the 3,971 traffic signals of Manhattan, we show that different instantiations of IG-RL outperform baselines. | 翻訳日:2022-12-26 00:53:06 公開日:2021-09-20 |
# コミュニケーション効率のよい連合学習のための動的サンプリングと選択的マスキング Dynamic Sampling and Selective Masking for Communication-Efficient Federated Learning ( http://arxiv.org/abs/2003.09603v2 ) ライセンス: Link先を確認 | Shaoxiong Ji and Wenqi Jiang and Anwar Walid and Xue Li | (参考訳) Federated Learning(FL)は、デバイス上のインテリジェンスを分散トレーニングとフェデレーション最適化を通じて実現する、新しい機械学習環境である。
ディープニューラルネットワークの急速な発展により、複雑な問題をモデリングするための学習技術が促進され、フェデレーション設定下での連合ディープラーニングに出現する。
しかし、モデルパラメータの膨大な量は、通信ネットワークを高い輸送負荷で負担する。
本稿では,動的サンプリングによる通信効率向上のための2つのアプローチと,トップ$k選択マスキングを提案する。
前者は選択したクライアントモデルのパーティションを動的に制御し、後者はフェデレートされた更新のための最大値の値でパラメータを選択する。
提案手法の有効性を示すため,3つの公開データセット上で畳み込み画像分類とリカレント言語モデル実験を行った。 Federated learning (FL) is a novel machine learning setting that enables on-device intelligence via decentralized training and federated optimization. Deep neural networks' rapid development facilitates the learning techniques for modeling complex problems and emerges into federated deep learning under the federated setting. However, the tremendous amount of model parameters burdens the communication network with a high load of transportation. This paper introduces two approaches for improving communication efficiency by dynamic sampling and top-$k$ selective masking. The former controls the fraction of selected client models dynamically, while the latter selects parameters with top-$k$ largest values of difference for federated updating. Experiments on convolutional image classification and recurrent language modeling are conducted on three public datasets to show our proposed methods' effectiveness. | 翻訳日:2022-12-21 13:05:52 公開日:2021-09-20 |
# ロバストな視覚追跡のための深層マルチタスク表現の有効融合 Effective Fusion of Deep Multitasking Representations for Robust Visual Tracking ( http://arxiv.org/abs/2004.01382v2 ) ライセンス: Link先を確認 | Seyed Mojtaba Marvasti-Zadeh, Hossein Ghanei-Yakhdan, Shohreh Kasaei, Kamal Nasrollahi, Thomas B. Moeslund | (参考訳) 視覚物体追跡は、現実世界の様々な問題に固有の要因を持つ課題を継続するため、コンピュータビジョンの活発な研究分野である。
識別相関フィルタ(dcfs)に基づく既存の追跡手法の多くは、特徴抽出ネットワーク(fens)を用いて学習過程における目標の出現をモデル化している。
しかし、異なる残差ニューラルネットワーク(ResNets)に基づいてFENから抽出した深い特徴写像は、これまで研究されていない。
本稿では,dcfベースのフレームワークにおいて,最先端のresnetベースのfens12の性能評価を行い,視覚追跡のための最善を判定することを目的とする。
まず、最高の特徴マップをランク付けし、最高のResNetベースのFENを別のDCFベースのメソッドに一般化した採用を探求する。
提案手法は,完全畳み込み型fenから深い意味情報を抽出し,最適なresnetベースの特徴マップと融合することにより,連続畳み込みフィルタの学習過程における対象表現を強化する。
最後に,新しい効率的な意味重み付け手法(各ビデオフレームのセマンティックセグメンテーション特徴マップを用いた)を導入し,ドリフト問題を低減した。
OTB-2013, OTB-2015, TC-128, VOT-2018 ビジュアルトラッキングデータセットの大規模な実験結果から,提案手法は視覚追跡の精度とロバスト性の観点から,最先端の手法を効果的に上回ることを示した。 Visual object tracking remains an active research field in computer vision due to persisting challenges with various problem-specific factors in real-world scenes. Many existing tracking methods based on discriminative correlation filters (DCFs) employ feature extraction networks (FENs) to model the target appearance during the learning process. However, using deep feature maps extracted from FENs based on different residual neural networks (ResNets) has not previously been investigated. This paper aims to evaluate the performance of twelve state-of-the-art ResNet-based FENs in a DCF-based framework to determine the best for visual tracking purposes. First, it ranks their best feature maps and explores the generalized adoption of the best ResNet-based FEN into another DCF-based method. Then, the proposed method extracts deep semantic information from a fully convolutional FEN and fuses it with the best ResNet-based feature maps to strengthen the target representation in the learning process of continuous convolution filters. Finally, it introduces a new and efficient semantic weighting method (using semantic segmentation feature maps on each video frame) to reduce the drift problem. Extensive experimental results on the well-known OTB-2013, OTB-2015, TC-128 and VOT-2018 visual tracking datasets demonstrate that the proposed method effectively outperforms state-of-the-art methods in terms of precision and robustness of visual tracking. | 翻訳日:2022-12-17 04:21:08 公開日:2021-09-20 |
# カメラに触感を教える:画像から表面の触覚特性を推定する Teaching Cameras to Feel: Estimating Tactile Physical Properties of Surfaces From Images ( http://arxiv.org/abs/2004.14487v3 ) ライセンス: Link先を確認 | Matthew Purri and Kristin Dana | (参考訳) 視覚入力と触覚センサの接続は、つかみや押すなどのオブジェクト操作作業において重要である。
本研究では,視覚情報から触覚特性の集合を推定する課題について紹介する。
視覚情報と触覚の物理的特性の複雑なマッピングを学習するモデルの構築を目指している。
我々は400以上のマルチビュー画像シーケンスとそれに対応する触覚特性を持つ画像触覚データセットを構築した。
摩擦, コンプライアンス, 密着性, テクスチャ, 熱伝導性など, カテゴリー別に15種類の触覚特性を測定し, モデルにより推定した。
対向目的と新規なビジュオ触覚関節分類損失からなるクロスモーダルフレームワークを開発した。
さらに,任意の物理的特性を推定するための視角の最適な組み合わせを選択できるニューラルネットワーク探索フレームワークを開発した。 The connection between visual input and tactile sensing is critical for object manipulation tasks such as grasping and pushing. In this work, we introduce the challenging task of estimating a set of tactile physical properties from visual information. We aim to build a model that learns the complex mapping between visual information and tactile physical properties. We construct a first of its kind image-tactile dataset with over 400 multiview image sequences and the corresponding tactile properties. A total of fifteen tactile physical properties across categories including friction, compliance, adhesion, texture, and thermal conductance are measured and then estimated by our models. We develop a cross-modal framework comprised of an adversarial objective and a novel visuo-tactile joint classification loss. Additionally, we develop a neural architecture search framework capable of selecting optimal combinations of viewing angles for estimating a given physical property. | 翻訳日:2022-12-08 13:25:06 公開日:2021-09-20 |
# 協調学習のためのモデルリンク選択 Model Linkage Selection for Cooperative Learning ( http://arxiv.org/abs/2005.07342v3 ) ライセンス: Link先を確認 | Jiaying Zhou, Jie Ding, Kean Ming Tan, Vahid Tarokh | (参考訳) 各エージェント/学習者が特定のパラメトリックモデルとデータソースを保持する分散学習環境を考える。
目的は,学習者の予測精度を高めるため,学習者の集合に情報を統合することである。
情報を統合する自然な方法は、共通の関心のパラメータを共有する学習者グループにまたがって共同モデルを構築することである。
しかし、学習者の集合にまたがるパラメータ共有パターンは、事前知識ではないかもしれない。
各学習者に対するパラメータ共有パターンやパラメトリックモデルの不特定は、しばしば偏りのある推定となり、予測精度を低下させる。
本稿では,モデルとパラメータ共有パターンの両方の誤特定に対して頑健な学習者の集合にまたがる情報統合手法を提案する。
メインのcruxは、ユーザが指定したパラメータ共有パターンに基づいて、既存のジョイントモデルの予測精度を向上させる学習者を順次追加することである。
理論的には,提案手法はパラメータ共有の最も適した方法をデータ適応的に選択し,興味のある学習者の予測性能を向上させることができることを示す。
広範な数値実験により,提案手法の有望な性能を示す。 We consider a distributed learning setting where each agent/learner holds a specific parametric model and data source. The goal is to integrate information across a set of learners to enhance the prediction accuracy of a given learner. A natural way to integrate information is to build a joint model across a group of learners that shares common parameters of interest. However, the underlying parameter sharing patterns across a set of learners may not be a priori known. Misspecifying the parameter sharing patterns or the parametric model for each learner often yields a biased estimation and degrades the prediction accuracy. We propose a general method to integrate information across a set of learners that is robust against misspecifications of both models and parameter sharing patterns. The main crux is to sequentially incorporate additional learners that can enhance the prediction accuracy of an existing joint model based on user-specified parameter sharing patterns across a set of learners. Theoretically, we show that the proposed method can data-adaptively select the most suitable way of parameter sharing and thus enhance the predictive performance of any particular learner of interest. Extensive numerical studies show the promising performance of the proposed method. | 翻訳日:2022-12-02 23:28:14 公開日:2021-09-20 |
# 高速無線信号予測におけるCNNの利用に関する実証的研究 An empirical study on using CNNs for fast radio signal prediction ( http://arxiv.org/abs/2006.09245v3 ) ライセンス: Link先を確認 | Ozan Ozyegen and Sanaz Mohammadjafari and Karim El mokhtari and Mucahit Cevik and Jonathan Ethier and Ayse Basar | (参考訳) 地理的領域における正確な無線周波数パワー予測は、レイトレーシングソフトウェアを用いて最適な送信機位置を見つけるための計算コストのかかる部分である。
我々は、このプロセスを高速化するために、ディープラーニングモデルの有効性を実証的に分析する。
具体的には、CNNやUNETなどのディープラーニング手法は、一般的にセグメンテーションに使われ、パワー予測タスクにも使用できる。
4つの異なるフレーム次元を持つ5つの異なる領域の周波数パワー値からなるデータセットを考える。
我々は、RadioUNETを含むディープラーニングベースの予測モデルと、パワー予測タスクのためのUNETモデルの4つの異なるバリエーションを比較した。
より複雑なunetバリエーションは256x256のような高解像度フレームのモデルを改善する。
しかし、同じモデルを低い解像度で使用すると、オーバーフィッティングとシンプルなモデルのパフォーマンスが向上する。
詳細な数値解析により,深層学習モデルは電力予測に有効であり,新たな領域への一般化が可能であることが示された。 Accurate radio frequency power prediction in a geographic region is a computationally expensive part of finding the optimal transmitter location using a ray tracing software. We empirically analyze the viability of deep learning models to speed up this process. Specifically, deep learning methods including CNNs and UNET are typically used for segmentation, and can also be employed in power prediction tasks. We consider a dataset that consists of radio frequency power values for five different regions with four different frame dimensions. We compare deep learning-based prediction models including RadioUNET and four different variations of the UNET model for the power prediction task. More complex UNET variations improve the model on higher resolution frames such as 256x256. However, using the same models on lower resolutions results in overfitting and simpler models perform better. Our detailed numerical analysis shows that the deep learning models are effective in power prediction and they are able to generalize well to the new regions. | 翻訳日:2022-11-20 20:12:02 公開日:2021-09-20 |
# 外部に影響を及ぼすエージェントの概念的枠組み--強化学習の概観 A Conceptual Framework for Externally-influenced Agents: An Assisted Reinforcement Learning Review ( http://arxiv.org/abs/2007.01544v2 ) ライセンス: Link先を確認 | Adam Bignold, Francisco Cruz, Matthew E. Taylor, Tim Brys, Richard Dazeley, Peter Vamplew, Cameron Foale | (参考訳) 強化学習エージェントの長期的な目標は、複雑な現実世界のシナリオでタスクを実行できることだ。
外部情報の利用は、エージェントをもっと複雑な問題にスケーリングする方法のひとつです。
しかし、外部情報を使用する異なるアプローチ間でのコラボレーションや相互運用が一般的に欠如している。
本研究では,学習過程において外部情報を利用する様々な手法を分類・比較することにより協調を促進することを目的とした,支援強化学習のための概念的枠組みと分類法を提案する。
提案する分類法では,外部情報ソースと学習者エージェントの関係を詳述し,情報分解,構造,保持のプロセス,エージェント学習にどのように影響するかを明らかにした。
エージェントの性能と意思決定プロセスを改善するために外部情報を利用する強化学習の現在の流れを,最先端の手法の見直しとともに確認する。
これには、ヒューリスティック強化学習、インタラクティブ強化学習、デモからの学習、転送学習、複数のソースからの学習などが含まれる。
これらの強化学習の流れは、学習者エージェントの足場形成という共通の目的と共に動作する。
最後に,支援強化学習システムにおける今後の研究の可能性について論じる。 A long-term goal of reinforcement learning agents is to be able to perform tasks in complex real-world scenarios. The use of external information is one way of scaling agents to more complex problems. However, there is a general lack of collaboration or interoperability between different approaches using external information. In this work, while reviewing externally-influenced methods, we propose a conceptual framework and taxonomy for assisted reinforcement learning, aimed at fostering collaboration by classifying and comparing various methods that use external information in the learning process. The proposed taxonomy details the relationship between the external information source and the learner agent, highlighting the process of information decomposition, structure, retention, and how it can be used to influence agent learning. As well as reviewing state-of-the-art methods, we identify current streams of reinforcement learning that use external information in order to improve the agent's performance and its decision-making process. These include heuristic reinforcement learning, interactive reinforcement learning, learning from demonstration, transfer learning, and learning from multiple sources, among others. These streams of reinforcement learning operate with the shared objective of scaffolding the learner agent. Lastly, we discuss further possibilities for future work in the field of assisted reinforcement learning systems. | 翻訳日:2022-11-14 04:52:20 公開日:2021-09-20 |
# エネルギーベースリグレード:エネルギーベースモデルを用いたニューラルマシン翻訳の改善 Energy-Based Reranking: Improving Neural Machine Translation Using Energy-Based Models ( http://arxiv.org/abs/2009.13267v4 ) ライセンス: Link先を確認 | Sumanta Bhattacharyya, Amirmohammad Rooshenas, Subhajit Naskar, Simeng Sun, Mohit Iyyer, Andrew McCallum | (参考訳) 最大推定値(MLE)とBLEUスコアなどのタスク尺度との差は、自己回帰型ニューラルネットワーク翻訳(NMT)に先立って研究され、代替トレーニングアルゴリズム(Ranzato et al., 2016; Norouzi et al., 2016; Shen et al., 2016; Wu et al., 2018)が得られた。
しかし、MLEトレーニングはその計算効率と安定性のため、自己回帰的NMTの事実上のアプローチのままである。
トレーニング目標とタスク測度とのこのミスマッチにもかかわらず、MLEベースのトレーニングされたNMTから抽出されたサンプルが所望の分布をサポートすることに気づき、ビーム復号出力と比較してBLEUスコアがはるかに高いサンプルが存在する。
この観察の恩恵を受けるために、タスク測度の挙動を模倣するエネルギベースモデル(すなわち、エネルギベースモデルは、より高いブレウスコアのサンプルに対して低いエネルギを割り当てる)を訓練し、nmt: energy-based re-grade (ebr) から抽出したサンプルに基づく再ランキングアルゴリズムを導出する。
我々は限界エネルギーモデル(ターゲット文上)と共同エネルギーモデル(ソース文およびターゲット文上)の両方を使用する。
共同エネルギーモデルを用いたEBRはトランスフォーマーベースのNMTの性能を一貫して改善する: IWSLT'14ドイツ語-英語の+4 BLEU点、シンハラ英語の+3.0 BELU点、WMT'16英語-ドイツ語の+1.2 BLEU点。 The discrepancy between maximum likelihood estimation (MLE) and task measures such as BLEU score has been studied before for autoregressive neural machine translation (NMT) and resulted in alternative training algorithms (Ranzato et al., 2016; Norouzi et al., 2016; Shen et al., 2016; Wu et al., 2018). However, MLE training remains the de facto approach for autoregressive NMT because of its computational efficiency and stability. Despite this mismatch between the training objective and task measure, we notice that the samples drawn from an MLE-based trained NMT support the desired distribution -- there are samples with much higher BLEU score comparing to the beam decoding output. To benefit from this observation, we train an energy-based model to mimic the behavior of the task measure (i.e., the energy-based model assigns lower energy to samples with higher BLEU score), which is resulted in a re-ranking algorithm based on the samples drawn from NMT: energy-based re-ranking (EBR). We use both marginal energy models (over target sentence) and joint energy models (over both source and target sentences). Our EBR with the joint energy model consistently improves the performance of the Transformer-based NMT: +4 BLEU points on IWSLT'14 German-English, +3.0 BELU points on Sinhala-English, +1.2 BLEU on WMT'16 English-German tasks. | 翻訳日:2022-10-16 12:26:18 公開日:2021-09-20 |
# バイクオリティ学習における重要度重み付け Importance Reweighting for Biquality Learning ( http://arxiv.org/abs/2010.09621v5 ) ライセンス: Link先を確認 | Pierre Nodet and Vincent Lemaire and Alexis Bondu and Antoine Cornu\'ejols | (参考訳) Wakly Supervised Learning (WSL) の分野は最近、様々なタイプの「スーパービジョン欠陥」、すなわち品質の低下、非適応性、ラベルの不足に対処する多くの論文で人気が高まっている。
品質に関して、ラベルノイズは、完全にランダム、非ランダム、あるいは非ランダムなど、異なるタイプのものとなる。
これらすべてのラベルノイズは文献で別々に対処され、高度に専門化されたアプローチが導かれる。
本稿では,任意のラベルノイズに対処可能な汎用的アプローチを設計する上での,Weakly Supervised Learningのオリジナルかつ包括的視点を提案する。
この目的のために、"Biquality data"と呼ばれる代替設定を用いる。
正しくラベル付けされた例の小さな信頼されたデータセットと、ノイズの多い例の信頼できないデータセットが利用できると仮定している。
本稿では、信頼できないデータセットの非破壊例を識別できる新しい再検討手法を提案する。
これにより、両方のデータセットを使って分類器を学習できる。
いくつかの種類のラベルノイズをシミュレートし、信頼できない例の質や量を変える実験により、提案手法がベースラインと最先端のアプローチより優れていることを示す。 The field of Weakly Supervised Learning (WSL) has recently seen a surge of popularity, with numerous papers addressing different types of "supervision deficiencies", namely: poor quality, non adaptability, and insufficient quantity of labels. Regarding quality, label noise can be of different types, including completely-at-random, at-random or even not-at-random. All these kinds of label noise are addressed separately in the literature, leading to highly specialized approaches. This paper proposes an original, encompassing, view of Weakly Supervised Learning, which results in the design of generic approaches capable of dealing with any kind of label noise. For this purpose, an alternative setting called "Biquality data" is used. It assumes that a small trusted dataset of correctly labeled examples is available, in addition to an untrusted dataset of noisy examples. In this paper, we propose a new reweigthing scheme capable of identifying noncorrupted examples in the untrusted dataset. This allows one to learn classifiers using both datasets. Extensive experiments that simulate several types of label noise and that vary the quality and quantity of untrusted examples, demonstrate that the proposed approach outperforms baselines and state-of-the-art approaches. | 翻訳日:2022-10-05 22:45:06 公開日:2021-09-20 |
# MUSE: テクスチュアル・属性によるポートレート・ペイント・ジェネレーション MUSE: Textual Attributes Guided Portrait Painting Generation ( http://arxiv.org/abs/2011.04761v2 ) ライセンス: Link先を確認 | Xiaodan Hu, Pengfei Yu, Kevin Knight, Heng Ji, Bo Li, Honghui Shi | (参考訳) ポートレート生成によるテキスト属性を視覚的に記述するための新しい手法 MUSE を提案する。
MUSEはテキストで書かれた属性のセットと、被写体の写真から抽出された顔の特徴を入力として取り出す。
被験者のプロファイル,感情,物語,環境からのインスピレーションを表す属性タイプを11種類提案する。
本稿では,画像から画像への生成モデルを拡張し,テキスト属性を受け入れる新しい階層型ニューラルネットワークアーキテクチャを提案する。
実験の結果,本手法はテキスト属性を使わずにいくつかの最先端手法よりも優れており,インセプションスコアは6%,Fr'echet Inception Distance(FID)スコアは11%低下していた。
また,生成した画像が対象の属性を保存するかどうかを評価するために,新たな属性再構成指標を提案する。
実験の結果,本手法は78%のテキスト属性を正確に表現することができ,MUSEがより創造的で表現力のある方法で対象を捉えるのに役立つことがわかった。 We propose a novel approach, MUSE, to illustrate textual attributes visually via portrait generation. MUSE takes a set of attributes written in text, in addition to facial features extracted from a photo of the subject as input. We propose 11 attribute types to represent inspirations from a subject's profile, emotion, story, and environment. We propose a novel stacked neural network architecture by extending an image-to-image generative model to accept textual attributes. Experiments show that our approach significantly outperforms several state-of-the-art methods without using textual attributes, with Inception Score score increased by 6% and Fr\'echet Inception Distance (FID) score decreased by 11%, respectively. We also propose a new attribute reconstruction metric to evaluate whether the generated portraits preserve the subject's attributes. Experiments show that our approach can accurately illustrate 78% textual attributes, which also help MUSE capture the subject in a more creative and expressive way. | 翻訳日:2022-09-28 01:36:20 公開日:2021-09-20 |
# ディープラーニングにおけるJPEG圧縮欠陥の解析と緩和 Analyzing and Mitigating JPEG Compression Defects in Deep Learning ( http://arxiv.org/abs/2011.08932v2 ) ライセンス: Link先を確認 | Max Ehrlich, Larry Davis, Ser-Nam Lim, Abhinav Shrivastava | (参考訳) ディープラーニング手法の普及に伴い、学術的と見なされた多くのコンピュータビジョン問題は、現在、消費者環境で実現されている。
ユーザイメージを効率よく、安価に保存し、送信するために、エンジニアリングの観点から必要となる、損失のある圧縮である。
それにもかかわらず、ディープニューラルネットワークに対する圧縮の影響についてはほとんど研究されておらず、ベンチマークデータセットは高品質でロスレス圧縮や圧縮が行われることが多い。
本稿では,JPEG圧縮が共通タスクやデータセットに与える影響を統一的に検討する。
高圧縮の一般的なパフォーマンス指標には大きなペナルティがあることが示される。
このペナルティを緩和するためのいくつかの方法を試行し、その中にはラベルを訓練する必要のないアーティファクト修正に基づく新しい方法も含まれている。 With the proliferation of deep learning methods, many computer vision problems which were considered academic are now viable in the consumer setting. One drawback of consumer applications is lossy compression, which is necessary from an engineering standpoint to efficiently and cheaply store and transmit user images. Despite this, there has been little study of the effect of compression on deep neural networks and benchmark datasets are often losslessly compressed or compressed at high quality. Here we present a unified study of the effects of JPEG compression on a range of common tasks and datasets. We show that there is a significant penalty on common performance metrics for high compression. We test several methods for mitigating this penalty, including a novel method based on artifact correction which requires no labels to train. | 翻訳日:2022-09-24 16:10:34 公開日:2021-09-20 |
# (参考訳) 長期追跡時間を有する動的治療体制に対するディープベイズ推定 Deep Bayesian Estimation for Dynamic Treatment Regimes with a Long Follow-up Time ( http://arxiv.org/abs/2109.11929v1 ) ライセンス: CC BY 4.0 | Adi Lin and Jie Lu and Junyu Xuan and Fujin Zhu and Guangquan Zhang | (参考訳) 動的治療体制(DTR)の因果効果推定は、シーケンシャルな意思決定に寄与する。
しかし, サンプルサイズが小さくなるにつれて観測データの量は減少するが, 時間とともに特徴量が増加するため, DTR下での検閲や時間依存性の共起は困難である。
長期的なフォローアップはこれらの課題を複雑にする。
もう1つの課題は、共同創設者、治療、成果の間の非常に複雑な関係であり、伝統的で一般的に使用される線形メソッドが失敗する。
結果回帰モデルと, サンプルサイズが小さい非検閲被験者を用いた高次元特徴の処理モデルを組み合わせて, 結果回帰モデルにディープベイズモデルを適用し, 共同創設者, 治療, 成果の複雑な関係を明らかにする。
また, 開発した深層ベイズモデルでは, 不確実性をモデル化し, 自動運転車や医療設計など, 安全対策に不可欠な予測分散を出力できる。
HIV治療の医療シミュレーション実験の結果,特に長期経過における観察データから安定かつ正確な動的因果効果を推定できる可能性が示唆された。
本手法は,逐次的意思決定と政策立案のための実践的なガイダンスを提供する。 Causal effect estimation for dynamic treatment regimes (DTRs) contributes to sequential decision making. However, censoring and time-dependent confounding under DTRs are challenging as the amount of observational data declines over time due to a reducing sample size but the feature dimension increases over time. Long-term follow-up compounds these challenges. Another challenge is the highly complex relationships between confounders, treatments, and outcomes, which causes the traditional and commonly used linear methods to fail. We combine outcome regression models with treatment models for high dimensional features using uncensored subjects that are small in sample size and we fit deep Bayesian models for outcome regression models to reveal the complex relationships between confounders, treatments, and outcomes. Also, the developed deep Bayesian models can model uncertainty and output the prediction variance which is essential for the safety-aware applications, such as self-driving cars and medical treatment design. The experimental results on medical simulations of HIV treatment show the ability of the proposed method to obtain stable and accurate dynamic causal effect estimation from observational data, especially with long-term follow-up. Our technique provides practical guidance for sequential decision making, and policy-making. | 翻訳日:2021-10-03 11:22:05 公開日:2021-09-20 |
# (参考訳) aiによる動的対称性の破断: ダイマー自己トラップ遷移 Dynamical symmetry breaking through AI: The dimer self-trapping transition ( http://arxiv.org/abs/2109.15057v1 ) ライセンス: CC BY 4.0 | G. P. Tsironis, G. D. Barmparis and D. K. Campbell | (参考訳) 非線形schr{\"o}dinger方程式により得られた非線形ダイマーは、強相互作用系において非線形性が果たす役割を発見するためのワークホースである。
定常状態の解析は、ある程度の非線形性に対する対称性の破れ状態の開始を示すが、完全なダイナミクスはシステムを効果的な$\phi^4$モデルにマッピングする。
この後者の文脈では、自己トラッピング遷移は、非線形項によって設定された障壁上の古典粒子の初期条件依存移動である。
この遷移は解析的および数学的にジャコビアン楕円関数の双曲極限を通じて表される。
本研究の目的は、人工知能(AI)の手法を用いて、この移行を捉えることである。
具体的には,物理に動機づけられた機械学習モデルを用いて,動的自己トラップ遷移とその初期条件依存性を捉えることができた。
非退化非線形二量体の場合、この結果の爆発はより一般的なダイナミクスに関する追加情報を与え、非線形局所化から線形化を支援する。
この研究は、AIメソッドを物理学に組み込む方法を示し、発見に有用なツールを提供する。 The nonlinear dimer obtained through the nonlinear Schr{\"o}dinger equation has been a workhorse for the discovery the role nonlinearity plays in strongly interacting systems. While the analysis of the stationary states demonstrates the onset of a symmetry broken state for some degree of nonlinearity, the full dynamics maps the system into an effective $\phi^4$ model. In this latter context, the self-trapping transition is an initial condition dependent transfer of a classical particle over a barrier set by the nonlinear term. This transition has been investigated analytically and mathematically it is expressed through the hyperbolic limit of Jacobian elliptic functions. The aim of the present work is to recapture this transition through the use of methods of Artificial Intelligence (AI). Specifically, we used a physics motivated machine learning model that is shown to be able to capture the original dynamic self-trapping transition and its dependence on initial conditions. Exploitation of this result in the case of the non-degenerate nonlinear dimer gives additional information on the more general dynamics and helps delineate linear from nonlinear localization. This work shows how AI methods may be embedded in physics and provide useful tools for discovery. | 翻訳日:2021-10-03 10:57:43 公開日:2021-09-20 |
# MFEViT:マルチモーダル2D+3D顔表情認識のためのロバスト軽量トランスフォーマーネットワーク MFEViT: A Robust Lightweight Transformer-based Network for Multimodal 2D+3D Facial Expression Recognition ( http://arxiv.org/abs/2109.13086v1 ) ライセンス: Link先を確認 | Hanting Li, Mingzhe Sui, Zhaoqing Zhu, Feng Zhao | (参考訳) 視覚変換器(ViT)は、第1層から世界受容場を得るのに役立つ自己認識機構のため、多くの分野で広く応用されている。
いくつかのビジョンタスクでcnnを超える驚くべきパフォーマンスを達成している。
しかし、視覚変換器を2D+3D表情認識(FER)に活用する場合、すなわち、ViTトレーニングには質量データが必要である。
それでも、公開2D+3D FERデータセットのサンプル数は、評価に十分ではない。
rgbイメージで事前トレーニングされたvitを2d+3dデータを処理する方法が課題となる。
そこで本研究では,マルチモーダル2D+3D FER,すなわちMFEViTのための軽量なトランスフォーマーネットワークを提案する。
RGBとマルチモーダルデータのギャップを狭めるために、RGB画像の3つのチャネルそれぞれを深度マップチャネルに置き換えて、トランスフォーマーエンコーダに供給する前にそれらを融合する、代替の融合戦略を考案する。
さらに、設計されたサンプルフィルタリングモジュールは、各式にいくつかのサブクラスを追加し、ノイズの多いサンプルを対応するサブクラスに移動することで、トレーニング段階でネットワーク上の障害を取り除く。
我々のMFEViTは、BU-3DFEで90.83%、Bosphorusで90.28%の精度で最先端のアプローチより優れていることを示した。
具体的には、MFEViTは軽量モデルであり、マルチブランチCNNよりもはるかに少ないパラメータを必要とする。
我々の知る限り、これは視覚変換器をマルチモーダル2D+3D FERに導入する最初の試みである。
MFEViTのソースコードはオンラインで公開されます。 Vision transformer (ViT) has been widely applied in many areas due to its self-attention mechanism that help obtain the global receptive field since the first layer. It even achieves surprising performance exceeding CNN in some vision tasks. However, there exists an issue when leveraging vision transformer into 2D+3D facial expression recognition (FER), i.e., ViT training needs mass data. Nonetheless, the number of samples in public 2D+3D FER datasets is far from sufficient for evaluation. How to utilize the ViT pre-trained on RGB images to handle 2D+3D data becomes a challenge. To solve this problem, we propose a robust lightweight pure transformer-based network for multimodal 2D+3D FER, namely MFEViT. For narrowing the gap between RGB and multimodal data, we devise an alternative fusion strategy, which replaces each of the three channels of an RGB image with the depth-map channel and fuses them before feeding them into the transformer encoder. Moreover, the designed sample filtering module adds several subclasses for each expression and move the noisy samples to their corresponding subclasses, thus eliminating their disturbance on the network during the training stage. Extensive experiments demonstrate that our MFEViT outperforms state-of-the-art approaches with an accuracy of 90.83% on BU-3DFE and 90.28% on Bosphorus. Specifically, the proposed MFEViT is a lightweight model, requiring much fewer parameters than multi-branch CNNs. To the best of our knowledge, this is the first work to introduce vision transformer into multimodal 2D+3D FER. The source code of our MFEViT will be publicly available online. | 翻訳日:2021-10-03 10:41:56 公開日:2021-09-20 |
# 本当の意味は?
言語クイズを用いた#BlackLivesMatter運動とそのカウンター抗議 : 2013年から2020年まで What Truly Matters? Using Linguistic Cues for Analyzing the #BlackLivesMatter Movement and its Counter Protests: 2013 to 2020 ( http://arxiv.org/abs/2109.12192v1 ) ライセンス: Link先を確認 | Jamell Dacon, Jiliang Tang | (参考訳) 2012年2月、フロリダ州サンフォードの白人地区の監視人ジョージ・ジマーマン(George Zimmerman)によって17歳の黒人10代のトレイヴォン・マーティン(Tlayvon Martin)が致命傷を負って以来、米国では警察の残虐行為と人種的に動機づけられた事件に対処するデジタル活動が著しく増加した。
本研究では,ソーシャルメディアを権威的ツールとして活用し,これら3つのメディアにおける言語的手がかりと主題的関係を検証・分析することにより,デジタルアクティビズムの革新的な研究を行う。
本研究では,36,984,559ツイートの多レベルテキスト分析を行い,利用者の行動を調査し,各社会運動におけるソーシャルメディアに対するデジタルアクティビズムの影響を文レベル,単語レベル,話題レベルで把握した。
以上の結果から,人種的関連性や偏見的ハッシュタグの過剰使用は,差別傾向を示す反抗運動に有効であることが示唆された。
その結果,Black Lives Matter 活動家による社会活動主義は,ブラックライブ・マターの話題と直接関連している最も大きな話題や会話を囲む話題グラフの形状から,警察の残虐行為や人種的に動機づけられた黒人の殺害に関わる社会問題や話題から逸脱しないことが明らかとなった。
最後に、Blue Lives Matter と All Lives Matter のムーブメントは、Blue Lives Matter や All Lives Matter のトピックが中心に存在しないため、異なるディレクティブを描いている。
これらのことから、各社会運動における話題や会話は、歪んだり、ランダムだったり、人種的に関連づけられたりしており、社会的不公平な問題から逸脱していることが示唆された。 Since the fatal shooting of 17-year old Black teenager Trayvon Martin in February 2012 by a White neighborhood watchman, George Zimmerman in Sanford, Florida, there has been a significant increase in digital activism addressing police-brutality related and racially-motivated incidents in the United States. In this work, we administer an innovative study of digital activism by exploiting social media as an authoritative tool to examine and analyze the linguistic cues and thematic relationships in these three mediums. We conduct a multi-level text analysis on 36,984,559 tweets to investigate users' behaviors to examine the language used and understand the impact of digital activism on social media within each social movement on a sentence-level, word-level, and topic-level. Our results show that excessive use of racially-related or prejudicial hashtags were used by the counter protests which portray potential discriminatory tendencies. Consequently, our findings highlight that social activism done by Black Lives Matter activists does not diverge from the social issues and topics involving police-brutality related and racially-motivated killings of Black individuals due to the shape of its topical graph that topics and conversations encircling the largest component directly relate to the topic of Black Lives Matter. Finally, we see that both Blue Lives Matter and All Lives Matter movements depict a different directive, as the topics of Blue Lives Matter or All Lives Matter do not reside in the center. These findings suggest that topics and conversations within each social movement are skewed, random or possessed racially-related undertones, and thus, deviating from the prominent social injustice issues. | 翻訳日:2021-10-03 10:41:03 公開日:2021-09-20 |
# カウンターストライクの最適チーム経済決定 Optimal Team Economic Decisions in Counter-Strike ( http://arxiv.org/abs/2109.12990v1 ) ライセンス: Link先を確認 | Peter Xenopoulos, Bruno Coelho, Claudio Silva | (参考訳) 勝利確率モデルの出力はしばしばプレイヤーの行動を評価するために使われる。
しかし、esportカウンターストライクのような一部のスポーツでは、重要なチームレベルの決定が存在する。
例えば、カウンターストライクゲームの各ラウンドの開始時に、チームは、ゲーム内資金のどれだけを機器に費やすかを決定する。
ドルはリソースが少ないため、チームが特定の状況に費やすべき方法に関して、さまざまな戦略が生まれています。
ゲーム内におけるチームの獲得決定を評価するため,ゲームレベルの勝利確率モデルを導入し,各ラウンドの開始時にチームが勝利する確率を予測する。
チームスコア、機器、お金、支出決定などの機能を検討します。
勝利確率モデルを用いて,重要なゲームシナリオに対する最適なチーム支出決定について検討する。
CSGOチームにおける準最適意思決定パターンを同定する。
最後に、最適な支出決定が予想される最適支出決定にどの程度近づいたかによってチームをランク付けするために、測定基準である"Optimal Spending Error"(OSE)を導入します。 The outputs of win probability models are often used to evaluate player actions. However, in some sports, such as the popular esport Counter-Strike, there exist important team-level decisions. For example, at the beginning of each round in a Counter-Strike game, teams decide how much of their in-game dollars to spend on equipment. Because the dollars are a scarce resource, different strategies have emerged concerning how teams should spend in particular situations. To assess team purchasing decisions in-game, we introduce a game-level win probability model to predict a team's chance of winning a game at the beginning of a given round. We consider features such as team scores, equipment, money, and spending decisions. Using our win probability model, we investigate optimal team spending decisions for important game scenarios. We identify a pattern of sub-optimal decision-making for CSGO teams. Finally, we introduce a metric, Optimal Spending Error (OSE), to rank teams by how closely their spending decisions follow our predicted optimal spending decisions. | 翻訳日:2021-10-03 10:39:41 公開日:2021-09-20 |
# ネットワーク経済学における因果推論 Causal Inference in Network Economics ( http://arxiv.org/abs/2109.11344v1 ) ライセンス: Link先を確認 | Sridhar Mahadevan | (参考訳) ネットワーク・エコノミクス(Network Economics)は、交通管理からサプライチェーン、および双方向のオンラインマーケットプレースまで、現実世界で発生する豊富な均衡問題の研究である。
本稿では,古典最適化の一般化である変分不等式の数学的枠組みに基づくネットワーク経済学における因果推論について検討する。
我々の枠組みは、因果推論の広い原理でよく知られた変分不等式論の合成と見なすことができる。 Network economics is the study of a rich class of equilibrium problems that occur in the real world, from traffic management to supply chains and two-sided online marketplaces. In this paper we explore causal inference in network economics, building on the mathematical framework of variational inequalities, which is a generalization of classical optimization. Our framework can be viewed as a synthesis of the well-known variational inequality formalism with the broad principles of causal inference | 翻訳日:2021-09-24 14:54:30 公開日:2021-09-20 |
# プログラムと訓練率非依存化学反応ネットワーク Programming and Training Rate-Independent Chemical Reaction Networks ( http://arxiv.org/abs/2109.11422v1 ) ライセンス: Link先を確認 | Marko Vasic, Cameron Chalk, Austin Luchsinger, Sarfraz Khurshid, and David Soloveichik | (参考訳) 従来の電子工学と相容れない生体化学環境における埋め込み計算は, 合成生物学, 医薬, ナノファブリケーション, その他の分野に幅広い影響を与えることが期待されている。
天然生化学システムは典型的には化学反応ネットワーク(crns)によってモデル化され、crnは合成化学計算の仕様言語として使用できる。
本稿では,反応速度と運動速度法則に対して平衡が絶対的に堅牢である非競合性(NC)と呼ばれるCRNのクラスを同定する。
レート非依存のCRNに関する以前の作業とは異なり、非競合をチェックして設計基準として使用するのは簡単で、堅牢な出力を約束する。
また,直列線形ユニット(ReLU)ニューラルネットワークからNC-CRNへの変換手順を示す,よく構築されたディープラーニング手法を用いてNC-CRNをプログラムする手法を提案する。
2重ReLUネットワークの場合、単一の分子反応が1つのReLUノードに対応するという意味で、我々の翻訳手順は驚くほど厳密である。
このコンパクト性は、ニューラルネットワークがプログラム速度に依存しない化学計算に適したパラダイムであると主張する。
原理の証明として,従来の機械学習データセット(IRISとMNIST)でトレーニングされたニューラルネットワークから翻訳されたCRNの数値シミュレーションと,ウイルス検出や空間パターン形成などの潜在的な生物学的応用に適合したタスクを,本手法で実証する。 Embedding computation in biochemical environments incompatible with traditional electronics is expected to have wide-ranging impact in synthetic biology, medicine, nanofabrication and other fields. Natural biochemical systems are typically modeled by chemical reaction networks (CRNs), and CRNs can be used as a specification language for synthetic chemical computation. In this paper, we identify a class of CRNs called non-competitive (NC) whose equilibria are absolutely robust to reaction rates and kinetic rate law, because their behavior is captured solely by their stoichiometric structure. Unlike prior work on rate-independent CRNs, checking non-competition and using it as a design criterion is easy and promises robust output. We also present a technique to program NC-CRNs using well-founded deep learning methods, showing a translation procedure from rectified linear unit (ReLU) neural networks to NC-CRNs. In the case of binary weight ReLU networks, our translation procedure is surprisingly tight in the sense that a single bimolecular reaction corresponds to a single ReLU node and vice versa. This compactness argues that neural networks may be a fitting paradigm for programming rate-independent chemical computation. As proof of principle, we demonstrate our scheme with numerical simulations of CRNs translated from neural networks trained on traditional machine learning datasets (IRIS and MNIST), as well as tasks better aligned with potential biological applications including virus detection and spatial pattern formation. | 翻訳日:2021-09-24 14:45:21 公開日:2021-09-20 |
# SoK: マシンラーニングガバナンス SoK: Machine Learning Governance ( http://arxiv.org/abs/2109.10870v1 ) ライセンス: Link先を確認 | Varun Chandrasekaran, Hengrui Jia, Anvith Thudi, Adelin Travers, Mohammad Yaghini, Nicolas Papernot | (参考訳) コンピュータシステムにおける機械学習(ML)の適用は、多くの利益をもたらすだけでなく、社会にリスクをもたらす。
本稿では,このようなメリットとリスクのバランスをとるためのMLガバナンスの概念を,MLの責任ある応用を実現するために開発する。
当社のアプローチはまず,データとモデルのオーナシップを確認するための研究を体系化し,MLシステム固有のアイデンティティの概念を育む。
この基盤に基づいて、属性と監査の両方を通じて、mlシステムの障害に責任を持つプリンシパルを保持するためにidentityを使用します。
MLシステムの信頼性を高めるため、我々は保証を開発するための技術、すなわち、システムがそのセキュリティ要件を満たし、ある既知の失敗を示さないという自信を調査する。
これにより、モデルオーナがシステムのライフサイクル(例えば、mlシステムのパッチやリタイアなど)を管理するためのテクニックの必要性が浮き彫りになります。
総じて、知識の体系化は、MLのライフサイクルを通してのデプロイメントに関わるプリンシパル間のインタラクションを標準化します。
例えば、MLプリンシパル間のゲーム結果の形式化など、今後の作業の機会を強調します。 The application of machine learning (ML) in computer systems introduces not only many benefits but also risks to society. In this paper, we develop the concept of ML governance to balance such benefits and risks, with the aim of achieving responsible applications of ML. Our approach first systematizes research towards ascertaining ownership of data and models, thus fostering a notion of identity specific to ML systems. Building on this foundation, we use identities to hold principals accountable for failures of ML systems through both attribution and auditing. To increase trust in ML systems, we then survey techniques for developing assurance, i.e., confidence that the system meets its security requirements and does not exhibit certain known failures. This leads us to highlight the need for techniques that allow a model owner to manage the life cycle of their system, e.g., to patch or retire their ML system. Put altogether, our systematization of knowledge standardizes the interactions between principals involved in the deployment of ML throughout its life cycle. We highlight opportunities for future work, e.g., to formalize the resulting game between ML principals. | 翻訳日:2021-09-23 13:31:20 公開日:2021-09-20 |
# (参考訳) コイル感度を伴わない同時並列MRI再構成のための最適制御フレームワーク An Optimal Control Framework for Joint-channel Parallel MRI Reconstruction without Coil Sensitivities ( http://arxiv.org/abs/2109.09738v1 ) ライセンス: CC BY 4.0 | Wanyu Bian, Yunmei Chen and Xiaojing Ye | (参考訳) Goal: 本研究の目的は, 離散時間最適制御フレームワークを組み込んだ新しいキャリブレーションフリー高速並列MRI(pMRI)再構成手法の開発である。
再構成モデルは,マルチコイル画像のチャネル間の情報共有を利用して,チャネルを組み合わせて特徴を抽出する正規化を学習するように設計されている。
本研究では,画像とフーリエ空間における構造化マルチプレイヤー畳み込みネットワークを活用し,マグニチュード情報と位相情報の両方を復元する。
方法: 適応型マルチコイル画像組合せ演算子と、画像とフーリエ空間の効率的な画像正規化を組み合わせた学習目的関数を持つ新しい変分モデルを開発する。
我々は,再構成ネットワークを構造化離散時間最適制御系としてキャストし,目的関数のパラメータが制御変数の役割を果たすパラメータ学習の最適制御を定式化した。
制御問題を解くためのラグランジアン法がバックプロパゲーションと等価であることを示し、トレーニングアルゴリズムの局所収束を保証する。
結果: 提案手法の数値実験を, 実pMRIデータセット上のいくつかの最先端pMRI再構成ネットワークとの比較により行った。
その結果,提案手法の有望な性能が明らかとなった。
結論: 提案手法は, 効率的なジョイントチャネルpmri再構成のための汎用的深層ネットワーク設計および訓練フレームワークを提供する。
意義:マルチコイル画像合成演算子を学習し,画像領域とk空間領域の両方で正規化を行うことにより,高効率なpmri画像再構成ネットワークを実現する。 Goal: This work aims at developing a novel calibration-free fast parallel MRI (pMRI) reconstruction method incorporate with discrete-time optimal control framework. The reconstruction model is designed to learn a regularization that combines channels and extracts features by leveraging the information sharing among channels of multi-coil images. We propose to recover both magnitude and phase information by taking advantage of structured multiplayer convolutional networks in image and Fourier spaces. Methods: We develop a novel variational model with a learnable objective function that integrates an adaptive multi-coil image combination operator and effective image regularization in the image and Fourier spaces. We cast the reconstruction network as a structured discrete-time optimal control system, resulting in an optimal control formulation of parameter training where the parameters of the objective function play the role of control variables. We demonstrate that the Lagrangian method for solving the control problem is equivalent to back-propagation, ensuring the local convergence of the training algorithm. Results: We conduct a large number of numerical experiments of the proposed method with comparisons to several state-of-the-art pMRI reconstruction networks on real pMRI datasets. The numerical results demonstrate the promising performance of the proposed method evidently. Conclusion: The proposed method provides a general deep network design and training framework for efficient joint-channel pMRI reconstruction. Significance: By learning multi-coil image combination operator and performing regularizations in both image domain and k-space domain, the proposed method achieves a highly efficient image reconstruction network for pMRI. | 翻訳日:2021-09-23 06:11:12 公開日:2021-09-20 |
# (参考訳) 一般化最適化:カテゴリー論的学習理論への第一歩 Generalized Optimization: A First Step Towards Category Theoretic Learning Theory ( http://arxiv.org/abs/2109.10262v1 ) ライセンス: CC BY 4.0 | Dan Shiebler | (参考訳) カルテシアン逆微分(英: Cartesian reverse derivative)は、逆モード自動微分の分類的一般化である。
この演算子を用いて、勾配降下の単純一般化やニュートン法の新しい一般化など、いくつかの最適化アルゴリズムを一般化する。
次に、この一般化された設定において、これらのアルゴリズムのどの特性が保存されているかを調べる。
一般化ニュートン法はすべての可逆線型変換に対して不変であるが、一般化勾配降下は直交線型変換に対してのみ不変である。
次に,内積的表現を用いて一般化された勾配勾配の損失の変化を表現し,勾配勾配最適化流の非増加・収束特性を一般化することを示した。
最後に,本論文のアイデアを説明するためにいくつかの数値実験を行い,順序付き環上の多項式関数を最適化する方法を示す。 The Cartesian reverse derivative is a categorical generalization of reverse-mode automatic differentiation. We use this operator to generalize several optimization algorithms, including a straightforward generalization of gradient descent and a novel generalization of Newton's method. We then explore which properties of these algorithms are preserved in this generalized setting. First, we show that the transformation invariances of these algorithms are preserved: while generalized Newton's method is invariant to all invertible linear transformations, generalized gradient descent is invariant only to orthogonal linear transformations. Next, we show that we can express the change in loss of generalized gradient descent with an inner product-like expression, thereby generalizing the non-increasing and convergence properties of the gradient descent optimization flow. Finally, we include several numerical experiments to illustrate the ideas in the paper and demonstrate how we can use them to optimize polynomial functions over an ordered ring. | 翻訳日:2021-09-23 05:36:10 公開日:2021-09-20 |
# (参考訳) カンファレンスピアレビュー: 2014年のNeurIPS実験を再考 Inconsistency in Conference Peer Review: Revisiting the 2014 NeurIPS Experiment ( http://arxiv.org/abs/2109.09774v1 ) ライセンス: CC BY 4.0 | Corinna Cortes and Neil D. Lawrence | (参考訳) 本稿では,カンファレンスピアレビューにおける一貫性を検証した2014 NeurIPS実験を再考する。
その結果,レビュアーの品質スコアの50 % が原点であることが判明した。
さらに,実験から7年経過した結果,<emph{accepted>論文では,引用回数の関数として測定された紙の品質スコアと紙の影響との間には相関性がないことがわかった。
却下された論文の運命をたどり、これらの論文が最終的に出版された場所を回復する。
これらの論文では、品質スコアと影響の相関を見出す。
2014年のカンファレンスのレビュープロセスは、貧弱な論文を特定するのに向いているが、良い論文を特定するのに貧弱だと結論づけた。
レビュープロセスを改善するための提案を行うとともに,主観的要素の削除を警告する。
最後に,この実験の真の結論は,個々の研究者の質を評価する際に,「トップレベル会議出版」という概念に,コミュニティがより少なすぎることを示唆する。
NeurIPS 2021のために、PCは実験を繰り返し、新しい実験を実行している。 In this paper we revisit the 2014 NeurIPS experiment that examined inconsistency in conference peer review. We determine that 50\% of the variation in reviewer quality scores was subjective in origin. Further, with seven years passing since the experiment we find that for \emph{accepted} papers, there is no correlation between quality scores and impact of the paper as measured as a function of citation count. We trace the fate of rejected papers, recovering where these papers were eventually published. For these papers we find a correlation between quality scores and impact. We conclude that the reviewing process for the 2014 conference was good for identifying poor papers, but poor for identifying good papers. We give some suggestions for improving the reviewing process but also warn against removing the subjective element. Finally, we suggest that the real conclusion of the experiment is that the community should place less onus on the notion of `top-tier conference publications' when assessing the quality of individual researchers. For NeurIPS 2021, the PCs are repeating the experiment, as well as conducting new ones. | 翻訳日:2021-09-23 04:56:26 公開日:2021-09-20 |
# (参考訳) disrpt2021共有タスクにおけるdiscodisco : 談話のセグメンテーション、分類、コネクティブ検出のためのシステム DisCoDisCo at the DISRPT2021 Shared Task: A System for Discourse Segmentation, Classification, and Connective Detection ( http://arxiv.org/abs/2109.09777v1 ) ライセンス: CC BY 4.0 | Luke Gessler, Shabnam Behzad, Yang Janet Liu, Siyao Peng, Yilun Zhu, Amir Zeldes | (参考訳) 本稿では,DisRPT2021の談話単位分割,接続検出,関係分類に関するタスクについて述べる。
我々のシステムであるDisCoDisCoは、コンテクスト化された単語埋め込み(CWE)を強化したトランスフォーマーベースのニューラル分類器であり、談話セグメンテーションと接続検出のためのトークンワイドなシーケンスタグ、および関係分類のための機能豊富なエンコーダレス文ペア分類器である。
最初の2つのタスクの結果は、2019年の共有タスクのSOTAスコアよりも優れており、関係分類の結果は、新しい2021ベンチマークで強いパフォーマンスを示している。
アブレーションテストでは、CWE以外の機能を含めることが両方のタスクに役立つことが示され、複数の事前学習されたトランスフォーマーベース言語モデルの部分評価により、Next Sentence Prediction (NSP)タスクで事前学習されたモデルが関係分類に最適であることが示されている。 This paper describes our submission to the DISRPT2021 Shared Task on Discourse Unit Segmentation, Connective Detection, and Relation Classification. Our system, called DisCoDisCo, is a Transformer-based neural classifier which enhances contextualized word embeddings (CWEs) with hand-crafted features, relying on tokenwise sequence tagging for discourse segmentation and connective detection, and a feature-rich, encoder-less sentence pair classifier for relation classification. Our results for the first two tasks outperform SOTA scores from the previous 2019 shared task, and results on relation classification suggest strong performance on the new 2021 benchmark. Ablation tests show that including features beyond CWEs are helpful for both tasks, and a partial evaluation of multiple pre-trained Transformer-based language models indicates that models pre-trained on the Next Sentence Prediction (NSP) task are optimal for relation classification. | 翻訳日:2021-09-23 04:35:37 公開日:2021-09-20 |
# (参考訳) bertは常識に乏しい:word sense bertologyの類似度ランキング BERT Has Uncommon Sense: Similarity Ranking for Word Sense BERTology ( http://arxiv.org/abs/2109.09780v1 ) ライセンス: CC BY 4.0 | Luke Gessler, Nathan Schneider | (参考訳) bertのような文脈化単語埋め込み(cwe)モデルに関する重要な質問は、異なる単語感覚、特に非常識の長い尾で表現できるかどうかである。
従来の作業のようにWSDシステムを構築するのではなく、コンテキスト化された埋め込み地区を直接調査し、近隣の検索タスクを探索し、異なる周波数帯域における単語や感覚のランク付け性能を調べる。
2つの英感覚注釈コーパスの評価において、いくつかの一般的なCWEモデルは、比例的に稀な感覚であっても、明示的な感覚監督なしで、ランダムなベースラインよりも優れていることがわかった。
しかし、類似したアーキテクチャや事前学習体制を持つモデルにおいても、性能は著しく異なり、特に稀な単語感覚では大きな違いがあり、CWEモデルは、その固有表現における単語感覚の近似に関して全て等しいものではないことが判明した。 An important question concerning contextualized word embedding (CWE) models like BERT is how well they can represent different word senses, especially those in the long tail of uncommon senses. Rather than build a WSD system as in previous work, we investigate contextualized embedding neighborhoods directly, formulating a query-by-example nearest neighbor retrieval task and examining ranking performance for words and senses in different frequency bands. In an evaluation on two English sense-annotated corpora, we find that several popular CWE models all outperform a random baseline even for proportionally rare senses, without explicit sense supervision. However, performance varies considerably even among models with similar architectures and pretraining regimes, with especially large differences for rare word senses, revealing that CWE models are not all created equal when it comes to approximating word senses in their native representations. | 翻訳日:2021-09-23 04:15:21 公開日:2021-09-20 |
# (参考訳) 視覚知覚レンズによる依存性誘導 Dependency Induction Through the Lens of Visual Perception ( http://arxiv.org/abs/2109.09790v1 ) ライセンス: CC BY-SA 4.0 | Ruisi Su, Shruti Rijhwani, Hao Zhu, Junxian He, Xinyu Wang, Yonatan Bisk, Graham Neubig | (参考訳) 文法誘導に関するこれまでのほとんどの研究は、純粋にテキストからフレーズや依存構造を学ぶことに焦点を当てていた。
しかし、テキストのみで提供される信号は限られているため、最近導入された視覚的接地構文モデルはマルチモーダル情報を利用し、構成文法誘導の性能向上に繋がる。
しかし、依存文法と比較して、構成文法は言語固有のヒューリスティックを強制せずに視覚情報を組み込むための簡単な方法を提供していない。
本稿では,単語の具体性と構造的視覚に基づくヒューリスティックを活用し,構成構成構造と係り受け構造文法を共同で学習する教師なし文法誘導モデルを提案する。
実験の結果, 具体性は依存文法を学習するための強力な指標であり, 純文で訓練された最先端のモデルと比較して, 直接アタッチメントスコア(DAS)を50%以上向上させることがわかった。
次に,単語の具体性と視覚的意味的役割のラベルを,構成と依存関係のパースに活用するモデルの拡張を提案する。
実験により,提案した拡張は,文法的サイズが小さい場合でも,現在最先端の視覚的接地モデルよりも優れた性能を示すことが示された。 Most previous work on grammar induction focuses on learning phrasal or dependency structure purely from text. However, because the signal provided by text alone is limited, recently introduced visually grounded syntax models make use of multimodal information leading to improved performance in constituency grammar induction. However, as compared to dependency grammars, constituency grammars do not provide a straightforward way to incorporate visual information without enforcing language-specific heuristics. In this paper, we propose an unsupervised grammar induction model that leverages word concreteness and a structural vision-based heuristic to jointly learn constituency-structure and dependency-structure grammars. Our experiments find that concreteness is a strong indicator for learning dependency grammars, improving the direct attachment score (DAS) by over 50\% as compared to state-of-the-art models trained on pure text. Next, we propose an extension of our model that leverages both word concreteness and visual semantic role labels in constituency and dependency parsing. Our experiments show that the proposed extension outperforms the current state-of-the-art visually grounded models in constituency parsing even with a smaller grammar size. | 翻訳日:2021-09-23 04:04:52 公開日:2021-09-20 |
# (参考訳) 効果的な回帰テストのための変成的関係優先化 Metamorphic Relation Prioritization for Effective Regression Testing ( http://arxiv.org/abs/2109.09798v1 ) ライセンス: CC BY 4.0 | Madhusudan Srinivasan and Upulee Kanewala | (参考訳) メタモルフィックテスト(MT)は、オラクル問題に直面するプログラムのテストに広く用いられている。
一連のメタモルフィック関係(MR)は複数の入力と対応する出力の間の関係であり、テスト中のプログラムが故障しているかどうかを決定する。
通常、MRはテスト中のプログラムの障害を検出する能力に変化があり、いくつかのMRは同じ障害を検知する傾向にある。
本稿では,回帰テストにおけるMTの効率と有効性を改善するため,MRの優先順位付け手法を提案する。
1)障害ベースと(2)カバレッジベースという2つのMR優先順位付け手法を提案する。
これらのMR優先順位付け手法を評価するため、3つの複雑なオープンソースソフトウェアシステムで実験を行った。
以上の結果から,本研究で開発されたMR優先化手法は, 異常検出の有効性の観点から, MRのソースおよびフォローアップテストケースの実行において, 従来よりも有意に優れていたことが示唆された。
さらに、フォールトベースmrの優先順位付けは、実行すべきソースとフォローアップのテストケースの数を削減し、障害検出に要する平均時間を削減すると同時に、テストプロセス中の時間とコストの削減につながる。 Metamorphic testing (MT) is widely used for testing programs that face the oracle problem. It uses a set of metamorphic relations (MRs), which are relations among multiple inputs and their corresponding outputs to determine whether the program under test is faulty. Typically, MRs vary in their ability to detect faults in the program under test, and some MRs tend to detect the same set of faults. In this paper, we propose approaches to prioritize MRs to improve the efficiency and effectiveness of MT for regression testing. We present two MR prioritization approaches: (1) fault-based and (2) coverage-based. To evaluate these MR prioritization approaches, we conduct experiments on three complex open-source software systems. Our results show that the MR prioritization approaches developed by us significantly outperform the current practice of executing the source and follow-up test cases of the MRs in an ad-hoc manner in terms of fault detection effectiveness. Further, fault-based MR prioritization leads to reducing the number of source and follow-up test cases that needs to be executed as well as reducing the average time taken to detect a fault, which would result in saving time and cost during the testing process. | 翻訳日:2021-09-23 03:50:58 公開日:2021-09-20 |
# (参考訳) 事実上のインスタンスがほとんど説明できない Counterfactual Instances Explain Little ( http://arxiv.org/abs/2109.09809v1 ) ライセンス: CC BY 4.0 | Adam White, Artur d'Avila Garcez | (参考訳) 多くのアプリケーションにおいて、機械学習システムの決定を説明できることが重要である。
ますます人気のあるアプローチは、emph{counterfactual instance explains} を提供することであった。
これらは、事実とは対照的に、機械学習システムから所望の判断を受けることができる密接な世界を指定する。
本論では, 反実例と反実例を支持する因果方程式(あるいは方程式の体系)の両方から, 十分な説明をしなければならないと論じるために, 科学哲学からの文献を引用する。
反事実インスタンス自体が説明できないことを示します。
さらに、因果方程式と反実例の両方を提供する説明可能なAI手法が、機械学習予測をうまく説明できる方法について説明する。 In many applications, it is important to be able to explain the decisions of machine learning systems. An increasingly popular approach has been to seek to provide \emph{counterfactual instance explanations}. These specify close possible worlds in which, contrary to the facts, a person receives their desired decision from the machine learning system. This paper will draw on literature from the philosophy of science to argue that a satisfactory explanation must consist of both counterfactual instances and a causal equation (or system of equations) that support the counterfactual instances. We will show that counterfactual instances by themselves explain little. We will further illustrate how explainable AI methods that provide both causal equations and counterfactual instances can successfully explain machine learning predictions. | 翻訳日:2021-09-23 03:32:25 公開日:2021-09-20 |
# (参考訳) ドメイン適応型参照解決のためのスパン表現の改善 Improving Span Representation for Domain-adapted Coreference Resolution ( http://arxiv.org/abs/2109.09811v1 ) ライセンス: CC BY 4.0 | Nupoor Gandhi, Anjalie Field, Yulia Tsvetkov | (参考訳) 近年の研究では、微調整されたニューラルネットワークコリファレンスモデルが、異なるドメインに適応する際に強いパフォーマンスをもたらすことが示されている。
しかし、同時に、これは大量の注釈付き対象例を必要とする可能性がある。
そこで本研究では,新たなドメインにコア推論モデルをより効率的に適用するための概念知識の利用を提案する。
1) 知識に基づく距離関数を満たすためにスパン表現をインセンティブ化するためのレトロフィッティング損失と, (2)スパン表現から知識の回復を導く足場損失とを用いてスパン表現を改善する手法を開発した。
これらの損失を統合することで、ベースライン精度とF-1スコアを改善することができる。
特に、エンド・ツー・エンドのコリファレンスモデルに知識を組み込むことで、最も挑戦的なドメイン固有スパンのパフォーマンスが向上することを示す。 Recent work has shown fine-tuning neural coreference models can produce strong performance when adapting to different domains. However, at the same time, this can require a large amount of annotated target examples. In this work, we focus on supervised domain adaptation for clinical notes, proposing the use of concept knowledge to more efficiently adapt coreference models to a new domain. We develop methods to improve the span representations via (1) a retrofitting loss to incentivize span representations to satisfy a knowledge-based distance function and (2) a scaffolding loss to guide the recovery of knowledge from the span representation. By integrating these losses, our model is able to improve our baseline precision and F-1 score. In particular, we show that incorporating knowledge with end-to-end coreference models results in better performance on the most challenging, domain-specific spans. | 翻訳日:2021-09-23 03:24:26 公開日:2021-09-20 |
# (参考訳) アナフォリックゼロ代名詞に対するデータ拡張法 Data Augmentation Methods for Anaphoric Zero Pronouns ( http://arxiv.org/abs/2109.09825v1 ) ライセンス: CC BY 4.0 | Abdulrahman Aloraini and Massimo Poesio | (参考訳) アラビア語、中国語、イタリア語、日本語、スペイン語などのプロドロップ言語では、ある構文的位置における非現実的(null)引数は以前に導入された実体を参照することができ、したがってアナフォリックゼロ代名詞と呼ばれる。
しかし、アナフォリックゼロ代名詞解釈を研究するための既存のリソースはまだ限られている。
本稿では,5つのデータ拡張手法を用いて,アナフォリックゼロ代名詞の自動生成と検出を行う。
アラビア語に対する2つのアナフォリックゼロ代名詞システムのための追加のトレーニング材料として、拡張データを使用する。
実験の結果,データ拡張により2つのシステムの性能が向上し,最新結果を上回った。 In pro-drop language like Arabic, Chinese, Italian, Japanese, Spanish, and many others, unrealized (null) arguments in certain syntactic positions can refer to a previously introduced entity, and are thus called anaphoric zero pronouns. The existing resources for studying anaphoric zero pronoun interpretation are however still limited. In this paper, we use five data augmentation methods to generate and detect anaphoric zero pronouns automatically. We use the augmented data as additional training materials for two anaphoric zero pronoun systems for Arabic. Our experimental results show that data augmentation improves the performance of the two systems, surpassing the state-of-the-art results. | 翻訳日:2021-09-23 03:10:37 公開日:2021-09-20 |
# (参考訳) iRNN:整数のみのリカレントニューラルネットワーク iRNN: Integer-only Recurrent Neural Network ( http://arxiv.org/abs/2109.09828v1 ) ライセンス: CC BY 4.0 | Eyy\"ub Sari, Vanessa Courville, Vahid Partovi Nia | (参考訳) recurrent neural networks (rnn)は多くの現実世界のテキストや音声アプリケーションで使われている。
それらは、繰り返し、指数的ベースのアクティベーション、ゲート相互作用、展開不能な正規化、双方向依存、注意などの複雑なモジュールを含む。
これらの要素間の相互作用は、大きなパフォーマンス低下なしに整数のみの操作で実行するのを防ぐ。
レイヤ正規化や整数専用算術への注意を含むrnnのデプロイは、まだ未解決の問題である。
精度の高い整数専用リカレントニューラルネットワーク(iRNN)を得るための量子化学習法を提案する。
本手法は, 層正規化, 注意, アクティベーションの適応的部分線形近似をサポートし, 様々なアプリケーションにおいて広範囲の RNN を提供する。
提案手法はRNNに基づく言語モデルと音声認識に有効であることが証明された。
当社のiRNNは、フル精度のものと同等のパフォーマンスを維持しており、スマートフォンへの展開により、ランタイムのパフォーマンスが2ドル、モデルサイズが4ドルに向上しています。 Recurrent neural networks (RNN) are used in many real-world text and speech applications. They include complex modules such as recurrence, exponential-based activation, gate interaction, unfoldable normalization, bi-directional dependence, and attention. The interaction between these elements prevents running them on integer-only operations without a significant performance drop. Deploying RNNs that include layer normalization and attention on integer-only arithmetic is still an open problem. We present a quantization-aware training method for obtaining a highly accurate integer-only recurrent neural network (iRNN). Our approach supports layer normalization, attention, and an adaptive piecewise linear approximation of activations, to serve a wide range of RNNs on various applications. The proposed method is proven to work on RNN-based language models and automatic speech recognition. Our iRNN maintains similar performance as its full-precision counterpart, their deployment on smartphones improves the runtime performance by $2\times$, and reduces the model size by $4\times$. | 翻訳日:2021-09-23 02:54:42 公開日:2021-09-20 |
# (参考訳) モビリティ・ランドスケープにおける弱いシグナル--欧州10都市におけるカーシェアリング Weak Signals in the Mobility Landscape: Car Sharing in Ten European Cities ( http://arxiv.org/abs/2109.09832v1 ) ライセンス: CC BY 4.0 | Chiara Boldrini, Raffaele Bruno, Haitam Laarabi | (参考訳) 自動車のシェアリングはスマートな交通インフラの柱の一つであり、交通渋滞や駐車需要、都市汚染を減らすことが期待されている。
需要モデリングの観点からは、カーシェアリングは都市の景観において弱いシグナルであり、人口のごく一部しか利用していないため、家庭旅行日記のような伝統的な手法で確実に研究することは困難である。
本研究では、これらの従来のアプローチから離れ、主要なアクティブカーシェアリングオペレーターの1つとして、欧州10都市における車両利用率に関するWebベースのデジタル記録を活用する。
社会デモグラフィと都市活動指標がカーシェアリング需要の変動にどのような関連があるか,その予測手法(関連する文献でもっとも一般的なもの)がピックアップとドロップオフのイベントの予測に適しているか,また,都市内の異なるゾーンがどのように使われているかを予測するために,車両の可用性に関する時空間的情報をどのように利用できるか,について検討する。
本論文は,カーシェアリング作業エリア内の保守施設の場所を特定することを目的とした,データセット分析の直接的な応用について述べる。 Car sharing is one the pillars of a smart transportation infrastructure, as it is expected to reduce traffic congestion, parking demands and pollution in our cities. From the point of view of demand modelling, car sharing is a weak signal in the city landscape: only a small percentage of the population uses it, and thus it is difficult to study reliably with traditional techniques such as households travel diaries. In this work, we depart from these traditional approaches and we leverage web-based, digital records about vehicle availability in 10 European cities for one of the major active car sharing operators. We discuss which sociodemographic and urban activity indicators are associated with variations in car sharing demand, which forecasting approach (among the most popular in the related literature) is better suited to predict pickup and drop-off events, and how the spatio-temporal information about vehicle availability can be used to infer how different zones in a city are used by customers. We conclude the paper by presenting a direct application of the analysis of the dataset, aimed at identifying where to locate maintenance facilities within the car sharing operation area. | 翻訳日:2021-09-23 02:30:48 公開日:2021-09-20 |
# (参考訳) fast treeshap: ツリーのシェープ値計算の高速化 Fast TreeSHAP: Accelerating SHAP Value Computation for Trees ( http://arxiv.org/abs/2109.09847v1 ) ライセンス: CC BY 4.0 | Jilei Yang | (参考訳) SHAP(SHapley Additive exPlanation)値は、強力な理論的保証(一貫性、局所精度)と実装とユースケースの広範な可用性を備えた、機械学習モデルを解釈するための主要なツールの1つである。
SHAPの計算には通常指数時間を要するが、TreeSHAPは木モデル上で多項式時間を取る。
スピードアップは重要であるが、TreeSHAPは数百万以上のエントリを持つデータセット上の業界レベルの機械学習ソリューションの計算時間を支配し、ポストホックモデル診断と解釈サービスの遅延を引き起こす。
本稿では,大規模データセットに対するFast TreeSHAP v1とFast TreeSHAP v2という2つの新しいアルゴリズムを提案する。
経験的に、fast treeshap v1はtreeshapより1.5倍高速であるが、メモリコストは変わらない。
同様に、Fast TreeSHAP v2はTreeSHAPよりも2.5倍高速で、高価なTreeSHAPステップの事前計算のおかげで、メモリ使用量が少し高くなる。
また、fast treeshap v2はマルチタイムモデル解釈に適しており、新たなサンプルを最大3倍高速に説明できることを示した。 SHAP (SHapley Additive exPlanation) values are one of the leading tools for interpreting machine learning models, with strong theoretical guarantees (consistency, local accuracy) and a wide availability of implementations and use cases. Even though computing SHAP values takes exponential time in general, TreeSHAP takes polynomial time on tree-based models. While the speedup is significant, TreeSHAP can still dominate the computation time of industry-level machine learning solutions on datasets with millions or more entries, causing delays in post-hoc model diagnosis and interpretation service. In this paper we present two new algorithms, Fast TreeSHAP v1 and v2, designed to improve the computational efficiency of TreeSHAP for large datasets. We empirically find that Fast TreeSHAP v1 is 1.5x faster than TreeSHAP while keeping the memory cost unchanged. Similarly, Fast TreeSHAP v2 is 2.5x faster than TreeSHAP, at the cost of a slightly higher memory usage, thanks to the pre-computation of expensive TreeSHAP steps. We also show that Fast TreeSHAP v2 is well-suited for multi-time model interpretations, resulting in as high as 3x faster explanation of newly incoming samples. | 翻訳日:2021-09-23 02:07:01 公開日:2021-09-20 |
# (参考訳) 高バランス医用画像分類のためのバランスドミックスアップ Balanced-MixUp for Highly Imbalanced Medical Image Classification ( http://arxiv.org/abs/2109.09850v1 ) ライセンス: CC BY 4.0 | Adrian Galdran, Gustavo Carneiro, Miguel A. Gonz\'alez Ballester | (参考訳) 高不均衡データセットは、医療画像分類問題においてユビキタスである。
このような問題では、あまり普及しない病気に関連する稀なクラスがラベル付きデータベースでは著しく低表現であり、学習プロセスの過度な適合によって機械学習アルゴリズムの性能が低下することが多い。
本稿では,一般的なミックスアップ正規化手法であるバランスドミックスアップを用いて,トレーニングデータをサンプリングする新しいメカニズムを提案する。
要するに、 balanced-mixupはトレーニングデータの正規化(インスタンスベース)と均衡化(クラスベース)を同時に行う。
結果として得られた2つのサンプルセットが混合され、よりバランスのとれたトレーニングディストリビューションが作成されます。
我々は,高バランスな網膜画像データセット(55Kサンプル,5クラス)と胃腸内ビデオフレームの長いテールデータセット(10K画像,23クラス)を,表現能力の異なる2つのCNNを用いて実験した。
Balanced-MixUpの適用は、不均衡なデータを扱うように設計された従来のサンプリング手法や損失関数よりも優れていることを示す。
コードはhttps://github.com/agaldran/balanced_mixupでリリースされる。 Highly imbalanced datasets are ubiquitous in medical image classification problems. In such problems, it is often the case that rare classes associated to less prevalent diseases are severely under-represented in labeled databases, typically resulting in poor performance of machine learning algorithms due to overfitting in the learning process. In this paper, we propose a novel mechanism for sampling training data based on the popular MixUp regularization technique, which we refer to as Balanced-MixUp. In short, Balanced-MixUp simultaneously performs regular (i.e., instance-based) and balanced (i.e., class-based) sampling of the training data. The resulting two sets of samples are then mixed-up to create a more balanced training distribution from which a neural network can effectively learn without incurring in heavily under-fitting the minority classes. We experiment with a highly imbalanced dataset of retinal images (55K samples, 5 classes) and a long-tail dataset of gastro-intestinal video frames (10K images, 23 classes), using two CNNs of varying representation capabilities. Experimental results demonstrate that applying Balanced-MixUp outperforms other conventional sampling schemes and loss functions specifically designed to deal with imbalanced data. Code is released at https://github.com/agaldran/balanced_mixup . | 翻訳日:2021-09-23 01:38:08 公開日:2021-09-20 |
# (参考訳) StreamSide: 意味表現の効率的なアノテーションのための、完全にカスタマイズ可能なオープンソースツールキット StreamSide: A Fully-Customizable Open-Source Toolkit for Efficient Annotation of Meaning Representations ( http://arxiv.org/abs/2109.09853v1 ) ライセンス: CC BY 4.0 | Jinho D. Choi and Gregor Williamson | (参考訳) 本稿では,複数種類の意味表現をアノテートするオープンソースのツールキットStreamSideを提案する。
StreamSideは、AMR(Abstract Meaning Representation)やWISeR(Widely Interpretable Semantic Representation)といったフレームベースのアノテーションスキームをサポートしている。
さらに、アノテータが入力テキスト用のマルチルートグラフを作成することで、文レベルと文書レベルのアノテーションの両方をサポートする。
プレーンテキスト、ペンマン表記、そしてよりリッチなアノテーションを可能にする独自のjsonフォーマットを含む、いくつかの入力形式をオープンかつ自動的に変換できる。
AMR述語引数構造のための参照フレームと、概念とテキストのアライメントを備えている。
StreamSideはApache 2.0ライセンスでリリースされており、完全にオープンソースであるため、様々な言語(例えば、Uniform Meaning Representations)でアノテーションを付けるようにカスタマイズできる。
ストリームサイドのリソースはすべて,オープンソースプロジェクトを通じて公開されています。 https://github.com/emorynlp/streamside.com/。 This demonstration paper presents StreamSide, an open-source toolkit for annotating multiple kinds of meaning representations. StreamSide supports frame-based annotation schemes e.g., Abstract Meaning Representation (AMR) and frameless annotation schemes e.g., Widely Interpretable Semantic Representation (WISeR). Moreover, it supports both sentence-level and document-level annotation by allowing annotators to create multi-rooted graphs for input text. It can open and automatically convert between several types of input formats including plain text, Penman notation, and its own JSON format enabling richer annotation. It features reference frames for AMR predicate argument structures, and also concept-to-text alignment. StreamSide is released under the Apache 2.0 license, and is completely open-source so that it can be customized to annotate enriched meaning representations in different languages (e.g., Uniform Meaning Representations). All StreamSide resources are publicly distributed through our open source project at: https://github.com/emorynlp/StreamSide. | 翻訳日:2021-09-23 01:26:27 公開日:2021-09-20 |
# (参考訳) 強調的抽象的表現:非検証性とスコープ Intensionalizing Abstract Meaning Representations: Non-Veridicality and Scope ( http://arxiv.org/abs/2109.09858v1 ) ライセンス: CC BY 4.0 | Gregor Williamson, Patrick Elliott, Yuxin Ji and Jinho D. Choi | (参考訳) 抽象意味表現 (abstract meaning representation, amr) は、引数構造に関する命題情報を表現するために設計されたグラフィカル意味表現言語である。
しかし、現時点では、非veridical intensional contextsを満足させることができず、しばしば不適切な推論をライセンスしている。
本稿では,AMR から Simply-Typed Lambda Calculus (STLC) へのマッピングを通じて,階層グラフに訴えることなく,非バリダリティの問題を解決する方法を示す。
少なくともいくつかのケースでは、インテンション演算子として機能する新しいロール:contentの導入が必要である。
提案した翻訳は、態度報告の事象意味論に関する形式言語学の文献から着想を得たものである。
次に、いわゆるde re/de dicto ambiguitiesにおける量子化器スコープとインテンショナル演算子の相互作用について述べる。
文献からスコープノードを採用し,de reおよびdeディクトスコープ読み出しを導出できるcooperストレージを利用した明示的な多次元セマンティクスと,スコープノードを使わずにアカウントにとって困難な中間スコープ読み出しを提供する。 Abstract Meaning Representation (AMR) is a graphical meaning representation language designed to represent propositional information about argument structure. However, at present it is unable to satisfyingly represent non-veridical intensional contexts, often licensing inappropriate inferences. In this paper, we show how to resolve the problem of non-veridicality without appealing to layered graphs through a mapping from AMRs into Simply-Typed Lambda Calculus (STLC). At least for some cases, this requires the introduction of a new role :content which functions as an intensional operator. The translation proposed is inspired by the formal linguistics literature on the event semantics of attitude reports. Next, we address the interaction of quantifier scope and intensional operators in so-called de re/de dicto ambiguities. We adopt a scope node from the literature and provide an explicit multidimensional semantics utilizing Cooper storage which allows us to derive the de re and de dicto scope readings as well as intermediate scope readings which prove difficult for accounts without a scope node. | 翻訳日:2021-09-23 01:18:43 公開日:2021-09-20 |
# (参考訳) モバイルプラットフォームにおけるディープラーニングフレームワークのロバストネス解析 Robustness Analysis of Deep Learning Frameworks on Mobile Platforms ( http://arxiv.org/abs/2109.09869v1 ) ライセンス: CC BY 4.0 | Amin Eslami Abyane, Hadi Hemmati | (参考訳) 近年のモバイル機器の計算能力の増大に伴い、顔認識や音声認識といった機械学習に基づく重タスクがこれらの機器の不可欠な部分となっている。
これにより、モバイルデバイス上で機械学習モデル(Deep Neural Networksなど)を実行するためのフレームワークが必要になる。
これらのフレームワークの精度と性能に関する研究は存在するが、デバイス上でのディープラーニングフレームワークの品質は、堅牢性の観点からはまだ体系的に研究されていない。
本稿では、2つのデバイス上のディープラーニングフレームワークと3つの異なるモデルアーキテクチャに対する3つの逆攻撃を経験的に比較する。
また、各アーキテクチャに量子化と非量子化の両方を使用します。
その結果、一般に、どちらのディープラーニングフレームワークも堅牢性という点ではどちらよりも優れておらず、PCとモバイルフレームワークの間にも大きな違いはないことがわかった。
しかし、Boundary攻撃のような場合、モバイルバージョンはPCよりも堅牢だ。
さらに、量子化はPCからモバイルへの移行時の全てのケースにおいて堅牢性を改善する。 With the recent increase in the computational power of modern mobile devices, machine learning-based heavy tasks such as face detection and speech recognition are now integral parts of such devices. This requires frameworks to execute machine learning models (e.g., Deep Neural Networks) on mobile devices. Although there exist studies on the accuracy and performance of these frameworks, the quality of on-device deep learning frameworks, in terms of their robustness, has not been systematically studied yet. In this paper, we empirically compare two on-device deep learning frameworks with three adversarial attacks on three different model architectures. We also use both the quantized and unquantized variants for each architecture. The results show that, in general, neither of the deep learning frameworks is better than the other in terms of robustness, and there is not a significant difference between the PC and mobile frameworks either. However, in cases like Boundary attack, mobile version is more robust than PC. In addition, quantization improves robustness in all cases when moving from PC to mobile. | 翻訳日:2021-09-23 01:02:32 公開日:2021-09-20 |
# 相互ランク分類器を用いた言語識別 Language Identification with a Reciprocal Rank Classifier ( http://arxiv.org/abs/2109.09862v1 ) ライセンス: Link先を確認 | Dominic Widdows and Chris Brew | (参考訳) 言語識別は言語処理パイプライン(Jauhiainen et al.,2019)の重要なコンポーネントであり、現実世界の設定では解決されていない。
ドメインの変更や不適切なトレーニングデータの欠如に対して堅牢な,軽量で効果的な言語識別子を提案する。
分類の鍵となる考え方は、周波数表におけるランクの相互関係が効果的な付加的特徴点スコア(英語版)(reciprocal rank classificationifier, rrc)となることである。
言語分類の鍵となる発見は、単語のランク付けされたリストと文字の頻度が、キー言語とその正書法の規則性の十分かつ堅牢な表現を形成することである。
2つの22言語データセットでこれをテストし、wikipediaトレーニングセットからtwitterテストセットへのゼロエフォートドメイン適応を示す。
wikipediaでトレーニングしながらtwitterに適用すると、従来訓練されたsvm分類器のマクロ平均f1-scoreは90.9%から77.7%に低下する。
対照的に、RCのマクロF1スコアは93.1%から90.6%に低下する。
これらの分類器はfastTextやlangidと比較される。
RRCは、ほとんどの実験において、特にウィキペディアの短いテキストやTwitterにおいて、これらの確立されたシステムよりも優れた性能を発揮する。
RRC分類器は、ランクリストに単語を追加することにより、特定のドメインや会話状況を改善することができる。
このような会話から学習した新しい用語を用いて、サンプルメッセージ分類の精度が7.9%向上し、会話分類の1.7%向上した。
驚くべきことに、twitterのデータの結果はやや悪化した。
RRC分類器はオープンソースPythonパッケージ(https://github.com/LivePersonInc/lplangid)として利用できる。 Language identification is a critical component of language processing pipelines (Jauhiainen et al.,2019) and is not a solved problem in real-world settings. We present a lightweight and effective language identifier that is robust to changes of domain and to the absence of copious training data. The key idea for classification is that the reciprocal of the rank in a frequency table makes an effective additive feature score, hence the term Reciprocal Rank Classifier (RRC). The key finding for language classification is that ranked lists of words and frequencies of characters form a sufficient and robust representation of the regularities of key languages and their orthographies. We test this on two 22-language data sets and demonstrate zero-effort domain adaptation from a Wikipedia training set to a Twitter test set. When trained on Wikipedia but applied to Twitter the macro-averaged F1-score of a conventionally trained SVM classifier drops from 90.9% to 77.7%. By contrast, the macro F1-score of RRC drops only from 93.1% to 90.6%. These classifiers are compared with those from fastText and langid. The RRC performs better than these established systems in most experiments, especially on short Wikipedia texts and Twitter. The RRC classifier can be improved for particular domains and conversational situations by adding words to the ranked lists. Using new terms learned from such conversations, we demonstrate a further 7.9% increase in accuracy of sample message classification, and 1.7% increase for conversation classification. Surprisingly, this made results on Twitter data slightly worse. The RRC classifier is available as an open source Python package (https://github.com/LivePersonInc/lplangid). | 翻訳日:2021-09-22 14:38:04 公開日:2021-09-20 |
# アンサンブル深層学習とレーダデータによる激しい雷雨の予測 Prediction of severe thunderstorm events with ensemble deep learning and radar data ( http://arxiv.org/abs/2109.09791v1 ) ライセンス: Link先を確認 | Sabrina Guastavino, Michele Piana, Marco Tizzi, Federico Cassola, Antonio Iengo, Davide Sacchetti, Enrico Solazzo, Federico Benvenuto | (参考訳) 極端な気象イベントを放送する問題は、動的モデル方程式の解法に数値的手法を適用するか、データ駆動人工知能アルゴリズムを適用することで解決できる。
後者の枠組みでは,レーダー反射率フレームの映像を入力として活用する深層学習手法を用いて,激しい雷雨の予報をタイムリーに鳴らすことができる警告機を実現する方法について述べる。
技術的な観点からは、このアプローチの計算コアは、ディープニューラルネットワークの確率的成果をバイナリ分類に変換し、予測性能を評価するために、価値重み付けスキルスコアを使用することである。
この警報装置はイタリアのリグリア地方で記録された気象レーダーデータに対して検証されている。 The problem of nowcasting extreme weather events can be addressed by applying either numerical methods for the solution of dynamic model equations or data-driven artificial intelligence algorithms. Within this latter framework, the present paper illustrates how a deep learning method, exploiting videos of radar reflectivity frames as input, can be used to realize a warning machine able to sound timely alarms of possible severe thunderstorm events. From a technical viewpoint, the computational core of this approach is the use of a value-weighted skill score for both transforming the probabilistic outcomes of the deep neural network into binary classification and assessing the forecasting performances. The warning machine has been validated against weather radar data recorded in the Liguria region, in Italy, | 翻訳日:2021-09-22 14:35:21 公開日:2021-09-20 |
# 確率的勾配雑音と力学特性の再検討 Revisiting the Characteristics of Stochastic Gradient Noise and Dynamics ( http://arxiv.org/abs/2109.09833v1 ) ライセンス: Link先を確認 | Yixin Wu and Rui Luo and Chen Zhang and Jun Wang and Yaodong Yang | (参考訳) 本稿では,確率的勾配の雑音を特徴付け,勾配に基づくオプティマイザによる深層ニューラルネットワークの訓練中に発生する雑音誘起ダイナミクスを解析する。
具体的には、まず確率的勾配ノイズが有限分散を持つことを示すため、古典的中心極限定理(clt)が適用される。
このような漸近的な結果はガウス雑音の広義の仮定を検証する。
勾配雑音における最近観測された重尾の現象は本質的性質ではないが,小バッチサイズが不十分な結果であり,限定されたi.i.d.確率変数の和である勾配雑音はcltの漸近的構造に達しず,ガウス型から逸脱していることが明らかとなった。
ガウス近似(gaussian approximation of the noise)の良否を定量的に測定し,結論を裏付ける。
次に、Langevin方程式を用いて確率勾配降下の雑音誘起力学を解析し、物理解釈によるオプティマイザの運動量ハイパーパラメーターを与える。
次に,確率勾配降下の定常分布の存在を実証し,小さな学習率で分布を近似する。 In this paper, we characterize the noise of stochastic gradients and analyze the noise-induced dynamics during training deep neural networks by gradient-based optimizers. Specifically, we firstly show that the stochastic gradient noise possesses finite variance, and therefore the classical Central Limit Theorem (CLT) applies; this indicates that the gradient noise is asymptotically Gaussian. Such an asymptotic result validates the wide-accepted assumption of Gaussian noise. We clarify that the recently observed phenomenon of heavy tails within gradient noise may not be intrinsic properties, but the consequence of insufficient mini-batch size; the gradient noise, which is a sum of limited i.i.d. random variables, has not reached the asymptotic regime of CLT, thus deviates from Gaussian. We quantitatively measure the goodness of Gaussian approximation of the noise, which supports our conclusion. Secondly, we analyze the noise-induced dynamics of stochastic gradient descent using the Langevin equation, granting for momentum hyperparameter in the optimizer with a physical interpretation. We then proceed to demonstrate the existence of the steady-state distribution of stochastic gradient descent and approximate the distribution at a small learning rate. | 翻訳日:2021-09-22 14:35:09 公開日:2021-09-20 |
# 深層学習のための文脈特化表現抽象化 Context-Specific Representation Abstraction for Deep Option Learning ( http://arxiv.org/abs/2109.09876v1 ) ライセンス: Link先を確認 | Marwa Abdulhai, Dong-Ki Kim, Matthew Riemer, Miao Liu, Gerald Tesauro, Jonathan P. How | (参考訳) 階層的強化学習は、広範囲な探索を必要とする問題に利益をもたらすオプションのような時間的に拡張された行動を発見することに焦点を当てている。
これらのオプションをエンドツーエンドで学ぶ有望なアプローチのひとつは、option-critic (oc)フレームワークである。
本稿では,ocが問題をより単純なサブプロブレムに分解するのではなく,学習中の状態空間全体を考慮し,それぞれの選択肢でポリシー空間を探索するサイズを増加させることを示す。
この問題は、サンプル非効率学習を含む、この手法の実践的な限界をもたらす可能性がある。
この問題に対処するために,時間的抽象化と文脈特異的表現の抽象化を両立させる新しいフレームワークであるCRADOL(Context-Specific Representation Abstraction for Deep Option Learning)を導入する。
具体的には、各オプションが状態空間のサブセクションのみを越えてポリシーを学習することのできる、ファクタードな信念状態表現を学習する。
本手法は階層的,非階層的,モジュール的リカレントニューラルネットワークベースラインに対してテストを行い,部分的に観察可能な環境に挑戦した場合のサンプル効率の改善を示す。 Hierarchical reinforcement learning has focused on discovering temporally extended actions, such as options, that can provide benefits in problems requiring extensive exploration. One promising approach that learns these options end-to-end is the option-critic (OC) framework. We examine and show in this paper that OC does not decompose a problem into simpler sub-problems, but instead increases the size of the search over policy space with each option considering the entire state space during learning. This issue can result in practical limitations of this method, including sample inefficient learning. To address this problem, we introduce Context-Specific Representation Abstraction for Deep Option Learning (CRADOL), a new framework that considers both temporal abstraction and context-specific representation abstraction to effectively reduce the size of the search over policy space. Specifically, our method learns a factored belief state representation that enables each option to learn a policy over only a subsection of the state space. We test our method against hierarchical, non-hierarchical, and modular recurrent neural network baselines, demonstrating significant sample efficiency improvements in challenging partially observable environments. | 翻訳日:2021-09-22 14:34:48 公開日:2021-09-20 |
# SMAC3:ハイパーパラメータ最適化のためのVersatile Bayesian Optimization Package SMAC3: A Versatile Bayesian Optimization Package for Hyperparameter Optimization ( http://arxiv.org/abs/2109.09831v1 ) ライセンス: Link先を確認 | Marius Lindauer, Katharina Eggensperger, Matthias Feurer, Andr\'e Biedenkapp, Difan Deng, Carolin Benjamins, Ren\'e Sass, Frank Hutter | (参考訳) アルゴリズムパラメータ、特に機械学習アルゴリズムのハイパーパラメータは、その性能に大きな影響を与える。
アルゴリズム、データセット、手元にあるアプリケーションの高パフォーマンスなハイパーパラメータ設定を決定するユーザをサポートするため、smac3はベイズ最適化のための堅牢で柔軟なフレームワークを提供する。
ハイパーパラメータの最適化、低次元連続(人工的な)グローバル最適化問題の解法、複数の問題インスタンスをまたいだアルゴリズムの構成など、典型的なユースケースのためのファサードとプリセットを提供する。
SMAC3パッケージはBSDライセンスでhttps://github.com/automl/SMAC3で入手できる。 Algorithm parameters, in particular hyperparameters of machine learning algorithms, can substantially impact their performance. To support users in determining well-performing hyperparameter configurations for their algorithms, datasets and applications at hand, SMAC3 offers a robust and flexible framework for Bayesian Optimization, which can improve performance within a few evaluations. It offers several facades and pre-sets for typical use cases, such as optimizing hyperparameters, solving low dimensional continuous (artificial) global optimization problems and configuring algorithms to perform well across multiple problem instances. The SMAC3 package is available under a permissive BSD-license at https://github.com/automl/SMAC3. | 翻訳日:2021-09-22 14:33:08 公開日:2021-09-20 |
# SFFDD: 故障予測のための豊富な特徴を持つディープニューラルネットワークとそのコンピュータディスクドライバへの応用 SFFDD: Deep Neural Network with Enriched Features for Failure Prediction with Its Application to Computer Disk Driver ( http://arxiv.org/abs/2109.09856v1 ) ライセンス: Link先を確認 | Lanfa Frank Wang and Danjue Li | (参考訳) 多変量時系列センサデータを用いたシステムやデバイスの故障を予測するため,新しい特徴導出法を組み込んだ分類手法を提案する。
多変量時系列センサデータを可視化と計算の両方のための画像として扱う。
失敗は根本原因と密接に関連する様々なパターンに従う。
異なる事前定義された変換を元のセンサデータに適用し、障害パターンをより正確に特徴付ける。
特徴の導出に加えて、さらに性能を向上させるためにアンサンブル法が用いられる。
さらに,手作業による特徴量の少ない複数種類のデータを扱うために,ディープニューラルネットワークの汎用アルゴリズムアーキテクチャを提案する。
提案手法をコンピュータディスクドライブの早期予測障害に適用し,ストレージシステムの可用性の向上とデータ損失の回避を図る。
分類精度は、スマート機能と呼ばれる豊富な機能によって大幅に改善されている。 A classification technique incorporating a novel feature derivation method is proposed for predicting failure of a system or device with multivariate time series sensor data. We treat the multivariate time series sensor data as images for both visualization and computation. Failure follows various patterns which are closely related to the root causes. Different predefined transformations are applied on the original sensors data to better characterize the failure patterns. In addition to feature derivation, ensemble method is used to further improve the performance. In addition, a general algorithm architecture of deep neural network is proposed to handle multiple types of data with less manual feature engineering. We apply the proposed method on the early predict failure of computer disk drive in order to improve storage systems availability and avoid data loss. The classification accuracy is largely improved with the enriched features, named smart features. | 翻訳日:2021-09-22 14:32:56 公開日:2021-09-20 |
# Googleは、画像ベースのGoogleトレンドで新しいファッション製品の売上をマルチモーダル予測 Well Googled is Half Done: Multimodal Forecasting of New Fashion Product Sales with Image-based Google Trends ( http://arxiv.org/abs/2109.09824v1 ) ライセンス: Link先を確認 | Geri Skenderi, Christian Joppi, Matteo Denitto, Marco Cristani | (参考訳) 本稿では,過去の販売データがないが,画像とメタデータの少ない新しいファッションアイテムの売れ行きを予測するために,視覚面のテキスト翻訳を外生的知識として体系的にgoogle trendsagainstに検索することの有効性について検討する。
特に,Google Trends Multimodal Transformer(GTM-Transformer)を提案する。エンコーダは外因性時系列の表現に取り組んでおり,デコーダはGoogle Trendsエンコーディングと利用可能なビジュアルおよびメタデータ情報を用いて販売を予測している。
我々のモデルは非自己回帰的に機能し、最初のステップエラーの複合効果を避ける。
第2の貢献として,イタリアのファシコン企業であるnunalieの履歴データから,2016年から2019年にかけて販売された5577台の新製品を含む,新ファッション製品販売予測タスクのための最初の公開データセットであるvisuelleデータセットを提案する。
当社のデータセットには、製品イメージ、メタデータ、関連する販売、関連するgoogle trendsが含まれています。
我々はVISUELLEを用いて、最先端の代替品や多数のベースラインに対するアプローチを比較し、GTM-Transformerがパーセンテージと絶対誤差の両面で最も正確であることを示す。
外部知識の追加によって予測精度が1.5%向上し、google trendsを悪用する重要性が示されたことは注目に値する。
コードとデータセットはhttps://github.com/HumaticsLAB/GTM-Transformer.comで公開されている。 This paper investigates the effectiveness of systematically probing Google Trendsagainst textual translations of visual aspects as exogenous knowledge to predict the sales of brand-new fashion items, where past sales data is not available, but only an image and few metadata are available. In particular, we propose GTM-Transformer, standing for Google Trends Multimodal Transformer, whose encoder works on the representation of the exogenous time series, while the decoder forecasts the sales using the Google Trends encoding, and the available visual and metadata information. Our model works in a non-autoregressive manner, avoiding the compounding effect of the first-step errors. As a second contribution, we present the VISUELLE dataset, which is the first publicly available dataset for the task of new fashion product sales forecasting, containing the sales of 5577 new products sold between 2016-2019, derived from genuine historical data ofNunalie, an Italian fast-fashion company. Our dataset is equipped with images of products, metadata, related sales, and associated Google Trends. We use VISUELLE to compare our approach against state-of-the-art alternatives and numerous baselines, showing that GTM-Transformer is the most accurate in terms of both percentage and absolute error. It is worth noting that the addition of exogenous knowledge boosts the forecasting accuracy by 1.5% WAPE wise, showing the importance of exploiting Google Trends. The code and dataset are both available at https://github.com/HumaticsLAB/GTM-Transformer. | 翻訳日:2021-09-22 14:32:09 公開日:2021-09-20 |
# 有限ホリゾンレストレストレスマルチアームマルチアクションバンディットの強化学習 Reinforcement Learning for Finite-Horizon Restless Multi-Armed Multi-Action Bandits ( http://arxiv.org/abs/2109.09855v1 ) ライセンス: Link先を確認 | Guojun Xiong, Jian Li, Rahul Singh | (参考訳) 我々は、R(MA)^2Bと呼ばれる複数の動作を持つ有限ホライゾンレス・マルチアームバンディット問題を研究する。
各腕の状態は、制御されたマルコフ決定プロセス(MDP)に従って進化し、腕を引く報酬は、対応するMDPの現在の状態と取られた動作の両方に依存する。
目標は、収集した累積報酬の期待値を最大化するために、武器のアクションを順次選択することである。
最適政策の発見は典型的には難解であるため,我々はOccupancy-Measured-Reward Index Policyと呼ぶ,計算に訴える指標ポリシーを提案する。
私たちの政策は、基礎となるMDPがインデックス化できない場合でも明確に定義されています。
我々は、アクティベーション予算と腕の数を増加させながら、その比率を一定に保ちながら漸近的に最適であることを示す。
システムパラメータが未知の場合、学習アルゴリズムを開発する。
本学習アルゴリズムは,不確実性に直面した楽観主義の原理を用い,さらに生成モデルを用いて,占有度測定指標ポリシの構造を十分に活用する。
R(MA)^2B-UCBアルゴリズムと呼ぶ。
既存のアルゴリズムと比較して、R(MA)^2B-UCBはオフラインの最適ポリシーに近く、計算複雑性の低いサブ線形後悔を実現する。
実験の結果, R(MA)^2B-UCBは, 後悔と実行の両方で既存アルゴリズムよりも優れていた。 We study a finite-horizon restless multi-armed bandit problem with multiple actions, dubbed R(MA)^2B. The state of each arm evolves according to a controlled Markov decision process (MDP), and the reward of pulling an arm depends on both the current state of the corresponding MDP and the action taken. The goal is to sequentially choose actions for arms so as to maximize the expected value of the cumulative rewards collected. Since finding the optimal policy is typically intractable, we propose a computationally appealing index policy which we call Occupancy-Measured-Reward Index Policy. Our policy is well-defined even if the underlying MDPs are not indexable. We prove that it is asymptotically optimal when the activation budget and number of arms are scaled up, while keeping their ratio as a constant. For the case when the system parameters are unknown, we develop a learning algorithm. Our learning algorithm uses the principle of optimism in the face of uncertainty and further uses a generative model in order to fully exploit the structure of Occupancy-Measured-Reward Index Policy. We call it the R(MA)^2B-UCB algorithm. As compared with the existing algorithms, R(MA)^2B-UCB performs close to an offline optimum policy, and also achieves a sub-linear regret with a low computational complexity. Experimental results show that R(MA)^2B-UCB outperforms the existing algorithms in both regret and run time. | 翻訳日:2021-09-22 14:30:20 公開日:2021-09-20 |
# エネルギー効率とセキュアなエッジAIを目指す - クロスレイヤフレームワーク Towards Energy-Efficient and Secure Edge AI: A Cross-Layer Framework ( http://arxiv.org/abs/2109.09829v1 ) ライセンス: Link先を確認 | Muhammad Shafique, Alberto Marchisio, Rachmad Vidya Wicaksana Putra, Muhammad Abdullah Hanif | (参考訳) セキュリティとプライバシに関する懸念と、定期的に処理しなければならないデータ量が、コンピューティングシステムのエッジに処理をプッシュしている。
リソース制約のあるエッジデバイスに最先端の成果を提供するディープニューラルネットワーク(DNN)やスパイクニューラルネットワーク(SNN)などの先進ニューラルネットワーク(NN)のデプロイは、メモリと電力/エネルギーの制約が厳しいため、難しい。
さらに、これらのシステムは様々なセキュリティと信頼性の脅威の下で正しい機能を維持する必要がある。
本稿ではまず,異なるシステム層,すなわちハードウェア(hw)とソフトウェア(sw)におけるエネルギー効率,信頼性,セキュリティ問題に対処する既存のアプローチについて述べる。
その後、プルーニング、量子化、近似などのHW/SWレベルの最適化により、エッジAIシステムの性能(レイテンシ)とエネルギー効率をさらに向上する方法について議論する。
信頼性の脅威(永久障害や一時的な障害など)に対処するため、我々は、フォールトアウェアトレーニングやマッピングのようなコスト効率の高い緩和技術を強調します。
さらに,セキュリティの脅威(モデルやデータ破損など)に対処するための効果的な検出と保護手法について簡単に論じる。
最終的には、ロバストでエネルギー効率のよいエッジAIシステムを実現するために、これらの技術が統合されたクロスレイヤフレームワークにどのように組み合わせられるかについて議論する。 The security and privacy concerns along with the amount of data that is required to be processed on regular basis has pushed processing to the edge of the computing systems. Deploying advanced Neural Networks (NN), such as deep neural networks (DNNs) and spiking neural networks (SNNs), that offer state-of-the-art results on resource-constrained edge devices is challenging due to the stringent memory and power/energy constraints. Moreover, these systems are required to maintain correct functionality under diverse security and reliability threats. This paper first discusses existing approaches to address energy efficiency, reliability, and security issues at different system layers, i.e., hardware (HW) and software (SW). Afterward, we discuss how to further improve the performance (latency) and the energy efficiency of Edge AI systems through HW/SW-level optimizations, such as pruning, quantization, and approximation. To address reliability threats (like permanent and transient faults), we highlight cost-effective mitigation techniques, like fault-aware training and mapping. Moreover, we briefly discuss effective detection and protection techniques to address security threats (like model and data corruption). Towards the end, we discuss how these techniques can be combined in an integrated cross-layer framework for realizing robust and energy-efficient Edge AI systems. | 翻訳日:2021-09-22 14:27:08 公開日:2021-09-20 |
# 人工知能を用いた多分野宇宙論 Multifield Cosmology with Artificial Intelligence ( http://arxiv.org/abs/2109.09747v1 ) ライセンス: Link先を確認 | Francisco Villaescusa-Navarro, Daniel Angl\'es-Alc\'azar, Shy Genel, David N. Spergel, Yin Li, Benjamin Wandelt, Andrina Nicola, Leander Thiele, Sultan Hassan, Jose Manuel Zorrilla Matilla, Desika Narayanan, Romeel Dave, Mark Vogelsberger | (参考訳) 超新星からのフィードバックや活動銀河核からのフィードバックのような天体物理過程は、ダークマター、ガス、銀河の性質と空間分布をよく理解されていない方法で修正する。
この不確実性は、宇宙探査から情報を抽出する主要な理論上の障害の1つである。
我々は、CAMELSプロジェクトから2000の最先端の流体力学シミュレーションを用いて、様々な宇宙物理モデルと天体物理学モデルにまたがり、暗黒物質からガス、恒星の性質まで、13の分野の数十万の2次元マップを生成する。
我々はこれらの地図を用いて畳み込みニューラルネットワークを訓練し、宇宙情報の最大量を抽出し、フィールドレベルでの天体物理学的効果を過小評価する。
我々の写像は、(25~h^{-1}{\rm Mpc})^2$の小さな領域のみをカバーし、異なるフィールドは、非常に異なる方法で天体物理学的な効果によって汚染されるが、我々のネットワークは、ほとんどのフィールドに対して数パーセントの精度で$\Omega_{\rm m}$と$\sigma_8$の値を推測することができる。
宇宙物理効果によって汚染されない重力のみのN体シミュレーションから学習したモデルと比較して,ネットワークによる余剰化は宇宙情報の豊富さを保っていることがわかった。
最後に、マルチフィールド(異なる色やチャネルを含む複数のフィールドを含む2dマップ)でネットワークをトレーニングし、個々のフィールドでトレーニングされたネットワークよりも高い精度ですべてのパラメータの値を推測できるだけでなく、n体シミュレーションのマップよりも高い精度で$\omega_{\rm m}$の値を制限できることを見出します。 Astrophysical processes such as feedback from supernovae and active galactic nuclei modify the properties and spatial distribution of dark matter, gas, and galaxies in a poorly understood way. This uncertainty is one of the main theoretical obstacles to extract information from cosmological surveys. We use 2,000 state-of-the-art hydrodynamic simulations from the CAMELS project spanning a wide variety of cosmological and astrophysical models and generate hundreds of thousands of 2-dimensional maps for 13 different fields: from dark matter to gas and stellar properties. We use these maps to train convolutional neural networks to extract the maximum amount of cosmological information while marginalizing over astrophysical effects at the field level. Although our maps only cover a small area of $(25~h^{-1}{\rm Mpc})^2$, and the different fields are contaminated by astrophysical effects in very different ways, our networks can infer the values of $\Omega_{\rm m}$ and $\sigma_8$ with a few percent level precision for most of the fields. We find that the marginalization performed by the network retains a wealth of cosmological information compared to a model trained on maps from gravity-only N-body simulations that are not contaminated by astrophysical effects. Finally, we train our networks on multifields -- 2D maps that contain several fields as different colors or channels -- and find that not only they can infer the value of all parameters with higher accuracy than networks trained on individual fields, but they can constrain the value of $\Omega_{\rm m}$ with higher accuracy than the maps from the N-body simulations. | 翻訳日:2021-09-22 14:26:18 公開日:2021-09-20 |
# Transforming Fake News: Transformer を用いたロバストな一般ニュース分類 Transforming Fake News: Robust Generalisable News Classification Using Transformers ( http://arxiv.org/abs/2109.09796v1 ) ライセンス: Link先を確認 | Ciara Blackledge and Amir Atapour-Abarghouei | (参考訳) オンラインニュースの人気が高まり、偽ニュースが普及するにつれ、オンラインニュースコンテンツの検証能力がこれまで以上に重要になっている。
そのようなタスクは、変圧器が最先端の結果を得られるバイナリ分類チャレンジを表している。
本研究では,公開のisotデータセットと組み合わせたコーパスデータセットを用いて偽ニュースを識別するトランスフォーマーの能力について検討する。
さらに,その主観的性質とセンセーショナルな言語によって,意見に基づくニュース記事が現実あるいは偽物と分類できないという考え方を探求し,モデルトレーニングと最終展開型推論システムの両方からその記事を削除する新たな2段階分類パイプラインを提案する。
isotと組み合わせたコーパスデータセットに関する実験により、トランスフォーマは、ベースラインのアプローチと比較して、分布の一般化のうち最大4.9%のf1スコアの上昇を達成し、さらに10.1%の上昇を示した。
私たちの知る限りでは、この文脈でトランスフォーマーの一般化を研究するのは、この研究が初めてです。 As online news has become increasingly popular and fake news increasingly prevalent, the ability to audit the veracity of online news content has become more important than ever. Such a task represents a binary classification challenge, for which transformers have achieved state-of-the-art results. Using the publicly available ISOT and Combined Corpus datasets, this study explores transformers' abilities to identify fake news, with particular attention given to investigating generalisation to unseen datasets with varying styles, topics and class distributions. Moreover, we explore the idea that opinion-based news articles cannot be classified as real or fake due to their subjective nature and often sensationalised language, and propose a novel two-step classification pipeline to remove such articles from both model training and the final deployed inference system. Experiments over the ISOT and Combined Corpus datasets show that transformers achieve an increase in F1 scores of up to 4.9% for out of distribution generalisation compared to baseline approaches, with a further increase of 10.1% following the implementation of our two-step classification pipeline. To the best of our knowledge, this study is the first to investigate generalisation of transformers in this context. | 翻訳日:2021-09-22 14:25:47 公開日:2021-09-20 |
# リーマン計量空間における構造コネクトームを用いた多モードアトラスの統合的構成 Integrated Construction of Multimodal Atlases with Structural Connectomes in the Space of Riemannian Metrics ( http://arxiv.org/abs/2109.09808v1 ) ライセンス: Link先を確認 | Kristen M. Campbell, Haocheng Dai, Zhe Su, Martin Bauer, P. Thomas Fletcher, Sarang C. Joshi | (参考訳) 脳の構造的ネットワーク(または構造的コネクトーム)は、様々な経路図法によって生成される繊維束によって表される。
このような手法は脳の構造に定性的な洞察を与えるが、特に人口レベルで定量的な情報を提供できるかどうかについては議論がある。
構造コネクトームの集団レベルの統計解析を可能にするために,無限次元多様体上の点であるリーマン計量としてコネクトームを表現することを提案する。
この多様体に、この空間の自然な計量構造であるエビン計量を同値とし、リーマン多様体とその関連する幾何学的性質を得る。
次に、このリーマン的フレームワークを用いてオブジェクト指向統計解析を適用して、アトラスをリーマン計量の集団の Fr\'echet 平均として定義する。
この定式化は,DWMRIとT1強調MRIの皮質像の相補的な白質構造を同時に統合することにより,画像アトラスの微分型構築のための既存の枠組みと結びついている。
我々は,コネクトーム登録とアトラス形成の2次元データ例を用いて,本フレームワークについて解説する。
最後に,Human Connectome Projectのサブセットから推定した拡散テンソルから得られたT1画像とコネクトームを用いた3次元マルチモーダルアトラスの例を構築した。 The structural network of the brain, or structural connectome, can be represented by fiber bundles generated by a variety of tractography methods. While such methods give qualitative insights into brain structure, there is controversy over whether they can provide quantitative information, especially at the population level. In order to enable population-level statistical analysis of the structural connectome, we propose representing a connectome as a Riemannian metric, which is a point on an infinite-dimensional manifold. We equip this manifold with the Ebin metric, a natural metric structure for this space, to get a Riemannian manifold along with its associated geometric properties. We then use this Riemannian framework to apply object-oriented statistical analysis to define an atlas as the Fr\'echet mean of a population of Riemannian metrics. This formulation ties into the existing framework for diffeomorphic construction of image atlases, allowing us to construct a multimodal atlas by simultaneously integrating complementary white matter structure details from DWMRI and cortical details from T1-weighted MRI. We illustrate our framework with 2D data examples of connectome registration and atlas formation. Finally, we build an example 3D multimodal atlas using T1 images and connectomes derived from diffusion tensors estimated from a subset of subjects from the Human Connectome Project. | 翻訳日:2021-09-22 14:22:31 公開日:2021-09-20 |
# 皮膚深部学習 : メラノーマ分類における人工物と楽器のデバイアス Skin Deep Unlearning: Artefact and Instrument Debiasing in the Context of Melanoma Classification ( http://arxiv.org/abs/2109.09818v1 ) ライセンス: Link先を確認 | Peter Bevan and Amir Atapour-Abarghouei | (参考訳) 畳み込みニューラルネットワークは、メラノーマやその他の皮膚病変の分類において皮膚科レベルの性能を示すが、トレーニングデータに見られるバイアスによる予測の不規則性は、広く展開される前に対処すべき問題である。
本研究では,2つの主要なバイアスアンラーニング手法を用いて,自動メラノーマ分類パイプラインからバイアスと急激な変動を確実に除去する。
これらの偏り除去法を用いて,従来研究で提示された外科的マーキングや定規によるバイアスを合理的に緩和できることを示す。
また,病変画像の撮影に用いられる撮像装置に関する無学習スプリアス変動の一般化効果を示す。
この研究の貢献は、人工物バイアス除去のための異なるデバイアス技術の適用と、メラノーマ検出におけるドメイン一般化のための計測バイアスアンラーニングの概念を含む。
実験の結果,各バイアスの影響が顕著に減少し,異なるデバイアス技術が異なるタスクに優れていることが明らかとなった。 Convolutional Neural Networks have demonstrated dermatologist-level performance in the classification of melanoma and other skin lesions, but prediction irregularities due to biases seen within the training data are an issue that should be addressed before widespread deployment is possible. In this work, we robustly remove bias and spurious variation from an automated melanoma classification pipeline using two leading bias unlearning techniques. We show that the biases introduced by surgical markings and rulers presented in previous studies can be reasonably mitigated using these bias removal methods. We also demonstrate the generalisation benefits of unlearning spurious variation relating to the imaging instrument used to capture lesion images. Contributions of this work include the application of different debiasing techniques for artefact bias removal and the concept of instrument bias unlearning for domain generalisation in melanoma detection. Our experimental results provide evidence that the effects of each of the aforementioned biases are notably reduced, with different debiasing techniques excelling at different tasks. | 翻訳日:2021-09-22 14:22:07 公開日:2021-09-20 |
# 視覚的局所化のための視点不変密度マッチング Viewpoint Invariant Dense Matching for Visual Geolocalization ( http://arxiv.org/abs/2109.09827v1 ) ライセンス: Link先を確認 | Gabriele Berton, Carlo Masone, Valerio Paolicelli and Barbara Caputo | (参考訳) 本稿では,密度の高い局所特徴に基づく画像マッチング手法を提案する。
濃密な局所的特徴のマッチングは、照明や咬合の変化に対して頑健であるが、地理的局所化の基本的な側面である視点シフトには耐えられない。
我々の手法はGeoWarpと呼ばれ、密度のある特徴を抽出する過程において、視点シフトへの不変性を直接埋め込む。
これは、データから場所を認識するタスクに意味のある不変性を学ぶトレーニング可能なモジュールによって達成される。
また、ラベルのないデータと弱いラベルのみを使用して、新しい自己教師付き損失と2つの弱い教師付き損失を考案する。
geowarpは、既存のビジュアルジオローカライズパイプラインに簡単に組み込むことのできる再ランキングメソッドとして効率的に実装されている。
標準ジオローカライゼーションベンチマークの実験により、GeoWarpは最先端の検索アーキテクチャの精度を高めることを示した。
コードとトレーニングされたモデルはhttps://github.com/gmberton/geo_warpで入手できる。 In this paper we propose a novel method for image matching based on dense local features and tailored for visual geolocalization. Dense local features matching is robust against changes in illumination and occlusions, but not against viewpoint shifts which are a fundamental aspect of geolocalization. Our method, called GeoWarp, directly embeds invariance to viewpoint shifts in the process of extracting dense features. This is achieved via a trainable module which learns from the data an invariance that is meaningful for the task of recognizing places. We also devise a new self-supervised loss and two new weakly supervised losses to train this module using only unlabeled data and weak labels. GeoWarp is implemented efficiently as a re-ranking method that can be easily embedded into pre-existing visual geolocalization pipelines. Experimental validation on standard geolocalization benchmarks demonstrates that GeoWarp boosts the accuracy of state-of-the-art retrieval architectures. The code and trained models are available at https://github.com/gmberton/geo_warp | 翻訳日:2021-09-22 14:21:49 公開日:2021-09-20 |
# 高度運転支援システム(ADAS)のサーマルスペクトルにおける物体検出 Object Detection in Thermal Spectrum for Advanced Driver-Assistance Systems (ADAS) ( http://arxiv.org/abs/2109.09854v1 ) ライセンス: Link先を確認 | Muhammad Ali Farooq, Peter Corcoran, Cosmin Rotariu | (参考訳) 熱赤外スペクトルにおける物体検出は、歩行者、動物、車両の検知だけでなく、道路標識や照明ポールの検出にも有用であるため、低照度条件と異なる気象条件においてより信頼性の高いデータソースを提供する。
本稿では,先進運転支援システム(ADAS)の7つの異なるクラスを用いて,サーマルビジョンにおける最先端物体検出および分類器フレームワークの探索と適用について述べる。
パブリックデータセット上でトレーニングされたネットワーク変種は、3つの異なるテストアプローチでテストデータ上で検証される。
さらに,未冷却のlwirプロトタイプサーマルカメラを用いてローカルに収集した新しいテストデータを用いて,気象・環境シナリオに挑戦する訓練ネットワークの有効性を検証した。
トレーニングモデルの性能解析は,計算精度,リコール,平均平均精度スコア(mAP)を用いて検討した。
さらに、トレーニングされたモデルアーキテクチャは、TensorRT推論アクセラレータを使用して最適化され、リソース制約のあるエッジハードウェアであるNvidia Jetson Nanoにデプロイされる。 Object detection in thermal infrared spectrum provides more reliable data source in low-lighting conditions and different weather conditions, as it is useful both in-cabin and outside for pedestrian, animal, and vehicular detection as well as for detecting street-signs & lighting poles. This paper is about exploring and adapting state-of-the-art object detection and classifier framework on thermal vision with seven distinct classes for advanced driver-assistance systems (ADAS). The trained network variants on public datasets are validated on test data with three different test approaches which include test-time with no augmentation, test-time augmentation, and test-time with model ensembling. Additionally, the efficacy of trained networks is tested on locally gathered novel test-data captured with an uncooled LWIR prototype thermal camera in challenging weather and environmental scenarios. The performance analysis of trained models is investigated by computing precision, recall, and mean average precision scores (mAP). Furthermore, the trained model architecture is optimized using TensorRT inference accelerator and deployed on resource-constrained edge hardware Nvidia Jetson Nano to explicitly reduce the inference time on GPU as well as edge devices for further real-time onboard installations. | 翻訳日:2021-09-22 14:21:32 公開日:2021-09-20 |
# 地理空間文脈による深度推定の強化 Augmenting Depth Estimation with Geospatial Context ( http://arxiv.org/abs/2109.09879v1 ) ライセンス: Link先を確認 | Scott Workman, Hunter Blanton | (参考訳) 現代のカメラは広い範囲のセンサーを備えており、画像の地理空間的コンテキストを記録できる。
この利点を生かして,カメラがジオキャリケートされているという前提下での深度推定について検討する。
我々の重要な洞察は、撮影位置が分かっていれば、対応するオーバーヘッド視点は、シーンの規模を理解するための貴重なリソースとなることである。
本研究では,測地空間的コンテキストを用いて,同一位置の頭上画像から合成された地中深度マップを推定し,エンコーダ/デコーダ方式のセグメンテーションネットワーク内で融合する,深度推定のためのエンド・ツー・エンドアーキテクチャを提案する。
提案手法の評価支援のために,最近リリースされたデータ集合を,頭上画像と対応する高さマップで拡張した。
その結果、地理空間コンテキストの統合は、既存のベンチマークが考えるよりもはるかに大きな距離で評価した場合、ベースラインよりも誤差を著しく低減することが示された。 Modern cameras are equipped with a wide array of sensors that enable recording the geospatial context of an image. Taking advantage of this, we explore depth estimation under the assumption that the camera is geocalibrated, a problem we refer to as geo-enabled depth estimation. Our key insight is that if capture location is known, the corresponding overhead viewpoint offers a valuable resource for understanding the scale of the scene. We propose an end-to-end architecture for depth estimation that uses geospatial context to infer a synthetic ground-level depth map from a co-located overhead image, then fuses it inside of an encoder/decoder style segmentation network. To support evaluation of our methods, we extend a recently released dataset with overhead imagery and corresponding height maps. Results demonstrate that integrating geospatial context significantly reduces error compared to baselines, both at close ranges and when evaluating at much larger distances than existing benchmarks consider. | 翻訳日:2021-09-22 14:21:09 公開日:2021-09-20 |
# 表面正規化推定におけるアレタリック不確かさの推定と展開 Estimating and Exploiting the Aleatoric Uncertainty in Surface Normal Estimation ( http://arxiv.org/abs/2109.09881v1 ) ライセンス: Link先を確認 | Gwangbin Bae, Ignas Budvytis, Roberto Cipolla | (参考訳) 単一画像からの表面正規化は3次元シーン理解において重要な課題である。
本稿では,既存手法で共有されている2つの制約,すなわち,アレータリック不確実性を推定できないこと,予測における詳細性の欠如に対処する。
提案ネットワークはピクセル単位の表面正規確率分布を推定する。
本稿では, 学習減衰による負の対数類似度が角損失であるような分布の新しいパラメータ化を提案する。
角誤差の期待値は、アレエータの不確かさの尺度として用いられる。
また,推定不確実性に基づいてサンプリングされた画素のサブセット上で画素単位の多層パーセプトロンを訓練する新しいデコーダフレームワークを提案する。
提案する不確実性誘導サンプリングは,大規模平面面へのトレーニングのバイアスを防止し,特に物体境界付近や小構造物の予測精度を向上させる。
実験の結果,提案手法はscannetとnyuv2の最先端技術よりも優れており,推定不確かさは予測誤差とよく相関することがわかった。
コードはhttps://github.com/baegwangbin/surface_normal_uncertaintyで入手できる。 Surface normal estimation from a single image is an important task in 3D scene understanding. In this paper, we address two limitations shared by the existing methods: the inability to estimate the aleatoric uncertainty and lack of detail in the prediction. The proposed network estimates the per-pixel surface normal probability distribution. We introduce a new parameterization for the distribution, such that its negative log-likelihood is the angular loss with learned attenuation. The expected value of the angular error is then used as a measure of the aleatoric uncertainty. We also present a novel decoder framework where pixel-wise multi-layer perceptrons are trained on a subset of pixels sampled based on the estimated uncertainty. The proposed uncertainty-guided sampling prevents the bias in training towards large planar surfaces and improves the quality of prediction, especially near object boundaries and on small structures. Experimental results show that the proposed method outperforms the state-of-the-art in ScanNet and NYUv2, and that the estimated uncertainty correlates well with the prediction error. Code is available at https://github.com/baegwangbin/surface_normal_uncertainty. | 翻訳日:2021-09-22 14:20:54 公開日:2021-09-20 |
# ファウショット分類におけるディトラクタの重要性について On the Importance of Distractors for Few-Shot Classification ( http://arxiv.org/abs/2109.09883v1 ) ライセンス: Link先を確認 | Rajshekhar Das, Yu-Xiong Wang, Jos\'eM.F. Moura | (参考訳) 少数(典型的には1対5)のラベル付き例から学習することで、新規タスクのカテゴリを分類することを目的とする。
少数ショット分類への効果的なアプローチは、大きなサンプルベースドメインでトレーニングされた事前モデルで、新しい少数ショットタスク上で微調整され、一般化可能な表現が得られる。
しかし、十分なトレーニング例がないため、タスク固有の微調整は過剰に働きがちである。
この問題を軽減するために,基本領域から乱れのない例をインタプリタの形で再利用する,コントラスト学習に基づく新たな微調整手法を提案する。
以前の作品で使われている非競合データとは異なり、トラクタは新しいカテゴリーと重複しないクラスに属している。
このような注意散らしを組み込むことで、数発の一般化を著しく促進できることを示すのが初めてである。
我々の技術的新奇性には、数発のタスクで同じカテゴリを共有する確率論的ペアリングと、タスク固有のネガティブとイントラクタの相対的影響を制御する重み付け項が含まれる。
ファインタニングの目的の重要な側面は、ラベルを混乱させることなく、様々なベースドメイン設定に適用できることです。
最先端のアプローチと比較すると,クロスドメインでは最大12\%$,教師なし事前学習では最大5\%$の精度向上を示す。 Few-shot classification aims at classifying categories of a novel task by learning from just a few (typically, 1 to 5) labelled examples. An effective approach to few-shot classification involves a prior model trained on a large-sample base domain, which is then finetuned over the novel few-shot task to yield generalizable representations. However, task-specific finetuning is prone to overfitting due to the lack of enough training examples. To alleviate this issue, we propose a new finetuning approach based on contrastive learning that reuses unlabelled examples from the base domain in the form of distractors. Unlike the nature of unlabelled data used in prior works, distractors belong to classes that do not overlap with the novel categories. We demonstrate for the first time that inclusion of such distractors can significantly boost few-shot generalization. Our technical novelty includes a stochastic pairing of examples sharing the same category in the few-shot task and a weighting term that controls the relative influence of task-specific negatives and distractors. An important aspect of our finetuning objective is that it is agnostic to distractor labels and hence applicable to various base domain settings. Compared to state-of-the-art approaches, our method shows accuracy gains of up to $12\%$ in cross-domain and up to $5\%$ in unsupervised prior-learning settings. | 翻訳日:2021-09-22 14:20:37 公開日:2021-09-20 |
# ダイナミック・オクルージョン・アウェアによるハイパーゲームを用いた自動運転車用戦略的プランナーの安全性検証 I Know You Can't See Me: Dynamic Occlusion-Aware Safety Validation of Strategic Planners for Autonomous Vehicles Using Hypergames ( http://arxiv.org/abs/2109.09807v1 ) ライセンス: Link先を確認 | Maximilian Kahn, Atrisha Sarkar and Krzysztof Czarnecki | (参考訳) 自律運転と人間運転の両方において特に課題となるのは、交通中の他の車両によって引き起こされる動的な閉塞に関連するリスクを扱うことである。
ハイパーゲーム理論に基づき,動的咬合シナリオにおける状況リスクを評価するための新しい多エージェント動的咬合リスク(dor)尺度を開発した。
さらに,avにおける戦略的プランナーの安全性を評価するためのホワイトボックス,シナリオベース,迅速安全性検証フレームワークを提案する。
提案手法は, 大規模自然主義データベースに対する評価に基づいて, 自然主義データに対する直接検証よりも4000%の高速化を実現し, より多様なカバレッジと, データセットを超えて一般化し, 交通のダイナミック・オクルージョン・クラッシュを自動生成する能力を実現する。 A particular challenge for both autonomous and human driving is dealing with risk associated with dynamic occlusion, i.e., occlusion caused by other vehicles in traffic. Based on the theory of hypergames, we develop a novel multi-agent dynamic occlusion risk (DOR) measure for assessing situational risk in dynamic occlusion scenarios. Furthermore, we present a white-box, scenario-based, accelerated safety validation framework for assessing safety of strategic planners in AV. Based on evaluation over a large naturalistic database, our proposed validation method achieves a 4000% speedup compared to direct validation on naturalistic data, a more diverse coverage, and ability to generalize beyond the dataset and generate commonly observed dynamic occlusion crashes in traffic in an automated manner. | 翻訳日:2021-09-22 14:12:40 公開日:2021-09-20 |
# 多発性硬化症における音声記録分析における機械学習と人工知能の臨床的有用性の検討 Assessing clinical utility of Machine Learning and Artificial Intelligence approaches to analyze speech recordings in Multiple Sclerosis: A Pilot Study ( http://arxiv.org/abs/2109.09844v1 ) ライセンス: Link先を確認 | Emil Svoboda, Tom\'a\v{s} Bo\v{r}il, Jan Rusz, Tereza Tykalov\'a, Dana Hor\'akov\'a, Charles R.G. Guttman, Krastan B. Blagoev, Hiroto Hatabu, Vlad I. Valtchinov | (参考訳) 背景: 早期診断と、多発性硬化症の正確な疾患進行モニタリングは、疾患管理を成功させる上で重要な要素である。
先行研究により、多発性硬化症は発話の不一致と相関していることが判明した。
客観的音響測定を用いた初期の研究で計測可能な変形が発見された。
目的: 音声記録を用いた多発性硬化症の診断・バイオマーカー抽出・進行モニタリングにおける機械学習と深層学習/AIアプローチの有用性を明らかにする。
方法: 自動音素セグメンテーションを用いたターゲット音響特徴抽出には, 65名のMS陽性者, 66名の健常者を用いたコーパスを用いた。
一連のバイナリ分類モデルをトレーニングし,調整し,その精度と面積について評価した。
結果: ランダムフォレストモデルは, 検証データセット上で 0.82 の精度と, 訓練データセット上で 5 k 倍のサイクルで 0.76 の面積を達成できた。
5の音響特性が統計的に有意であった。
結論:ms診断と進行追跡を支援する音声記録の自動分析における機械学習と人工知能は有望である。
これらの方法のさらなる臨床的検証と多発性硬化症進行へのマッピング、および英語話者に対する有効性が必要である。 Background: An early diagnosis together with an accurate disease progression monitoring of multiple sclerosis is an important component of successful disease management. Prior studies have established that multiple sclerosis is correlated with speech discrepancies. Early research using objective acoustic measurements has discovered measurable dysarthria. Objective: To determine the potential clinical utility of machine learning and deep learning/AI approaches for the aiding of diagnosis, biomarker extraction and progression monitoring of multiple sclerosis using speech recordings. Methods: A corpus of 65 MS-positive and 66 healthy individuals reading the same text aloud was used for targeted acoustic feature extraction utilizing automatic phoneme segmentation. A series of binary classification models was trained, tuned, and evaluated regarding their Accuracy and area-under-curve. Results: The Random Forest model performed best, achieving an Accuracy of 0.82 on the validation dataset and an area-under-curve of 0.76 across 5 k-fold cycles on the training dataset. 5 out of 7 acoustic features were statistically significant. Conclusion: Machine learning and artificial intelligence in automatic analyses of voice recordings for aiding MS diagnosis and progression tracking seems promising. Further clinical validation of these methods and their mapping onto multiple sclerosis progression is needed, as well as a validating utility for English-speaking populations. | 翻訳日:2021-09-22 14:12:25 公開日:2021-09-20 |
# 戦略的駆動行動のための一般化された動的認知階層モデル Generalized dynamic cognitive hierarchy models for strategic driving behavior ( http://arxiv.org/abs/2109.09861v1 ) ライセンス: Link先を確認 | Atrisha Sarkar, Kate Larson, Krzysztof Czarnecki | (参考訳) 自律運転におけるゲーム理論モデルの使用に焦点が当てられているが、実証的な証拠は、共通知識仮定の課題への対処や有界な合理性をモデル化することに関して、まだオープンな疑問が存在することを示している。
これらの課題に対処するために,自然主義的人間運転行動と自律走行車(AV)の行動計画の両方をモデル化するための,一般化された動的認知階層の枠組みを開発する。
このフレームワークは、オートマタ戦略の使用によるレベル-0の振る舞いの豊富なモデル、安全性と操作の満足度による境界的合理性の解釈可能な概念、計画に対する堅牢な反応に基づいている。
2つの大きな自然主義的データセットの評価と重要な交通シナリオのシミュレーションに基づいて、そのことを示す。
i) オートマトン戦略は、動的レベルkフレームワークにおけるレベル-0の振る舞いに適しており、また、
二 戦略的・非戦略的推論者の異種集団に対する頑健な対応は、AVにおけるゲーム理論計画に有効なアプローチである。 While there has been an increasing focus on the use of game theoretic models for autonomous driving, empirical evidence shows that there are still open questions around dealing with the challenges of common knowledge assumptions as well as modeling bounded rationality. To address some of these practical challenges, we develop a framework of generalized dynamic cognitive hierarchy for both modelling naturalistic human driving behavior as well as behavior planning for autonomous vehicles (AV). This framework is built upon a rich model of level-0 behavior through the use of automata strategies, an interpretable notion of bounded rationality through safety and maneuver satisficing, and a robust response for planning. Based on evaluation on two large naturalistic datasets as well as simulation of critical traffic scenarios, we show that i) automata strategies are well suited for level-0 behavior in a dynamic level-k framework, and ii) the proposed robust response to a heterogeneous population of strategic and non-strategic reasoners can be an effective approach for game theoretic planning in AV. | 翻訳日:2021-09-22 14:12:06 公開日:2021-09-20 |
# 逸脱に基づく学習 Deviation-Based Learning ( http://arxiv.org/abs/2109.09816v1 ) ライセンス: Link先を確認 | Junpei Komiyama and Shunya Noda | (参考訳) 本稿では,レコメンダシステムの学習のための新しいアプローチである偏差ベース学習を提案する。
当初、レコメンデーターと合理的なユーザは異なる知識を持っているが、レコメンデーターはより良いレコメンデーションを行うために、ユーザの知識を学ぶ必要がある。
レコメンダは、各ユーザが彼女のレコメンデーションに従っているか、あるいは外れているかを観察することによって、ユーザの知識を学習する。
ユーザが推奨を盲目的にフォローする傾向があり、その選択は彼らの知識を反映しない。
社会福祉と学習率は、レコメンデーターが選択を推奨しない場合に、複数の腕が同様の報酬を生み出すと予測した場合に劇的に改善される。 We propose deviation-based learning, a new approach to training recommender systems. In the beginning, the recommender and rational users have different pieces of knowledge, and the recommender needs to learn the users' knowledge to make better recommendations. The recommender learns users' knowledge by observing whether each user followed or deviated from her recommendations. We show that learning frequently stalls if the recommender always recommends a choice: users tend to follow the recommendation blindly, and their choices do not reflect their knowledge. Social welfare and the learning rate are improved drastically if the recommender abstains from recommending a choice when she predicts that multiple arms will produce a similar payoff. | 翻訳日:2021-09-22 14:11:09 公開日:2021-09-20 |
# 生物配列のための神経距離埋め込み Neural Distance Embeddings for Biological Sequences ( http://arxiv.org/abs/2109.09740v1 ) ライセンス: Link先を確認 | Gabriele Corso, Rex Ying, Michal P\'andy, Petar Veli\v{c}kovi\'c, Jure Leskovec, Pietro Li\`o | (参考訳) データ依存的ヒューリスティックの開発と進化距離を反映する生物学的配列の表現は、大規模な生物学的研究において重要である。
しかしながら、連続ユークリッド空間に基づく一般的な機械学習アプローチは、モデルの進化と現実世界のデータセットを特徴づける階層的関係をモデルとする編集距離の離散的な組合せ定式化に苦慮している。
本稿では,幾何学的ベクトル空間にシーケンスを埋め込む汎用フレームワークであるニューラル距離埋め込み(neuroseed)を提案し,階層構造をキャプチャする双曲空間の有効性を示し,最良な空間に対して平均22%のrmse埋め込み削減を提供する。
このフレームワークの能力とこれらの改善の意義は、バイオインフォマティクスにおける複数のコアタスクに対する教師付きおよび教師なしのNeuroSEEDアプローチを考案した。
一般的なベースラインとベンチマークして、提案手法は現実世界のデータセットに対して、大幅な精度と実行時の改善を示す。
階層的クラスタリングの例として,提案手法は,30倍,15倍のランタイム削減と競合するベースラインの品質に適合する。 The development of data-dependent heuristics and representations for biological sequences that reflect their evolutionary distance is critical for large-scale biological research. However, popular machine learning approaches, based on continuous Euclidean spaces, have struggled with the discrete combinatorial formulation of the edit distance that models evolution and the hierarchical relationship that characterises real-world datasets. We present Neural Distance Embeddings (NeuroSEED), a general framework to embed sequences in geometric vector spaces, and illustrate the effectiveness of the hyperbolic space that captures the hierarchical structure and provides an average 22% reduction in embedding RMSE against the best competing geometry. The capacity of the framework and the significance of these improvements are then demonstrated devising supervised and unsupervised NeuroSEED approaches to multiple core tasks in bioinformatics. Benchmarked with common baselines, the proposed approaches display significant accuracy and/or runtime improvements on real-world datasets. As an example for hierarchical clustering, the proposed pretrained and from-scratch methods match the quality of competing baselines with 30x and 15x runtime reduction, respectively. | 翻訳日:2021-09-22 14:10:57 公開日:2021-09-20 |
# ApproxIFER: レジリエントおよびロバスト予測サービングシステムに対するモデルに依存しないアプローチ ApproxIFER: A Model-Agnostic Approach to Resilient and Robust Prediction Serving Systems ( http://arxiv.org/abs/2109.09868v1 ) ライセンス: Link先を確認 | Mahdi Soleymani, Ramy E. Ali, Hessam Mahdavifar, A. Salman Avestimehr | (参考訳) クラウド支援型AIサービスの急増により、ストラグラー/障害に効果的に対処し、応答遅延を最小限に抑えるレジリエントな予測サービスシステムの設計が課題となっている。
この問題に対処する一般的なアプローチは、複数のワーカーに同じ予測タスクを割り当てるレプリケーションである。
しかし、このアプローチは非常に非効率であり、リソースのオーバーヘッドを負う。
したがって、parity model(parm)と呼ばれる学習ベースのアプローチが最近提案されており、遅滞する労働者の予測を再構築するために、一連の予測に対してパリティを生成できるモデルを学習している。
この学習ベースのアプローチは、レプリケーションよりもリソース効率がよいが、クラウドがホストする特定のモデルに合わせて設計されており、特に少数のクエリ(通常4つ未満)に適しており、ごく少数のストラグラー(ほとんど1つ)に制限されている。
さらに、ParMはビザンツの敵の労働者を扱わない。
我々は,任意のパリティモデルのトレーニングを必要とせず,クラウドがホストするモデルに依存せず,異なるデータドメインやモデルアーキテクチャに容易に適用可能な,近似符号推論(approxifer)という別のアプローチを提案する。
以前の作業と比較すると、ApproxIFERは一般的なストラグラーの数を処理でき、クエリの数をはるかに改善できる。
さらに、ApproxIFERはビザンツの労働者に対して堅牢である。
多数のデータセットとモデルアーキテクチャに関する広範な実験では、パリティモデルアプローチに対して、精度が最大58%向上しています。 Due to the surge of cloud-assisted AI services, the problem of designing resilient prediction serving systems that can effectively cope with stragglers/failures and minimize response delays has attracted much interest. The common approach for tackling this problem is replication which assigns the same prediction task to multiple workers. This approach, however, is very inefficient and incurs significant resource overheads. Hence, a learning-based approach known as parity model (ParM) has been recently proposed which learns models that can generate parities for a group of predictions in order to reconstruct the predictions of the slow/failed workers. While this learning-based approach is more resource-efficient than replication, it is tailored to the specific model hosted by the cloud and is particularly suitable for a small number of queries (typically less than four) and tolerating very few (mostly one) number of stragglers. Moreover, ParM does not handle Byzantine adversarial workers. We propose a different approach, named Approximate Coded Inference (ApproxIFER), that does not require training of any parity models, hence it is agnostic to the model hosted by the cloud and can be readily applied to different data domains and model architectures. Compared with earlier works, ApproxIFER can handle a general number of stragglers and scales significantly better with the number of queries. Furthermore, ApproxIFER is robust against Byzantine workers. Our extensive experiments on a large number of datasets and model architectures also show significant accuracy improvement by up to 58% over the parity model approaches. | 翻訳日:2021-09-22 14:10:37 公開日:2021-09-20 |
# シャープ大域収束保証による反復非凸最適化:ガウス過程の観点から Sharp global convergence guarantees for iterative nonconvex optimization: A Gaussian process perspective ( http://arxiv.org/abs/2109.09859v1 ) ライセンス: Link先を確認 | Kabir Aladin Chandrasekher, Ashwin Pananjady, Christos Thrampoulidis | (参考訳) 正規分布共変量を持つ回帰モデルの一般的なクラスと、これらのモデルをデータから適合させる非凸問題を考える。
ランダム初期化から反復アルゴリズムの収束を解析するための一般的な手法を開発した。
特に、各反復がいくつかの自然条件を満たす凸最適化問題の解として書けることを条件として、ガウス比較定理を利用して、サンプル分割によるアルゴリズムの誤差に鋭い上下境界を与える決定論的列を導出する。
この決定論的シーケンスは、有限サンプルレジームにおけるアルゴリズムの収束率と結果誤差階の両方を正確に捉え、無限サンプルリミットを取ることによって得られる一般的な「人口」列とは区別される。
本手法は, 位相検索や回帰の混合など, 一般的な統計モデルにおけるパラメータ推定の具体的結果の導出に応用する。
サンプルサイズスケールを次元で近似すると,交互更新に基づく高次アルゴリズムと下位降下に基づく一階アルゴリズムの両方に対して,鋭い大域収束率を示す。
これらの系図は、次を含む複数の結果をもたらす。
(a)高次アルゴリズムが1次アルゴリズムよりもはるかに早く収束できること(時として超直線的に)は、たとえ2つのアルゴリズムが同じ人口の更新を共有しているとしても証明する。
(b)高次アルゴリズムにおける超線形収束挙動の複雑さは、非標準(指数 3/2 の場合など)であり、問題のノイズレベルに敏感である。
これらの結果を広範な数値実験で補完し,理論的な予測とよく一致した。 We consider a general class of regression models with normally distributed covariates, and the associated nonconvex problem of fitting these models from data. We develop a general recipe for analyzing the convergence of iterative algorithms for this task from a random initialization. In particular, provided each iteration can be written as the solution to a convex optimization problem satisfying some natural conditions, we leverage Gaussian comparison theorems to derive a deterministic sequence that provides sharp upper and lower bounds on the error of the algorithm with sample-splitting. Crucially, this deterministic sequence accurately captures both the convergence rate of the algorithm and the eventual error floor in the finite-sample regime, and is distinct from the commonly used "population" sequence that results from taking the infinite-sample limit. We apply our general framework to derive several concrete consequences for parameter estimation in popular statistical models including phase retrieval and mixtures of regressions. Provided the sample size scales near-linearly in the dimension, we show sharp global convergence rates for both higher-order algorithms based on alternating updates and first-order algorithms based on subgradient descent. These corollaries, in turn, yield multiple consequences, including: (a) Proof that higher-order algorithms can converge significantly faster than their first-order counterparts (and sometimes super-linearly), even if the two share the same population update and (b) Intricacies in super-linear convergence behavior for higher-order algorithms, which can be nonstandard (e.g., with exponent 3/2) and sensitive to the noise level in the problem. We complement these results with extensive numerical experiments, which show excellent agreement with our theoretical predictions. | 翻訳日:2021-09-22 14:08:24 公開日:2021-09-20 |
# 代替ブラックボックス行列行列乗算アルゴリズムによる特殊ガウス過程の分子エネルギー学習 Molecular Energy Learning Using Alternative Blackbox Matrix-Matrix Multiplication Algorithm for Exact Gaussian Process ( http://arxiv.org/abs/2109.09817v1 ) ライセンス: Link先を確認 | Jiace Sun, Lixue Cheng, Thomas F. Miller III | (参考訳) 分子軌道ベース機械学習(MOB-ML)フレームワークにおける分子エネルギーのガウス過程(GP)トレーニングのスケールアップに,ブラックボックス行列行列行列行列乗法(BBMM)アルゴリズムを適用した。
BBMM(AltBBMM)の代替実装は、元のBBMM実装と同じ精度で(4倍のスピードアップで)より効率的に訓練するためにも提案されている。
MOB-MLのトレーニングは220分子に制限され、BBMMとAltBBMMはMOB-MLのトレーニングを30倍から6500分子(100万組のエネルギー)に拡張した。
両アルゴリズムの精度と伝達性について, 重原子7と重原子13の有機分子のベンチマークデータセットを用いて検討した。
GPのこれらの低スケールの実装は、低データ状態における最先端の学習効率を保ちながら、分子エネルギーに関する他の機械学習よりも精度良く大規模データ状態に拡張する。 We present an application of the blackbox matrix-matrix multiplication (BBMM) algorithm to scale up the Gaussian Process (GP) training of molecular energies in the molecular-orbital based machine learning (MOB-ML) framework. An alternative implementation of BBMM (AltBBMM) is also proposed to train more efficiently (over four-fold speedup) with the same accuracy and transferability as the original BBMM implementation. The training of MOB-ML was limited to 220 molecules, and BBMM and AltBBMM scale the training of MOB-ML up by over 30 times to 6500 molecules (more than a million pair energies). The accuracy and transferability of both algorithms are examined on the benchmark datasets of organic molecules with 7 and 13 heavy atoms. These lower-scaling implementations of the GP preserve the state-of-the-art learning efficiency in the low-data regime while extending it to the large-data regime with better accuracy than other available machine learning works on molecular energies. | 翻訳日:2021-09-22 14:07:57 公開日:2021-09-20 |
# (参考訳) Merlion: 時系列のための機械学習ライブラリ Merlion: A Machine Learning Library for Time Series ( http://arxiv.org/abs/2109.09265v1 ) ライセンス: CC BY 4.0 | Aadyot Bhatnagar, Paul Kassianik, Chenghao Liu, Tian Lan, Wenzhuo Yang, Rowan Cassius, Doyen Sahoo, Devansh Arpit, Sri Subramanian, Gerald Woo, Amrita Saha, Arun Kumar Jagota, Gokulakrishnan Gopalakrishnan, Manpreet Singh, K C Krithika, Sukumar Maddineni, Daeki Cho, Bo Zong, Yingbo Zhou, Caiming Xiong, Silvio Savarese, Steven Hoi, Huan Wang | (参考訳) 時系列のためのオープンソースの機械学習ライブラリMerlionを紹介する。
多くの一般的なモデルとデータセットのための統一インターフェースを備えており、不平等時系列と多変量時系列の両方の異常検出と予測と標準前/後処理層での予測を行う。
視覚化、相互運用性を改善するための異常スコアキャリブレーション、ハイパーパラメータチューニングとモデル選択のためのAutoML、モデルアンサンブルなど、使いやすさを改善するためのモジュールがいくつかある。
merlionはまた、実運用環境でのモデルのライブデプロイメントと再トレーニングをシミュレートするユニークな評価フレームワークを提供する。
このライブラリは、エンジニアと研究者に、特定の時系列ニーズのモデルを迅速に開発し、それらを複数の時系列データセットでベンチマークするためのワンストップソリューションを提供することを目的としている。
本報告では,merlionのアーキテクチャと主要な機能に注目し,様々なベースラインモデルとアンサンブルのベンチマーク結果を報告する。 We introduce Merlion, an open-source machine learning library for time series. It features a unified interface for many commonly used models and datasets for anomaly detection and forecasting on both univariate and multivariate time series, along with standard pre/post-processing layers. It has several modules to improve ease-of-use, including visualization, anomaly score calibration to improve interpetability, AutoML for hyperparameter tuning and model selection, and model ensembling. Merlion also provides a unique evaluation framework that simulates the live deployment and re-training of a model in production. This library aims to provide engineers and researchers a one-stop solution to rapidly develop models for their specific time series needs and benchmark them across multiple time series datasets. In this technical report, we highlight Merlion's architecture and major functionalities, and we report benchmark numbers across different baseline models and ensembles. | 翻訳日:2021-09-22 06:01:49 公開日:2021-09-20 |
# (参考訳) DeepStationing:解剖学的文脈エンコーディングとキーオーガナイズドオートサーチを用いたCTスキャンにおける胸部リンパ節郭清 DeepStationing: Thoracic Lymph Node Station Parsing in CT Scans using Anatomical Context Encoding and Key Organ Auto-Search ( http://arxiv.org/abs/2109.09271v1 ) ライセンス: CC BY 4.0 | Dazhou Guo, Xianghua Ye, Jia Ge, Xing Di, Le Lu, Lingyun Huang, Guotong Xie, Jing Xiao, Zhongjie Liu, Ling Peng, Senxiang Yan, Dakai Jin | (参考訳) CTスキャンからのLymph node station (LNS) delineationは放射線腫瘍学のワークフローにおいて必須のステップである。
ユーザ間の高い多様性と禁止労働コストは、自動化アプローチの動機となった。
以前の研究では、事前定義されたad-hocマージンに基づいてlsnを推論するために解剖学的前処理を利用する。
しかし、ボクセルレベルの監督がなければ、性能は極めて制限される。
LNSは、高度に文脈依存的であり、LSS境界は解剖学的臓器によって制約されている。
これにより、深層ネットワークは、CTの外観と臓器コンテキストの両方からより良く学習することができる。
我々は,臓器をアンカーと非アンカーのカテゴリに分割し,前者の予測を用いて後続のセグメンテーションを導く階層的参照臓器セグメンテーションプロトコルを開発した。
さらに,最適なLSS解析性能を選択する重要な臓器を同定する自動探索モジュールを開発した。
食道癌患者98名(胸部領域に12個のLSS+22臓器の包括的セットを含む)のデータセットの4倍のクロスバリデーション実験を行った。
私たちのlns解析モデルは、平均siceスコアが81.1%+/- 6.1%で、純粋なctベースのディープモデルよりも5.%、以前の代表的アプローチよりも19.2%高かった。 Lymph node station (LNS) delineation from computed tomography (CT) scans is an indispensable step in radiation oncology workflow. High inter-user variabilities across oncologists and prohibitive laboring costs motivated the automated approach. Previous works exploit anatomical priors to infer LNS based on predefined ad-hoc margins. However, without voxel-level supervision, the performance is severely limited. LNS is highly context-dependent - LNS boundaries are constrained by anatomical organs - we formulate it as a deep spatial and contextual parsing problem via encoded anatomical organs. This permits the deep network to better learn from both CT appearance and organ context. We develop a stratified referencing organ segmentation protocol that divides the organs into anchor and non-anchor categories and uses the former's predictions to guide the later segmentation. We further develop an auto-search module to identify the key organs that opt for the optimal LNS parsing performance. Extensive four-fold cross-validation experiments on a dataset of 98 esophageal cancer patients (with the most comprehensive set of 12 LNSs + 22 organs in thoracic region to date) are conducted. Our LNS parsing model produces significant performance improvements, with an average Dice score of 81.1% +/- 6.1%, which is 5.0% and 19.2% higher over the pure CT-based deep model and the previous representative approach, respectively. | 翻訳日:2021-09-22 05:41:07 公開日:2021-09-20 |
# (参考訳) 補間可変レート画像圧縮 Interpolation variable rate image compression ( http://arxiv.org/abs/2109.09280v1 ) ライセンス: CC BY 4.0 | Zhenhong Sun, Zhiyu Tan, Xiuyu Sun, Fangyi Zhang, Yichen Qian, Dongyang Li, Hao Li | (参考訳) 圧縮標準は、画像記憶と伝送のコストを何十年も削減するために使われてきた。
近年、学習した画像圧縮手法が提案され、従来の標準に説得力のある性能を達成している。
しかし、これらの手法では、様々な圧縮レートのために複数の異なるネットワークが使われ、モデルストレージとトレーニングに高いコストがかかる。
可変レートのアプローチは、単一ネットワークを使用することでコストを削減するために提案されているが、そのほとんどは、微調整による性能劣化をもたらした。
性能を犠牲にすることなく可変レート制御を実現するため、圧縮ネットワークに便利な補間チャネルアテンション(InterpCA)モジュールを導入し、効率的な補間可変レート(IVR)ネットワークを提案する。
速度制御と線形補間に2つのハイパーパラメータを用い、InterpCAは細かなPSNR間隔0.001dBと、IVRネットワークで9000レートの0.0001 Bits-Per-Pixel (BPP)の微細レート間隔を達成する。
実験結果から,PSNRにおけるVTM 9.0(intra)とMS-SSIM(Multiscale Structure similarity)を比較検討した。 Compression standards have been used to reduce the cost of image storage and transmission for decades. In recent years, learned image compression methods have been proposed and achieved compelling performance to the traditional standards. However, in these methods, a set of different networks are used for various compression rates, resulting in a high cost in model storage and training. Although some variable-rate approaches have been proposed to reduce the cost by using a single network, most of them brought some performance degradation when applying fine rate control. To enable variable-rate control without sacrificing the performance, we propose an efficient Interpolation Variable-Rate (IVR) network, by introducing a handy Interpolation Channel Attention (InterpCA) module in the compression network. With the use of two hyperparameters for rate control and linear interpolation, the InterpCA achieves a fine PSNR interval of 0.001 dB and a fine rate interval of 0.0001 Bits-Per-Pixel (BPP) with 9000 rates in the IVR network. Experimental results demonstrate that the IVR network is the first variable-rate learned method that outperforms VTM 9.0 (intra) in PSNR and Multiscale Structural Similarity (MS-SSIM). | 翻訳日:2021-09-22 05:29:06 公開日:2021-09-20 |
# (参考訳) 超広義ニューラルネットワークにおける変形半円法則と非線形ランダム行列の濃度 Deformed semicircle law and concentration of nonlinear random matrices for ultra-wide neural networks ( http://arxiv.org/abs/2109.09304v1 ) ライセンス: CC BY 4.0 | Zhichao Wang and Yizhe Zhu | (参考訳) 本稿では,$f(x)=\frac{1}{\sqrt{d_1}}\boldsymbol{a}^\top\sigma\left(wx\right)$,ただし$x\in\mathbb{r}^{d_0\times n}$は決定論的データ行列であり,$w\in\mathbb{r}^{d_1\times d_0}$および$\boldsymbol{a}\in\mathbb{r}^{d_1}$はランダムガウス重であり、$\sigma$は非線形活性化関数である。
経験的共役カーネル (CK) とニューラルタンジェントカーネル (NTK) の2つのカーネル行列のスペクトル分布を線形幅レジーム (d_1\asymp n$) を超えて制限する。
超幅の体制では、$d_1/n\to\infty$、$X$と$\sigma$の適切な仮定により、変形半円法則が現れる。
このような制限則は、相関を持つ一般集中型サンプル共分散行列に対して初めて証明され、その後ニューラルネットワークモデルに規定される。
また、スペクトルノルムにおける制限核の周囲の経験的 CK と NTK の非漸近的な濃度、および最小固有値上の下限も証明する。
アプリケーションとして,超幅制限下でのカーネル回帰の制限と同じ漸近性能を達成するランダムな特徴回帰を検証する。
ランダムな特徴回帰に対する制限トレーニングとテストエラーは、対応するカーネル回帰によって計算される。
また、ランダムウェイトとリプシッツ活性化関数を有するニューラルネットワークに適した非線形ハンソンライト不等式を提供する。 In this paper, we study the two-layer fully connected neural network given by $f(X)=\frac{1}{\sqrt{d_1}}\boldsymbol{a}^\top\sigma\left(WX\right)$, where $X\in\mathbb{R}^{d_0\times n}$ is a deterministic data matrix, $W\in\mathbb{R}^{d_1\times d_0}$ and $\boldsymbol{a}\in\mathbb{R}^{d_1}$ are random Gaussian weights, and $\sigma$ is a nonlinear activation function. We obtain the limiting spectral distributions of two kernel matrices related to $f(X)$: the empirical conjugate kernel (CK) and neural tangent kernel (NTK), beyond the linear-width regime ($d_1\asymp n$). Under the ultra-width regime $d_1/n\to\infty$, with proper assumptions on $X$ and $\sigma$, a deformed semicircle law appears. Such limiting law is first proved for general centered sample covariance matrices with correlation and then specified for our neural network model. We also prove non-asymptotic concentrations of empirical CK and NTK around their limiting kernel in the spectral norm, and lower bounds on their smallest eigenvalues. As an application, we verify the random feature regression achieves the same asymptotic performance as its limiting kernel regression in ultra-width limit. The limiting training and test errors for random feature regression are calculated by corresponding kernel regression. We also provide a nonlinear Hanson-Wright inequality suitable for neural networks with random weights and Lipschitz activation functions. | 翻訳日:2021-09-22 05:08:20 公開日:2021-09-20 |
# (参考訳) 心電導におけるトレンド予測と異常検出のための深部時空間スパース分解法 Deep Spatio-temporal Sparse Decomposition for Trend Prediction and Anomaly Detection in Cardiac Electrical Conduction ( http://arxiv.org/abs/2109.09317v1 ) ライセンス: CC BY 4.0 | Xinyu Zhao, Hao Yan, Zhiyong Hu, Dongping Du | (参考訳) 心臓組織間の電気伝導は、通常、部分微分方程式、すなわち、反応項が細胞刺激、拡散項が電気伝播を記述する反応拡散方程式でモデル化される。
このような非線形力学系における異常な電気的衝動を生じる心臓細胞の検出と同定は、効率的な治療と計画に重要である。
非線形力学をモデル化するために、心疾患のメカニズムを解明し、新しい治療設計を開発するために、心臓研究と臨床研究の両方でシミュレーションが広く用いられている。
しかし、既存の心臓モデルは非常に複雑であり、シミュレーションには時間がかかることが多い。
本研究では, 時間を要する心部分微分方程式を深部時空間モデルで回避し, 異常の時間と位置を検出するために, 深部時空間分解法(DSTSD)を提案する。
このアプローチはcourtemanche-ramirez-nattel(crn)モデルから生成されたデータセットから検証される。
提案したDSTSDは時空間平均トレンド予測と異常検出で最高の精度を達成した。 Electrical conduction among cardiac tissue is commonly modeled with partial differential equations, i.e., reaction-diffusion equation, where the reaction term describes cellular stimulation and diffusion term describes electrical propagation. Detecting and identifying of cardiac cells that produce abnormal electrical impulses in such nonlinear dynamic systems are important for efficient treatment and planning. To model the nonlinear dynamics, simulation has been widely used in both cardiac research and clinical study to investigate cardiac disease mechanisms and develop new treatment designs. However, existing cardiac models have a great level of complexity, and the simulation is often time-consuming. We propose a deep spatio-temporal sparse decomposition (DSTSD) approach to bypass the time-consuming cardiac partial differential equations with the deep spatio-temporal model and detect the time and location of the anomaly (i.e., malfunctioning cardiac cells). This approach is validated from the data set generated from the Courtemanche-Ramirez-Nattel (CRN) model, which is widely used to model the propagation of the transmembrane potential across the cross neuron membrane. The proposed DSTSD achieved the best accuracy in terms of spatio-temporal mean trend prediction and anomaly detection. | 翻訳日:2021-09-22 05:06:46 公開日:2021-09-20 |
# (参考訳) ハイブリッドアクターのためのモジュラーデザインパターン Modular Design Patterns for Hybrid Actors ( http://arxiv.org/abs/2109.09331v1 ) ライセンス: CC BY 4.0 | Andr\'e Meyer-Vitali, Wico Mulder, Maaike H.T. de Boer | (参考訳) 近年,記号的および準記号的学習と推論を組み合わせたハイブリッドAIの設計パターンを用いたボックスロジー(図形言語)が提案されている。
本稿では,このボックスロジーをアクタとその相互作用に拡張する。
本論文の主な貢献は次のとおりである。
1) アクターと相互作用を伴う分散ハイブリッドAIシステムを記述するための分類の延長
2) マルチエージェントシステムおよびヒューマンエージェントインタラクションに関するいくつかのデザインパターンの使用例、特に製造領域における例を示す。 Recently, a boxology (graphical language) with design patterns for hybrid AI was proposed, combining symbolic and sub-symbolic learning and reasoning. In this paper, we extend this boxology with actors and their interactions. The main contributions of this paper are: 1) an extension of the taxonomy to describe distributed hybrid AI systems with actors and interactions; and 2) showing examples using a few design patterns relevant in multi-agent systems and human-agent interaction in general and, specifically, in the manufacturing domain. | 翻訳日:2021-09-22 05:05:43 公開日:2021-09-20 |
# (参考訳) 物理インフォームドニューラルネットワークによる正弦波空間の学習 Learning in Sinusoidal Spaces with Physics-Informed Neural Networks ( http://arxiv.org/abs/2109.09338v1 ) ライセンス: CC BY 4.0 | Jian Cheng Wong, Chinchun Ooi, Abhishek Gupta, Yew-Soon Ong | (参考訳) 物理インフォームドニューラルネットワーク(PINN)は、物理増分損失関数(例えば、制御微分方程式から残留項を組み込んで、その出力が基本的な物理法則と整合していることを保証する。
しかし、実際の多くの問題に対して正確なPINNモデルをトレーニングすることは困難であることが判明した。
本稿では, PINNを用いた正弦波空間における学習のメリットについて, 新たな視点から考察する。
モデル初期化時の漸近挙動を解析することにより、サイズ(幅と深さ)が大きくなるPINNが平坦な出力に偏りを生じさせることを示す。
特に、平坦函数は、多くの物理微分方程式に対する自明な解であり、したがって、真の解からは程遠いが、拡張損失の残余項を欺いて最小化する。
次に、sf-PINNとラベル付けしたアーキテクチャにおいて、入力の正弦波写像は出力の変動を増大させることができることを示し、それ故に知覚的局所最小値に閉じ込められることを避ける。
さらに、変動のレベルを効果的に変調して、目の前の問題における高周波パターンを一致させることができる。
本稿では, PINNを用いた正弦波空間における学習の有効性を, 複数の物理領域にまたがる幅広い前方・逆モデリング問題に対する包括的実験により検証した。 A physics-informed neural network (PINN) uses physics-augmented loss functions, e.g., incorporating the residual term from governing differential equations, to ensure its output is consistent with fundamental physics laws. However, it turns out to be difficult to train an accurate PINN model for many problems in practice. In this paper, we address this issue through a novel perspective on the merits of learning in sinusoidal spaces with PINNs. By analyzing asymptotic behavior at model initialization, we first prove that a PINN of increasing size (i.e., width and depth) induces a bias towards flat outputs. Notably, a flat function is a trivial solution to many physics differential equations, hence, deceptively minimizing the residual term of the augmented loss while being far from the true solution. We then show that the sinusoidal mapping of inputs, in an architecture we label as sf-PINN, is able to elevate output variability, thus avoiding being trapped in the deceptive local minimum. In addition, the level of variability can be effectively modulated to match high-frequency patterns in the problem at hand. A key facet of this paper is the comprehensive empirical study that demonstrates the efficacy of learning in sinusoidal spaces with PINNs for a wide range of forward and inverse modelling problems spanning multiple physics domains. | 翻訳日:2021-09-22 04:56:25 公開日:2021-09-20 |
# (参考訳) Eコマースプラットフォームにおける製品グラフを用いたグループ検索 Grouping Search Results with Product Graphs in E-commerce Platforms ( http://arxiv.org/abs/2109.09349v1 ) ライセンス: CC BY 4.0 | Suhas Ranganath, Shibsankar Das, Sanjay Thilaivasan, Shipra Agarwal, Varun Shrivastava | (参考訳) ユーザに対して関連する検索結果を表示することが,検索システムにとって最大の課題である。
walmart eコマースは、顧客に何百万もの製品から検索するためのomnichannel検索プラットフォームを提供している。
この検索プラットフォームは、テキストクエリを入力として、カタログから関連する項目を表示する。
主な課題の1つは、多くのケースで複数のインテントが含まれているため、このクエリが複雑であることです。
本稿では,検索結果を複数のランクリストに分類し,より優れたユーザインテントを提供するフレームワークを提案する。
フレームワークは、製品エンティティ間の関係を持つ製品グラフを作成し、それを利用して検索結果を一連のスタックにグループ化し、各スタックが正確な意図に基づいてアイテムのグループを提供する。
例えば、クエリ"milk"では、結果は"white milk"、"low-fat milk"、"almond milk"、"flavored milk"の複数のスタックにグループ化できる。
本稿では,検索品質の関連性とAdd-To-Cartのようなユーザ行動信号の両方の観点から,ユーザエクスペリエンスの向上方法を評価することで,アルゴリズムの効果を測定する。 Showing relevant search results to the user is the primary challenge for any search system. Walmart e-commerce provides an omnichannel search platform to its customers to search from millions of products. This search platform takes a textual query as input and shows relevant items from the catalog. One of the primary challenges is that this queries are complex to understand as it contains multiple intent in many cases. This paper proposes a framework to group search results into multiple ranked lists intending to provide better user intent. The framework is to create a product graph having relations between product entities and utilize it to group search results into a series of stacks where each stack provides a group of items based on a precise intent. As an example, for a query "milk," the results can be grouped into multiple stacks of "white milk", "low-fat milk", "almond milk", "flavored milk". We measure the impact of our algorithm by evaluating how it improves the user experience both in terms of search quality relevance and user behavioral signals like Add-To-Cart. | 翻訳日:2021-09-22 04:29:49 公開日:2021-09-20 |
# (参考訳) テキスト類似性モデルによるユーザ項目グラフの拡張 Augmenting the User-Item Graph with Textual Similarity Models ( http://arxiv.org/abs/2109.09358v1 ) ライセンス: CC BY 4.0 | Federico L\'opez and Martin Scholz and Jessica Yung and Marie Pellat and Michael Strube and Lucas Dixon | (参考訳) 本稿では,レコメンダシステムのための簡易かつ効果的なデータ拡張方式を提案する。
パラフレーズ類似性モデルは、レビューや製品記述など、広く利用可能なテキストデータに適用され、ユーザ-テムグラフに追加される新しい意味関係が得られる。
これにより、さらなるラベル付きデータを必要とせずに、グラフの密度が増加する。
データ拡張は、ユークリッド空間、双曲空間、複素空間、および異なる特性を持つamazon製品レビューの3つのカテゴリを用いて、様々な推奨アルゴリズムで評価される。
その結果、データ拡張技術は、知識グラフベースのレコメンデータ、特にコールドスタート設定において最も顕著な利益をもたらし、あらゆる種類のモデルに大幅な改善をもたらすことが示された。 This paper introduces a simple and effective form of data augmentation for recommender systems. A paraphrase similarity model is applied to widely available textual data, such as reviews and product descriptions, yielding new semantic relations that are added to the user-item graph. This increases the density of the graph without needing further labeled data. The data augmentation is evaluated on a variety of recommendation algorithms, using Euclidean, hyperbolic, and complex spaces, and over three categories of Amazon product reviews with differing characteristics. Results show that the data augmentation technique provides significant improvements to all types of models, with the most pronounced gains for knowledge graph-based recommenders, particularly in cold-start settings, leading to state-of-the-art performance. | 翻訳日:2021-09-22 04:18:32 公開日:2021-09-20 |
# (参考訳) 属性グラフの埋め込みによるネットワーククラスタリング Network Clustering by Embedding of Attribute-augmented Graphs ( http://arxiv.org/abs/2109.09367v1 ) ライセンス: CC BY 4.0 | Pasqua D'Ambra, Clara De Santis, Panayot S. Vassilevski, and Luisa Cutillo | (参考訳) 本稿では,属性付き頂点を持つ非方向グラフのクラスタを検出する新しい手法を提案する。
目的は、構造接続の点だけでなく属性値の点でも類似した頂点をグループ化することである。
5, 27] で提案されているような追加の頂点と辺を作成することにより、拡張グラフに頂点間の構造的および属性的類似性を取り入れた。
グラフはラプラシアンに関連するユークリッド空間に埋め込まれ、クラスターを識別するために改良K平均アルゴリズムを適用する。
修正されたk-平均は、各元の頂点に対して構造的接続性と属性の類似性の両方に応じてベクトル値の座標の集合を割り当てるベクトル距離測度を用いる。
座標ベクトルを定義するために、アダプティブ amg (algebraic multigrid) 法を用いて埋め込みユークリッド空間における座標方向を同定し、属性のないグラフに対する前結果を拡張する。
提案手法の有効性を,合成グラフと実世界の属性グラフの両方に示す。 In this paper we propose a new approach to detect clusters in undirected graphs with attributed vertices. The aim is to group vertices which are similar not only in terms of structural connectivity but also in terms of attribute values. We incorporate structural and attribute similarities between the vertices in an augmented graph by creating additional vertices and edges as proposed in [5, 27]. The augmented graph is embedded in a Euclidean space associated to its Laplacian and apply a modified K-means algorithm to identify clusters. The modified K-means uses a vector distance measure where to each original vertex is assigned a vector-valued set of coordinates depending on both structural connectivity and attribute similarities. To define the coordinate vectors we employ an adaptive AMG (Algebraic MultiGrid) method to identify the coordinate directions in the embedding Euclidean space extending our previous result for graphs without attributes. We demonstrate the effectiveness of our proposed clustering method on both synthetic and real-world attributed graphs. | 翻訳日:2021-09-22 03:52:59 公開日:2021-09-20 |
# (参考訳) FreeStyleGAN:カメラマニフォールドでフリービュー編集可能なポートレートレンダリング FreeStyleGAN: Free-view Editable Portrait Rendering with the Camera Manifold ( http://arxiv.org/abs/2109.09378v1 ) ライセンス: CC BY 4.0 | Thomas Leimk\"uhler, George Drettakis | (参考訳) 現在のGAN(Generative Adversarial Networks)は、ポートレート画像のフォトリアリスティックレンダリングを生成する。
このようなモデルの潜在空間に実画像を埋め込むことで、高レベルの画像編集が可能になる。
最近の手法は(再生成された)画像に対してかなりの意味的制御を提供するが、それらは限られた視点しか生成できず、カメラを明示的に制御できない。
このような3Dカメラ制御は、3Dバーチャルおよび混合現実アプリケーションに必要である。
提案手法では,顔の画像を数枚使用して3次元再構成を行い,ganカメラ多様体の概念を導入することで,ganが安定的に再現できる画像の範囲を正確に定義することができる。
我々は,この多様体に捕獲された顔をマッピングし,自由視点のノベルビュー合成を得るためにワープスキームで補完する,小さな顔特異的な暗黙表現ネットワークを訓練する。
その正確なカメラ制御によって、私たちのアプローチは、トレーニング済みのstyleganを標準的な3dレンダリングパイプラインに統合し、例えば、ステレオレンダリングや合成3d環境での顔の一貫した挿入を可能にする方法を示しています。
提案手法は,ごく少数のカジュアルな写真のみを入力として,対話的なレートでリアルな顔の真の自由視点レンダリングを実現すると同時に,表情や照明変更などのセマンティックな編集機能を実現する。 Current Generative Adversarial Networks (GANs) produce photorealistic renderings of portrait images. Embedding real images into the latent space of such models enables high-level image editing. While recent methods provide considerable semantic control over the (re-)generated images, they can only generate a limited set of viewpoints and cannot explicitly control the camera. Such 3D camera control is required for 3D virtual and mixed reality applications. In our solution, we use a few images of a face to perform 3D reconstruction, and we introduce the notion of the GAN camera manifold, the key element allowing us to precisely define the range of images that the GAN can reproduce in a stable manner. We train a small face-specific neural implicit representation network to map a captured face to this manifold and complement it with a warping scheme to obtain free-viewpoint novel-view synthesis. We show how our approach - due to its precise camera control - enables the integration of a pre-trained StyleGAN into standard 3D rendering pipelines, allowing e.g., stereo rendering or consistent insertion of faces in synthetic 3D environments. Our solution proposes the first truly free-viewpoint rendering of realistic faces at interactive rates, using only a small number of casual photos as input, while simultaneously allowing semantic editing capabilities, such as facial expression or lighting changes. | 翻訳日:2021-09-22 03:27:03 公開日:2021-09-20 |
# (参考訳) タグ付きフィルタによる畳み込みニューラルネットワークの説明 Explaining Convolutional Neural Networks by Tagging Filters ( http://arxiv.org/abs/2109.09389v1 ) ライセンス: CC BY 4.0 | Anna Nguyen, Daniel Hagenmayer, Tobias Weller, Michael F\"arber | (参考訳) 畳み込みニューラルネットワーク(cnns)は,様々な画像分類タスクにおいて驚くべき性能を達成しているが,分類の仕組みを理解することは困難である。
近年の文献では、分類過程を人間に説明する方法が提案されている。
これらは主に機能マップの可視化とフィルター重みに焦点を合わせており、cnn分類の分析において非専門家にとってあまり直感的ではない。
本稿では,非専門家に対しても効果的にCNNを説明するFilTagを提案する。
クラスのイメージが畳み込みフィルタを頻繁に起動すると、そのフィルタはそのクラスでタグ付けされる。
これらのタグは、フィルタによって検出されたクラス固有の特徴の参照の説明を提供する。
タグ付けに基づいて、個々の画像分類を、入力イメージが起動するフィルタのタグの観点から直感的に説明することができる。
最後に,ノイズ入力画像による分類誤差の解析にタグが有用であることを示すとともに,タグを機械で処理可能であることを示す。 Convolutional neural networks (CNNs) have achieved astonishing performance on various image classification tasks, but it is difficult for humans to understand how a classification comes about. Recent literature proposes methods to explain the classification process to humans. These focus mostly on visualizing feature maps and filter weights, which are not very intuitive for non-experts in analyzing a CNN classification. In this paper, we propose FilTag, an approach to effectively explain CNNs even to non-experts. The idea is that when images of a class frequently activate a convolutional filter, then that filter is tagged with that class. These tags provide an explanation to a reference of a class-specific feature detected by the filter. Based on the tagging, individual image classifications can then be intuitively explained in terms of the tags of the filters that the input image activates. Finally, we show that the tags are helpful in analyzing classification errors caused by noisy input images and that the tags can be further processed by machines. | 翻訳日:2021-09-22 02:57:02 公開日:2021-09-20 |
# (参考訳) 視点をコミュニケーションして表現を改善するための学習 Learning to Improve Representations by Communicating About Perspectives ( http://arxiv.org/abs/2109.09390v1 ) ライセンス: CC BY 4.0 | Julius Taylor, Eleni Nisioti, Cl\'ement Moulin-Frier | (参考訳) 効果的な潜在表現は、外部世界の抽象的な特徴を捉える必要がある。
エージェント群が共有環境状態の帰納的解釈を和らげる必要性は、この特性に影響を与える必須の要因であると仮定する。
この仮説を検証するために,人口の個人的エージェントが同一の下位状態の異なる観察を受信し,互いに通信する潜在表現を学習するアーキテクチャを提案する。
創発的なコミュニケーションと表現学習の基本的な関係は、認知ツールとしての言語の役割と、ほとんどのマルチエージェントシステムの固有の特性である主観性によって与えられる機会である。
本稿では,関数を定義し,効果的なコミュニケーションの異なる側面を捉え,学習した表現に対する効果を調べる,オートエンコーダの集団からなる最小アーキテクチャを提案する。
提案したアーキテクチャは整列表現の出現を許容することを示す。
The subjectivity introduced bypresenting agents with distinct perspectives of the environment state contributes tolearning abstract representations that outperform those learned by both a single au-toencoder and a population of autoencoders, presented with identical perspectives.Altogether, our results demonstrate how communication from subjective perspec-tives can lead to the acquisition of more abstract representations in multi-agentsystems, opening promising perspectives for future research at the intersection ofrepresentation learning and emergent communication. Effective latent representations need to capture abstract features of the externalworld. We hypothesise that the necessity for a group of agents to reconcile theirsubjective interpretations of a shared environment state is an essential factor in-fluencing this property. To test this hypothesis, we propose an architecture whereindividual agents in a population receive different observations of the same under-lying state and learn latent representations that they communicate to each other. Wehighlight a fundamental link between emergent communication and representationlearning: the role of language as a cognitive tool and the opportunities conferredby subjectivity, an inherent property of most multi-agent systems. We present aminimal architecture comprised of a population of autoencoders, where we defineloss functions, capturing different aspects of effective communication, and examinetheir effect on the learned representations. We show that our proposed architectureallows the emergence of aligned representations. The subjectivity introduced bypresenting agents with distinct perspectives of the environment state contributes tolearning abstract representations that outperform those learned by both a single au-toencoder and a population of autoencoders, presented with identical perspectives.Altogether, our results demonstrate how communication from subjective perspec-tives can lead to the acquisition of more abstract representations in multi-agentsystems, opening promising perspectives for future research at the intersection ofrepresentation learning and emergent communication. | 翻訳日:2021-09-22 02:50:48 公開日:2021-09-20 |
# (参考訳) イベント抽出におけるモダリティと否定 Modality and Negation in Event Extraction ( http://arxiv.org/abs/2109.09393v1 ) ライセンス: CC BY-SA 4.0 | Sander Bijl de Vroe, Liane Guillou, Milo\v{s} Stanojevi\'c, Nick McKenna, Mark Steedman | (参考訳) 言語は、実際の出来事にコミットすることなく、イベントについての考えを表現するための豊富なモダリティシステムを提供する。
モダリティ(Modality)は、実際の出来事と可能な出来事の両方が議論される政治ニュースドメインで一般的に使用される。
NLPシステムはこれらのセマンティックな現象に苦しむが、しばしば起こらなかった事象を誤って抽出し、下流のアプリケーションで問題を引き起こす。
様々な種類のモダリティをキャプチャする,オープンドメインのレキシコンに基づくイベント抽出システムを提案する。
この情報は,質問応答,ナレッジグラフ構築,ファクトチェックタスクに有用であり,評価の結果,下流アプリケーションで使用するには十分に強力なシステムであることが判明した。 Language provides speakers with a rich system of modality for expressing thoughts about events, without being committed to their actual occurrence. Modality is commonly used in the political news domain, where both actual and possible courses of events are discussed. NLP systems struggle with these semantic phenomena, often incorrectly extracting events which did not happen, which can lead to issues in downstream applications. We present an open-domain, lexicon-based event extraction system that captures various types of modality. This information is valuable for Question Answering, Knowledge Graph construction and Fact-checking tasks, and our evaluation shows that the system is sufficiently strong to be used in downstream applications. | 翻訳日:2021-09-22 02:35:10 公開日:2021-09-20 |
# (参考訳) 動的ジェスチャー認識 Dynamic Gesture Recognition ( http://arxiv.org/abs/2109.09396v1 ) ライセンス: CC BY 4.0 | Jonas Bokstaller and Costanza Maria Improta | (参考訳) ヒューマン・マシン・インタラクション(hmi)研究分野は機械学習の重要なトピックであり、近年のコンピューティングパワーの高まりによって深く研究されている。
機械学習を使って従来のコンピュータビジョンアルゴリズムの代わりに、画像や動画を分類することができる。
本研究の目的は、コンボリューショナルニューラルネットワーク(CNN)[1]とリカレントニューラルネットワーク(RNN)[2]間の共生を構築し、ビデオからの文化的・人類学的イタリア手話のジェスチャーを認識することである。
CNNは後にRNNによって使用される重要な特徴を抽出する。
RNNでは、時間情報をモデル内に格納して、以前のフレームからコンテキスト情報を提供し、予測精度を高めることができます。
Ournovelアプローチでは、RGBフレームのみから異なるデータ拡張手法と正規化手法を使用してオーバーフィッティングを回避し、小さな一般化誤差を提供する。 The Human-Machine Interaction (HMI) researchfield is an important topic in machine learning that has beendeeply investigated thanks to the rise of computing power in thelast years. The first time, it is possible to use machine learningto classify images and/or videos instead of the traditionalcomputer vision algorithms. The aim of this project is to builda symbiosis between a convolutional neural network (CNN)[1] and a recurrent neural network (RNN) [2] to recognizecultural/anthropological Italian sign language gestures fromvideos. The CNN extracts important features that later areused by the RNN. With RNNs we are able to store temporalinformation inside the model to provide contextual informationfrom previous frames to enhance the prediction accuracy. Ournovel approach uses different data augmentation techniquesand regularization methods from only RGB frames to avoidoverfitting and provide a small generalization error. | 翻訳日:2021-09-22 02:19:14 公開日:2021-09-20 |
# (参考訳) ウィキデータにおける言語間のソースの品質評価 : ハイブリッドアプローチ Assessing the quality of sources in Wikidata across languages: a hybrid approach ( http://arxiv.org/abs/2109.09405v1 ) ライセンス: CC BY 4.0 | Gabriel Amaral, Alessandro Piscopo, Lucie-Aim\'ee Kaffee, Odinaldo Rodrigues and Elena Simperl | (参考訳) Wikidataは、世界中のボランティアコミュニティによって構築された、ウェブ上の構造化されたデータの最も重要な情報源の1つである。
Wikidataが特に重要であるのは、Wikidataが参照によって裏付けられている限り、広範囲のコンセンサスがないクレームを追加するよう、編集者に強く促すためである。
にもかかわらず、コンテンツと参照の間の本質的なリンクにもかかわらず、wikidataはその参照の質を体系的に評価し保証する能力は限られている。
この目的のために、オンラインのクラウドソーシング、記述統計、機械学習を用いて、Wikidata参照の関連性、アクセスの容易性、信頼性について、大規模および異なる言語で調査する。
従来の研究に基づいて,いくつかの言語でラベル付きWikidataのトリプルからサンプル化した,参照の大規模なコーパスを評価するための,一連のマイクロタスク実験を実施している。
クラウドソースアセスメントの統合されたバージョンを使用して、いくつかの機械学習モデルをトレーニングして、Wikidata全体の分析をスケールアップしています。
この結果はWikidataにおける参照の質の確認に役立ち、ユーザ生成多言語構造化データの品質をWeb上で定義し、取得する上で共通の課題を特定するのに役立つ。
また、より迅速な方法で高品質な参照の使用を促進することができる編集プラクティスについても議論する。
この研究で使われているすべてのデータとコードは、研究コミュニティによるフィードバックとさらなる改善とデプロイのためにgithubで入手できる。 Wikidata is one of the most important sources of structured data on the web, built by a worldwide community of volunteers. As a secondary source, its contents must be backed by credible references; this is particularly important as Wikidata explicitly encourages editors to add claims for which there is no broad consensus, as long as they are corroborated by references. Nevertheless, despite this essential link between content and references, Wikidata's ability to systematically assess and assure the quality of its references remains limited. To this end, we carry out a mixed-methods study to determine the relevance, ease of access, and authoritativeness of Wikidata references, at scale and in different languages, using online crowdsourcing, descriptive statistics, and machine learning. Building on previous work of ours, we run a series of microtasks experiments to evaluate a large corpus of references, sampled from Wikidata triples with labels in several languages. We use a consolidated, curated version of the crowdsourced assessments to train several machine learning models to scale up the analysis to the whole of Wikidata. The findings help us ascertain the quality of references in Wikidata, and identify common challenges in defining and capturing the quality of user-generated multilingual structured data on the web. We also discuss ongoing editorial practices, which could encourage the use of higher-quality references in a more immediate way. All data and code used in the study are available on GitHub for feedback and further improvement and deployment by the research community. | 翻訳日:2021-09-22 02:14:38 公開日:2021-09-20 |
# (参考訳) 補足グラフマイニングにおける時間情報の導入 Incorporating Temporal Information in Entailment Graph Mining ( http://arxiv.org/abs/2109.09412v1 ) ライセンス: CC BY-SA 4.0 | Liane Guillou, Sander Bijl de Vroe, Mohammad Javad Hosseini, Mark Johnson, Mark Steedman | (参考訳) そこで本稿では,同一の実体を含む類似するが時間的に異なる事象から発生する散発的な連関問題に対処するために,連帯グラフに時間的関係を注入する新しい手法を提案する。
同じペアのチームが異なる機会に,異なる結果でプレーする,スポーツ領域に重点を置いています。
我々は、win/lose $\rightarrow$ playのような補足を学ぶことを目的とした教師なしモデルを提示し、win$\not\rightarrow$ lostのような非補足学習の落とし穴を避ける。
我々は,手動で構築したデータセット上で,時間間隔を組み込んで時間窓を配置することが効果的な戦略であることを示す。 We present a novel method for injecting temporality into entailment graphs to address the problem of spurious entailments, which may arise from similar but temporally distinct events involving the same pair of entities. We focus on the sports domain in which the same pairs of teams play on different occasions, with different outcomes. We present an unsupervised model that aims to learn entailments such as win/lose $\rightarrow$ play, while avoiding the pitfall of learning non-entailments such as win $\not\rightarrow$ lose. We evaluate our model on a manually constructed dataset, showing that incorporating time intervals and applying a temporal window around them, are effective strategies. | 翻訳日:2021-09-22 01:39:15 公開日:2021-09-20 |
# (参考訳) スペンディングパーソナリティを用いたマイクロセグメンテーションのための繰り返しニューラルネットワークのクラスタリング Clustering in Recurrent Neural Networks for Micro-Segmentation using Spending Personality ( http://arxiv.org/abs/2109.09425v1 ) ライセンス: CC BY 4.0 | Charl Maree, Christian W. Omlin | (参考訳) 顧客セグメンテーションは長い間、銀行業において生産的な分野だった。
しかし、従来の問題に対する新しいアプローチによって、新たな機会が生まれる。
きめ細かい顧客セグメントはよく知られ、それらを得る一つの方法は特徴抽出である。
時間とともに集約された金融取引クラスに標準的な性格特性の係数を割り当てることが可能である。
しかし, マイクロセグメンテーションでは, クラスターが十分に識別できないことがわかった。
本研究では,ニューラルネットワークの隠れ状態から時間的特徴を連続的に抽出し,財務取引から顧客の個性を予測する。
長短期記憶(LSTM)とフィードフォワードニューラルネットワークを用いて、時間モデルと非シーケンスモデルの両方を考察する。
繰り返しニューラルネットワークは、フィードフォワードネットワークがコースセグメントのみを生成するマイクロセグメントを生成することがわかった。
最後に,これらの抽出された特徴を用いた分類は,ローンデフォルト率と顧客流動性指標という2つの共通指標に基づいて,少なくとも個別モデルとして機能することを示す。 Customer segmentation has long been a productive field in banking. However, with new approaches to traditional problems come new opportunities. Fine-grained customer segments are notoriously elusive and one method of obtaining them is through feature extraction. It is possible to assign coefficients of standard personality traits to financial transaction classes aggregated over time. However, we have found that the clusters formed are not sufficiently discriminatory for micro-segmentation. In this study, we extract temporal features with continuous values from the hidden states of neural networks predicting customers' spending personality from their financial transactions. We consider both temporal and non-sequential models, using long short-term memory (LSTM) and feed-forward neural networks, respectively. We found that recurrent neural networks produce micro-segments where feed-forward networks produce only course segments. Finally, we show that classification using these extracted features performs at least as well as bespoke models on two common metrics, namely loan default rate and customer liquidity index. | 翻訳日:2021-09-22 01:25:26 公開日:2021-09-20 |
# (参考訳) 説明可能なグラフニューラルネットワークの学習のためのメタラーニング手法 A Meta-Learning Approach for Training Explainable Graph Neural Networks ( http://arxiv.org/abs/2109.09426v1 ) ライセンス: CC BY 4.0 | Indro Spinelli, Simone Scardapane, Aurelio Uncini | (参考訳) 本稿では,グラフニューラルネットワーク(gnns)の説明可能性の程度について検討する。
既存の説明者は、予測を説明するグローバル/ローカルのサブグラフを見つけることで機能するが、GNNがすでに訓練された後に適用される。
本稿では,「解釈可能なミニマ」と呼ばれるものに最適化手順を操ることで,学習時間に直接gnnの説明可能性を向上させるメタラーニングフレームワークを提案する。
我々のフレームワーク(mate、meta-train to explain)は、ノード分類のような元のタスクを解決するためにモデルを訓練し、人間にやさしい方法でモデルの決定を説明する下流アルゴリズムの処理可能なアウトプットを提供する。
特に、ランダムにサンプリングされたノード上で訓練されたインスタンスレベルのGNNExplainerのエラーを迅速に最小化するために、モデルのパラメータをメタトレーニングする。
最後の内部表現は、GNNExplainerの別の例のように、説明アルゴリズムによって理解される'better'の一連の機能に依存している。
我々のモデルに依存しないアプローチは、異なるGNNアーキテクチャで生成された説明を改善し、このプロセスを駆動するためにインスタンスベースの説明器を使用することができます。
ノードとグラフの分類のための合成および実世界のデータセットの実験は、異なるアルゴリズムによって一貫して説明しやすいモデルを作ることができることを示している。
さらに、この説明可能性の増大はモデルの正確性に何のコストもかからない。 In this paper, we investigate the degree of explainability of graph neural networks (GNNs). Existing explainers work by finding global/local subgraphs to explain a prediction, but they are applied after a GNN has already been trained. Here, we propose a meta-learning framework for improving the level of explainability of a GNN directly at training time, by steering the optimization procedure towards what we call `interpretable minima'. Our framework (called MATE, MetA-Train to Explain) jointly trains a model to solve the original task, e.g., node classification, and to provide easily processable outputs for downstream algorithms that explain the model's decisions in a human-friendly way. In particular, we meta-train the model's parameters to quickly minimize the error of an instance-level GNNExplainer trained on-the-fly on randomly sampled nodes. The final internal representation relies upon a set of features that can be `better' understood by an explanation algorithm, e.g., another instance of GNNExplainer. Our model-agnostic approach can improve the explanations produced for different GNN architectures and use any instance-based explainer to drive this process. Experiments on synthetic and real-world datasets for node and graph classification show that we can produce models that are consistently easier to explain by different algorithms. Furthermore, this increase in explainability comes at no cost for the accuracy of the model. | 翻訳日:2021-09-22 01:17:28 公開日:2021-09-20 |
# (参考訳) 分散バンディットの漸近的最適性 Asymptotic Optimality for Decentralised Bandits ( http://arxiv.org/abs/2109.09427v1 ) ライセンス: CC BY 4.0 | Conor Newton, Ayalvadi Ganesh and Henry W. J. Reeve | (参考訳) 我々は,複数腕のバンディット問題に対して多数のエージェントが協力し,多数の腕を持つエージェントについて検討する。
目的は、コミュニケーションに制約のある設定で各エージェントの後悔を最小限にすることである。
本稿では,Chawla et al. arxiv:2001.05452のGossip-Insert-Eliminate法に基づく分散アルゴリズムを提案する。
我々は,本アルゴリズムが漸近的に最適であることを示す後悔を理論的に解析する。
実際、我々の後悔の保証は、完全なコミュニケーション設定で達成可能な漸近的に最適なレートと一致します。
最後に、結論を支持する経験的結果を示す。 We consider a large number of agents collaborating on a multi-armed bandit problem with a large number of arms. The goal is to minimise the regret of each agent in a communication-constrained setting. We present a decentralised algorithm which builds upon and improves the Gossip-Insert-Eliminate method of Chawla et al. arxiv:2001.05452. We provide a theoretical analysis of the regret incurred which shows that our algorithm is asymptotically optimal. In fact, our regret guarantee matches the asymptotically optimal rate achievable in the full communication setting. Finally, we present empirical results which support our conclusions | 翻訳日:2021-09-22 01:06:22 公開日:2021-09-20 |
# (参考訳) オンラインアクティビティ認識のためのインクリメンタル学習手法 Incremental Learning Techniques for Online Human Activity Recognition ( http://arxiv.org/abs/2109.09435v1 ) ライセンス: CC BY 4.0 | Meysam Vakili, Masoumeh Rezaei | (参考訳) スマートフォン慣性センサーを用いた人間の活動の目立たない、スマートな認識は、人工知能の分野で、特に近年、研究者の間で大きな人気を得た興味深いトピックである。
健康モニタリングや高齢者介護といった実世界の多くのアプリケーションでは、個人の健康に深刻なダメージを与えるのを防ぐために直ちにユーザーの活動を認識する必要があるため、より注意を要する課題は身体活動のリアルタイム検出である。
本稿では,インクリメンタル学習アルゴリズムの能力を利用して,身体運動のオンライン予測のためのヒューマンアクティビティ認識(HAR)アプローチを提案する。
我々は,監視ソフトウェアを含むHARシステムと,加速度計とジャイロスコープデータを収集してインターネット経由で遠隔サーバに送信し,分類・認識操作を行うモバイルアプリケーションを開発した。
この研究で6つの漸進的学習アルゴリズムが採用され、オフラインHARシステムの開発によく使用されるバッチ学習アルゴリズムと比較される。
最終結果は,すべての性能評価指標を考慮すると,インクリメンタルk-ネアレスト近傍とインクリメンタルナイーブベイジアンが他のアルゴリズムよりも優れており,その認識精度は95%以上であった。 Unobtrusive and smart recognition of human activities using smartphones inertial sensors is an interesting topic in the field of artificial intelligence acquired tremendous popularity among researchers, especially in recent years. A considerable challenge that needs more attention is the real-time detection of physical activities, since for many real-world applications such as health monitoring and elderly care, it is required to recognize users' activities immediately to prevent severe damages to individuals' wellness. In this paper, we propose a human activity recognition (HAR) approach for the online prediction of physical movements, benefiting from the capabilities of incremental learning algorithms. We develop a HAR system containing monitoring software and a mobile application that collects accelerometer and gyroscope data and send them to a remote server via the Internet for classification and recognition operations. Six incremental learning algorithms are employed and evaluated in this work and compared with several batch learning algorithms commonly used for developing offline HAR systems. The Final results indicated that considering all performance evaluation metrics, Incremental K-Nearest Neighbors and Incremental Naive Bayesian outperformed other algorithms, exceeding a recognition accuracy of 95% in real-time. | 翻訳日:2021-09-22 00:49:15 公開日:2021-09-20 |
# (参考訳) ユビキタス屋内測位に向けて:異種データセット間の比較 Towards Ubiquitous Indoor Positioning: Comparing Systems across Heterogeneous Datasets ( http://arxiv.org/abs/2109.09436v1 ) ライセンス: CC BY 4.0 | Joaqu\'in Torres-Sospedra, Ivo Silva, Lucie Klus, Darwin Quezada-Gaibor, Antonino Crivello, Paolo Barsocchi, Cristiano Pend\~ao, Elena Simona Lohan, Jari Nurmi and Adriano Moreira | (参考訳) IPS(Indoor Positioning Systems)の評価は、主に研究者やパートナーの施設におけるローカルな配置に依存している。
総合的な実験を作成し、データを収集し、複数のシナリオを考慮する複雑さは、通常、評価範囲を制限し、提案システムの評価を行う。
制御された実験の要求と特徴は、同じセンサーやアンカー密度の使用を保証できないため、一般化できない。
データセットの夜明けは、IPS評価を機械学習モデルと同じレベルに押し上げ、多くの異種データセットに対して新しい提案が評価されている。
本稿では,複数のシナリオにおけるIPSの評価方法を提案する。
その結果,提案した評価基準値の集約はIPSの高レベル比較に有用であることが証明された。 The evaluation of Indoor Positioning Systems (IPS) mostly relies on local deployments in the researchers' or partners' facilities. The complexity of preparing comprehensive experiments, collecting data, and considering multiple scenarios usually limits the evaluation area and, therefore, the assessment of the proposed systems. The requirements and features of controlled experiments cannot be generalized since the use of the same sensors or anchors density cannot be guaranteed. The dawn of datasets is pushing IPS evaluation to a similar level as machine-learning models, where new proposals are evaluated over many heterogeneous datasets. This paper proposes a way to evaluate IPSs in multiple scenarios, that is validated with three use cases. The results prove that the proposed aggregation of the evaluation metric values is a useful tool for high-level comparison of IPSs. | 翻訳日:2021-09-22 00:28:59 公開日:2021-09-20 |
# (参考訳) 拡張物理形ニューラルネットワーク(xpinns)は一般化をいつ改善するのか? When Do Extended Physics-Informed Neural Networks (XPINNs) Improve Generalization? ( http://arxiv.org/abs/2109.09444v1 ) ライセンス: CC BY 4.0 | Zheyuan Hu, Ameya D. Jagtap, George Em Karniadakis, Kenji Kawaguchi | (参考訳) 高次元偏微分方程式 (high-dimensional partial differential equation, pdes) の解法として、物理学に変形したニューラルネットワーク (pinns) が一般的である。
近年,領域分解法に基づく拡張PINN (XPINNs) が注目されている。
しかし、それらの収束と一般化性に関する理論的理解は未定である。
そこで本研究では,XPINNがPINNより優れていることの理解に向けて,最初の一歩を踏み出した。
具体的には, pde問題における対象関数の複雑性を通じて束縛された事前一般化と, 最適化後のネットワークの後方行列ノルムを介して束縛された後方一般化を提案する。
さらに,この境界に基づいて,XPINNが一般化を改善する条件を解析する。
具体的には、XPINNの鍵となる構成ブロック、すなわち領域分解が一般化のトレードオフをもたらすことを示す。
一方、XPINNは複素PDE解をいくつかの単純な部分に分解し、各部分の学習に必要な複雑さを減らし、一般化を促進する。
一方、分解は各サブドメインで利用可能なトレーニングデータを減らすことにつながるため、そのようなモデルは一般的に過度に適合する傾向があり、一般化しにくくなる。
実証的に、5つのPDEを選択して、XPINNsがPINNsとよく似ているか悪いかを示し、その結果、新しい理論を実証し正当化する。 Physics-informed neural networks (PINNs) have become a popular choice for solving high-dimensional partial differential equations (PDEs) due to their excellent approximation power and generalization ability. Recently, Extended PINNs (XPINNs) based on domain decomposition methods have attracted considerable attention due to their effectiveness in modeling multiscale and multiphysics problems and their parallelization. However, theoretical understanding on their convergence and generalization properties remains unexplored. In this study, we take an initial step towards understanding how and when XPINNs outperform PINNs. Specifically, for general multi-layer PINNs and XPINNs, we first provide a prior generalization bound via the complexity of the target functions in the PDE problem, and a posterior generalization bound via the posterior matrix norms of the networks after optimization. Moreover, based on our bounds, we analyze the conditions under which XPINNs improve generalization. Concretely, our theory shows that the key building block of XPINN, namely the domain decomposition, introduces a tradeoff for generalization. On the one hand, XPINNs decompose the complex PDE solution into several simple parts, which decreases the complexity needed to learn each part and boosts generalization. On the other hand, decomposition leads to less training data being available in each subdomain, and hence such model is typically prone to overfitting and may become less generalizable. Empirically, we choose five PDEs to show when XPINNs perform better than, similar to, or worse than PINNs, hence demonstrating and justifying our new theory. | 翻訳日:2021-09-22 00:11:46 公開日:2021-09-20 |
# (参考訳) 図形モデルを用いたアルゴリズムフェアネス検証 Algorithmic Fairness Verification with Graphical Models ( http://arxiv.org/abs/2109.09447v1 ) ライセンス: CC BY 4.0 | Bishwamittra Ghosh, Debabrota Basu, Kuldeep S. Meel | (参考訳) 近年、機械学習(ml)アルゴリズムは、アルゴリズムの公平性が最重要視される安全クリティカルかつ高リスクな意思決定に展開されている。
MLの公平性は、ML分類器によって誘導される特定の人口集団に対するバイアスを検出することに集中し、異なる公平性の定義に対するバイアスを軽減するアルゴリズム的解を提案する。
この目的のために、入力特徴の確率分布を考慮し、ML分類器の予測におけるバイアスを計算するフェアネス検証器がいくつか提案されている。
線形分類器の検証の文脈では、既存の公正検証器は、SSATやSMTの式やサンプリングによる分類器の制限的な定式化による特徴とスケーラビリティの相関の不正確なモデリングによって、精度によって制限される。
本稿では,ベイズネットワークとしての特徴間の相関を符号化する,FVGMと呼ばれる効率の良いフェアネス検証器を提案する。
既存の検証器とは対照的に、FVGMは線形分類器を検証するための確率的部分集合-sumに基づくアプローチを提案する。
実験により,fvgmは,公平度向上アルゴリズム,公平性攻撃,グループ/causalフェアネス指標の多種多様なファミリーに対して,最先端よりも正確かつスケーラブルな評価を行うことができることを示した。
また,FVGMは,特徴のサブセットによって引き起こされるバイアス源を検出するためのステップストーンとして,公正影響関数の計算を容易にすることを実証した。 In recent years, machine learning (ML) algorithms have been deployed in safety-critical and high-stake decision-making, where the fairness of algorithms is of paramount importance. Fairness in ML centers on detecting bias towards certain demographic populations induced by an ML classifier and proposes algorithmic solutions to mitigate the bias with respect to different fairness definitions. To this end, several fairness verifiers have been proposed that compute the bias in the prediction of an ML classifier -- essentially beyond a finite dataset -- given the probability distribution of input features. In the context of verifying linear classifiers, existing fairness verifiers are limited by accuracy due to imprecise modelling of correlations among features and scalability due to restrictive formulations of the classifiers as SSAT or SMT formulas or by sampling. In this paper, we propose an efficient fairness verifier, called FVGM, that encodes the correlations among features as a Bayesian network. In contrast to existing verifiers, FVGM proposes a stochastic subset-sum based approach for verifying linear classifiers. Experimentally, we show that FVGM leads to an accurate and scalable assessment for more diverse families of fairness-enhancing algorithms, fairness attacks, and group/causal fairness metrics than the state-of-the-art. We also demonstrate that FVGM facilitates the computation of fairness influence functions as a stepping stone to detect the source of bias induced by subsets of features. | 翻訳日:2021-09-22 00:10:19 公開日:2021-09-20 |
# (参考訳) 黄斑円孔手術後の視力改善予測 : 極めて限られたデータを用いた深層学習の注意点 Predicting Visual Improvement after Macular Hole Surgery: a Cautionary Tale on Deep Learning with Very Limited Data ( http://arxiv.org/abs/2109.09463v1 ) ライセンス: CC BY 4.0 | M. Godbout, A. Lachance, F. Antaki, A. Dirani, A. Durand | (参考訳) 術前データ(網膜画像および臨床特徴)から黄斑円孔手術後の視覚改善予測のための機械学習モデルの可能性について検討した。
タスクのために独自のデータを集めると、最終的には合計121のサンプルしか得られなくなり、非常に限られたデータレジームになります。
深部コンピュータビジョンモデルを訓練するための限られたデータのための様々な深部学習法を探索し、テストされた深部視覚モデルは、臨床機能に関する単純な回帰モデルによって圧倒されていることを見出した。
これは非常に限られたデータでディープラーニングを使うのが極めて難しいという、説得力のある証拠だと考えています。 We investigate the potential of machine learning models for the prediction of visual improvement after macular hole surgery from preoperative data (retinal images and clinical features). Collecting our own data for the task, we end up with only 121 total samples, putting our work in the very limited data regime. We explore a variety of deep learning methods for limited data to train deep computer vision models, finding that all tested deep vision models are outperformed by a simple regression model on the clinical features. We believe this is compelling evidence of the extreme difficulty of using deep learning on very limited data. | 翻訳日:2021-09-21 23:40:52 公開日:2021-09-20 |
# (参考訳) CARL:条件-値-リスク-リスク強化学習 CARL: Conditional-value-at-risk Adversarial Reinforcement Learning ( http://arxiv.org/abs/2109.09470v1 ) ライセンス: CC BY 4.0 | M. Godbout, M. Heuillet, S. Chandra, R. Bhati, A. Durand | (参考訳) 本稿では,CARL(Conditional value-at-risk Adversarial Reinforcement Learning)と呼ばれるリスク回避強化学習手法を提案する。
我々の知る限りでは、CARLは条件付きバリュー・アット・リスク(CVaR)RLの最初のゲーム定式化である。
ゲームは、ポリシープレイヤーと敵の間で行われ、有限の予算でポリシープレイヤーの状態遷移を妨害する。
我々は、最大均衡点において、学習方針がCVaR最適であり、敵の予算に明示的に関連していることを証明した。
カールをゼロサム・スタックルバーグゲームとして定式化し,深層強化学習アーキテクチャと学習アルゴリズムの利用を可能にし,グラデーションに基づく学習手順を提案する。
最後に,CARLゲームを解くことで,玩具グリッド環境におけるリスク回避行動がもたらされることを示した。 In this paper we present a risk-averse reinforcement learning (RL) method called Conditional value-at-risk Adversarial Reinforcement Learning (CARL). To the best of our knowledge, CARL is the first game formulation for Conditional Value-at-Risk (CVaR) RL. The game takes place between a policy player and an adversary that perturbs the policy player's state transitions given a finite budget. We prove that, at the maximin equilibrium point, the learned policy is CVaR optimal with a risk tolerance explicitly related to the adversary's budget. We provide a gradient-based training procedure to solve CARL by formulating it as a zero-sum Stackelberg Game, enabling the use of deep reinforcement learning architectures and training algorithms. Finally, we show that solving the CARL game does lead to risk-averse behaviour in a toy grid environment, also confirming that an increased adversary produces increasingly cautious policies. | 翻訳日:2021-09-21 23:31:00 公開日:2021-09-20 |
# (参考訳) counterbalance modeling に基づく反比例型ウェブブラウジングの制御 Regulating Ruminative Web-browsing Based on the Counterbalance Modeling Approach ( http://arxiv.org/abs/2109.09476v1 ) ライセンス: CC BY 4.0 | Junya Morita, Thanakit Pitakchokchai, Giri Basanta Raj, Yusuke Yamamoto, Hiroyasu Yuhashi and Teppei Koguchi | (参考訳) ウェブ環境は日々の生活を促進するが、人間の認知と相容れないことから生じる感情問題はますます深刻化しつつある。
ウェブ利用時のネガティブ感情を軽減するために,ユーザに対して記憶された製品イメージをWeb広告形式で提示するブラウザエクステンションを開発した。
本システムは、記憶と感情のモデルとして、思考の適応制御(ACT-R)を利用する。
心拍センサーはACT-Rモデルパラメータを変調する: モデルの感情状態は、ユーザーの生理状態と同期または相反する。
ある実験は、カウンターバランスモデルが負のルミナティブwebブラウジングを抑制することを実証する。
著者らは、このアプローチは説明可能性の点で有利であると主張している。 Even though the web environment facilitates daily life, emotional problems caused by its incompatibility with human cognition are becoming increasingly serious. To alleviate negative emotions during web use, we developed a browser extension that presents memorized product images to users, in the form of web advertisements. This system utilizes the cognitive architecture Adaptive Control of Thought-Rational (ACT-R) as a model of memory and emotion. A heart rate sensor modulates the ACT-R model parameters: The emotional states of the model are synchronized or counterbalanced with the physiological state of the user. An experiment demonstrates that the counterbalance model suppresses negative ruminative web browsing. The authors claim that this approach is advantageous in terms of explainability. | 翻訳日:2021-09-21 23:24:53 公開日:2021-09-20 |
# (参考訳) 自然言語による強化学習のためのテキストゲームに関する調査 A Survey of Text Games for Reinforcement Learning informed by Natural Language ( http://arxiv.org/abs/2109.09478v1 ) ライセンス: CC BY 4.0 | Philip Osborne, Heido N\~omm and Andre Freitas | (参考訳) 強化学習は多くの複雑な仮想環境で成功している。
しかしながら、自然言語の問題をコアコンポーネントとして解決する上で、多くの課題が存在する。
インタラクティブフィクションゲーム(英: Interactive Fiction Games, Text Games)は、自然言語が強化学習ソリューションの一部として必要とされる部分観測可能な環境のセットを提供する問題の一種である。
そこで本調査の目的は,自然言語による強化学習のための新しいテキストゲーム問題設定とソリューションの開発を支援することである。
特にこの調査は下記のとおりである。
1)テキストゲーム強化学習問題における課題
2)テキストゲームとその後の環境を評価するための生成ツール
3)現在適用されているエージェントアーキテクチャを比較して,ベンチマーク手法と今後の研究者の機会を体系的に検討する。 Reinforcement Learning has shown success in a number of complex virtual environments. However, many challenges still exist towards solving problems with natural language as a core component. Interactive Fiction Games (or Text Games) are one such problem type that offer a set of partially observable environments where natural language is required as part of the reinforcement learning solutions. Therefore, this survey's aim is to assist in the development of new Text Game problem settings and solutions for Reinforcement Learning informed by natural language. Specifically, this survey summarises: 1) the challenges introduced in Text Game Reinforcement Learning problems, 2) the generation tools for evaluating Text Games and the subsequent environments generated and, 3) the agent architectures currently applied are compared to provide a systematic review of benchmark methodologies and opportunities for future researchers. | 翻訳日:2021-09-21 23:10:49 公開日:2021-09-20 |
# (参考訳) 大規模確認項目因子分析のための機械学習に基づく推定と適合性 Machine Learning-Based Estimation and Goodness-of-Fit for Large-Scale Confirmatory Item Factor Analysis ( http://arxiv.org/abs/2109.09500v1 ) ライセンス: CC BY-SA 4.0 | Christopher J. Urban and Daniel J. Bauer | (参考訳) 大規模確認項目因子分析(IFA)のための新しいパラメータ推定法と適合度評価法について,多くの回答者,項目,潜伏因子を用いた検討を行った。
パラメータ推定のために,探索的ifaのためのurban and bauer (2021) 深層学習アルゴリズムを拡張し,負荷と因子相関に対するユーザ定義制約の扱い方を示す。
GOF評価のための新しいシミュレーションベーステストと指標について検討する。
特に、機械学習の分類器が観測データと適合するifaモデルからサンプリングされた合成データとを区別できるかどうかをテストするc2st(classifier two-sample test)の拡張を検討する。
C2STは、全体的なモデル適合、ピースワイド適合、人体適合を統合するフレキシブルなフレームワークを提供する。
提案された拡張には、ユーザが合成データと区別できる観測データの割合を特定するC2STベースの近似適合試験と、構造方程式モデリングで使用される相対適合指標と精神的に類似したC2STベースの相対適合指数が含まれる。
シミュレーション研究により,Urban and Bauer's (2021)アルゴリズムの検証拡張により,サンプルサイズが大きくなるにつれて,より正確なパラメータ推定が得られ,より少ない時間で最先端のIFA推定手法に匹敵する推定値が得られることを示した。
次に,c2stに基づく近似適合テストが経験的i型誤差率を制御し,潜在因子数の誤特定を検知することを示す。
最後に,c2st-based relative fit indexのサンプリング分布がサンプルサイズにどのように依存するかを実験的に検討した。 We investigate novel parameter estimation and goodness-of-fit (GOF) assessment methods for large-scale confirmatory item factor analysis (IFA) with many respondents, items, and latent factors. For parameter estimation, we extend Urban and Bauer's (2021) deep learning algorithm for exploratory IFA to the confirmatory setting by showing how to handle user-defined constraints on loadings and factor correlations. For GOF assessment, we explore new simulation-based tests and indices. In particular, we consider extensions of the classifier two-sample test (C2ST), a method that tests whether a machine learning classifier can distinguish between observed data and synthetic data sampled from a fitted IFA model. The C2ST provides a flexible framework that integrates overall model fit, piece-wise fit, and person fit. Proposed extensions include a C2ST-based test of approximate fit in which the user specifies what percentage of observed data can be distinguished from synthetic data as well as a C2ST-based relative fit index that is similar in spirit to the relative fit indices used in structural equation modeling. Via simulation studies, we first show that the confirmatory extension of Urban and Bauer's (2021) algorithm produces more accurate parameter estimates as the sample size increases and obtains comparable estimates to a state-of-the-art confirmatory IFA estimation procedure in less time. We next show that the C2ST-based test of approximate fit controls the empirical type I error rate and detects when the number of latent factors is misspecified. Finally, we empirically investigate how the sampling distribution of the C2ST-based relative fit index depends on the sample size. | 翻訳日:2021-09-21 22:52:58 公開日:2021-09-20 |
# (参考訳) gaussian heatmapsを用いたランドマーク定位におけるアノテーションの不確かさのモデル化 Modeling Annotation Uncertainty with Gaussian Heatmaps in Landmark Localization ( http://arxiv.org/abs/2109.09533v1 ) ライセンス: CC BY-SA 4.0 | Franz Thaler, Christian Payer, Martin Urschler and Darko Stern | (参考訳) ランドマークのローカライゼーションでは、正確な位置を定義するあいまいさのために、ランドマークのアノテーションは大きなオブザーバーの変動に苦しむ可能性がある。
トレーニングデータセットのアノテーションあいまいさをモデル化するために,対象ヒートマップの形状をモデル化した異方性ガウスパラメータを最適化中に学習する。
さらに,提案手法は,推定熱マップに異方性ガウス関数を組み込むことにより,個々のサンプルの予測不確かさをモデル化する。
以上の結果に加えて,手動X線写真と側頭蓋像のデータセットを用いた実験により,ガウス関数が局所化精度と観測変数の相関関係があることが示唆された。
最終実験として,予測位置の不確実性が側頭蓋骨の解剖学的異常の分類に与える影響を計測し,不確実性を意思決定に組み込むことの重要性を示す。 In landmark localization, due to ambiguities in defining their exact position, landmark annotations may suffer from large observer variabilities, which result in uncertain annotations. To model the annotation ambiguities of the training dataset, we propose to learn anisotropic Gaussian parameters modeling the shape of the target heatmap during optimization. Furthermore, our method models the prediction uncertainty of individual samples by fitting anisotropic Gaussian functions to the predicted heatmaps during inference. Besides state-of-the-art results, our experiments on datasets of hand radiographs and lateral cephalograms also show that Gaussian functions are correlated with both localization accuracy and observer variability. As a final experiment, we show the importance of integrating the uncertainty into decision making by measuring the influence of the predicted location uncertainty on the classification of anatomical abnormalities in lateral cephalograms. | 翻訳日:2021-09-21 22:51:14 公開日:2021-09-20 |
# (参考訳) 音声・視覚音声認識は32$\times$32$\times$8voxels Audio-Visual Speech Recognition is Worth 32$\times$32$\times$8 Voxels ( http://arxiv.org/abs/2109.09536v1 ) ライセンス: CC BY 4.0 | Dmitriy Serdyuk, Otavio Braga and Olivier Siohan | (参考訳) 音声視覚自動音声認識(AV-ASR)は、しばしば話者の口の動きによって伝達される情報に依存して、音声認識プロセスにビデオモダリティを導入する。
ビデオ信号の使用には視覚的特徴の抽出が必要であり、音響的特徴と組み合わせてAV-ASRシステム [1] を構築する。
これは伝統的にコンピュータビジョンコミュニティで広く使われているある種の3d畳み込みネットワーク(例えばvgg)で行われている。
近年,画像分類タスクに有用な視覚特徴を抽出するために画像変換器[2]が導入された。
本研究では,3次元畳み込み視覚フロントエンドをビデオトランスフォーマーフロントエンドに置き換えることを提案する。
当社のシステムは、YouTubeビデオからなる大規模なデータセットに基づいてトレーニングし、公開されているLSS3-TEDセットおよびYouTubeビデオの大規模なセットのパフォーマンスを評価する。
リップ読み取りタスクでは、トランスベースのフロントエンドは強い畳み込みベースラインよりも優れたパフォーマンスを示す。
AV-ASRタスクでは、トランスフォーマーのフロントエンドは畳み込みベースラインと同様に(あるいはそれ以上)機能する。
LRS3-TEDトレーニングセットのモデルを微調整することは、過去の技術と一致する。
そこで我々は,AV-ASRにおける畳み込みのないモデルの有効性を実験的に示す。 Audio-visual automatic speech recognition (AV-ASR) introduces the video modality into the speech recognition process, often by relying on information conveyed by the motion of the speaker's mouth. The use of the video signal requires extracting visual features, which are then combined with the acoustic features to build an AV-ASR system [1]. This is traditionally done with some form of 3D convolutional network (e.g. VGG) as widely used in the computer vision community. Recently, image transformers [2] have been introduced to extract visual features useful for image classification tasks. In this work, we propose to replace the 3D convolutional visual front-end with a video transformer front-end. We train our systems on a large-scale dataset composed of YouTube videos and evaluate performance on the publicly available LRS3-TED set, as well as on a large set of YouTube videos. On a lip-reading task, the transformer-based front-end shows superior performance compared to a strong convolutional baseline. On an AV-ASR task, the transformer front-end performs as well as (or better than) the convolutional baseline. Fine-tuning our model on the LRS3-TED training set matches previous state of the art. Thus, we experimentally show the viability of the convolution-free model for AV-ASR. | 翻訳日:2021-09-21 22:21:27 公開日:2021-09-20 |
# (参考訳) TensorFlowを毎秒3億の予測にスケールアップ Scaling TensorFlow to 300 million predictions per second ( http://arxiv.org/abs/2109.09541v1 ) ライセンス: CC BY 4.0 | Jan Hartman, Davorin Kopi\v{c} | (参考訳) 我々は、オンライン広告エコシステムにおいて、機械学習モデルをTensorFlowフレームワークに大規模に移行する過程を提示する。
この講演では、私たちが直面した重要な課題に対処し、それらにどう対処したかを説明します。特に、TFでモデルを実装し、様々な最適化手法を使用して、低レイテンシで効率的にそれらを提供する。 We present the process of transitioning machine learning models to the TensorFlow framework at a large scale in an online advertising ecosystem. In this talk we address the key challenges we faced and describe how we successfully tackled them; notably, implementing the models in TF and serving them efficiently with low latency using various optimization techniques. | 翻訳日:2021-09-21 22:11:03 公開日:2021-09-20 |
# (参考訳) MeetDot:ライブ翻訳機能付きビデオ会議 MeetDot: Videoconferencing with Live Translation Captions ( http://arxiv.org/abs/2109.09577v1 ) ライセンス: CC BY 4.0 | Arkady Arkhangorodsky, Christopher Chu, Scot Fang, Yiqi Huang, Denglin Jiang, Ajay Nagesh, Boliang Zhang, Kevin Knight | (参考訳) 我々は,ライブ翻訳キャプションを画面上にオーバーレイするビデオ会議システムであるmeetdotを提案する。
本システムは,多言語話者間のコミュニケーション障壁を低減することを目的としている。
現在,本システムは4言語で音声とキャプションをサポートし,自動音声認識(ASR)と機械翻訳(MT)をカスケードで組み合わせている。
ストリーム音声の翻訳には再翻訳戦略を用い,キャプションフリック化を実現した。
さらに,システムには非常に厳格なレイテンシ要件があり,呼び出し品質が許容できる。
我々は,スムーズなスクロールキャプションやキャプションフリックの削減など,ユーザエクスペリエンスの向上と認知負荷の低減のために,いくつかの機能を実装した。
モジュールアーキテクチャにより、バックエンドにさまざまなasrとmtサービスを統合できます。
本システムでは,精度,レイテンシ,消去といった重要な固有評価指標を最適化する統合評価スイートを提供する。
最後に,エンド・ツー・エンドのシステム性能を計測するための超臨場感評価指標として,革新的な言語間対話ゲームを提案する。
我々は研究目的でシステムをオープンソース化する予定です。 We present MeetDot, a videoconferencing system with live translation captions overlaid on screen. The system aims to facilitate conversation between people who speak different languages, thereby reducing communication barriers between multilingual participants. Currently, our system supports speech and captions in 4 languages and combines automatic speech recognition (ASR) and machine translation (MT) in a cascade. We use the re-translation strategy to translate the streamed speech, resulting in caption flicker. Additionally, our system has very strict latency requirements to have acceptable call quality. We implement several features to enhance user experience and reduce their cognitive load, such as smooth scrolling captions and reducing caption flicker. The modular architecture allows us to integrate different ASR and MT services in our backend. Our system provides an integrated evaluation suite to optimize key intrinsic evaluation metrics such as accuracy, latency and erasure. Finally, we present an innovative cross-lingual word-guessing game as an extrinsic evaluation metric to measure end-to-end system performance. We plan to make our system open-source for research purposes. | 翻訳日:2021-09-21 22:06:38 公開日:2021-09-20 |
# (参考訳) 半教師付き3次元左房セグメンテーションのパラメータデカップリング戦略 Parameter Decoupling Strategy for Semi-supervised 3D Left Atrium Segmentation ( http://arxiv.org/abs/2109.09596v1 ) ライセンス: CC BY 4.0 | Xuanting Hao, Shengbo Gao, Lijie Sheng, Jicong Zhang | (参考訳) 整合性トレーニングは高度な半教師付きフレームワークであることが証明されており、入力の異なるビューに対する予測のばらつきを強制することにより、医用画像分割タスクにおいて有望な結果を達成している。
しかし、モデルパラメータの反復的な更新では、モデルは結合状態に達し、最終的にはラベルのないデータを利用する能力を失う傾向にある。
この問題に対処するために,パラメータ分離戦略に基づくセミ教師付きセグメンテーションモデルを提案する。
具体的には,まず2分岐ネットワークを採用し,画像毎に予測を同時生成する。
学習中, 2つの予測分岐パラメータを二次コサイン距離で分離し, 潜在空間における異なる視点を構築する。
これに基づいて、特徴抽出器は、多様化した特徴の下で分類器によって生成される確率写像の整合性を促進するために制約される。
全体トレーニングプロセスにおいて、整合正則化演算と疎結合演算により特徴抽出器と分類器のパラメータを交互に更新し、モデルの一般化性能を徐々に改善する。
提案手法は, Atrial Segmentation Challenge データセットにおける最先端の半教師付き手法に対する競合的な結果を得た。
コードはhttps://github.com/BX0903/PDCで入手できる。 Consistency training has proven to be an advanced semi-supervised framework and achieved promising results in medical image segmentation tasks through enforcing an invariance of the predictions over different views of the inputs. However, with the iterative updating of model parameters, the models would tend to reach a coupled state and eventually lose the ability to exploit unlabeled data. To address the issue, we present a novel semi-supervised segmentation model based on parameter decoupling strategy to encourage consistent predictions from diverse views. Specifically, we first adopt a two-branch network to simultaneously produce predictions for each image. During the training process, we decouple the two prediction branch parameters by quadratic cosine distance to construct different views in latent space. Based on this, the feature extractor is constrained to encourage the consistency of probability maps generated by classifiers under diversified features. In the overall training process, the parameters of feature extractor and classifiers are updated alternately by consistency regularization operation and decoupling operation to gradually improve the generalization performance of the model. Our method has achieved a competitive result over the state-of-the-art semi-supervised methods on the Atrial Segmentation Challenge dataset, demonstrating the effectiveness of our framework. Code is available at https://github.com/BX0903/PDC. | 翻訳日:2021-09-21 21:58:22 公開日:2021-09-20 |
# (参考訳) セルフプレイによる協調型タスク指向対話エージェント構築のための2つのアプローチ Two Approaches to Building Collaborative, Task-Oriented Dialog Agents through Self-Play ( http://arxiv.org/abs/2109.09597v1 ) ライセンス: CC BY 4.0 | Arkady Arkhangorodsky, Scot Fang, Victoria Knight, Ajay Nagesh, Maria Ryskina, Kevin Knight | (参考訳) タスク指向のダイアログシステムは、ウィザード・オブ・ozインターフェースから収集されるような、人間/人間のダイアログで訓練されることが多い。
しかし、人間/人間のコーパスはしばしば小さすぎて指導された訓練が効果的ではない。
本稿では,エージェントボットとユーザボットをセルフプレイで学習し,API環境を自律的に探索し,タスクの解決を可能にするコミュニケーション戦略を発見するための2つのアプローチについて検討する。
我々は、強化学習とゲーム理論平衡探索の両方に経験的な結果を与える。 Task-oriented dialog systems are often trained on human/human dialogs, such as collected from Wizard-of-Oz interfaces. However, human/human corpora are frequently too small for supervised training to be effective. This paper investigates two approaches to training agent-bots and user-bots through self-play, in which they autonomously explore an API environment, discovering communication strategies that enable them to solve the task. We give empirical results for both reinforcement learning and game-theoretic equilibrium finding. | 翻訳日:2021-09-21 21:49:18 公開日:2021-09-20 |
# (参考訳) 「Hello, It's Me」:現実世界における深層学習型音声合成攻撃 "Hello, It's Me": Deep Learning-based Speech Synthesis Attacks in the Real World ( http://arxiv.org/abs/2109.09598v1 ) ライセンス: CC BY 4.0 | Emily Wenger, Max Bronckers, Christian Cianfarani, Jenna Cryan, Angela Sha, Haitao Zheng, Ben Y. Zhao | (参考訳) ディープラーニングの進歩により、ターゲットスピーカーが話すような音声を生成できる音声合成ツールの新たな波が導入された。
うまくいけば、このようなツールを間違った手で使用すれば、人間とソフトウェアシステム(別名マシン)の両方に対する強力な攻撃が可能になる。
本稿では,学習に基づく音声合成攻撃が話者認識や音声信号システムなどの人間と機械の両方に与える影響に関する包括的実験研究の成果と成果について述べる。
人間と機械の両方が、合成音声によって確実に騙され、既存の合成音声に対する防御が不足していることがわかりました。
これらの知見は、認識を高め、人間と機械の両方の合成音声に対する新しい保護を開発する必要性を強調している。 Advances in deep learning have introduced a new wave of voice synthesis tools, capable of producing audio that sounds as if spoken by a target speaker. If successful, such tools in the wrong hands will enable a range of powerful attacks against both humans and software systems (aka machines). This paper documents efforts and findings from a comprehensive experimental study on the impact of deep-learning based speech synthesis attacks on both human listeners and machines such as speaker recognition and voice-signin systems. We find that both humans and machines can be reliably fooled by synthetic speech and that existing defenses against synthesized speech fall short. These findings highlight the need to raise awareness and develop new protections against synthetic speech for both humans and machines. | 翻訳日:2021-09-21 21:43:19 公開日:2021-09-20 |
# (参考訳) 動的ニューラルネットワークの多様化: 計算可能なニューラルネットワークへの道 Dynamic Neural Diversification: Path to Computationally Sustainable Neural Networks ( http://arxiv.org/abs/2109.09612v1 ) ライセンス: CC BY 4.0 | Alexander Kovalenko, Pavel Kord\'ik, Magda Friedjungov\'a | (参考訳) 訓練可能なパラメータが制限された小さなニューラルネットワークは、多くの単純なタスクに対してリソース効率のよい候補となり得る。
しかし、これらのモデルは学習過程においていくつかの問題に直面しており、主に個々のニューロンの冗長性により、最適以下の精度や追加のトレーニングステップの必要性が生じる。
ここでは学習過程における隠れた層内のニューロンの多様性を調べ,モデルの予測にニューロンの多様性がどのように影響するかを分析する。
訓練中,ニューロン間の多様性を動的に強化する手法をいくつか紹介する。
これらのデコレーション技術は早期の学習を改善し、時には局所的なミニマを早く克服するのに役立つ。
さらに,新しい重み初期化法を用いて,高速かつ効率的なニューラルネットワークトレーニングのためのデコリニアだが確率的重み初期化について述べる。
本症例の体重初期化は,第5期における検査精度の約40%向上を示した。 Small neural networks with a constrained number of trainable parameters, can be suitable resource-efficient candidates for many simple tasks, where now excessively large models are used. However, such models face several problems during the learning process, mainly due to the redundancy of the individual neurons, which results in sub-optimal accuracy or the need for additional training steps. Here, we explore the diversity of the neurons within the hidden layer during the learning process, and analyze how the diversity of the neurons affects predictions of the model. As following, we introduce several techniques to dynamically reinforce diversity between neurons during the training. These decorrelation techniques improve learning at early stages and occasionally help to overcome local minima faster. Additionally, we describe novel weight initialization method to obtain decorrelated, yet stochastic weight initialization for a fast and efficient neural network training. Decorrelated weight initialization in our case shows about 40% relative increase in test accuracy during the first 5 epochs. | 翻訳日:2021-09-21 21:11:21 公開日:2021-09-20 |
# (参考訳) 最適化に基づく意味的SLAMのためのスーパークワッドリックオブジェクト表現 Superquadric Object Representation for Optimization-based Semantic SLAM ( http://arxiv.org/abs/2109.09627v1 ) ライセンス: CC BY 4.0 | Florian Tschopp, Juan Nieto, Roland Siegwart, Cesar Cadena | (参考訳) 意味的に意味のあるオブジェクトを視覚的局所化とマッピング(SLAM)に導入することは、ポーズ推定の正確性と信頼性の両方を改善する可能性がある。
しかしながら、最適化ベースのslamフレームワークにおける効率的な包含のためにセマンティックオブジェクトをどのように表現すべきかは、まだ疑問の余地がある。
スーパークワッドリック(SQ)は効率的でコンパクトなオブジェクト表現であり、ほとんどの一般的なオブジェクトの型を高いレベルで表現することができ、典型的には3Dポイントクラウドデータから取得される。
しかし、正確な3Dポイントクラウドデータは、すべてのアプリケーションで利用できないかもしれない。
機械学習の最近の進歩は、多くの異なる外観条件下でのカメラ画像からの堅牢な物体認識とセマンティックマスク計測を可能にした。
本研究では,SQパラメータを多段階初期化と最適化手法を用いて,多視点カメラ観測に適合させるパイプラインを提案する。
予備シミュレーション実験において,マルチビューマスク観測からランダムに生成したSQパラメータを抽出し,初期化段階とコスト関数の差異を評価する。 Introducing semantically meaningful objects to visual Simultaneous Localization And Mapping (SLAM) has the potential to improve both the accuracy and reliability of pose estimates, especially in challenging scenarios with significant view-point and appearance changes. However, how semantic objects should be represented for an efficient inclusion in optimization-based SLAM frameworks is still an open question. Superquadrics(SQs) are an efficient and compact object representation, able to represent most common object types to a high degree, and typically retrieved from 3D point-cloud data. However, accurate 3D point-cloud data might not be available in all applications. Recent advancements in machine learning enabled robust object recognition and semantic mask measurements from camera images under many different appearance conditions. We propose a pipeline to leverage such semantic mask measurements to fit SQ parameters to multi-view camera observations using a multi-stage initialization and optimization procedure. We demonstrate the system's ability to retrieve randomly generated SQ parameters from multi-view mask observations in preliminary simulation experiments and evaluate different initialization stages and cost functions. | 翻訳日:2021-09-21 21:01:04 公開日:2021-09-20 |
# (参考訳) 周波数表の適合性に関する個人確率比試験のパワー The power of private likelihood-ratio tests for goodness-of-fit in frequency tables ( http://arxiv.org/abs/2109.09630v1 ) ライセンス: CC BY 4.0 | Emanuele Dolera, Stefano Favaro | (参考訳) プライバシー保護データ分析は、プライバシー制約の下で統計手法を調査する。
データの適切な摂動によって発生する機密性保証の達成は、データの統計的有用性の損失を決定する可能性があるため、これは現代の統計学における増大する課題である。
本稿では、データ公開の最も一般的な形態である周波数表のプライバシー保護テストについて考察する。
ゆらぎのあるデータに対する$(\varepsilon,\delta)$-differential privacyという一般的な枠組みの下で、我々は、適合性の良さのためのプライベート・ラバース・レイショ(lr)テストを導入し、その大きなサンプル特性を調査し、テストの統計的重要性の損失を避けるために摂動を考慮に入れることの重要性を示した。
私たちの主な貢献は、差分プライバシーパラメータ$\varepsilon$と$\delta$で測定された機密性と、テストのパワーで測定されたユーティリティとの間のトレードオフを定量的に評価することです。
特に,プライベートlrテストのパワーに対して,バハドゥル・ラオ型大偏差展開を精度良く確立し,以下の結果が得られる。
i) プライベートlrテストのパワーの損失を決定する、サンプルサイズと$(\varepsilon,\delta)$の関数として臨界量を特定すること。
二 プライベートLRテストにおいて、サンプルコストを$(\varepsilon,\delta)$-differential privacy、すなわち摂動がない場合にLRテストの電力を回復するために必要となる追加のサンプルサイズを定量化する。
このような結果は、独立な興味を持つランダムベクトルの和に対する新しい多次元の大偏差原理に依存している。
本研究は,プライバシ保護型LRテストの周波数表における適合性向上のための厳密な対策として,秘密性と実用性の間のトレードオフを定量化するために,テストのパワーを利用する。 Privacy-protecting data analysis investigates statistical methods under privacy constraints. This is a rising challenge in modern statistics, as the achievement of confidentiality guarantees, which typically occurs through suitable perturbations of the data, may determine a loss in the statistical utility of the data. In this paper, we consider privacy-protecting tests for goodness-of-fit in frequency tables, this being arguably the most common form of releasing data. Under the popular framework of $(\varepsilon,\delta)$-differential privacy for perturbed data, we introduce a private likelihood-ratio (LR) test for goodness-of-fit and we study its large sample properties, showing the importance of taking the perturbation into account to avoid a loss in the statistical significance of the test. Our main contribution provides a quantitative characterization of the trade-off between confidentiality, measured via differential privacy parameters $\varepsilon$ and $\delta$, and utility, measured via the power of the test. In particular, we establish a precise Bahadur-Rao type large deviation expansion for the power of the private LR test, which leads to: i) identify a critical quantity, as a function of the sample size and $(\varepsilon,\delta)$, which determines a loss in the power of the private LR test; ii) quantify the sample cost of $(\varepsilon,\delta)$-differential privacy in the private LR test, namely the additional sample size that is required to recover the power of the LR test in the absence of perturbation. Such a result relies on a novel multidimensional large deviation principle for sum of i.i.d. random vectors, which is of independent interest. Our work presents the first rigorous treatment of privacy-protecting LR tests for goodness-of-fit in frequency tables, making use of the power of the test to quantify the trade-off between confidentiality and utility. | 翻訳日:2021-09-21 20:41:28 公開日:2021-09-20 |
# (参考訳) モンテカルロ算術によるデータ拡張はコネクトミクスの分類をより一般化させる Data Augmentation Through Monte Carlo Arithmetic Leads to More Generalizable Classification in Connectomics ( http://arxiv.org/abs/2109.09649v1 ) ライセンス: CC BY 4.0 | Gregory Kiar, Yohan Chatelain, Ali Salari, Alan C. Evans, Tristan Glatard | (参考訳) 機械学習モデルは、人間の脳画像データセットに一般的に適用され、機能や構造を行動、健康、その他の個々の表現型に関連付ける。
このようなモデルは、複雑な処理パイプラインによって生成される低次元マップに依存することが多い。
しかし、パイプライン固有の数値不安定性はこれらの写像の忠実さを制限し、計算バイアスを導入する。
モンテカルロ・アリストメティクス(Monte Carlo Arithmetic)は、制御された数値ノイズを導入する手法で、構造的コネクトーム推定パイプラインを摂動させ、最終的に各サンプルに対して様々な可塑性ネットワークを生成する。
摂動ネットワークの変動性は拡張データセットで捉えられ、年齢分類タスクに使用された。
その結果,脳ネットワークを数値的に乱れた結果に再サンプリングすることで,テスト済みの分類器,前処理戦略,次元減少技術の性能が向上することがわかった。
重要なのは、この利点が多くの摂動にかかっていないことであり、データセットを最小に摂動しても、その後の設計モデルで捉えられる有意義な分散が生じることを示唆している。 Machine learning models are commonly applied to human brain imaging datasets in an effort to associate function or structure with behaviour, health, or other individual phenotypes. Such models often rely on low-dimensional maps generated by complex processing pipelines. However, the numerical instabilities inherent to pipelines limit the fidelity of these maps and introduce computational bias. Monte Carlo Arithmetic, a technique for introducing controlled amounts of numerical noise, was used to perturb a structural connectome estimation pipeline, ultimately producing a range of plausible networks for each sample. The variability in the perturbed networks was captured in an augmented dataset, which was then used for an age classification task. We found that resampling brain networks across a series of such numerically perturbed outcomes led to improved performance in all tested classifiers, preprocessing strategies, and dimensionality reduction techniques. Importantly, we find that this benefit does not hinge on a large number of perturbations, suggesting that even minimally perturbing a dataset adds meaningful variance which can be captured in the subsequently designed models. | 翻訳日:2021-09-21 20:39:27 公開日:2021-09-20 |
# (参考訳) 集約型EV電力需要応答プログラムにおける共有施設における車両駐車行動予測 Predicting vehicles parking behaviour in shared premises for aggregated EV electricity demand response programs ( http://arxiv.org/abs/2109.09666v1 ) ライセンス: CC BY 4.0 | Vinicius Monteiro de Lira, Fabiano Pallonetto, Lorenzo Gabrielli, Chiara Renso | (参考訳) 2020年の世界の電気自動車販売は、予想を上回って300万台を突破し、市場シェアは4%を超えた。
しかし、再生可能エネルギーの普及による発電の不確実性や電力需要の増加による電気自動車(EV)の出現は、配電・送電ともに電力系統に歪みをもたらす可能性がある。
需要応答集約と負荷制御により、グリッドの安定性が向上し、再生可能エネルギーがグリッドに浸透する。
本研究は,既存のEVの普及を前提として,駐車場におけるEVの充電最適化支援に適合する。
本稿では,特定の駐車場のエネルギー要件を推定し,最適なEV充電スケジュールを評価し,スマートコントローラにスケジューリングを統合することを目的とした,共有駐車場における駐車時間推定手法を提案する。
予測問題を教師付き機械学習タスクとして定式化し,車両がスロットを離れる前に駐車イベントの継続時間を予測する。
この予測期間は、ピーク時の電力需要を減少させる期間にわたって電力を割り当てるエネルギー管理システムに供給される。
提案手法の精度と予測モデルに最も関連する特徴を明らかにすることを目的とした2つの研究課題に触発された実験を構造化した。
イタリアとブラジルの2つのキャンパス施設の4つのデータセットの異なるアルゴリズムと特徴の組み合わせを実験した。
状況的・時間的特徴を両立させて, モデル全体の結果は, 頻度に基づく統計解析と比較して高い精度を示し, 駐車場エネルギー管理システム共有のための正確な予測器の開発に有効な経路を示す。 The global electric car sales in 2020 continued to exceed the expectations climbing to over 3 millions and reaching a market share of over 4%. However, uncertainty of generation caused by higher penetration of renewable energies and the advent of Electrical Vehicles (EV) with their additional electricity demand could cause strains to the power system, both at distribution and transmission levels. Demand response aggregation and load control will enable greater grid stability and greater penetration of renewable energies into the grid. The present work fits this context in supporting charging optimization for EV in parking premises assuming a incumbent high penetration of EVs in the system. We propose a methodology to predict an estimation of the parking duration in shared parking premises with the objective of estimating the energy requirement of a specific parking lot, evaluate optimal EVs charging schedule and integrate the scheduling into a smart controller. We formalize the prediction problem as a supervised machine learning task to predict the duration of the parking event before the car leaves the slot. This predicted duration feeds the energy management system that will allocate the power over the duration reducing the overall peak electricity demand. We structure our experiments inspired by two research questions aiming to discover the accuracy of the proposed machine learning approach and the most relevant features for the prediction models. We experiment different algorithms and features combination for 4 datasets from 2 different campus facilities in Italy and Brazil. Using both contextual and time of the day features, the overall results of the models shows an higher accuracy compared to a statistical analysis based on frequency, indicating a viable route for the development of accurate predictors for sharing parking premises energy management systems | 翻訳日:2021-09-21 20:15:36 公開日:2021-09-20 |
# (参考訳) 共参照分解における一般化について On Generalization in Coreference Resolution ( http://arxiv.org/abs/2109.09667v1 ) ライセンス: CC BY 4.0 | Shubham Toshniwal, Patrick Xia, Sam Wiseman, Karen Livescu, Kevin Gimpel | (参考訳) coreference resolutionはデータセットドメインとは独立に定義されているが、coreference resolutionを実行するほとんどのモデルは、見当たらないドメインにうまく転送されない。
モデルの市販性能を評価するために,異なるドメインを対象とした8つのコア参照解決データセットを統合する。
次に, 3つのデータセットを訓練用に混合し, それらのドメイン, アノテーションガイドライン, メタデータが異なるにもかかわらず, アノテーションの差異を考慮し, サンプリングしてデータ量のバランスをとることで, この不均質なデータ混合上で単一モデルを協調的にトレーニングする方法を提案する。
ゼロショット設定では、単一のデータセット転送でトレーニングされたモデルが貧弱であり、ジョイントトレーニングによって全体的なパフォーマンスが向上し、コリファレンス解像度モデルの一般化が向上することが分かりました。
この研究は、堅牢なコア参照解決のための新しいベンチマークと、新しい最先端の結果に寄与する。 While coreference resolution is defined independently of dataset domain, most models for performing coreference resolution do not transfer well to unseen domains. We consolidate a set of 8 coreference resolution datasets targeting different domains to evaluate the off-the-shelf performance of models. We then mix three datasets for training; even though their domain, annotation guidelines, and metadata differ, we propose a method for jointly training a single model on this heterogeneous data mixture by using data augmentation to account for annotation differences and sampling to balance the data quantities. We find that in a zero-shot setting, models trained on a single dataset transfer poorly while joint training yields improved overall performance, leading to better generalization in coreference resolution models. This work contributes a new benchmark for robust coreference resolution and multiple new state-of-the-art results. | 翻訳日:2021-09-21 19:57:12 公開日:2021-09-20 |
# (参考訳) 残留U-Netを用いた音響エコーキャンセラ Acoustic Echo Cancellation using Residual U-Nets ( http://arxiv.org/abs/2109.09686v1 ) ライセンス: CC BY 4.0 | J. Silva-Rodr\'iguez and M.F. Dolz and M. Ferrer and A. Castell\'o and V. Naranjo and G. Pi\~nero | (参考訳) 本稿では,u-net畳み込みニューラルネットワークを用いた単発・二重発シナリオのための音響エコーキャンセラを提案する。
U-Netネットワークは、オーディオ信号の細部を再現できるため、ソース分離問題のために、これまでオーディオ処理領域で使われてきたが、我々の知る限り、音響エコーキャンセリング(AEC)に使用されるのは今回が初めてである。
U-Netハイパーパラメータは、最高のAEC性能を得るために最適化されているが、40msの遅延制限を満たすためにパラメータを減らし、Microsoftが主催する 'ICASSP 2021 AEC Challenge' のフレームワーク内でモデルのトレーニングとテストが行われた。
我々は、最適化されたu-netモデルを合成データセット(s-u-net)と合成データセット(sr-u-net)でトレーニングし、両方のデータセットをチャレンジ用にリリースした。
s-u-netモデルは、ダブルトークシナリオのより良い結果を示し、ブラインドテストセットから推定された近距離信号が課題に提出された。
キャンセルチームは17チーム中12位、学歴10チーム中5位にランクインし、全体の平均スコアは3.57だった。 This paper presents an acoustic echo canceler based on a U-Net convolutional neural network for single-talk and double-talk scenarios. U-Net networks have previously been used in the audio processing area for source separation problems because of their ability to reproduce the finest details of audio signals, but to our knowledge, this is the first time they have been used for acoustic echo cancellation (AEC). The U-Net hyperparameters have been optimized to obtain the best AEC performance, but using a reduced number of parameters to meet a latency restriction of 40 ms. The training and testing of our model have been carried out within the framework of the 'ICASSP 2021 AEC Challenge' organized by Microsoft. We have trained the optimized U-Net model with a synthetic dataset only (S-U-Net) and with a synthetic dataset and the single-talk set of a real dataset (SR-U-Net), both datasets were released for the challenge. The S-U-Net model presented better results for double-talk scenarios, thus their inferred near-end signals from the blind testset were submitted to the challenge. Our canceler ranked 12th among 17 teams, and 5th among 10 academia teams, obtaining an overall mean opinion score of 3.57. | 翻訳日:2021-09-21 19:46:48 公開日:2021-09-20 |
# (参考訳) 自動事実チェックにおけるクレーム難易度評価の事例 The Case for Claim Difficulty Assessment in Automatic Fact Checking ( http://arxiv.org/abs/2109.09689v1 ) ライセンス: CC BY 4.0 | Prakhar Singh and Anubrata Das and Junyi Jessy Li and Matthew Lease | (参考訳) ファクトチェック(英: fact-checking)とは、クレーム(すなわち事実)が検証性によって評価されるプロセス(人間、自動化、ハイブリッド)である。
この記事では、以前の作業でほとんど注目を集めていない問題を挙げます。いくつかの主張は、他のものよりも事実チェックがはるかに難しいものです。
タスクの定式化やデータセット設計を含む,ファクトチェックの実践と自動ファクトチェックの研究の両方において,これがもたらす意味について論じる。
本報告では,請求の難易度を規定する要因について手動で分析し,異なる種類の難易度を分類する。
クレームの難しさの予測は、今日の自動化されたファクトチェックアーキテクチャの欠如要素であり、この難易度予測タスクが、どのようにして異なるサブタスクに分割されるかを説明する。 Fact-checking is the process (human, automated, or hybrid) by which claims (i.e., purported facts) are evaluated for veracity. In this article, we raise an issue that has received little attention in prior work - that some claims are far more difficult to fact-check than others. We discuss the implications this has for both practical fact-checking and research on automated fact-checking, including task formulation and dataset design. We report a manual analysis undertaken to explore factors underlying varying claim difficulty and categorize several distinct types of difficulty. We argue that prediction of claim difficulty is a missing component of today's automated fact-checking architectures, and we describe how this difficulty prediction task might be split into a set of distinct subtasks. | 翻訳日:2021-09-21 19:34:34 公開日:2021-09-20 |
# (参考訳) ロボットを信じて!
スパースガウス過程を用いたニューラルネットワークの予測不確かさ推定 Trust Your Robots! Predictive Uncertainty Estimation of Neural Networks with Sparse Gaussian Processes ( http://arxiv.org/abs/2109.09690v1 ) ライセンス: CC BY 4.0 | Jongseok Lee, Jianxiang Feng, Matthias Humt, Marcus M\"uller, Rudolph Triebel | (参考訳) 本稿では,Deep Neural Networks (DNN) を用いた予測において,信頼性と高速不確実性の両方を推定する確率的枠組みを提案する。
我々の主な貢献は、DNNとスパースガウスプロセス(GP)の実用的で原則化された組み合わせである。
我々は,DNNが,GPエキスパート(MoE-GP)の混合であるスパースGPの特殊な場合と見なせることを理論的に証明し,その導出理論を実践する学習アルゴリズムを考案する。
小型航空機(MAV)におけるマニピュレータの逆ダイナミクスと物体検出の2つの異なるロボットタスクによる実験において,Jetson TX2における予測不確実性,スケーラビリティの向上,実行時の効率性の観点から,我々のアプローチの有効性を示す。
したがって、このアプローチは、不確実性を意識した信頼性が高く高速なロボット学習システムへの道を開くことができると論じている。 This paper presents a probabilistic framework to obtain both reliable and fast uncertainty estimates for predictions with Deep Neural Networks (DNNs). Our main contribution is a practical and principled combination of DNNs with sparse Gaussian Processes (GPs). We prove theoretically that DNNs can be seen as a special case of sparse GPs, namely mixtures of GP experts (MoE-GP), and we devise a learning algorithm that brings the derived theory into practice. In experiments from two different robotic tasks -- inverse dynamics of a manipulator and object detection on a micro-aerial vehicle (MAV) -- we show the effectiveness of our approach in terms of predictive uncertainty, improved scalability, and run-time efficiency on a Jetson TX2. We thus argue that our approach can pave the way towards reliable and fast robot learning systems with uncertainty awareness. | 翻訳日:2021-09-21 19:20:52 公開日:2021-09-20 |
# (参考訳) 複数の時系列におけるモデリングレジームシフト Modeling Regime Shifts in Multiple Time Series ( http://arxiv.org/abs/2109.09692v1 ) ライセンス: CC0 1.0 | Etienne Gael Tajeuna and Mohamed Bouguessa and Shengrui Wang | (参考訳) 本研究では,共進化時系列として知られる複数時系列からなる生態系における状態変化の発見とモデル化の課題について検討する。
レジームシフトは、異なる時間間隔で時系列によって示される変化行動を指す。
これらの変化の振る舞いを学ぶことは、時系列予測への重要なステップである。
1) 時系列間の関係を複数の時系列におけるレジームの発見に考慮しないこと,(2) 時系列によって示される時間依存行動をモデル化する効果的なアプローチの欠如,(3) 有益なデータ不連続を扱うことの難しさである。
既存のメソッドのほとんどは、これら3つの問題を統一フレームワークで処理できない。
そのため、共進化する時系列における相互作用と時間依存をモデル化するための原則的なアプローチを考案する努力を動機付けています。
具体的には、時系列の重アンサンブルを、より軽量で意味のある構造である \textit{mapping grid} にまとめることで、複数の時系列のエコシステムをモデル化する。
マッピンググリッドを用いることで、まず動的ネットワーク表現を通じて時系列の挙動依存を学習し、次に完全な時間依存のCox回帰モデルを用いて状態遷移機構を学習する。
私たちのアプローチの独創性は、レジーム識別における時系列間の相互作用のモデリングと、通常既存の作業において静的であると仮定される時間依存レジーム遷移確率のモデリングにあります。 We investigate the problem of discovering and modeling regime shifts in an ecosystem comprising multiple time series known as co-evolving time series. Regime shifts refer to the changing behaviors exhibited by series at different time intervals. Learning these changing behaviors is a key step toward time series forecasting. While advances have been made, existing methods suffer from one or more of the following shortcomings: (1) failure to take relationships between time series into consideration for discovering regimes in multiple time series; (2) lack of an effective approach that models time-dependent behaviors exhibited by series; (3) difficulties in handling data discontinuities which may be informative. Most of the existing methods are unable to handle all of these three issues in a unified framework. This, therefore, motivates our effort to devise a principled approach for modeling interactions and time-dependency in co-evolving time series. Specifically, we model an ecosystem of multiple time series by summarizing the heavy ensemble of time series into a lighter and more meaningful structure called a \textit{mapping grid}. By using the mapping grid, our model first learns time series behavioral dependencies through a dynamic network representation, then learns the regime transition mechanism via a full time-dependent Cox regression model. The originality of our approach lies in modeling interactions between time series in regime identification and in modeling time-dependent regime transition probabilities, usually assumed to be static in existing work. | 翻訳日:2021-09-21 19:02:58 公開日:2021-09-20 |
# (参考訳) BERTは文字を指定できない BERT Cannot Align Characters ( http://arxiv.org/abs/2109.09700v1 ) ライセンス: CC BY-SA 4.0 | Antonis Maronikolakis, Philipp Dufter, Hinrich Sch\"utze | (参考訳) 従来の研究では、BERTは単語レベルで言語間文を適切にアライメントできることが示されている。
ここでは,BERTがチャレベル整合器としても機能するかどうかを検討する。
調査された言語は英語、偽英語、ドイツ語、ギリシャ語である。
より近い2つの言語は、より優れたBERTが文字レベルに調整できることを示します。
BERTはFake- Englishアライメントと同様に英語でもうまく機能するが、これは自然言語にも同様に一般化しない。
それでも、2つの言語が近接していることは要因である。
英語はギリシア語よりもドイツ語に深く関連しており、バートがそれらとどのように一致しているかに反映されている。
自然言語における類似度行列はより弱い関係を示し、さらに2つの言語が分離されていることを示す。 In previous work, it has been shown that BERT can adequately align cross-lingual sentences on the word level. Here we investigate whether BERT can also operate as a char-level aligner. The languages examined are English, Fake-English, German and Greek. We show that the closer two languages are, the better BERT can align them on the character level. BERT indeed works well in English to Fake-English alignment, but this does not generalize to natural languages to the same extent. Nevertheless, the proximity of two languages does seem to be a factor. English is more related to German than to Greek and this is reflected in how well BERT aligns them; English to German is better than English to Greek. We examine multiple setups and show that the similarity matrices for natural languages show weaker relations the further apart two languages are. | 翻訳日:2021-09-21 19:01:49 公開日:2021-09-20 |
# (参考訳) ストリーミングデータから動的システムを予測する学習 Learning to Forecast Dynamical Systems from Streaming Data ( http://arxiv.org/abs/2109.09703v1 ) ライセンス: CC BY 4.0 | Dimitris Giannakis, Amelia Henriksen, Joel A. Tropp, and Rachel Ward | (参考訳) カーネルアナログ予測 (kernel analog forecasting, kaf) は、動的に生成された時系列データのデータ駆動、非パラメトリック予測のための強力な手法である。
このアプローチはクープマン作用素理論において厳密な基礎を持ち、実際には良好な予測を生成するが、カーネル法に共通する計算コストに苦しむ。
本稿では,訓練データに対する単一パスのみを必要とするkafのストリーミングアルゴリズムを提案する。
このアルゴリズムは、予測スキルを犠牲にすることなく、トレーニングと予測のコストを劇的に削減する。
計算実験により、ストリーミングKAF法は、データスカースとデータリッチレジームの両方において、数種類の動的システム(周期性、準周期性、カオス性)を予測できることを示した。
全体的な方法論は、ストリーミングカーネル回帰の新しいテンプレートとして、より広い関心を持っているかもしれない。 Kernel analog forecasting (KAF) is a powerful methodology for data-driven, non-parametric forecasting of dynamically generated time series data. This approach has a rigorous foundation in Koopman operator theory and it produces good forecasts in practice, but it suffers from the heavy computational costs common to kernel methods. This paper proposes a streaming algorithm for KAF that only requires a single pass over the training data. This algorithm dramatically reduces the costs of training and prediction without sacrificing forecasting skill. Computational experiments demonstrate that the streaming KAF method can successfully forecast several classes of dynamical systems (periodic, quasi-periodic, and chaotic) in both data-scarce and data-rich regimes. The overall methodology may have wider interest as a new template for streaming kernel regression. | 翻訳日:2021-09-21 18:53:39 公開日:2021-09-20 |
# (参考訳) 制御されたテキスト生成のためのプラグアンドプレイ法 A Plug-and-Play Method for Controlled Text Generation ( http://arxiv.org/abs/2109.09707v1 ) ライセンス: CC BY 4.0 | Damian Pascual, Beni Egressy, Clara Meister, Ryan Cotterell, Roger Wattenhofer | (参考訳) 大規模な事前訓練された言語モデルは、流線型テキストを生成する能力を繰り返し示してきた。
しかし、プロンプトから始めると、生成は多くの可能な方向に進むことができる。
現在の復号法は、例えば、特定の単語を含むことを保証するために、追加のモデルや微調整を必要とするか、手作業が意味的に制約されていない場合、例えばストーリー生成など、うまく機能しない。
本稿では,制御された言語生成のためのプラグ・アンド・プレイ復号法を提案する。この手法は非常に単純で直感的であり,単一文で記述することができる。
我々は,この分布のアニーリングが言語生成に厳しい制約を課すことができることを示す。
GPT-2からの復号は、与えられたガイド語の出現を保証しながら、多様で流動的な文を生み出す。
本研究では,(1) 提案手法が人間の評価において競合する手法より優れていること,(2) 生成したテキストにガイド語を強制することは,生成したテキストの流布に影響を与えないことを明らかにする。 Large pre-trained language models have repeatedly shown their ability to produce fluent text. Yet even when starting from a prompt, generation can continue in many plausible directions. Current decoding methods with the goal of controlling generation, e.g., to ensure specific words are included, either require additional models or fine-tuning, or work poorly when the task at hand is semantically unconstrained, e.g., story generation. In this work, we present a plug-and-play decoding method for controlled language generation that is so simple and intuitive, it can be described in a single sentence: given a topic or keyword, we add a shift to the probability distribution over our vocabulary towards semantically similar words. We show how annealing this distribution can be used to impose hard constraints on language generation, something no other plug-and-play method is currently able to do with SOTA language generators. Despite the simplicity of this approach, we see it works incredibly well in practice: decoding from GPT-2 leads to diverse and fluent sentences while guaranteeing the appearance of given guide words. We perform two user studies, revealing that (1) our method outperforms competing methods in human evaluations; and (2) forcing the guide words to appear in the generated text has no impact on the fluency of the generated text. | 翻訳日:2021-09-21 18:15:42 公開日:2021-09-20 |
# (参考訳) nlpにおけるモデルバイアス -ヘイトスピーチ分類への応用- Model Bias in NLP - Application to Hate Speech Classification ( http://arxiv.org/abs/2109.09725v1 ) ライセンス: CC BY 4.0 | Jonas Bokstaller, Georgios Patoulidis and Aygul Zagidullina | (参考訳) 本論文は2021年春季のETHにおけるNLP講義の結果をまとめたものである。
本研究では、JIGSAWデータセット(Jigsaw/Conversation AI, 2019)にBERTベースのニューラルネットワークモデル(Devlin et al.,2018)を適用し、オンライン社会プラットフォーム(英語)におけるヘイトフルで有毒なコメント(厳密には攻撃的な言語とは分離)を識別するモデルを作成する。
他の3つのニューラルネットワークアーキテクチャとGPT-2(Radfordet al., 2019)モデルも、これらの異なるモデルをまとめるために提供されるデータセットに適用される。
The trainedBERT model is then applied on two dif-ferent data sets to evaluate its generali-sation power, namely on another Twitterdata set (Tom Davidson, 2017) (Davidsonet al., 2017) and the data set HASOC 2019(Thomas Mandl, 2019) (Mandl et al.,2019) which includes Twitter and alsoFacebook comments; we focus on the En-glish HASOC 2019 data.In addition,it can be shown that by fine-tuning thetrained BERT model on these two datasets by applying different transfer learn-ing scenarios via retraining partial or alllayers the predictive scores improve com-pared to simply applying the model pre-trained on the JIGSAW data set.
その結果,64%から90%程度まで精度が向上する一方で,少なくとも60%以下では許容可能なリコール値が達成でき,BERTがソーシャルプラットフォームにおける実際のユースケースに適していることが証明された。 This document sums up our results forthe NLP lecture at ETH in the springsemester 2021. In this work, a BERTbased neural network model (Devlin et al.,2018) is applied to the JIGSAW dataset (Jigsaw/Conversation AI, 2019) in or-der to create a model identifying hate-ful and toxic comments (strictly seper-ated from offensive language) in onlinesocial platforms (English language), inthis case Twitter. Three other neural net-work architectures and a GPT-2 (Radfordet al., 2019) model are also applied onthe provided data set in order to com-pare these different models. The trainedBERT model is then applied on two dif-ferent data sets to evaluate its generali-sation power, namely on another Twitterdata set (Tom Davidson, 2017) (Davidsonet al., 2017) and the data set HASOC 2019(Thomas Mandl, 2019) (Mandl et al.,2019) which includes Twitter and alsoFacebook comments; we focus on the En-glish HASOC 2019 data.In addition,it can be shown that by fine-tuning thetrained BERT model on these two datasets by applying different transfer learn-ing scenarios via retraining partial or alllayers the predictive scores improve com-pared to simply applying the model pre-trained on the JIGSAW data set. Withour results, we get precisions from 64% toaround 90% while still achieving accept-able recall values of at least lower 60s%, proving that BERT is suitable for real usecases in social platforms. | 翻訳日:2021-09-21 17:40:00 公開日:2021-09-20 |
# 自然言語生成をスクラッチから学ぶ Learning Natural Language Generation from Scratch ( http://arxiv.org/abs/2109.09371v1 ) ライセンス: Link先を確認 | Alice Martin Donati (X-DEP-MATHAPP), Guillaume Quispe, Charles Ollion, Sylvain Le Corff, Florian Strub, Olivier Pietquin | (参考訳) 本稿では,強化学習(rl)のみを用いて条件付き言語モデルをスクラッチから学習するためのap-proachであるtrufll(trufll)について述べる。
AsRL法は大きな行動空間に拡張できず、汎用言語モデルを用いて語彙空間を動的に切り離す。
これによってtrufllは,タスク固有の事前知識を必要とせずに,withits環境とのみインタラクションすることで,言語エージェントのトレーニングを可能にする。
興味深いことに、このアプローチはラベル付きデータセットへの依存を回避し、言語や露出バイアスといったトレーニング済みのポリシー欠陥を本質的に低減する。
我々はTrufLLを2つの視覚的質問生成タスクで評価し、人間の評価と相関する性能と言語指標に対して肯定的な結果を報告した。
私たちの知る限りでは、言語生成ポリシーを(ほとんど)スクラッチからうまく導く最初のアプローチです。 This paper introduces TRUncated ReinForcement Learning for Language (TrufLL), an original ap-proach to train conditional language models from scratch by only using reinforcement learning (RL). AsRL methods unsuccessfully scale to large action spaces, we dynamically truncate the vocabulary spaceusing a generic language model. TrufLL thus enables to train a language agent by solely interacting withits environment without any task-specific prior knowledge; it is only guided with a task-agnostic languagemodel. Interestingly, this approach avoids the dependency to labelled datasets and inherently reduces pre-trained policy flaws such as language or exposure biases. We evaluate TrufLL on two visual questiongeneration tasks, for which we report positive results over performance and language metrics, which wethen corroborate with a human evaluation. To our knowledge, it is the first approach that successfullylearns a language generation policy (almost) from scratch. | 翻訳日:2021-09-21 17:00:43 公開日:2021-09-20 |
# 教師なし・監督された病変検出における不確かさ推定のための深部量子回帰 Deep Quantile Regression for Uncertainty Estimation in Unsupervised and Supervised Lesion Detection ( http://arxiv.org/abs/2109.09374v1 ) ライセンス: Link先を確認 | Haleh Akrami, Anand Joshi, Sergul Aydore, Richard Leahy | (参考訳) 複数のアプリケーションにおける幅広い機械学習タスクにおける最先端のパフォーマンスは印象的だが、ディープラーニングメソッドは、特に限られたトレーニングデータにおいて、過信の予測を生成することができる。
したがって、不確かさの定量化は、異常や病変の検出、臨床診断などの重要な応用において特に重要であり、手術の限界、疾患の状態、適切な治療を決定する上で不確実性の現実的な評価が不可欠である。
そこで本研究では,量子レグレッション(quantile regression)を用いてアレータ性不確かさを推定し,教師付き病変検出と教師なし病変検出の両問題における不確かさを推定する。
教師なし設定では、変分オートエンコーダ(VAE)を用いた病変検出タスクに量子回帰を適用する。
VAEは出力を、各出力次元の手段と分散によって特徴づけられる条件独立ガウスとしてモデル化する。
残念なことに、VAEにおける平均値と分散量の共同最適化は、分散の縮小や過小評価というよく知られた問題につながる。
本稿では,与えられた入力画像の条件量子化を推定することにより,この分散縮小問題を回避するための代替VAEモデルQuantile-Regression VAE(QR-VAE)について述べる。
推定定量値を用いて、条件付きガウスモデルの下で入力画像の条件平均と分散を計算する。
次に, このモデルを用いて, 異常検出や異常検出の原理的手法として再構成確率を計算する。
教師あり設定では,教師付き病変分割タスクのための二分性分位回帰(bqr)を開発する。
bqrセグメンテーションはラベル境界の不確かさを捉えることができる。
我々は, 病変境界の位置における専門家の不一致を特徴付けるために, 量的回帰がいかに用いられるかを示す。 Despite impressive state-of-the-art performance on a wide variety of machine learning tasks in multiple applications, deep learning methods can produce over-confident predictions, particularly with limited training data. Therefore, quantifying uncertainty is particularly important in critical applications such as anomaly or lesion detection and clinical diagnosis, where a realistic assessment of uncertainty is essential in determining surgical margins, disease status and appropriate treatment. In this work, we focus on using quantile regression to estimate aleatoric uncertainty and use it for estimating uncertainty in both supervised and unsupervised lesion detection problems. In the unsupervised settings, we apply quantile regression to a lesion detection task using Variational AutoEncoder (VAE). The VAE models the output as a conditionally independent Gaussian characterized by means and variances for each output dimension. Unfortunately, joint optimization of both mean and variance in the VAE leads to the well-known problem of shrinkage or underestimation of variance. We describe an alternative VAE model, Quantile-Regression VAE (QR-VAE), that avoids this variance shrinkage problem by estimating conditional quantiles for the given input image. Using the estimated quantiles, we compute the conditional mean and variance for input images under the conditionally Gaussian model. We then compute reconstruction probability using this model as a principled approach to outlier or anomaly detection applications. In the supervised setting, we develop binary quantile regression (BQR) for the supervised lesion segmentation task. BQR segmentation can capture uncertainty in label boundaries. We show how quantile regression can be used to characterize expert disagreement in the location of lesion boundaries. | 翻訳日:2021-09-21 17:00:10 公開日:2021-09-20 |
# 未来AI : 将来医療画像における信頼できる人工知能の原則とコンセンサス勧告 FUTURE-AI: Guiding Principles and Consensus Recommendations for Trustworthy Artificial Intelligence in Future Medical Imaging ( http://arxiv.org/abs/2109.09658v1 ) ライセンス: Link先を確認 | Karim Lekadira, Richard Osuala, Catherine Gallin, Noussair Lazrak, Kaisar Kushibar, Gianna Tsakou, Susanna Auss\'o, Leonor Cerd\'a Alberich, Konstantinos Marias, Manolis Tskinakis, Sara Colantonio, Nickolas Papanikolaou, Zohaib Salahuddin, Henry C Woodruff, Philippe Lambin, Luis Mart\'i-Bonmat\'i | (参考訳) 人工知能(AI)の最近の進歩は、今日の臨床システムによって生成される膨大なデータと相まって、画像再構成、医用画像分割、画像ベースの診断、治療計画を含む、医療画像のバリューチェーン全体にわたる画像AIソリューションの開発につながっている。
医療画像におけるaiの成功と将来の可能性にかかわらず、多くの利害関係者は、複雑で不透明で、重要な臨床応用に対する理解、利用、信頼が難しいと認識されるaiソリューションの潜在的なリスクと倫理的意味を懸念している。
これらの懸念とリスクにもかかわらず、医療画像における将来のAI開発を信頼、安全性、採用を高めるための具体的なガイドラインやベストプラクティスは今のところ存在しない。
このギャップを埋めるため,本稿では,欧州の5つの大規模健康イメージングプロジェクトから蓄積された経験,コンセンサス,ベストプラクティスから導かれた指針の慎重に選択する。
これらの指針はfuture-aiと呼ばれ、その構成要素は
(i)公平さ。
(ii)普遍性
(iii)トレーサビリティ
(4)ユーザビリティ
(v)堅牢性と
(vi)説明可能。
ステップバイステップアプローチでは、これらのガイドラインは、技術的、臨床的、倫理的に信頼できるAIソリューションを臨床実践に特定、開発、評価、デプロイするための具体的な勧告のフレームワークにさらに変換される。 The recent advancements in artificial intelligence (AI) combined with the extensive amount of data generated by today's clinical systems, has led to the development of imaging AI solutions across the whole value chain of medical imaging, including image reconstruction, medical image segmentation, image-based diagnosis and treatment planning. Notwithstanding the successes and future potential of AI in medical imaging, many stakeholders are concerned of the potential risks and ethical implications of imaging AI solutions, which are perceived as complex, opaque, and difficult to comprehend, utilise, and trust in critical clinical applications. Despite these concerns and risks, there are currently no concrete guidelines and best practices for guiding future AI developments in medical imaging towards increased trust, safety and adoption. To bridge this gap, this paper introduces a careful selection of guiding principles drawn from the accumulated experiences, consensus, and best practices from five large European projects on AI in Health Imaging. These guiding principles are named FUTURE-AI and its building blocks consist of (i) Fairness, (ii) Universality, (iii) Traceability, (iv) Usability, (v) Robustness and (vi) Explainability. In a step-by-step approach, these guidelines are further translated into a framework of concrete recommendations for specifying, developing, evaluating, and deploying technically, clinically and ethically trustworthy AI solutions into clinical practice. | 翻訳日:2021-09-21 16:59:01 公開日:2021-09-20 |
# dyadformer:dyadic相互作用の長距離モデリングのためのマルチモーダルトランスフォーマー Dyadformer: A Multi-modal Transformer for Long-Range Modeling of Dyadic Interactions ( http://arxiv.org/abs/2109.09487v1 ) ライセンス: Link先を確認 | David Curto, Albert Clap\'es, Javier Selva, Sorina Smeureanu, Julio C. S. Jacques Junior, David Gallardo-Pujol, Georgina Guilera, David Leiva, Thomas B. Moeslund, Sergio Escalera and Cristina Palmero | (参考訳) パーソナリティコンピューティングは、コンピュータビジョンにおいて、その用途が幅広いため、新たな話題となっている。
しかしながら、このトピックに関するほとんどの研究は、相互作用シナリオに適用された場合でも、短時間で個人を分析することに重点を置いている。
これらの制約に対処するために,可変時間窓を用いたディヤド相互作用における個人的・対人的特徴をモデル化するマルチモーダルマルチサブジェクトトランスフォーマアーキテクチャであるdyadformerを提案する。
提案するクロスサブジェクト層により,ネットワークは注意操作を通じて対象間のインタラクションを明示的にモデル化できる。
この概念実証アプローチは、長期にわたって相互作用する両者のマルチモダリティとジョイントモデリングが個々の属性の予測にどのように役立つかを示している。
Dyadformerでは, UDIVA v0.5データセットを用いて, 個人に対する自己申告人格推定結果を改善する。 Personality computing has become an emerging topic in computer vision, due to the wide range of applications it can be used for. However, most works on the topic have focused on analyzing the individual, even when applied to interaction scenarios, and for short periods of time. To address these limitations, we present the Dyadformer, a novel multi-modal multi-subject Transformer architecture to model individual and interpersonal features in dyadic interactions using variable time windows, thus allowing the capture of long-term interdependencies. Our proposed cross-subject layer allows the network to explicitly model interactions among subjects through attentional operations. This proof-of-concept approach shows how multi-modality and joint modeling of both interactants for longer periods of time helps to predict individual attributes. With Dyadformer, we improve state-of-the-art self-reported personality inference results on individual subjects on the UDIVA v0.5 dataset. | 翻訳日:2021-09-21 16:57:08 公開日:2021-09-20 |
# 逐次プロトタイプネットワークとの対話におけるFew-Shot感情認識 Few-Shot Emotion Recognition in Conversation with Sequential Prototypical Networks ( http://arxiv.org/abs/2109.09366v1 ) ライセンス: Link先を確認 | Ga\"el Guibon (LTCI, IP Paris), Matthieu Labeau (LTCI, IP Paris), H\'el\`ene Flamein, Luce Lefeuvre, Chlo\'e Clavel (LTCI, IP Paris) | (参考訳) dyadic human-human interaction(dyadic human-human interaction)に関する最近の研究は、特定のビジネス目的を持たない会話で行われている。
しかし、多くの企業は、営業サービス後や顧客満足度調査など、より正確な環境に関する研究の恩恵を受けるかもしれない。
この作業では、私たちは、会話フローにおける感情とその進化を検知したい、ライブチャットのカスタマーサービスのスコープに自分自身を置きます。
この文脈は、制限された、小さく、ラベルが付けられていないデータセットの活用から、そのようなコンテキストに対するメソッドの発見と適応に至るまで、さまざまな課題を招き、異なる言語やスパースラベルの会話感情分類に役立てることができる仮説を定めながら、Few-Shot Learningを用いてこれらの課題に取り組む。
本稿では,ProtoSeqと命名した会話におけるシーケンスラベリングのためのプロトタイプネットワークのバリエーションを提案する。
英語での日常会話とフランス語のカスタマサービスチャット会話の2つのデータセットでこの手法をテストした。
会話における感情分類に適用すると,他の会話と比較しても,この手法は競争力があることが判明した。 Several recent studies on dyadic human-human interactions have been done on conversations without specific business objectives. However, many companies might benefit from studies dedicated to more precise environments such as after sales services or customer satisfaction surveys. In this work, we place ourselves in the scope of a live chat customer service in which we want to detect emotions and their evolution in the conversation flow. This context leads to multiple challenges that range from exploiting restricted, small and mostly unlabeled datasets to finding and adapting methods for such context.We tackle these challenges by using Few-Shot Learning while making the hypothesis it can serve conversational emotion classification for different languages and sparse labels. We contribute by proposing a variation of Prototypical Networks for sequence labeling in conversation that we name ProtoSeq. We test this method on two datasets with different languages: daily conversations in English and customer service chat conversations in French. When applied to emotion classification in conversations, our method proved to be competitive even when compared to other ones. | 翻訳日:2021-09-21 16:53:41 公開日:2021-09-20 |
# ストリーミング環境における教師なし連続学習 Unsupervised Continual Learning in Streaming Environments ( http://arxiv.org/abs/2109.09282v1 ) ライセンス: Link先を確認 | Andri Ashfahani, Mahardhika Pratama | (参考訳) 深層クラスタリングネットワークは、自然の特徴を抽出する能力からデータストリームに望ましいため、退屈な機能エンジニアリングステップを回避できる。
ストリーミング環境におけるディープネットワークの自動構築は依然として未解決の課題であるが、データストリームの高価なラベル付けコストが、教師なしアプローチの需要の増加を妨げている。
本稿では,ADCN(Autonomous Deep Clustering Network)と呼ばれる,同時深層学習とクラスタリングによる深層クラスタリングネットワーク構築の教師なしアプローチを提案する。
特徴抽出層と、再構成損失のバイアス分散分解に基づいて、ネットワーク幅と深さの両方がデータストリームから自己進化する自律的完全連結層を組み合わせる。
自己クラスタ化機構は、全連結層の深い埋め込み空間で実行され、最終的な出力はクラスタ予測スコアの和によって推測される。
さらに、破滅的な忘れ方問題を解決するために潜在性に基づく正規化が組み込まれている。
厳密な数値的な研究により、ADCNはストリーミング環境でADCN構造を完全に自律的に構築する一方で、モデル更新のためのラベル付きサンプルが存在しない。
再現可能な研究イニシアチブをサポートするために、コード、補足材料、およびADCNの生結果が \url{https://tinyurl.com/AutonomousDCN} で公開されている。 A deep clustering network is desired for data streams because of its aptitude in extracting natural features thus bypassing the laborious feature engineering step. While automatic construction of the deep networks in streaming environments remains an open issue, it is also hindered by the expensive labeling cost of data streams rendering the increasing demand for unsupervised approaches. This paper presents an unsupervised approach of deep clustering network construction on the fly via simultaneous deep learning and clustering termed Autonomous Deep Clustering Network (ADCN). It combines the feature extraction layer and autonomous fully connected layer in which both network width and depth are self-evolved from data streams based on the bias-variance decomposition of reconstruction loss. The self-clustering mechanism is performed in the deep embedding space of every fully connected layer while the final output is inferred via the summation of cluster prediction score. Further, a latent-based regularization is incorporated to resolve the catastrophic forgetting issue. A rigorous numerical study has shown that ADCN produces better performance compared to its counterparts while offering fully autonomous construction of ADCN structure in streaming environments with the absence of any labeled samples for model updates. To support the reproducible research initiative, codes, supplementary material, and raw results of ADCN are made available in \url{https://tinyurl.com/AutonomousDCN}. | 翻訳日:2021-09-21 16:52:43 公開日:2021-09-20 |
# コリージョン化のニューラル埋め込みによるスケーラブル多タスクガウス過程 Scalable Multi-Task Gaussian Processes with Neural Embedding of Coregionalization ( http://arxiv.org/abs/2109.09261v1 ) ライセンス: Link先を確認 | Haitao Liu, Jiaqi Ding, Xinyu Xie, Xiaomo Jiang, Yusong Zhao, Xiaofang Wang | (参考訳) マルチタスク回帰は,タスク間の知識伝達を実現するために,タスク類似性を活用しようとする。
このシナリオにおけるガウス過程(GP)の応用は、非パラメトリックで情報的ベイズ的マルチタスク回帰パラダイムをもたらす。
MTGP(Multi-task GP)は、予測平均だけでなく、不確実性を定量化するための関連する予測分散も提供する。
コリージョン化の線形モデル(英: linear model of co Regionalalization, LMC)は、複数の独立かつ多様なGPの線形結合によってタスクの依存性を利用する、よく知られたMTGPパラダイムである。
しかし、lmcは複雑なマルチタスクケースを扱う際に高いモデルの複雑さと限定的なモデル能力に苦しむ。
この目的のために,我々は,潜在gpsを高次元の潜在空間に変換し,豊かで多様な行動を誘発する共領域化の神経組込みを開発した。
さらに,高度な変分推論とスパース近似を用いて,より高品質なスケーラブルなモデル推論のために,厳密でコンパクトなエビデンス下限 (elbo) を考案する。
各種実世界のマルチタスク・データセット上での予測精度の向上とNSVLMCと呼ばれるモデルの一般化,および非定常流動床のクロス流体モデリングの検証を行った。 Multi-task regression attempts to exploit the task similarity in order to achieve knowledge transfer across related tasks for performance improvement. The application of Gaussian process (GP) in this scenario yields the non-parametric yet informative Bayesian multi-task regression paradigm. Multi-task GP (MTGP) provides not only the prediction mean but also the associated prediction variance to quantify uncertainty, thus gaining popularity in various scenarios. The linear model of coregionalization (LMC) is a well-known MTGP paradigm which exploits the dependency of tasks through linear combination of several independent and diverse GPs. The LMC however suffers from high model complexity and limited model capability when handling complicated multi-task cases. To this end, we develop the neural embedding of coregionalization that transforms the latent GPs into a high-dimensional latent space to induce rich yet diverse behaviors. Furthermore, we use advanced variational inference as well as sparse approximation to devise a tight and compact evidence lower bound (ELBO) for higher quality of scalable model inference. Extensive numerical experiments have been conducted to verify the higher prediction quality and better generalization of our model, named NSVLMC, on various real-world multi-task datasets and the cross-fluid modeling of unsteady fluidized bed. | 翻訳日:2021-09-21 16:50:45 公開日:2021-09-20 |
# 可変選択による計算効率の良い高次元ベイズ最適化 Computationally Efficient High-Dimensional Bayesian Optimization via Variable Selection ( http://arxiv.org/abs/2109.09264v1 ) ライセンス: Link先を確認 | Yihang Shen and Carl Kingsford | (参考訳) ベイズ最適化 (bayesian optimization, bo) は、ブラックボックス関数をグローバルに最適化する手法である。
BOは多くのシナリオに適用されているが、高次元領域を持つ関数にスケールする効果的なBOアルゴリズムの開発は依然として課題である。
バニラBOによるそのような機能の最適化は非常に時間がかかる。
高次元の空間を低次元の空間に埋め込むという考え方に基づく高次元のboの代替戦略は、予め特定する必要がある埋め込み次元の選択に敏感である。
変数選択を利用した計算効率の高い高次元BO法を開発した。
提案手法は,選択変数を含む空間を予め指定したハイパーパラメータを必要とせずに,軸整列部分空間を自動的に学習することができる。
アルゴリズムの計算複雑性を理論的に解析し,後悔の束縛を導出する。
我々は,いくつかの合成および実問題に対する本手法の有効性を実証的に示す。 Bayesian Optimization (BO) is a method for globally optimizing black-box functions. While BO has been successfully applied to many scenarios, developing effective BO algorithms that scale to functions with high-dimensional domains is still a challenge. Optimizing such functions by vanilla BO is extremely time-consuming. Alternative strategies for high-dimensional BO that are based on the idea of embedding the high-dimensional space to the one with low dimension are sensitive to the choice of the embedding dimension, which needs to be pre-specified. We develop a new computationally efficient high-dimensional BO method that exploits variable selection. Our method is able to automatically learn axis-aligned sub-spaces, i.e. spaces containing selected variables, without the demand of any pre-specified hyperparameters. We theoretically analyze the computational complexity of our algorithm and derive the regret bound. We empirically show the efficacy of our method on several synthetic and real problems. | 翻訳日:2021-09-21 16:50:23 公開日:2021-09-20 |
# ガウス過程回帰のためのベーシックバイアス学習 Barely Biased Learning for Gaussian Process Regression ( http://arxiv.org/abs/2109.09417v1 ) ライセンス: Link先を確認 | David R. Burt, Artem Artemev, Mark van der Wilk | (参考訳) スケーラブルな近似ガウス過程回帰における最近の研究は、ログ限界確率を推定する際のバイアス分散計算トレードオフについて議論している。
目的関数のバイアスが小さいことを保証するために,ログ限界確率を推定する際に使用する計算量を適応的に選択する手法を提案する。
原理的には単純だが,本手法の現在の実装は既存の近似値と競合しない。 Recent work in scalable approximate Gaussian process regression has discussed a bias-variance-computation trade-off when estimating the log marginal likelihood. We suggest a method that adaptively selects the amount of computation to use when estimating the log marginal likelihood so that the bias of the objective function is guaranteed to be small. While simple in principle, our current implementation of the method is not competitive computationally with existing approximations. | 翻訳日:2021-09-21 16:50:12 公開日:2021-09-20 |
# エッジ相似性アウェアグラフニューラルネットワーク Edge-similarity-aware Graph Neural Networks ( http://arxiv.org/abs/2109.09432v1 ) ライセンス: Link先を確認 | Vincent Mallet, Carlos G. Oliver and William L. Hamilton | (参考訳) グラフはフレキシブルでコンパクトな表現であるため、ユビキタスなデータ表現である。
例えば、RNAの3D構造は$\textit{2.5D graphs}$、ノードがヌクレオチドでエッジが化学相互作用を表すグラフとして効率的に表現できる。
この環境では、化学相互作用が他のものとより似ているため、エッジタイプ間の類似性が生物学的に証明される。
グラフ上の機械学習は最近、グラフニューラルネットワークの導入でブレークスルーを経験した。
このアルゴリズムはグラフエッジ上のグラフノード間のメッセージパッシングアルゴリズムとしてフレーム化することができる。
これらのメッセージは、送信されるエッジタイプに依存することができるが、エッジタイプが変更されたときにメッセージがどう変更されたかを制限するメソッドはない。
RNAのユースケースによって動機づけられたこのプロジェクトでは、エッジ間の類似性に関する事前情報を活用するグラフニューラルネットワークレイヤを導入します。
この類似性を先に含めるという理論的魅力にもかかわらず、経験的性能は、ここで含めるタスクやデータセットでは向上しない。 Graph are a ubiquitous data representation, as they represent a flexible and compact representation. For instance, the 3D structure of RNA can be efficiently represented as $\textit{2.5D graphs}$, graphs whose nodes are nucleotides and edges represent chemical interactions. In this setting, we have biological evidence of the similarity between the edge types, as some chemical interactions are more similar than others. Machine learning on graphs have recently experienced a breakthrough with the introduction of Graph Neural Networks. This algorithm can be framed as a message passing algorithm between graph nodes over graph edges. These messages can depend on the edge type they are transmitted through, but no method currently constrains how a message is altered when the edge type changes. Motivated by the RNA use case, in this project we introduce a graph neural network layer which can leverage prior information about similarities between edges. We show that despite the theoretical appeal of including this similarity prior, the empirical performance is not enhanced on the tasks and datasets we include here. | 翻訳日:2021-09-21 16:50:05 公開日:2021-09-20 |
# レーダー降雨製品のcnnによる時間分解能 CNN-based Temporal Super Resolution of Radar Rainfall Products ( http://arxiv.org/abs/2109.09289v1 ) ライセンス: Link先を確認 | Muhammed Sit, Bong-Chul Seo and Ibrahim Demir | (参考訳) 降雨データの時間的・空間的解像度は、その空間的・時間的変動を主要因とする気候変動モデリング研究において重要である。
異なるリモートセンシング機器(レーダーや衛星など)からの降雨物は、そのセンシング能力が異なるため、異なる時空間解像度を提供する。
比較的低い解像度の製品を補完するために,降雨データを時間分解能で拡張する手法を開発した。
本研究では,レーダーによる降雨量の時間分解能を向上させるために,畳み込みニューラルネットワーク(CNN)に基づくニューラルネットワークアーキテクチャを提案する。 The temporal and spatial resolution of rainfall data is crucial for climate change modeling studies in which its variability in space and time is considered as a primary factor. Rainfall products from different remote sensing instruments (e.g., radar or satellite) provide different space-time resolutions because of the differences in their sensing capabilities. We developed an approach that augments rainfall data with increased time resolutions to complement relatively lower resolution products. This study proposes a neural network architecture based on Convolutional Neural Networks (CNNs) to improve temporal resolution of radar-based rainfall products and compares the proposed model with an optical flow-based interpolation method. | 翻訳日:2021-09-21 16:49:26 公開日:2021-09-20 |
# 自動車産業における室内センシングの背景-フォアグラウンドセグメンテーション Background-Foreground Segmentation for Interior Sensing in Automotive Industry ( http://arxiv.org/abs/2109.09410v1 ) ライセンス: Link先を確認 | Claudia Drygala, Matthias Rottmann, Hanno Gottschalk, Klaus Friedrichs and Thomas Kurbiel | (参考訳) 自動走行の安全性を確保するため、車内状況の正しい認識はその環境と同様に重要である。
したがって、座席の占有状況の検出と検出されたインスタンスの分類は、室内センシングにおいて重要な役割を果たす。
座席占有状況の知識により、例えばエアバッグ配置制御の自動化が可能である。
さらに、自動化レベル2〜4の部分自動化運転車に必要な運転者の存在を確認することができる。
本研究では,画像セグメンテーションの分野と異なる統計手法を比較し,カメラを用いたインテリアセンシングにおける背景セグメンテーションの問題にアプローチする。
近年,様々な技術に基づく手法が開発され,様々なアプリケーションからの画像やビデオに応用されている。
与えられた内部センシングのシナリオの特異性は、前景インスタンスと背景の両方が静的および動的要素を含むことである。
この研究で考慮されたデータでは、カメラの位置も完全に固定されていない。
本稿では,Gaussian Mixture Models(GMM),Morphological Snakes,Deep Neural Network(Mask R-CNN)の3つの異なる手法をレビューし,ベンチマークする。
特に、内部センシングのための古典的手法であるgmmと形態的ヘビの限界が示されている。
さらに、Mask R-CNNのような深層学習によってこれらの制限を克服することが可能である。
トレーニングには少量の真実データしか利用できなかったが、我々はMask R-CNNがトランスファーラーニングにより高品質な背景マスクを作成できるようになった。
さらに,前処理法と後処理法を併用することで,さらなる性能向上が期待できることを示した。 To ensure safety in automated driving, the correct perception of the situation inside the car is as important as its environment. Thus, seat occupancy detection and classification of detected instances play an important role in interior sensing. By the knowledge of the seat occupancy status, it is possible to, e.g., automate the airbag deployment control. Furthermore, the presence of a driver, which is necessary for partially automated driving cars at the automation levels two to four can be verified. In this work, we compare different statistical methods from the field of image segmentation to approach the problem of background-foreground segmentation in camera based interior sensing. In the recent years, several methods based on different techniques have been developed and applied to images or videos from different applications. The peculiarity of the given scenarios of interior sensing is, that the foreground instances and the background both contain static as well as dynamic elements. In data considered in this work, even the camera position is not completely fixed. We review and benchmark three different methods ranging, i.e., Gaussian Mixture Models (GMM), Morphological Snakes and a deep neural network, namely a Mask R-CNN. In particular, the limitations of the classical methods, GMM and Morphological Snakes, for interior sensing are shown. Furthermore, it turns, that it is possible to overcome these limitations by deep learning, e.g.\ using a Mask R-CNN. Although only a small amount of ground truth data was available for training, we enabled the Mask R-CNN to produce high quality background-foreground masks via transfer learning. Moreover, we demonstrate that certain augmentation as well as pre- and post-processing methods further enhance the performance of the investigated methods. | 翻訳日:2021-09-21 16:49:14 公開日:2021-09-20 |
# スパースLiDARによる自己教師付き単眼深度学習の促進 Advancing Self-supervised Monocular Depth Learning with Sparse LiDAR ( http://arxiv.org/abs/2109.09628v1 ) ライセンス: Link先を確認 | Ziyue Feng, Longlong Jing, Peng Yin, Yingli Tian, Bing Li | (参考訳) 自己教師付き単眼深度予測は、各ピクセルの3D位置を求めるためのコスト効率の良いソリューションを提供する。
しかし、既存のアプローチは一般的には不十分な精度につながり、自律ロボットにとって重要である。
本稿では,低コストスパース(例えば4ビーム)LiDARを利用して,自己教師付き単分子深度学習を進めるための2段階ネットワークを提案する。
スパースLiDARを主に時間を要する反復的後処理で使用する既存の手法とは異なり,本モデルは単眼画像特徴とスパースLiDAR特徴を融合させて初期深度マップを推定する。
さらに, 擬似3次元空間における初期深度マップの誤りをリアルタイムに補正するために, 効率的なフィードフォワード精細ネットワークを設計する。
大規模実験により,提案手法は, 自己教師付き単分子深度予測および完了タスクにおけるスパース-LiDAR法と同様に, 最先端の自己教師付き手法を著しく上回ることがわかった。
精度の高い深度予測を行うことで,KITTIリーダボード上の下流タスク単眼3Dオブジェクト検出において,最先端のスパース-LiDAR法(Pseudo-LiDAR++)を68%以上向上させる。 Self-supervised monocular depth prediction provides a cost-effective solution to obtain the 3D location of each pixel. However, the existing approaches usually lead to unsatisfactory accuracy, which is critical for autonomous robots. In this paper, we propose a novel two-stage network to advance the self-supervised monocular dense depth learning by leveraging low-cost sparse (e.g. 4-beam) LiDAR. Unlike the existing methods that use sparse LiDAR mainly in a manner of time-consuming iterative post-processing, our model fuses monocular image features and sparse LiDAR features to predict initial depth maps. Then, an efficient feed-forward refine network is further designed to correct the errors in these initial depth maps in pseudo-3D space with real-time performance. Extensive experiments show that our proposed model significantly outperforms all the state-of-the-art self-supervised methods, as well as the sparse-LiDAR-based methods on both self-supervised monocular depth prediction and completion tasks. With the accurate dense depth prediction, our model outperforms the state-of-the-art sparse-LiDAR-based method (Pseudo-LiDAR++) by more than 68% for the downstream task monocular 3D object detection on the KITTI Leaderboard. | 翻訳日:2021-09-21 16:48:45 公開日:2021-09-20 |
# TeleMelody:テンプレートベース2段階法によるLyric-to-Melody生成 TeleMelody: Lyric-to-Melody Generation with a Template-Based Two-Stage Method ( http://arxiv.org/abs/2109.09617v1 ) ライセンス: Link先を確認 | Zeqian Ju, Peiling Lu, Xu Tan, Rui Wang, Chen Zhang, Songruoyao Wu, Kejun Zhang, Xiangyang Li, Tao Qin, Tie-Yan Liu | (参考訳) 歌詞からメロディへの生成は自動作曲において重要な課題である。
以前の歌詞からメロディ生成システムは通常、歌詞から直接メロディを生成するエンド・ツー・エンドのモデルを採用する。
1) 合音・旋律訓練データの欠如
2) 発生した旋律の制御の欠如。
本稿では,歌詞と旋律のギャップを埋めるために,音楽テンプレート(調性,和音進行,リズムパターン,ケイデンスなど)を備えた2段階の歌詞からメロディへの生成システムであるtelemelodyを開発した。
TeleMelodyには2つの利点がある。
第一に、それはデータ効率です。
template-to-melodyモジュールは、lyric-melodyペアデータを必要としない、自己教師ありの方法でトレーニングされる(すなわち、ソーステンプレートはターゲットメロディから抽出される)。
lyric-to-templateモジュールはいくつかのルールとlyric-to-rhythmモデルで構成されており、これはペアのlyric-melodyデータよりも取得しやすいペアのlyric-rhythmデータで訓練されている。
第二に、制御可能である。
テンプレートの設計により、生成されたメロディはテンプレートの音楽要素を調整することで制御できる。
主観的および客観的な実験的評価は、TeleMelodyが、より高品質で制御性に優れたメロディを生成することを示す。 Lyric-to-melody generation is an important task in automatic songwriting. Previous lyric-to-melody generation systems usually adopt end-to-end models that directly generate melodies from lyrics, which suffer from several issues: 1) lack of paired lyric-melody training data; 2) lack of control on generated melodies. In this paper, we develop TeleMelody, a two-stage lyric-to-melody generation system with music template (e.g., tonality, chord progression, rhythm pattern, and cadence) to bridge the gap between lyrics and melodies (i.e., the system consists of a lyric-to-template module and a template-to-melody module). TeleMelody has two advantages. First, it is data efficient. The template-to-melody module is trained in a self-supervised way (i.e., the source template is extracted from the target melody) that does not need any lyric-melody paired data. The lyric-to-template module is made up of some rules and a lyric-to-rhythm model, which is trained with paired lyric-rhythm data that is easier to obtain than paired lyric-melody data. Second, it is controllable. The design of template ensures that the generated melodies can be controlled by adjusting the musical elements in template. Both subjective and objective experimental evaluations demonstrate that TeleMelody generates melodies with higher quality, better controllability, and less requirement on paired lyric-melody data than previous generation systems. | 翻訳日:2021-09-21 16:48:25 公開日:2021-09-20 |
# ResUNet-CMBによる宇宙偏光回転の再構成 Reconstructing Cosmic Polarization Rotation with ResUNet-CMB ( http://arxiv.org/abs/2109.09715v1 ) ライセンス: Link先を確認 | Eric Guzman and Joel Meyers | (参考訳) 宇宙偏光回転はパリティに反する新しい物理学や原始磁場の存在によって生じる可能性があるが、宇宙マイクロ波背景(CMB)のE$モード偏光をB$モード偏光に変換する。
異方性宇宙偏光回転はCMB偏光の統計的異方性をもたらし、CMBの重力レンズ用に設計されたものと似た2次推定器技術で再構成することができる。
今後のcmb調査の感度において、レンズリングによって引き起こされる$b$-mode偏光は、異方性宇宙偏光回転の探索の制限因子となり、将来の調査で効果の制約を改善するために何らかのデレンスを組み込んだ分析が必要となる。
本稿では,ResUNet-CMB畳み込みニューラルネットワークを拡張して,重力レンズやパッチ状再イオン化の存在下での異方性宇宙偏光回転を再構築する。 Cosmic polarization rotation, which may result from parity-violating new physics or the presence of primordial magnetic fields, converts $E$-mode polarization of the cosmic microwave background (CMB) into $B$-mode polarization. Anisotropic cosmic polarization rotation leads to statistical anisotropy in CMB polarization and can be reconstructed with quadratic estimator techniques similar to those designed for gravitational lensing of the CMB. At the sensitivity of upcoming CMB surveys, lensing-induced $B$-mode polarization will act as a limiting factor in the search for anisotropic cosmic polarization rotation, meaning that an analysis which incorporates some form of delensing will be required to improve constraints on the effect with future surveys. In this paper we extend the ResUNet-CMB convolutional neural network to reconstruct anisotropic cosmic polarization rotation in the presence of gravitational lensing and patchy reionization, and we show that the network simultaneously reconstructs all three effects with variance that is lower than that from the standard quadratic estimator nearly matching the performance of an iterative reconstruction method. | 翻訳日:2021-09-21 16:46:26 公開日:2021-09-20 |
# sum-of-normsクラスタリングのローカルバージョン Local versions of sum-of-norms clustering ( http://arxiv.org/abs/2109.09589v1 ) ライセンス: Link先を確認 | Alexander Dunlap and Jean-Christophe Mourrat | (参考訳) sum-of-normsクラスタリングは、多変量データのクラスタリングにソリューションが使用できる凸最適化問題である。
本手法の局所化バージョンを提案・検討し,特に確率球モデルにおいて任意に近接した球を分離できることを示す。
より正確には、不随伴連結集合のクラスタリングで生じる誤差に定量的な境界が証明される。
我々の境界は、データポイントの数と関数の局所化長で表される。 Sum-of-norms clustering is a convex optimization problem whose solution can be used for the clustering of multivariate data. We propose and study a localized version of this method, and show in particular that it can separate arbitrarily close balls in the stochastic ball model. More precisely, we prove a quantitative bound on the error incurred in the clustering of disjoint connected sets. Our bound is expressed in terms of the number of datapoints and the localization length of the functional. | 翻訳日:2021-09-21 16:42:33 公開日:2021-09-20 |
# スケールでのニューラル予測 Neural forecasting at scale ( http://arxiv.org/abs/2109.09705v1 ) ライセンス: Link先を確認 | Philippe Chatigny, Boris N. Oreshkin, Jean-Marc Patenaude and, Shengrui Wang | (参考訳) 本研究では,時系列予測のためのアンサンブル型深層ニューラルネットワークの効率良くスケーリングする問題について検討する。
現在の最先端のディープアンサンブルモデルでは、メモリと計算の要求が高く、現実的なシナリオでは数百万のTSを予測できない。
N-BEATS(P)は、複数の単変量TS予測モデルの同時学習を可能にするために設計されたN-BEATSモデルのグローバル多変量変種である。
本モデルでは,学習時間を半減し,メモリ要件を5倍に抑えるとともに,同一レベルの精度を維持しながら,関連モデルの実用的限界に対処する。
我々は、モデルをトレーニングする方法を詳細に説明した複数の実験を行い、ゼロショットTS予測をサポートする能力、すなわち、ソースTSデータセット上でニューラルネットワークをトレーニングし、リトレーニングなしで異なるターゲットTSデータセットにデプロイする能力を示す結果を得た。 We study the problem of efficiently scaling ensemble-based deep neural networks for time series (TS) forecasting on a large set of time series. Current state-of-the-art deep ensemble models have high memory and computational requirements, hampering their use to forecast millions of TS in practical scenarios. We propose N-BEATS(P), a global multivariate variant of the N-BEATS model designed to allow simultaneous training of multiple univariate TS forecasting models. Our model addresses the practical limitations of related models, reducing the training time by half and memory requirement by a factor of 5, while keeping the same level of accuracy. We have performed multiple experiments detailing the various ways to train our model and have obtained results that demonstrate its capacity to support zero-shot TS forecasting, i.e., to train a neural network on a source TS dataset and deploy it on a different target TS dataset without retraining, which provides an efficient and reliable solution to forecast at scale even in difficult forecasting conditions. | 翻訳日:2021-09-21 16:42:25 公開日:2021-09-20 |
# 再生カーネルバナッハ空間を用いたニューラルネットワークの理解 Understanding neural networks with reproducing kernel Banach spaces ( http://arxiv.org/abs/2109.09710v1 ) ライセンス: Link先を確認 | Francesca Bartolucci, Ernesto De Vito, Lorenzo Rosasco, Stefano Vigogna | (参考訳) ニューラルネットワークに対応する関数空間の特徴付けは、その特性を理解する方法を提供する。
本稿では,カーネルバナッハ空間を再生する理論を用いて,この課題に取り組む方法について述べる。
特に、適切な積分表現を許容し、潜在的に無限幅の隠れ層ニューラルネットワークを含む、幅広い種類の再生核バナッハ空間に対する表現者定理を証明した。
さらに、ReLU活性化関数の適切なクラスに対して、対応する再生カーネルバナッハ空間のノルムは、その測度の全変動ノルムによって与えられる有界実測度の逆ラドン変換によって特徴づけられることを示す。
我々の分析は[34,29,30]の最近の結果を単純化し、拡張する。 Characterizing the function spaces corresponding to neural networks can provide a way to understand their properties. In this paper we discuss how the theory of reproducing kernel Banach spaces can be used to tackle this challenge. In particular, we prove a representer theorem for a wide class of reproducing kernel Banach spaces that admit a suitable integral representation and include one hidden layer neural networks of possibly infinite width. Further, we show that, for a suitable class of ReLU activation functions, the norm in the corresponding reproducing kernel Banach space can be characterized in terms of the inverse Radon transform of a bounded real measure, with norm given by the total variation norm of the measure. Our analysis simplifies and extends recent results in [34,29,30]. | 翻訳日:2021-09-21 16:42:09 公開日:2021-09-20 |
# 深層学習による子宮の3次元超音波分割 Automatic 3D Ultrasound Segmentation of Uterus Using Deep Learning ( http://arxiv.org/abs/2109.09283v1 ) ライセンス: Link先を確認 | Bahareh Behboodi, Hassan Rivaz, Susan Lalondrelle, and Emma Harris | (参考訳) 子宮のオンラインセグメンテーションは、子宮頸癌放射線治療中の標的組織(子宮頸管)への正確な投与を効果的にイメージベースで誘導するのに役立つ。
3D超音波(US)は子宮の画像化に利用することができるが, 子宮の位置や形状が大きく変化したこと, 膀胱充填量が大きく変化したこと, 高度方向の低分解能や画像収差などの3DUS画像の限界により, 子宮内の子宮境界の位置の特定は難しい課題である。
子宮セグメンテーションに関するこれまでの研究は、専門医が手動初期化を必要とする半自動アルゴリズムの開発に主眼を置いていた。
本研究の目的は,近年の深層学習に基づくアルゴリズムを用いた半自動アルゴリズムにおいて,手動初期化の必要性を克服することであった。
そこで我々は2つのシナリオに基づいてトレーニングされた2次元UNetネットワークを開発した。
最初のシナリオでは、各平面上の3つの異なるネットワーク(矢状、コロナ、軸)を個別に訓練した。
第2のシナリオでは、提案するネットワークは、各3次元体積のすべての平面を用いて訓練された。
提案手法は,先行する半自動アルゴリズムの手動選択を克服できる。 On-line segmentation of the uterus can aid effective image-based guidance for precise delivery of dose to the target tissue (the uterocervix) during cervix cancer radiotherapy. 3D ultrasound (US) can be used to image the uterus, however, finding the position of uterine boundary in US images is a challenging task due to large daily positional and shape changes in the uterus, large variation in bladder filling, and the limitations of 3D US images such as low resolution in the elevational direction and imaging aberrations. Previous studies on uterus segmentation mainly focused on developing semi-automatic algorithms where require manual initialization to be done by an expert clinician. Due to limited studies on the automatic 3D uterus segmentation, the aim of the current study was to overcome the need for manual initialization in the semi-automatic algorithms using the recent deep learning-based algorithms. Therefore, we developed 2D UNet-based networks that are trained based on two scenarios. In the first scenario, we trained 3 different networks on each plane (i.e., sagittal, coronal, axial) individually. In the second scenario, our proposed network was trained using all the planes of each 3D volume. Our proposed schematic can overcome the initial manual selection of previous semi-automatic algorithm. | 翻訳日:2021-09-21 16:40:59 公開日:2021-09-20 |
# PointNets を用いたレーダデータの異常検出 Anomaly Detection in Radar Data Using PointNets ( http://arxiv.org/abs/2109.09401v1 ) ライセンス: Link先を確認 | Thomas Griebel, Dominik Authaler, Markus Horn, Matti Henning, Michael Buchholz, and Klaus Dietmayer | (参考訳) 自動運転では、レーダーは重要なセンサータイプである。
一方、レーダーは、環境中のターゲットの放射速度を直接測定する。
一方、文献では、レーダーセンサーは様々な悪天候に対して頑健であることが知られている。
しかし、マイナス面として、レーダーはゴーストターゲットや、環境中の反射面など、いくつかの異なる原因によって引き起こされるクラッタの影響を受けやすい。
例えばゴーストターゲットは、誤ったオブジェクト検出につながる可能性がある。
この目的のために、レーダーデータにおいて、できるだけ早く異常目標を特定することが望ましい。
本研究では,PointNetsをベースとした異常なレーダーターゲット検出手法を提案する。
タスクによって駆動される PointNet-architecture を改良し,マルチフォームグルーピングモジュールに寄与する新しいグルーピング変種を開発した。
本手法は,都市シナリオにおける実世界のデータセット上で評価され,異常レーダ目標の検出に有望な結果を示す。 For autonomous driving, radar is an important sensor type. On the one hand, radar offers a direct measurement of the radial velocity of targets in the environment. On the other hand, in literature, radar sensors are known for their robustness against several kinds of adverse weather conditions. However, on the downside, radar is susceptible to ghost targets or clutter which can be caused by several different causes, e.g., reflective surfaces in the environment. Ghost targets, for instance, can result in erroneous object detections. To this end, it is desirable to identify anomalous targets as early as possible in radar data. In this work, we present an approach based on PointNets to detect anomalous radar targets. Modifying the PointNet-architecture driven by our task, we developed a novel grouping variant which contributes to a multi-form grouping module. Our method is evaluated on a real-world dataset in urban scenarios and shows promising results for the detection of anomalous radar targets. | 翻訳日:2021-09-21 16:40:40 公開日:2021-09-20 |
# 映画脚本の重大さを予言する「None to Severe」 From None to Severe: Predicting Severity in Movie Scripts ( http://arxiv.org/abs/2109.09276v1 ) ライセンス: Link先を確認 | Yigeng Zhang, Mahsa Shafaei, Fabio Gonzalez, Thamar Solorio | (参考訳) 本稿では,対話スクリプトのみに基づいて,映画コンテンツの年齢制限面の重大さを予測するタスクを紹介する。
まず, 性, 暴力, 狂気, 物質消費, 恐怖場面の5つの側面から, 映画の順序的重大さを分類した。
この問題は、予測の解釈性を同時に改善するシアムネットワークベースのマルチタスクフレームワークを用いて処理される。
実験の結果,提案手法は従来の最先端モデルよりも優れており,モデル予測の解釈に有用な情報を提供することがわかった。
提案されたデータセットとソースコードは、GitHubリポジトリで公開されています。 In this paper, we introduce the task of predicting severity of age-restricted aspects of movie content based solely on the dialogue script. We first investigate categorizing the ordinal severity of movies on 5 aspects: Sex, Violence, Profanity, Substance consumption, and Frightening scenes. The problem is handled using a siamese network-based multitask framework which concurrently improves the interpretability of the predictions. The experimental results show that our method outperforms the previous state-of-the-art model and provides useful information to interpret model predictions. The proposed dataset and source code are publicly available at our GitHub repository. | 翻訳日:2021-09-21 16:36:54 公開日:2021-09-20 |
# 単語連想と概念ネットにおける常識知識 Commonsense Knowledge in Word Associations and ConceptNet ( http://arxiv.org/abs/2109.09309v1 ) ライセンス: Link先を確認 | Chunhua Liu and Trevor Cohn and Lea Frermann | (参考訳) 人間は、世界に関する無数の基本的な共有事実を使って、環境を効率的にナビゲートします。
このコモンセンス知識は明確に伝達されることはめったにないが、人間の認識の深い理解と自動推論システムの拡張には、コモンセンス知識が異なるパラダイムでどのように表現されるかを理解することが重要である。
本稿では,クラウドソース型単語関連データベースConcpetNetと,クラウドソース型単語関連から派生した知識グラフSWOWの2つの大規模知識資源の詳細な比較を行った。
本研究では,2つのグラフの構造,重なり,差異,状況の共通性に関する知識をエンコードする程度について検討する。
最後に,テキストのみのベースラインよりも,共通意味推論ベンチマークのダウンストリームタスクパフォーマンスが両リソースとも向上することを示すとともに,クラウドソーシングによって複数の言語で得られた大規模単語連想データが,キュレーションされたナレッジグラフを補完する価値ある補完となることを示唆する。 Humans use countless basic, shared facts about the world to efficiently navigate in their environment. This commonsense knowledge is rarely communicated explicitly, however, understanding how commonsense knowledge is represented in different paradigms is important for both deeper understanding of human cognition and for augmenting automatic reasoning systems. This paper presents an in-depth comparison of two large-scale resources of general knowledge: ConcpetNet, an engineered relational database, and SWOW a knowledge graph derived from crowd-sourced word associations. We examine the structure, overlap and differences between the two graphs, as well as the extent to which they encode situational commonsense knowledge. We finally show empirically that both resources improve downstream task performance on commonsense reasoning benchmarks over text-only baselines, suggesting that large-scale word association data, which have been obtained for several languages through crowd-sourcing, can be a valuable complement to curated knowledge graphs | 翻訳日:2021-09-21 16:36:42 公開日:2021-09-20 |
# WMT21のためのCUNIシステム:ターミノロジー変換共有タスク CUNI systems for WMT21: Terminology translation Shared Task ( http://arxiv.org/abs/2109.09350v1 ) ライセンス: Link先を確認 | Josef Jon, Michal Nov\'ak, Jo\~ao Paulo Aires, Du\v{s}an Vari\v{s} and Ond\v{r}ej Bojar | (参考訳) 本稿では,チャールズ大学がWMT21で行ったターミノロジー翻訳作業について述べる。
このタスクの目的は、提供された用語データベースに基づいて特定の用語を翻訳し、高い全体的な翻訳品質を維持するシステムを設計することである。
私たちは英語とフランス語のペアで競った。
提案手法は,入力文とともに所望の翻訳を提供し,提案した用語を使用するようにモデルを訓練することに基づいている。
用語データベースで提供される形式と異なる場合, モデルが単語の表面形状を正しく生成する方法を学習できるように, トレーニング中と推論中の両方で用語を補足する。
提案手法は,翻訳において所望の語を生成できるモデルの有効性を評価する,エクサクソンマッチングの2位にランク付けした。 This paper describes Charles University submission for Terminology translation Shared Task at WMT21. The objective of this task is to design a system which translates certain terms based on a provided terminology database, while preserving high overall translation quality. We competed in English-French language pair. Our approach is based on providing the desired translations alongside the input sentence and training the model to use these provided terms. We lemmatize the terms both during the training and inference, to allow the model to learn how to produce correct surface forms of the words, when they differ from the forms provided in the terminology database. Our submission ranked second in Exact Match metric which evaluates the ability of the model to produce desired terms in the translation. | 翻訳日:2021-09-21 16:36:22 公開日:2021-09-20 |
# wmt21用cuniシステム:インド・ヨーロッパ言語共用タスクのための多言語低リソース翻訳 CUNI systems for WMT21: Multilingual Low-Resource Translation for Indo-European Languages Shared Task ( http://arxiv.org/abs/2109.09354v1 ) ライセンス: Link先を確認 | Josef Jon, Michal Nov\'ak, Jo\~ao Paulo Aires, Du\v{s}an Vari\v{s} and Ond\v{r}ej Bojar | (参考訳) 本稿では,チャールズ大学がWMT21で行った多言語低リソース翻訳の課題について述べる。
我々はカタルーニャ語からルーマニア語、イタリア語、オチタン語への翻訳を競った。
我々のシステムは共有多言語モデルに基づいている。
複数の類似言語ペアに対するジョイントモデルを用いることで,各ペアの翻訳品質が向上することを示す。
また,キャララクタレベルのバイリンガルモデルは,非常に類似した言語対(カタルーニャ語-オクシタン)に対して競争的であるが,より遠い言語対ではそうではないことを実証した。
また,テキスト翻訳以外では,グラファイムから音素への変換を行うためにモデルも訓練されているマルチタスク学習の実験について述べる。 This paper describes Charles University submission for Multilingual Low-Resource Translation for Indo-European Languages shared task at WMT21. We competed in translation from Catalan into Romanian, Italian and Occitan. Our systems are based on shared multilingual model. We show that using joint model for multiple similar language pairs improves upon translation quality in each pair. We also demonstrate that chararacter-level bilingual models are competitive for very similar language pairs (Catalan-Occitan) but less so for more distant pairs. We also describe our experiments with multi-task learning, where aside from a textual translation, the models are also trained to perform grapheme-to-phoneme conversion. | 翻訳日:2021-09-21 16:36:10 公開日:2021-09-20 |
# タスク指向ボットのトレーニングのためのクラウドソーシング Crowdsourcing Diverse Paraphrases for Training Task-oriented Bots ( http://arxiv.org/abs/2109.09420v1 ) ライセンス: Link先を確認 | Jorge Ram\'irez, Auday Berro, Marcos Baez, Boualem Benatallah, Fabio Casati | (参考訳) タスク指向のボットをトレーニングするためのデータセットを構築するための顕著なアプローチは、クラウドベースのパラフレーズである。
しかし、現在のアプローチでは、群衆は自然に多様なパラフレーズを提供し、語彙の多様性にのみ焦点をあてている。
このWiPでは、多様性の見過ごされた側面に対処し、シンタクティックに多様性のあるパラフレーズへのクラウドソーシングプロセスを導くアプローチを導入しました。 A prominent approach to build datasets for training task-oriented bots is crowd-based paraphrasing. Current approaches, however, assume the crowd would naturally provide diverse paraphrases or focus only on lexical diversity. In this WiP we addressed an overlooked aspect of diversity, introducing an approach for guiding the crowdsourcing process towards paraphrases that are syntactically diverse. | 翻訳日:2021-09-21 16:35:57 公開日:2021-09-20 |
# PLATO-XL:対話生成の大規模事前学習を探る PLATO-XL: Exploring the Large-scale Pre-training of Dialogue Generation ( http://arxiv.org/abs/2109.09519v1 ) ライセンス: Link先を確認 | Siqi Bao, Huang He, Fan Wang, Hua Wu, Haifeng Wang, Wenquan Wu, Zhihua Wu, Zhen Guo, Hua Lu, Xinxian Huang, Xin Tian, Xinchao Xu, Yingzhan Lin, Zhengyu Niu | (参考訳) 対話生成の事前学習の限界を探るために,中国語と英語のソーシャルメディア会話で訓練された最大11億パラメータのplato-xlモデルを提示する。
このような大規模モデルのトレーニングには,高い計算とパラメータ効率で統一変換器のアーキテクチャを採用する。
さらに,ソーシャルメディアの会話における特徴情報をよりよく識別するために,複数政党による事前学習を実施している。
このような設計により、PLATO-XLは、中国語と英語のchitchatの他のアプローチと比較して、優れたパフォーマンスを実現している。
さらに,知識基盤対話やタスク指向会話など,他の会話課題におけるPLATO-XLの能力についても検討する。
実験結果から,PLATO-XLは対話型AIの基礎モデルとしての可能性を検証し,複数の対話型タスクにまたがる最先端の成果が得られることが示された。 To explore the limit of dialogue generation pre-training, we present the models of PLATO-XL with up to 11 billion parameters, trained on both Chinese and English social media conversations. To train such large models, we adopt the architecture of unified transformer with high computation and parameter efficiency. In addition, we carry out multi-party aware pre-training to better distinguish the characteristic information in social media conversations. With such designs, PLATO-XL successfully achieves superior performances as compared to other approaches in both Chinese and English chitchat. We further explore the capacity of PLATO-XL on other conversational tasks, such as knowledge grounded dialogue and task-oriented conversation. The experimental results indicate that PLATO-XL obtains state-of-the-art results across multiple conversational tasks, verifying its potential as a foundation model of conversational AI. | 翻訳日:2021-09-21 16:35:50 公開日:2021-09-20 |
# JobBERT: スキルによる仕事のタイトル理解 JobBERT: Understanding Job Titles through Skills ( http://arxiv.org/abs/2109.09605v1 ) ライセンス: Link先を確認 | Jens-Joris Decorte, Jeroen Van Hautte, Thomas Demeester, Chris Develder | (参考訳) ジョブタイトルは、今日の人事(人事)プロセスの基盤を形成します。
オンラインリクルートでは、候補者は空席の内容を一目で理解できるが、社内人事部はそれらを使って多くのプロセスを整理し構成する。
ジョブタイトルはコンパクトで便利で手軽に利用できるデータソースであるため、高い精度でそれらをモデリングすることは、多くの人事技術アプリケーションにとって大きな恩恵となる。
本稿では,空き地から抽出したスキルラベルからの共起情報を用いて,事前学習した言語モデルを拡張した求職者のニューラル表現モデルを提案する。
ジョブBERT法は,ジョブタイトル正規化のタスクにおいて汎用文エンコーダを使用する場合に比べて大幅に改善され,新たな評価ベンチマークがリリースされた。 Job titles form a cornerstone of today's human resources (HR) processes. Within online recruitment, they allow candidates to understand the contents of a vacancy at a glance, while internal HR departments use them to organize and structure many of their processes. As job titles are a compact, convenient, and readily available data source, modeling them with high accuracy can greatly benefit many HR tech applications. In this paper, we propose a neural representation model for job titles, by augmenting a pre-trained language model with co-occurrence information from skill labels extracted from vacancies. Our JobBERT method leads to considerable improvements compared to using generic sentence encoders, for the task of job title normalization, for which we release a new evaluation benchmark. | 翻訳日:2021-09-21 16:35:35 公開日:2021-09-20 |
# BARTpho:ベトナムの事前訓練シーケンスモデル BARTpho: Pre-trained Sequence-to-Sequence Models for Vietnamese ( http://arxiv.org/abs/2109.09701v1 ) ライセンス: Link先を確認 | Nguyen Luong Tran, Duong Minh Le and Dat Quoc Nguyen | (参考訳) BARTpho_word と BARTpho_syllable はベトナムで事前訓練された最初の大規模モノリンガルシーケンス列列モデルである。
我々のBARTphoは、シーケンス・ツー・シーケンス・デノナイズ・モデルであるBARTの「大規模」アーキテクチャと事前学習方式を用いており、生成NLPタスクに特に適している。
ベトナム語テキスト要約の下流タスクの実験では、自動評価と人的評価の両方において、BARTphoは強いベースラインmBARTを上回り、最先端技術を改善している。
ベトナムのNLPタスクの今後の研究と応用を促進するため,BARTphoをリリースする。
私たちのBARTphoモデルは、https://github.com/VinAIResearch/BARTphoで利用可能です。 We present BARTpho with two versions -- BARTpho_word and BARTpho_syllable -- the first public large-scale monolingual sequence-to-sequence models pre-trained for Vietnamese. Our BARTpho uses the "large" architecture and pre-training scheme of the sequence-to-sequence denoising model BART, thus especially suitable for generative NLP tasks. Experiments on a downstream task of Vietnamese text summarization show that in both automatic and human evaluations, our BARTpho outperforms the strong baseline mBART and improves the state-of-the-art. We release BARTpho to facilitate future research and applications of generative Vietnamese NLP tasks. Our BARTpho models are available at: https://github.com/VinAIResearch/BARTpho | 翻訳日:2021-09-21 16:35:23 公開日:2021-09-20 |
# ボードゲームマニュアルの自動生成 Automatic Generation of Board Game Manuals ( http://arxiv.org/abs/2109.09507v1 ) ライセンス: Link先を確認 | Matthew Stephenson, Eric Piette, Dennis J. N. J. Soemers, Cameron Browne | (参考訳) 本稿では,Ludiiの汎用ゲームシステム内でボードゲーム用のマニュアルを自動的に生成するプロセスを提案する。
このプロセスでは、ludiiゲーム記述の英訳、動きの可視化、勝利のハイライト、戦略説明など、多くの異なるサブタスクに対処する必要がある。
これらの側面が組み合わされて、任意のゲーム用の完全なマニュアルが作成されます。
このマニュアルは、ゲームのルールとメカニックをより直感的に説明することを目的としており、特にルディイのゲーム記述言語や文法に詳しくないプレイヤー向けにいる。 In this paper we present a process for automatically generating manuals for board games within the Ludii general game system. This process requires many different sub-tasks to be addressed, such as English translation of Ludii game descriptions, move visualisation, highlighting winning moves, strategy explanation, among others. These aspects are then combined to create a full manual for any given game. This manual is intended to provide a more intuitive explanation of a game's rules and mechanics, particularly for players who are less familiar with the Ludii game description language and grammar. | 翻訳日:2021-09-21 16:34:06 公開日:2021-09-20 |
# シーン事前知識を用いたマルチエージェント型視覚セマンティックナビゲーション Multi-Agent Embodied Visual Semantic Navigation with Scene Prior Knowledge ( http://arxiv.org/abs/2109.09531v1 ) ライセンス: Link先を確認 | Xinzhu Liu, Di Guo, Huaping Liu, and Fuchun Sun | (参考訳) 視覚意味ナビゲーションでは、ロボットはエゴセントリックな視覚観察で対象オブジェクトにナビゲートし、対象のクラスラベルが与えられる。
関連する研究の急増を刺激する有意義なタスクである。
しかし、既存のモデルのほとんどは単一エージェントナビゲーションにのみ有効であり、より複雑なタスクを完了すると、単一のエージェントは低効率で耐障害性が低い。
マルチエージェントコラボレーションは効率を向上し、強い応用可能性を持つ。
本稿では,複数のエージェントが協調して複数の対象オブジェクトを探索するマルチエージェント視覚意味ナビゲーションを提案する。
コミュニケーション帯域の制限の下で効率的な探索を行うためには,エージェントが合理的なコラボレーション戦略を学ぶ必要がある。
この課題を解決するために, 意味マッピング, シーン先行知識, コミュニケーション機構に基づく階層的決定フレームワークを開発した。
未知の物体と未知の物体の両方を含む未発見のシーンにおけるテスト実験の結果は、単一エージェントモデルと比較して提案モデルの精度と効率が高かったことを示している。 In visual semantic navigation, the robot navigates to a target object with egocentric visual observations and the class label of the target is given. It is a meaningful task inspiring a surge of relevant research. However, most of the existing models are only effective for single-agent navigation, and a single agent has low efficiency and poor fault tolerance when completing more complicated tasks. Multi-agent collaboration can improve the efficiency and has strong application potentials. In this paper, we propose the multi-agent visual semantic navigation, in which multiple agents collaborate with others to find multiple target objects. It is a challenging task that requires agents to learn reasonable collaboration strategies to perform efficient exploration under the restrictions of communication bandwidth. We develop a hierarchical decision framework based on semantic mapping, scene prior knowledge, and communication mechanism to solve this task. The results of testing experiments in unseen scenes with both known objects and unknown objects illustrate the higher accuracy and efficiency of the proposed model compared with the single-agent model. | 翻訳日:2021-09-21 16:33:57 公開日:2021-09-20 |
# 漸近因果推論 Asymptotic Causal Inference ( http://arxiv.org/abs/2109.09653v1 ) ライセンス: Link先を確認 | Sridhar Mahadevan | (参考訳) 情報理論の枠組みを用いて,変数数が無限に近づいた漸近的体系における因果推論について検討する。
我々は, エッジ密度dでパラメータ化されたすべての有向非巡回グラフ (DAG) の対数的成長速度によって測定される記述複雑性の観点から, 因果モデルの構造エントロピーを定義する。
構造エントロピーは直観的でない予測をもたらす。
すべてのモデルの空間から、d = (0, 1/8) の範囲でDAGをランダムにサンプリングすると、ほぼ確実に2層DAGとなる。
セマンティックエントロピーは、エッジが因果介入によって除去されるエントロピーの減少を定量化する。
セマンティック因果エントロピーは、観察分布と介入分布P'の間のf分割として定義され、エッジのサブセットSが介在して因果的影響を決定する。
kl-divergence, squared hellinger distance, total variation distanceなどf-divergencesの異なる選択に対する意味エントロピーの分解性の比較を行った。
提案手法を応用して, 大規模データセットにおける因果推論の研究に応用し, 1つの変数(例えば, 発電所, オンライン店舗のアイテム)に対して介入を行うが, 解離した変数(電力工場, 買い物客付近の居住者, あるいは買い物客)に対して結果を測定する。
両部設計をk-部分設計に一般化し、d \in (0, 1/2) の任意の値に対して最適なkレベルDAGアーキテクチャを求めるための最適化フレームワークを記述する。
エッジ密度が増加すると、dの非連結区間で相転移が連続し、より深いdagアーキテクチャがdのより大きな値に出現する。
また,k成分設計における平均因果影響の検証に必要な試料数を定量的に評価した。 We investigate causal inference in the asymptotic regime as the number of variables approaches infinity using an information-theoretic framework. We define structural entropy of a causal model in terms of its description complexity measured by the logarithmic growth rate, measured in bits, of all directed acyclic graphs (DAGs), parameterized by the edge density d. Structural entropy yields non-intuitive predictions. If we randomly sample a DAG from the space of all models, in the range d = (0, 1/8), almost surely the model is a two-layer DAG! Semantic entropy quantifies the reduction in entropy where edges are removed by causal intervention. Semantic causal entropy is defined as the f-divergence between the observational distribution and the interventional distribution P', where a subset S of edges are intervened on to determine their causal influence. We compare the decomposability properties of semantic entropy for different choices of f-divergences, including KL-divergence, squared Hellinger distance, and total variation distance. We apply our framework to generalize a recently popular bipartite experimental design for studying causal inference on large datasets, where interventions are carried out on one set of variables (e.g., power plants, items in an online store), but outcomes are measured on a disjoint set of variables (residents near power plants, or shoppers). We generalize bipartite designs to k-partite designs, and describe an optimization framework for finding the optimal k-level DAG architecture for any value of d \in (0, 1/2). As edge density increases, a sequence of phase transitions occur over disjoint intervals of d, with deeper DAG architectures emerging for larger values of d. We also give a quantitative bound on the number of samples needed to reliably test for average causal influence for a k-partite design. | 翻訳日:2021-09-21 16:33:41 公開日:2021-09-20 |
# 複数インスタンスを複数構成で構成する Configuring Multiple Instances with Multi-Configuration ( http://arxiv.org/abs/2109.09696v1 ) ライセンス: Link先を確認 | Alexander Felfernig, Andrei Popescu, Mathias Uta, Viet-Man Le, Seda Polat-Erdeniz, Martin Stettinger, M\"usl\"um Atas, and Thi Ngoc Trang Tran | (参考訳) 構成は人工知能の応用分野として成功している。
ほとんどの場合、構成システムは、単一のユーザまたはユーザグループの好みを満たす1つのソリューション(構成)を設定することに重点を置いています。
本稿では,構成プロセスの結果が構成の集合であるシナリオに焦点を当てた,新しい構成アプローチであるmulti-configurationを導入する。
その例として、個々の学生の個別試験の設定、プロジェクトチームの構成、レビュアーとペーパーの割り当て、観光団体の個別都市旅行を含むホテルルームの割り当てがある。
マルチコンフィグレーションシナリオでは,テスト設定のコンテキストにおける制約満足度問題表現を例示する。
この論文は、今後の作業に対するオープンイシューに関する議論で締めくくられている。 Configuration is a successful application area of Artificial Intelligence. In the majority of the cases, configuration systems focus on configuring one solution (configuration) that satisfies the preferences of a single user or a group of users. In this paper, we introduce a new configuration approach - multi-configuration - that focuses on scenarios where the outcome of a configuration process is a set of configurations. Example applications thereof are the configuration of personalized exams for individual students, the configuration of project teams, reviewer-to-paper assignment, and hotel room assignments including individualized city trips for tourist groups. For multi-configuration scenarios, we exemplify a constraint satisfaction problem representation in the context of configuring exams. The paper is concluded with a discussion of open issues for future work. | 翻訳日:2021-09-21 16:33:08 公開日:2021-09-20 |
# ラベルなしマルチビュー画像を用いた半教師付き高密度キーポイント Semi-supervised Dense Keypointsusing Unlabeled Multiview Images ( http://arxiv.org/abs/2109.09299v1 ) ライセンス: Link先を確認 | Zhixuan Yu, Haozheng Yu, Long Sha, Sujoy Ganguly, Hyun Soo Park | (参考訳) 本稿では,ラベルのないマルチビュー画像を用いて高密度なキーポイント検出器を学習するための,エンドツーエンドの半教師付きフレームワークを提案する。
キーポイントマッピングの逆は解析的に導出も微分もできないため、キーポイントの密接な対応を複数の視点で見つけることが重要な課題である。
この制限は、正確な対応に依存するスパースキーポイント検出に対する既存のマルチビュー監視アプローチの適用を制限する。
この課題に対処するために、2つの望ましい性質を符号化する新しい確率的極性制約を導出する。
1) ソフト対応性: 他の画像の対応する点と一致する点の確率を計測し, 正確な対応の要求を緩和するマッチング性を定義する。
(2) 幾何学的整合性: 連続対応体のすべての点は、総合的にマルチビュー整合性を満たす必要がある。
一致性により重み付き平均のエピポーラ誤差を用いて確率的エピポーラ制約を定式化し、点対点幾何学誤差をフィールド対フィールド幾何学誤差に一般化する。
この一般化により、多数のラベルのないマルチビュー画像を利用することで、幾何的コヒーレントな高密度キーポイント検出モデルの学習が容易になる。
また, 減数化防止のため, あらかじめ訓練したモデルを用いて蒸留による正則化を行う。
最後に,2つのビュー画像間の対応の確率的エピポーラエラーを,アフィニティ行列の構築によって効果的に最小化する,ツインネットワークによるニューラルネットワークアーキテクチャを設計した。
提案手法は,キーポイント精度,マルチビュー整合性,3次元再構成精度など,従来の方法と比較して優れた性能を示す。 This paper presents a new end-to-end semi-supervised framework to learn a dense keypoint detector using unlabeled multiview images. A key challenge lies in finding the exact correspondences between the dense keypoints in multiple views since the inverse of keypoint mapping can be neither analytically derived nor differentiated. This limits applying existing multiview supervision approaches on sparse keypoint detection that rely on the exact correspondences. To address this challenge, we derive a new probabilistic epipolar constraint that encodes the two desired properties. (1) Soft correspondence: we define a matchability, which measures a likelihood of a point matching to the other image's corresponding point, thus relaxing the exact correspondences' requirement. (2) Geometric consistency: every point in the continuous correspondence fields must satisfy the multiview consistency collectively. We formulate a probabilistic epipolar constraint using a weighted average of epipolar errors through the matchability thereby generalizing the point-to-point geometric error to the field-to-field geometric error. This generalization facilitates learning a geometrically coherent dense keypoint detection model by utilizing a large number of unlabeled multiview images. Additionally, to prevent degenerative cases, we employ a distillation-based regularization by using a pretrained model. Finally, we design a new neural network architecture, made of twin networks, that effectively minimizes the probabilistic epipolar errors of all possible correspondences between two view images by building affinity matrices. Our method shows superior performance compared to existing methods, including non-differentiable bootstrapping in terms of keypoint accuracy, multiview consistency, and 3D reconstruction accuracy. | 翻訳日:2021-09-21 16:27:34 公開日:2021-09-20 |
# 効率的な視覚認識のための可変畳み込みフィルタの学習 Learning Versatile Convolution Filters for Efficient Visual Recognition ( http://arxiv.org/abs/2109.09310v1 ) ライセンス: Link先を確認 | Kai Han, Yunhe Wang, Chang Xu, Chunjing Xu, Enhua Wu, Dacheng Tao | (参考訳) 本稿では,様々な視覚認識タスクで広く使用される効率的な畳み込みニューラルネットワークを構築するための汎用フィルタを提案する。
コスト効率のよいハードウェア上で動作する効率的なディープラーニング技術の要求を踏まえ、コンパクトニューラルネットワークを学習するための多くの方法が開発されている。
これらの研究の多くは、フィルタをさまざまな方法でスリム化することを目的としている。
対照的に、付加的な観点からフィルタを扱う。
一連の二次フィルタは、二項マスクの助けを借りて一次フィルタから導出することができる。
これらの二次フィルタはすべて、より多くのストレージを占有することなく一次フィルタを継承するが、計算で展開されると、異なる受容フィールドから抽出された情報を統合することにより、フィルターの能力を大幅に向上させることができる。
空間多目的フィルタに加えて,チャネルの観点から多目的フィルタについても検討する。
二項マスクは直交制約の下で異なる一次フィルタのためにさらにカスタマイズできる。
ネットワークの複雑性に関する理論的解析を行い,効率的な畳み込み方式を提案する。
ベンチマークデータセットとニューラルネットワークの実験結果は、我々の汎用フィルタはオリジナルのフィルタと同等の精度を達成できるが、メモリと計算コストは少ないことを示している。 This paper introduces versatile filters to construct efficient convolutional neural networks that are widely used in various visual recognition tasks. Considering the demands of efficient deep learning techniques running on cost-effective hardware, a number of methods have been developed to learn compact neural networks. Most of these works aim to slim down filters in different ways, \eg,~investigating small, sparse or quantized filters. In contrast, we treat filters from an additive perspective. A series of secondary filters can be derived from a primary filter with the help of binary masks. These secondary filters all inherit in the primary filter without occupying more storage, but once been unfolded in computation they could significantly enhance the capability of the filter by integrating information extracted from different receptive fields. Besides spatial versatile filters, we additionally investigate versatile filters from the channel perspective. Binary masks can be further customized for different primary filters under orthogonal constraints. We conduct theoretical analysis on network complexity and an efficient convolution scheme is introduced. Experimental results on benchmark datasets and neural networks demonstrate that our versatile filters are able to achieve comparable accuracy as that of original filters, but require less memory and computation cost. | 翻訳日:2021-09-21 16:27:07 公開日:2021-09-20 |
# 顔認識におけるロバストな物理世界攻撃 Robust Physical-World Attacks on Face Recognition ( http://arxiv.org/abs/2109.09320v1 ) ライセンス: Link先を確認 | Xin Zheng, Yanbo Fan, Baoyuan Wu, Yong Zhang, Jue Wang, Shirui Pan | (参考訳) 顔認識はディープニューラルネットワーク(DNN)の開発によって大幅に促進され、多くの安全クリティカルなアプリケーションに広く適用されてきた。
しかし、最近の研究では、DNNは敵の例に非常に弱いことが示されており、現実世界の顔認識の安全性に対する深刻な懸念が提起されている。
本研究では,ステッカーによる顔認識に対する物理的攻撃について検討し,その対向的堅牢性をよりよく理解する。
そこで,我々はまず,ステッカーや顔,環境条件など,顔認識を攻撃して直面する複雑な物理環境について詳細に分析する。
そこで我々は,これらの難易度を特にモデル化するために,PadvFaceと呼ばれる新しい堅牢な物理攻撃フレームワークを提案する。
さらに,攻撃複雑性の違いを考慮し,より容易から複雑まで環境変動に徐々に適応する効率的なCAAアルゴリズムを提案する。
最後に,顔認識における物理的攻撃の公平な評価を容易にするための標準テストプロトコルを構築し,提案手法の優れた性能を示すドッジアタックと偽装アタックの両方に関する広範な実験を行った。 Face recognition has been greatly facilitated by the development of deep neural networks (DNNs) and has been widely applied to many safety-critical applications. However, recent studies have shown that DNNs are very vulnerable to adversarial examples, raising serious concerns on the security of real-world face recognition. In this work, we study sticker-based physical attacks on face recognition for better understanding its adversarial robustness. To this end, we first analyze in-depth the complicated physical-world conditions confronted by attacking face recognition, including the different variations of stickers, faces, and environmental conditions. Then, we propose a novel robust physical attack framework, dubbed PadvFace, to model these challenging variations specifically. Furthermore, considering the difference in attack complexity, we propose an efficient Curriculum Adversarial Attack (CAA) algorithm that gradually adapts adversarial stickers to environmental variations from easy to complex. Finally, we construct a standardized testing protocol to facilitate the fair evaluation of physical attacks on face recognition, and extensive experiments on both dodging and impersonation attacks demonstrate the superior performance of the proposed method. | 翻訳日:2021-09-21 16:26:49 公開日:2021-09-20 |
# pc2-pu:効果的なポイントクラウドアップサンプリングのためのパッチ相関と位置補正 PC2-PU: Patch Correlation and Position Correction for Effective Point Cloud Upsampling ( http://arxiv.org/abs/2109.09337v1 ) ライセンス: Link先を確認 | Chen Long, Wenxiao Zhang, Ruihui Li, Hao Wang, Zhen Dong, Bisheng Yang | (参考訳) ポイントクラウドアップサンプリング(point cloud upsampling)は、3dセンサーから取得したスパースポイントセットを密度化し、基礎となる表面のより密な表現を提供する。
しかし、既存の方法は単一のパッチでアップサンプリングを行い、コヒーレンスや表面全体の関係を無視し、アップサンプリング能力を制限する。
また、主にクリーンな入力に重点を置いているため、余分なノイズを伴うシナリオを扱う場合、パフォーマンスが著しく損なわれる。
本稿では,より堅牢で優れた性能を実現するために,より効率的な点群アップサンプリング法を提案する。
この目的のために、我々は2つの徹底的な考察を取り入れた。
一 従来の作業と独立して各小パッチをアップサンプリングする代わりに、隣接パッチを入力とし、パッチ相関ユニットを導入し、それらの間の形状対応を調べて効果的なアップサンプリングを行う。
ii)外乱点と雑音点の効果を緩和する位置補正ユニットを提案する。
距離対応エンコーダを備えており、生成した点を下地表面に近いように動的に調整する。
提案手法は, クリーン入力とノイズ入力の両方において, 従来のアップサンプリング手法より優れていることを示す。 Point cloud upsampling is to densify a sparse point set acquired from 3D sensors, providing a denser representation for underlying surface. However, existing methods perform upsampling on a single patch, ignoring the coherence and relation of the entire surface, thus limiting the upsampled capability. Also, they mainly focus on a clean input, thus the performance is severely compromised when handling scenarios with extra noises. In this paper, we present a novel method for more effective point cloud upsampling, achieving a more robust and improved performance. To this end, we incorporate two thorough considerations. i) Instead of upsampling each small patch independently as previous works, we take adjacent patches as input and introduce a Patch Correlation Unit to explore the shape correspondence between them for effective upsampling. ii)We propose a Position Correction Unit to mitigate the effects of outliers and noisy points. It contains a distance-aware encoder to dynamically adjust the generated points to be close to the underlying surface. Extensive experiments demonstrate that our proposed method surpasses previous upsampling methods on both clean and noisy inputs. | 翻訳日:2021-09-21 16:26:30 公開日:2021-09-20 |
# ElasticFace: ディープ顔認識のためのElastic Margin Loss ElasticFace: Elastic Margin Loss for Deep Face Recognition ( http://arxiv.org/abs/2109.09416v1 ) ライセンス: Link先を確認 | Fadi Boutros, Naser Damer, Florian Kirchbuchner, Arjan Kuijper | (参考訳) 識別的特徴の学習は、ハイパフォーマンスな顔認識モデルを構築する上で重要な役割を果たす。
最近の最先端の顔認識ソリューションでは、クラス内変動を最小化し、クラス間変動を最大化することにより、正規化した超球において、一般的な分類損失関数であるソフトマックス損失に一定のペナルティマージンを組み込むことを提案している。
ArcFace や CosFace のようなMarginal Softmax の損失は、異なるアイデンティティ内の測地線距離が、固定されたマージンで等しく学習できると仮定する。
しかし、このような学習目的は、非一貫性なクラス間およびクラス内変動を持つ実データに対して現実的ではなく、顔認識モデルの識別性と一般化性を制限する可能性がある。
本稿では,クラス分離性の向上に資する弾性マージン損失( Elastic margin loss, ElasticFace)を提案することにより,固定マージン制約を緩和する。
主なアイデアは、トレーニングイテレーション毎に正規分布から引き出されたランダムマージン値を利用することである。
これは、フレキシブルなクラス分離学習のためのスペースを可能にするために、抽出と撤回のマージンを与えることを目的としている。
私たちは、多くのメインストリームベンチマークで、同じ幾何学的変換を用いて、arcfaceとcosfaceの損失よりも弾力的なマージン損失の方が優れていることを示しています。
幅広い視点から見ると、elasticfaceは9つのメインストリームベンチマークのうち6つで最先端の顔認識性能を向上しました。 Learning discriminative face features plays a major role in building high-performing face recognition models. The recent state-of-the-art face recognition solutions proposed to incorporate a fixed penalty margin on commonly used classification loss function, softmax loss, in the normalized hypersphere to increase the discriminative power of face recognition models, by minimizing the intra-class variation and maximizing the inter-class variation. Marginal softmax losses, such as ArcFace and CosFace, assume that the geodesic distance between and within the different identities can be equally learned using a fixed margin. However, such a learning objective is not realistic for real data with inconsistent inter-and intra-class variation, which might limit the discriminative and generalizability of the face recognition model. In this paper, we relax the fixed margin constrain by proposing elastic margin loss (ElasticFace) that allows flexibility in the push for class separability. The main idea is to utilize random margin values drawn from a normal distribution in each training iteration. This aims at giving the margin chances to extract and retract to allow space for flexible class separability learning. We demonstrate the superiority of our elastic margin loss over ArcFace and CosFace losses, using the same geometric transformation, on a large set of mainstream benchmarks. From a wider perspective, our ElasticFace has advanced the state-of-the-art face recognition performance on six out of nine mainstream benchmarks. | 翻訳日:2021-09-21 16:26:10 公開日:2021-09-20 |
# セマンティクスからインスタンスセグメンテーションまで - セマンティクス知識伝達と自己定義による弱教師付きインスタンスセグメンテーション Beyond Semantic to Instance Segmentation: Weakly-Supervised Instance Segmentation via Semantic Knowledge Transfer and Self-Refinement ( http://arxiv.org/abs/2109.09477v1 ) ライセンス: Link先を確認 | Beomyoung Kim, Youngjoon Yoo, Chaeeun Rhee, Junmo Kim | (参考訳) 近年,画像レベルのラベルを用いたクラスワイドなセマンティックセマンティックセグメンテーション(WSSS)が顕著に進歩している。
一方、画像レベルのラベルのみを用いたインスタンスワイドなローカライゼーションは非常に難しいため、弱教師付きインスタンスセグメンテーション(WSIS)はより難しい課題である。
その結果、ほとんどのWSISアプローチは、フルイメージレベルの教師付き設定を逸脱し、高いレベルのラベルで事前トレーニングを必要とする、オフザシェルフ提案技術を活用する。
さらに,セマンティクスドリフト問題に注目し,擬似インスタンスラベルの$i.e.,$欠損インスタンスをバックグラウンドクラスとして分類し,トレーニング中のバックグラウンドとインスタンスの混同を発生させる。
そこで本研究では、2つの革新的なコンポーネントからなる新しいアプローチを提案する。
まず、WSSSの知識をWSISに転送し、既成の提案を不要にすることで、擬似インスタンスラベルを得るための意味的知識伝達を設計する。
第2に,仮想インスタンスラベルを自己教師付きスキームで洗練し,オンライン上での学習に活用し,意味的ドリフト問題を解消する自己定義手法を提案する。
広範な実験により,本手法の有効性が示され,本提案手法を使わずにpascal voc2012の既存成果を上回った。
さらに,提案手法はポイント教師付き設定に容易に適用でき,経済的なアノテーションコストで性能を向上できる。
コードはもうすぐ入手できる。 Recent weakly-supervised semantic segmentation (WSSS) has made remarkable progress due to class-wise localization techniques using image-level labels. Meanwhile, weakly-supervised instance segmentation (WSIS) is a more challenging task because instance-wise localization using only image-level labels is quite difficult. Consequently, most WSIS approaches exploit off-the-shelf proposal technique that requires pre-training with high-level labels, deviating a fully image-level supervised setting. Moreover, we focus on semantic drift problem, $i.e.,$ missing instances in pseudo instance labels are categorized as background class, occurring confusion between background and instance in training. To this end, we propose a novel approach that consists of two innovative components. First, we design a semantic knowledge transfer to obtain pseudo instance labels by transferring the knowledge of WSSS to WSIS while eliminating the need for off-the-shelf proposals. Second, we propose a self-refinement method that refines the pseudo instance labels in a self-supervised scheme and employs them to the training in an online manner while resolving the semantic drift problem. The extensive experiments demonstrate the effectiveness of our approach, and we outperform existing works on PASCAL VOC2012 without any off-the-shelf proposal techniques. Furthermore, our approach can be easily applied to the point-supervised setting, boosting the performance with an economical annotation cost. The code will be available soon. | 翻訳日:2021-09-21 16:25:46 公開日:2021-09-20 |
# R2D:ファインコンテキストのシャドウ検出を支援するためのシャドウ除去学習 R2D: Learning Shadow Removal to Enhance Fine-Context Shadow Detection ( http://arxiv.org/abs/2109.09609v1 ) ライセンス: Link先を確認 | Jeya Maria Jose Valanarasu, Christina Chen, and Vishal M. Patel | (参考訳) 現在のシャドウ検出法は、小さく、不明瞭で、ぼやけたエッジがあるシャドウ領域を検出すると、うまく機能しない。
この問題に対処するため、我々はRestore to Detect (R2D)と呼ばれる新しい手法を提案し、ディープニューラルネットワークが復元(シャドウ除去)のために訓練された場合、シャドウマスクをデライン化するための有意義な特徴を学習することを示した。
シャドウ検出・削除タスクの相補的性質を利用するため,シャドウ除去のための補助ネットワークを訓練し,シャドウ除去ネットワークからシャドウ検出ネットワークへ有意義な特徴を学習・融合するための相補的特徴学習ブロック(cfl)を提案する。
r2d における検出ネットワークについて, 受容場サイズを制約し, 低レベル機能に着目し, 文脈特徴をよりよく学習するファインコンテキストアウェアシャドー検出ネットワーク (fcsd-net) を提案する。
3つの公開陰影検出データセット (ISTD, SBU, UCF) による実験結果から, 提案手法のR2Dは, 他の手法と比較して微妙なコンテキストを検出できる一方で, 陰影検出性能が向上することが示された。 Current shadow detection methods perform poorly when detecting shadow regions that are small, unclear or have blurry edges. To tackle this problem, we propose a new method called Restore to Detect (R2D), where we show that when a deep neural network is trained for restoration (shadow removal), it learns meaningful features to delineate the shadow masks as well. To make use of this complementary nature of shadow detection and removal tasks, we train an auxiliary network for shadow removal and propose a complementary feature learning block (CFL) to learn and fuse meaningful features from shadow removal network to the shadow detection network. For the detection network in R2D, we propose a Fine Context-aware Shadow Detection Network (FCSD-Net) where we constraint the receptive field size and focus on low-level features to learn fine context features better. Experimental results on three public shadow detection datasets (ISTD, SBU and UCF) show that our proposed method R2D improves the shadow detection performance while being able to detect fine context better compared to the other recent methods. | 翻訳日:2021-09-21 16:25:19 公開日:2021-09-20 |
# 深部畳み込みニューラルネットワークを用いたCCTVを用いた現代社会のリアルタイムトラッシュ検出 Real-Time Trash Detection for Modern Societies using CCTV to Identifying Trash by utilizing Deep Convolutional Neural Network ( http://arxiv.org/abs/2109.09611v1 ) ライセンス: Link先を確認 | Syed Muhammad Raza, Syed Muhammad Ghazi Hassan, Syed Ali Hassa, Soo Young Shin | (参考訳) 環境を特に社会におけるゴミ汚染から保護し、ゴミを捨てる赤毛の人々に対して厳格な措置を講じる。
現代の社会が発展し、これらの社会は環境をきれいにするために現代的な解決策を必要としている。
人工知能(AI)の進化は、特にディープラーニングにおいて、CCTVカメラを使用してリアルタイムのゴミ検出を開発する素晴らしい機会を提供する。
このプロジェクトに含まれるのは,畳み込みニューラルネットワーク(CNN)の深層モデルを用いたリアルタイムゴミ検出である。
8種類のマスク、ティッシュペーパー、買い物客、箱、自動車部品、パンパー、ボトル、ジュースボックスを入手するために使用される。
ゴミを検知した後、カメラはその人のビデオを社会に捨てた10秒間記録する。
この論文の難しい部分は、あまりにも多くの時間を要する複雑なカスタムデータセットを作成することです。
データセットは2100以上の画像で構成されている。
CNNモデルは作成、ラベル付け、訓練された。
検出時間精度と平均平均精度(mAP)は両方のモデルのパフォーマンスをベンチマークする。
実験段階において, 改良型CNNモデルのmAP性能と精度は, すべてにおいて優れていた。
このモデルはCCTVカメラでリアルタイムでゴミを検出するために使用される。 To protect the environment from trash pollution, especially in societies, and to take strict action against the red-handed people who throws the trash. As modern societies are developing and these societies need a modern solution to make the environment clean. Artificial intelligence (AI) evolution, especially in Deep Learning, gives an excellent opportunity to develop real-time trash detection using CCTV cameras. The inclusion of this project is real-time trash detection using a deep model of Convolutional Neural Network (CNN). It is used to obtain eight classes mask, tissue papers, shoppers, boxes, automobile parts, pampers, bottles, and juices boxes. After detecting the trash, the camera records the video of that person for ten seconds who throw trash in society. The challenging part of this paper is preparing a complex custom dataset that took too much time. The dataset consists of more than 2100 images. The CNN model was created, labeled, and trained. The detection time accuracy and average mean precision (mAP) benchmark both models' performance. In experimental phase the mAP performance and accuracy of the improved CNN model was superior in all aspects. The model is used on a CCTV camera to detect trash in real-time. | 翻訳日:2021-09-21 16:24:55 公開日:2021-09-20 |
# BabelCalib: 中央カメラの校正のためのユニバーサルアプローチ BabelCalib: A Universal Approach to Calibrating Central Cameras ( http://arxiv.org/abs/2109.09704v1 ) ライセンス: Link先を確認 | Yaroslava Lochman, Kostiantyn Liepieshov, Jianhui Chen, Michal Perdoch, Christopher Zach, James Pritts | (参考訳) 既存のキャリブレーション法は、基礎となる問題の非線形性や、使用済みカメラモデルの全てのパラメータに対する優れた初期値の欠如により、大規模な視野カメラでは時折失敗する。
これは、単純なプロジェクションモデルが最初のステップで仮定されるか、内部パラメータの低い初期推定が事前に定義されているためである。
一般的なカメラキャリブレーションの難しさの多くは、フォワードプロジェクションモデルを使用することにある。
まず,後方投射モデルを用いてパラメータを校正し,対象の前方モデルに対するパラメータを回帰させることにより,これらの課題を副次的に解決する。
これらのステップは、外部検出に対処する堅牢な推定フレームワークに組み込まれる。
実験の結果,本手法は非常に信頼性が高く,テストセットにおける絶対ポーズ推定の下流タスクで測定された最も正確なキャリブレーションパラメータが得られた。
コードはhttps://github.com/ylochman/babelcalibでリリースされる。 Existing calibration methods occasionally fail for large field-of-view cameras due to the non-linearity of the underlying problem and the lack of good initial values for all parameters of the used camera model. This might occur because a simpler projection model is assumed in an initial step, or a poor initial guess for the internal parameters is pre-defined. A lot of the difficulties of general camera calibration lie in the use of a forward projection model. We side-step these challenges by first proposing a solver to calibrate the parameters in terms of a back-projection model and then regress the parameters for a target forward model. These steps are incorporated in a robust estimation framework to cope with outlying detections. Extensive experiments demonstrate that our approach is very reliable and returns the most accurate calibration parameters as measured on the downstream task of absolute pose estimation on test sets. The code is released at https://github.com/ylochman/babelcalib. | 翻訳日:2021-09-21 16:24:39 公開日:2021-09-20 |
# ConvAbuse: 会話型AIにおけるNuanced Abuse検出のためのデータ、分析、ベンチマーク ConvAbuse: Data, Analysis, and Benchmarks for Nuanced Abuse Detection in Conversational AI ( http://arxiv.org/abs/2109.09483v1 ) ライセンス: Link先を確認 | Amanda Cercas Curry, Gavin Abercrombie, Verena Rieser | (参考訳) 本稿では、オープンドメインのソーシャルボット、ルールベースのチャットボット、タスクベースのシステムという3つの会話型AIシステムを対象とした、虐待的言語に関する最初の英語コーパスについて紹介する。
タスクの複雑さを考慮するため、私たちのConvAIデータセットは、複数のエキスパートアノテータからのビューだけでなく、きめ細かい乱用の概念を反映する、より“ニュアンス”なアプローチを採用しています。
虐待の分布は他の一般的なデータセットとは大きく異なり、これらのシステムの仮想的なペルソナに対するより性的な攻撃性が強いことが分かりました。
最後に、このデータに対して既存のモデルをベンチマーキングした結果を報告する。
当然のことながら、F1スコアが90%を下回るほど改善の余地がある。 We present the first English corpus study on abusive language towards three conversational AI systems gathered "in the wild": an open-domain social bot, a rule-based chatbot, and a task-based system. To account for the complexity of the task, we take a more `nuanced' approach where our ConvAI dataset reflects fine-grained notions of abuse, as well as views from multiple expert annotators. We find that the distribution of abuse is vastly different compared to other commonly used datasets, with more sexually tinted aggression towards the virtual persona of these systems. Finally, we report results from bench-marking existing models against this data. Unsurprisingly, we find that there is substantial room for improvement with F1 scores below 90%. | 翻訳日:2021-09-21 16:22:44 公開日:2021-09-20 |
# スコットランドにおける参加型予算化への混合メソジカルエスノグラフィーアプローチ A mixed-methods ethnographic approach to participatory budgeting in Scotland ( http://arxiv.org/abs/2109.09517v1 ) ライセンス: Link先を確認 | Jonathan Davies, M. Arana-Catania, Rob Procter, F.A. Van Lier, Yulan He | (参考訳) 参加予算(pb)はコミュニティ主導による助成金の形で既にスコットランドで確立されているが、近年では草の根活動から主流のプロセスや組み込みの「政治手段」へと転換している。
このターンの不可欠な部分は、市民参加の主要な手段としてconsul digital platformを使用することである。
この研究論文は、スコットランドを構成する32の地方自治体が、pbプロセスに市民を関与させるためにconsulプラットフォームをどのように活用するか、そして市民の貢献をどのように理解するかについて検討している。
特に、自然言語処理(NLP)ツールが市民のエンゲージメントと、市民の貢献が分析され、政策に変換されるプロセスの両方を促進できるかどうかに焦点を当てる。 Participatory budgeting (PB) is already well established in Scotland in the form of community led grant-making yet has recently transformed from a grass-roots activity to a mainstream process or embedded 'policy instrument'. An integral part of this turn is the use of the Consul digital platform as the primary means of citizen participation. Using a mixed method approach, this ongoing research paper explores how each of the 32 local authorities that make up Scotland utilise the Consul platform to engage their citizens in the PB process and how they then make sense of citizens' contributions. In particular, we focus on whether natural language processing (NLP) tools can facilitate both citizen engagement, and the processes by which citizens' contributions are analysed and translated into policies. | 翻訳日:2021-09-21 16:22:30 公開日:2021-09-20 |
# 特徴相関アグリゲーション:より良いグラフニューラルネットワークへの道のり Feature Correlation Aggregation: on the Path to Better Graph Neural Networks ( http://arxiv.org/abs/2109.09300v1 ) ライセンス: Link先を確認 | Jieming Zhou, Tong Zhang, Pengfei Fang, Lars Petersson, Mehrtash Harandi | (参考訳) グラフニューラルネットワーク(GNN)が導入される以前、不規則なデータ、特にグラフのモデリングと解析は、ディープラーニングのアキレスのヒールであると考えられていた。
GNNの中核的な概念は、中央ノードとその隣人の表現を再帰的に集約することで表現を見つけることである。
GNNのコアコンセプトは、中央ノードとその隣人の表現を再帰的に集約することで表現を見つけることであり、その成功は多くのGNNの設計によって実証されている。
しかし、それらのほとんどは、ノードとその隣人の間の一階情報の使用のみに焦点を当てている。
本稿では,GNNのコア操作,すなわちFunction cOrrelation aGgregation (FOG)モジュールに対して,パイプライン内のノードとその隣人の特徴相関から第2次情報を学習するフラストレーション的にシンプルで無作為な修正を通じて,中央ノード置換変分関数を導入する。
既存のGNNにFOGを追加することで、この2次情報は、幅広いベンチマークで生成された特徴を補うことを実証的に検証する。
モデルのパフォーマンスの具体的向上が観察され、モデルが以前の最先端の結果をかなりマージンで上回り、パラメータを少なくする。
(例えば、グラフ畳み込みネットワークを用いた実世界の分子データセットの33.116%の改善)。 Prior to the introduction of Graph Neural Networks (GNNs), modeling and analyzing irregular data, particularly graphs, was thought to be the Achilles' heel of deep learning. The core concept of GNNs is to find a representation by recursively aggregating the representations of a central node and those of its neighbors. The core concept of GNNs is to find a representation by recursively aggregating the representations of a central node and those of its neighbor, and its success has been demonstrated by many GNNs' designs. However, most of them only focus on using the first-order information between a node and its neighbors. In this paper, we introduce a central node permutation variant function through a frustratingly simple and innocent-looking modification to the core operation of a GNN, namely the Feature cOrrelation aGgregation (FOG) module which learns the second-order information from feature correlation between a node and its neighbors in the pipeline. By adding FOG into existing variants of GNNs, we empirically verify this second-order information complements the features generated by original GNNs across a broad set of benchmarks. A tangible boost in performance of the model is observed where the model surpasses previous state-of-the-art results by a significant margin while employing fewer parameters. (e.g., 33.116% improvement on a real-world molecular dataset using graph convolutional networks). | 翻訳日:2021-09-21 16:18:11 公開日:2021-09-20 |
# 限られたデータを持つ組織の学習支援 Assisted Learning for Organizations with Limited Data ( http://arxiv.org/abs/2109.09307v1 ) ライセンス: Link先を確認 | Cheng Chen, Jiaying Zhou, Jie Ding, Yi Zhou | (参考訳) 組織レベルの学習者に対して,限定的かつ不均衡なデータを用いて学習性能の向上を支援する学習フレームワークを開発した。
特に、組織レベルの学習者は、通常は十分な計算リソースを持っているが、厳格なコラボレーションポリシーと情報プライバシの対象となる。
限られた不均衡なデータはしばしば偏りのある推論と最適でない意思決定を引き起こす。
私たちの学習フレームワークでは、組織学習者がサービス提供者から支援サービスを購入し、いくつかの支援ラウンドでモデルパフォーマンスの向上を目標としています。
深層学習支援と強化学習支援のための効果的な確率的学習アルゴリズムを開発した。
勾配やモデルを頻繁に送信する必要のある既存の分散アルゴリズムとは異なり、このフレームワークでは、学習者は時々サービスプロバイダと情報を共有するだけで、すべてのデータが集中しているかのように、oracleに近いモデルを達成できます。 We develop an assisted learning framework for assisting organization-level learners to improve their learning performance with limited and imbalanced data. In particular, learners at the organization level usually have sufficient computation resource, but are subject to stringent collaboration policy and information privacy. Their limited imbalanced data often cause biased inference and sub-optimal decision-making. In our assisted learning framework, an organizational learner purchases assistance service from a service provider and aims to enhance its model performance within a few assistance rounds. We develop effective stochastic training algorithms for assisted deep learning and assisted reinforcement learning. Different from existing distributed algorithms that need to frequently transmit gradients or models, our framework allows the learner to only occasionally share information with the service provider, and still achieve a near-oracle model as if all the data were centralized. | 翻訳日:2021-09-21 16:17:49 公開日:2021-09-20 |
# 21世紀における世界発展指標と疾病発生との関連性の検討 : 事例研究 Investigating the Relationship Between World Development Indicators and the Occurrence of Disease Outbreaks in the 21st Century: A Case Study ( http://arxiv.org/abs/2109.09314v1 ) ライセンス: Link先を確認 | Aboli Marathe, Harsh Sakhrani, Saloni Parekh | (参考訳) 疫病の流行に弱い社会経済セクターのタイムリーな識別は、疫病対策に関心のある市民当局や医療従事者にとって重要な課題である。
この問題は伝統的に、小規模の医療データでアベラネスを研究することで解決された。
本稿では,2000~2019年の世界的歴史的データを用いて,データ駆動モデルを用いて世界開発指標の動向と疫病の発生との関係を把握し,古典的な分類問題として扱う。
CARTをベースとした特徴選択は、病気の発生によって影響される共変種を決定するために、不規則な方法で採用された。
その結果、異なる分類アルゴリズムの包括的分析が行われ、疾患発生の発生と様々な発達指標の規模との関係が示唆される。 The timely identification of socio-economic sectors vulnerable to a disease outbreak presents an important challenge to the civic authorities and healthcare workers interested in outbreak mitigation measures. This problem was traditionally solved by studying the aberrances in small-scale healthcare data. In this paper, we leverage data driven models to determine the relationship between the trends of World Development Indicators and occurrence of disease outbreaks using worldwide historical data from 2000-2019, and treat it as a classic supervised classification problem. CART based feature selection was employed in an unorthodox fashion to determine the covariates getting affected by the disease outbreak, thus giving the most vulnerable sectors. The result involves a comprehensive analysis of different classification algorithms and is indicative of the relationship between the disease outbreak occurrence and the magnitudes of various development indicators. | 翻訳日:2021-09-21 16:17:36 公開日:2021-09-20 |
# A2Log: 注意深い拡張ログ異常検出 A2Log: Attentive Augmented Log Anomaly Detection ( http://arxiv.org/abs/2109.09537v1 ) ライセンス: Link先を確認 | Thorsten Wittkopp, Alexander Acker, Sasho Nedelkoski, Jasmin Bogatinovski, Dominik Scheinert, Wu Fan and Odej Kao | (参考訳) 異常検出は、ITサービスの信頼性とサービス性にとってますます重要になる。
ログラインはITサービスの実行中にイベントを記録するため、診断の主要なソースとなる。
したがって、教師なしのメソッドはトレーニング時にすべての異常を知ることができるわけではないため、大きなメリットがある。
既存の教師なし手法では、異常検出タスクに必要な適切な決定境界を得るために、異常の例が必要となる。
この要件は現実的な制限をもたらす。
そこで我々は,異常判定と異常判定の2段階からなる教師なし異常検出手法であるA2Logを開発した。
まず,自己注意型ニューラルネットワークを用いて各ログメッセージのスコアリングを行う。
第2に、利用可能な正規トレーニングデータのデータ拡張に基づいて、決定境界を設定する。
この方法は3つの公開データセットと1つの業界データセットで評価される。
我々のアプローチは既存の手法よりも優れています。
さらに,利用可能な異常例を用いて最適決定境界を設定し,強いベースラインを得る。
我々は,異常な例を使わずに決定境界を決定する手法が,強力なベースラインのスコアに到達できることを実証する。 Anomaly detection becomes increasingly important for the dependability and serviceability of IT services. As log lines record events during the execution of IT services, they are a primary source for diagnostics. Thereby, unsupervised methods provide a significant benefit since not all anomalies can be known at training time. Existing unsupervised methods need anomaly examples to obtain a suitable decision boundary required for the anomaly detection task. This requirement poses practical limitations. Therefore, we develop A2Log, which is an unsupervised anomaly detection method consisting of two steps: Anomaly scoring and anomaly decision. First, we utilize a self-attention neural network to perform the scoring for each log message. Second, we set the decision boundary based on data augmentation of the available normal training data. The method is evaluated on three publicly available datasets and one industry dataset. We show that our approach outperforms existing methods. Furthermore, we utilize available anomaly examples to set optimal decision boundaries to acquire strong baselines. We show that our approach, which determines decision boundaries without utilizing anomaly examples, can reach scores of the strong baselines. | 翻訳日:2021-09-21 16:17:00 公開日:2021-09-20 |
# 再現性課題2021におけるニューラルネットワークプルーニングの巻き戻しと微調整の比較 Comparing Rewinding and Fine-tuning in Neural Network Pruning for Reproducibility Challenge 2021 ( http://arxiv.org/abs/2109.09670v1 ) ライセンス: Link先を確認 | Szymon Mikler (Uniwersytet Wroc{\l}awski) | (参考訳) 再現性のスコープ: arXiv:2003.02389のニューラルネットワークにおける再巻き戻しと微調整の比較を再現する。
この研究では、プルーニング後にニューラルネットワークを再トレーニングするための3つの異なるアプローチを比較した。
1)微調整。
2 arXiv:1803.03635及び
3)Lottery Ticket仮説に基づく学習率の巻き戻しを含む,新たなオリジナル手法。
我々はこれら3つの手法の成果を再現するが,本手法は新たに提案され,他の手法に対する普遍的な代替手段として記述されているため,そのアプローチの検証,学習率の逆転に重点を置いている。
我々はCIFAR10をほとんどの複製に使用し、CIFAR100のさらなる実験を行った。
また、テスト対象のネットワークアーキテクチャのリストを拡張して、Wide ResNetsを含むようにしました。
新たな実験により,大規模なアーキテクチャにおいて,学習率の巻き戻しの限界を見出すことができた。
結果: 著者が報告した正確な結果を, 当初報告したすべてのシナリオで再現することができた。
しかし、より大きなワイド残留ネットワークにおける拡張結果は、新しく提案された学習率の巻き戻しの限界を実証している。
しかし、この論文の一般的な結論はまだ保たれており、実際に再現された。 Scope of reproducibility: We are reproducing Comparing Rewinding and Fine-tuning in Neural Networks from arXiv:2003.02389. In this work the authors compare three different approaches to retraining neural networks after pruning: 1) fine-tuning, 2) rewinding weights as in arXiv:1803.03635 and 3) a new, original method involving learning rate rewinding, building upon Lottery Ticket Hypothesis. We reproduce the results of all three approaches, but we focus on verifying their approach, learning rate rewinding, since it is newly proposed and is described as a universal alternative to other methods. We used CIFAR10 for most reproductions along with additional experiments on the larger CIFAR100, which extends the results originally provided by the authors. We have also extended the list of tested network architectures to include Wide ResNets. The new experiments led us to discover the limitations of learning rate rewinding which can worsen pruning results on large architectures. Results: We were able to reproduce the exact results reported by the authors in all originally reported scenarios. However, extended results on larger Wide Residual Networks have demonstrated the limitations of the newly proposed learning rate rewinding -- we observed a previously unreported accuracy degradation for low sparsity ranges. Nevertheless, the general conclusion of the paper still holds and was indeed reproduced. | 翻訳日:2021-09-21 16:16:46 公開日:2021-09-20 |
# 新しいオンラインインクリメンタルラーニング侵入防止システム A Novel Online Incremental Learning Intrusion Prevention System ( http://arxiv.org/abs/2109.09530v1 ) ライセンス: Link先を確認 | Christos Constantinides, Stavros Shiaeles, Bogdan Ghita, Nicholas Kolokotronis | (参考訳) 攻撃ベクトルは侵入検知システムを避けるために継続的に進化している。
iot(internet of things, モノのインターネット)環境は、itエコシステムにとって有益だが、ハードウェアに固有の制限があり、包括的セキュリティ対策を実装し、脆弱性攻撃への露出を増加させる能力が制限されている。
本稿では,自己組織型インクリメンタルニューラルネットワークとサポートベクトルマシンを併用したネットワーク侵入防止システムを提案する。
提案システムは,その構造上,シグネチャやルールに依存しないセキュリティソリューションを提供するとともに,既知の攻撃や未知の攻撃を高精度にリアルタイムに軽減することができる。
NSL KDDデータセットによる実験結果に基づいて、提案フレームワークはオンライン更新インクリメンタルラーニングを実現し、効率的でスケーラブルな産業アプリケーションに適している。 Attack vectors are continuously evolving in order to evade Intrusion Detection systems. Internet of Things (IoT) environments, while beneficial for the IT ecosystem, suffer from inherent hardware limitations, which restrict their ability to implement comprehensive security measures and increase their exposure to vulnerability attacks. This paper proposes a novel Network Intrusion Prevention System that utilises a SelfOrganizing Incremental Neural Network along with a Support Vector Machine. Due to its structure, the proposed system provides a security solution that does not rely on signatures or rules and is capable to mitigate known and unknown attacks in real-time with high accuracy. Based on our experimental results with the NSL KDD dataset, the proposed framework can achieve on-line updated incremental learning, making it suitable for efficient and scalable industrial applications. | 翻訳日:2021-09-21 16:14:49 公開日:2021-09-20 |
# デジタル法医学検査者のための能動的悪意あるソフトウェア識別手法 A proactive malicious software identification approach for digital forensic examiners ( http://arxiv.org/abs/2109.09567v1 ) ライセンス: Link先を確認 | Muhammad Ali, Stavros Shiaeles, Nathan Clarke, Dimitrios Kontogeorgis | (参考訳) デジタル捜査員は、コンピュータが属する人物に責任を示すような事件にしばしば関与するが、徹底的な検査の結果、マルウェアが原因であることが証明され、貴重な時間を失うことになる。
アンチウイルス(AV)ソフトウェアは、調査員がマルウェアの存在を特定するのを助けることができるが、AVツールに存在するゼロデイ攻撃やエラーの増加は、頼りにできないことだ。
本研究の目的は、悪意あるソフトウェアとOSアーティファクトの関係を判定し、関連づけるため、様々なWindowsオペレーティングシステムバージョンにおけるマルウェアの挙動を調べることである。
これにより、研究者は新しいマルウェアの存在を識別し、さらなる調査の出発点を提供することができる。 Digital investigators often get involved with cases, which seemingly point the responsibility to the person to which the computer belongs, but after a thorough examination malware is proven to be the cause, causing loss of precious time. Whilst Anti-Virus (AV) software can assist the investigator in identifying the presence of malware, with the increase in zero-day attacks and errors that exist in AV tools, this is something that cannot be relied upon. The aim of this paper is to investigate the behaviour of malware upon various Windows operating system versions in order to determine and correlate the relationship between malicious software and OS artifacts. This will enable an investigator to be more efficient in identifying the presence of new malware and provide a starting point for further investigation. | 翻訳日:2021-09-21 16:14:35 公開日:2021-09-20 |
# ai解釈の実証的転換に関する批判的・倫理的視点 Some Critical and Ethical Perspectives on the Empirical Turn of AI Interpretability ( http://arxiv.org/abs/2109.09586v1 ) ライセンス: Link先を確認 | Jean-Marie John-Mathews (MMS, LITEM) | (参考訳) 人工知能(AI)開発で現在直面している2つの基本的な問題、すなわち倫理の欠如とAI決定の解釈可能性について考察する。
解釈可能なAI決定はAIの倫理に対処するのに役立つか?
ランダム化研究を用いて, 経験的およびリベラルな説明の転換が, 低い否定力でai説明を選択する傾向があることを実験的に示した。
特定の条件下では、解釈可能性ツールは必ずしも手段ではなく、パラドックス的に、倫理的AIの生成に障害を与える。
また、AI説明の否定力は、その説明が行われる状況、例えば、その説明を意図した人物の性別や教育水準に大きく依存していることも示している。
それゆえ、aiの倫理ツールは柔軟すぎることがあり、説明の自由的生産による自己規制は倫理的な問題に対処するのに十分ではないように思える。
次に、倫理的AIの今後の発展のためのシナリオとして、より外部規制やAI説明の自由化の2つを提案します。
これら2つの反対の経路は、倫理的AIの開発において大きな役割を果たす。 We consider two fundamental and related issues currently faced by Artificial Intelligence (AI) development: the lack of ethics and interpretability of AI decisions. Can interpretable AI decisions help to address ethics in AI? Using a randomized study, we experimentally show that the empirical and liberal turn of the production of explanations tends to select AI explanations with a low denunciatory power. Under certain conditions, interpretability tools are therefore not means but, paradoxically, obstacles to the production of ethical AI since they can give the illusion of being sensitive to ethical incidents. We also show that the denunciatory power of AI explanations is highly dependent on the context in which the explanation takes place, such as the gender or education level of the person to whom the explication is intended for. AI ethics tools are therefore sometimes too flexible and self-regulation through the liberal production of explanations do not seem to be enough to address ethical issues. We then propose two scenarios for the future development of ethical AI: more external regulation or more liberalization of AI explanations. These two opposite paths will play a major role on the future development of ethical AI. | 翻訳日:2021-09-21 16:14:23 公開日:2021-09-20 |
# ガウスモーメントに基づく分子・物質の高速かつサンプル効率の高い原子間ニューラルネットワークポテンシャル Fast and Sample-Efficient Interatomic Neural Network Potentials for Molecules and Materials Based on Gaussian Moments ( http://arxiv.org/abs/2109.09569v1 ) ライセンス: Link先を確認 | Viktor Zaverkin and David Holzm\"uller and Ingo Steinwart and Johannes K\"astner | (参考訳) ニューラルネットワーク(NN)は、原子間ポテンシャルを構築し、ほぼ初期精度で効率的な大規模原子論シミュレーションを実現するために最も頻繁に使用される機械学習手法の1つである。
しかし、分子動力学シミュレーションなどの前提条件であるエネルギーと力に関するnnsの同時訓練が要求される。
本稿では,従来のGM-NNモデル[V]に基づく改良NNアーキテクチャを提案する。
ザバーキンとJ・K・アスターナー、J・チェム。
理論計算。
16,5410-5421 (2020)]では予測精度が向上し,トレーニング時間が大幅に短縮された。
さらに、ガウスモーメントに基づく原子間ポテンシャルを周期系に適用し、各モデルの全体的な優れた伝達性と堅牢性を示す。
改良された方法論による高速なトレーニングは、アクティブラーニングやラーニング・オン・ザ・フライのようなトレーニングの多いワークフローのための前提条件である。 Artificial neural networks (NNs) are one of the most frequently used machine learning approaches to construct interatomic potentials and enable efficient large-scale atomistic simulations with almost ab initio accuracy. However, the simultaneous training of NNs on energies and forces, which are a prerequisite for, e.g., molecular dynamics simulations, can be demanding. In this work, we present an improved NN architecture based on the previous GM-NN model [V. Zaverkin and J. K\"astner, J. Chem. Theory Comput. 16, 5410-5421 (2020)], which shows an improved prediction accuracy and considerably reduced training times. Moreover, we extend the applicability of Gaussian moment-based interatomic potentials to periodic systems and demonstrate the overall excellent transferability and robustness of the respective models. The fast training by the improved methodology is a pre-requisite for training-heavy workflows such as active learning or learning-on-the-fly. | 翻訳日:2021-09-21 16:14:06 公開日:2021-09-20 |
# Androidのマルウェア検出におけるデータセットシフトと逆例検出の予測不確かさを活用できるか? Can We Leverage Predictive Uncertainty to Detect Dataset Shift and Adversarial Examples in Android Malware Detection? ( http://arxiv.org/abs/2109.09654v1 ) ライセンス: Link先を確認 | Deqiang Li and Tian Qiu and Shuo Chen and Qianmu Li and Shouhuai Xu | (参考訳) 悪意のあるソフトウェア(マルウェア)を検出するためのディープラーニングアプローチは有望だが、データセットシフトの問題、すなわち、サンプルとテストセットに関連するラベルの共分散が、トレーニングセットのそれとは異なる、という課題にまだ取り組んでいない。
この問題は、ユーザの注意を払わずにディープラーニングモデルの劣化を引き起こす。
問題を緩和するためには、分類器が与えられた例にラベルを予測させるだけでなく、予測されたラベルにその不確実性(または自信)を示すようにし、ディフェンダーが予測されたラベルを使用するかどうかを判断できる。
直感的で明らかに重要であるが、このアプローチの能力と制限はよく理解されていない。
本稿では,マルウェア検出装置の予測不確実性の質を評価するための実証的研究を行う。
具体的には、24のandroidマルウェア検出器を設計、構築し、データ不均衡を扱う3つのメトリクスを含む9つのメトリクスで不確実性を定量化します。
私たちの主な発見は
(i) 予測的不確実性は、データセットシフトが存在する場合において、信頼できるマルウェア検出を達成するのに役立つが、敵対的回避攻撃には対処できない。
(ii)近似ベイズ法では,データセットシフトに対処するマルウェア検出器の校正と一般化が期待されているが,敵対的回避攻撃には対処できない。
(iii)逆境回避攻撃は校正手法を役に立たず、予測された逆境例のラベルに関連する不確かさを定量化する(すなわち、予測的不確実性を用いて逆境例を検出することは効果的ではない)。 The deep learning approach to detecting malicious software (malware) is promising but has yet to tackle the problem of dataset shift, namely that the joint distribution of examples and their labels associated with the test set is different from that of the training set. This problem causes the degradation of deep learning models without users' notice. In order to alleviate the problem, one approach is to let a classifier not only predict the label on a given example but also present its uncertainty (or confidence) on the predicted label, whereby a defender can decide whether to use the predicted label or not. While intuitive and clearly important, the capabilities and limitations of this approach have not been well understood. In this paper, we conduct an empirical study to evaluate the quality of predictive uncertainties of malware detectors. Specifically, we re-design and build 24 Android malware detectors (by transforming four off-the-shelf detectors with six calibration methods) and quantify their uncertainties with nine metrics, including three metrics dealing with data imbalance. Our main findings are: (i) predictive uncertainty indeed helps achieve reliable malware detection in the presence of dataset shift, but cannot cope with adversarial evasion attacks; (ii) approximate Bayesian methods are promising to calibrate and generalize malware detectors to deal with dataset shift, but cannot cope with adversarial evasion attacks; (iii) adversarial evasion attacks can render calibration methods useless, and it is an open problem to quantify the uncertainty associated with the predicted labels of adversarial examples (i.e., it is not effective to use predictive uncertainty to detect adversarial examples). | 翻訳日:2021-09-21 16:13:52 公開日:2021-09-20 |
# 深層学習に基づく組織弾性評価のための新しい光針プローブ A novel optical needle probe for deep learning-based tissue elasticity characterization ( http://arxiv.org/abs/2109.09362v1 ) ライセンス: Link先を確認 | Robin Mieling and Johanna Sprenger and Sarah Latus and Lennart Bargsten and Alexander Schlaefer | (参考訳) 悪性腫瘍と良性腫瘍の区別は癌の治療に必須である。
組織の弾力性は、必要な組織の特徴の指標として使用できる。
光コヒーレンスエラストグラフィー(OCE)プローブは針挿入のために提案されているが、今のところ必要な負荷感知能力は欠如している。
本稿では,光コヒーレンス断層撮影(oct)と針先端での負荷センシングを同時に行うオース針プローブを提案する。
ゼラチン濃度の異なるゼラチンファントムのインデンテーション実験における針プローブの適用を実証した。
さらに,取得したoctデータからエンドツーエンドのサンプルキャラクタリゼーションを行うための2つの深層学習手法を実装した。
平均誤差が1.21 pm 0.91$ wt\%の未確認試料中のゼラチン試料濃度の推定を行った。
両方の評価されたディープラーニングモデルは、精度と推論時間に関して異なる利点を持つサンプル特性を提供することに成功した。 The distinction between malignant and benign tumors is essential to the treatment of cancer. The tissue's elasticity can be used as an indicator for the required tissue characterization. Optical coherence elastography (OCE) probes have been proposed for needle insertions but have so far lacked the necessary load sensing capabilities. We present a novel OCE needle probe that provides simultaneous optical coherence tomography (OCT) imaging and load sensing at the needle tip. We demonstrate the application of the needle probe in indentation experiments on gelatin phantoms with varying gelatin concentrations. We further implement two deep learning methods for the end-to-end sample characterization from the acquired OCT data. We report the estimation of gelatin sample concentrations in unseen samples with a mean error of $1.21 \pm 0.91$ wt\%. Both evaluated deep learning models successfully provide sample characterization with different advantages regarding the accuracy and inference time. | 翻訳日:2021-09-21 16:10:18 公開日:2021-09-20 |
# パンシャープ化のための教師なしサイクル整合生成逆ネットワーク Unsupervised Cycle-consistent Generative Adversarial Networks for Pan-sharpening ( http://arxiv.org/abs/2109.09395v1 ) ライセンス: Link先を確認 | Huanyu Zhou, Qingjie Liu, and Yunhong Wang | (参考訳) 近年, 深層学習に基づくパン・シャーペニングが研究の関心を集めている。
既存の手法のほとんどは、マルチスペクトル(MS)とパンクロマティック(PAN)の画像をダウンサンプリングする教師あり学習フレームワークに該当し、元のMSイメージを基底真理とみなしてトレーニングサンプルを形成する。
印象的な性能は達成できたが、スケールギャップのため、元のフルスケールイメージへの一般化が困難であり、実用性に欠ける。
本稿では,真理を欠いた実物大画像から学習し,この問題を解消する,教師なし生成型敵フレームワークを提案する。
PANおよびMS画像から2ストリーム生成器を用いてモダリティ特異的特徴を抽出し,特徴領域での融合を行い,パンシャープ画像の再構成を行う。
さらに,サイクル整合性および対向性に基づく新たなハイブリッド損失を導入し,性能向上を図る。
最新技術との比較実験はgaofen-2とworldview-3の衛星で行われている。
その結果,本手法は実画像のパンシャーピング性能を大幅に向上させることができることがわかった。
コードとデータセットは公開される予定だ。 Deep learning based pan-sharpening has received significant research interest in recent years. Most of existing methods fall into the supervised learning framework in which they down-sample the multi-spectral (MS) and panchromatic (PAN) images and regard the original MS images as ground truths to form training samples. Although impressive performance could be achieved, they have difficulties generalizing to the original full-scale images due to the scale gap, which makes them lack of practicability. In this paper, we propose an unsupervised generative adversarial framework that learns from the full-scale images without the ground truths to alleviate this problem. We extract the modality-specific features from the PAN and MS images with a two-stream generator, perform fusion in the feature domain, and then reconstruct the pan-sharpened images. Furthermore, we introduce a novel hybrid loss based on the cycle-consistency and adversarial scheme to improve the performance. Comparison experiments with the state-of-the-art methods are conducted on GaoFen-2 and WorldView-3 satellites. Results demonstrate that the proposed method can greatly improve the pan-sharpening performance on the full-scale images, which clearly show its practical value. Codes and datasets will be made publicly available. | 翻訳日:2021-09-21 16:10:05 公開日:2021-09-20 |
# edgeflow: エッジガイドフローによる実用的なインタラクティブセグメンテーションの実現 EdgeFlow: Achieving Practical Interactive Segmentation with Edge-Guided Flow ( http://arxiv.org/abs/2109.09406v1 ) ライセンス: Link先を確認 | Yuying Hao, Yi Liu, Zewu Wu, Lin Han, Yizhou Chen, Guowei Chen, Lutao Chu, Shiyu Tang, Zhiliang Yu, Zeyu Chen, Baohua Lai | (参考訳) 高品質なトレーニングデータは、イメージセグメンテーションタスクにおいて重要な役割を果たす。
通常、ピクセルレベルのアノテーションは大量のトレーニングデータに対して高価で手間がかかり、時間がかかる。
ラベルのコストを低減し,セグメンテーションの質を向上させるため,対話的なセグメンテーション手法が提案されている。
しかし、それらの性能は、速度と精度の観点から、実用的なセグメンテーションタスクの要件を満たしていない。
本研究では,エッジ誘導フローを用いたユーザクリックの対話的情報を完全に活用するアーキテクチャであるEdgeFlowを提案する。
提案手法は,後処理や反復最適化を行うことなく,最先端の性能を実現する。
ベンチマークに関する総合的な実験も本手法の優越性を示している。
また,提案手法を用いて,実用的なデータアノテーションタスクのための対話型セグメンテーションツールを開発した。
ソースコードとツールはhttps://github.com/paddlepaddle/paddlesegで評価できる。 High-quality training data play a key role in image segmentation tasks. Usually, pixel-level annotations are expensive, laborious and time-consuming for the large volume of training data. To reduce labelling cost and improve segmentation quality, interactive segmentation methods have been proposed, which provide the result with just a few clicks. However, their performance does not meet the requirements of practical segmentation tasks in terms of speed and accuracy. In this work, we propose EdgeFlow, a novel architecture that fully utilizes interactive information of user clicks with edge-guided flow. Our method achieves state-of-the-art performance without any post-processing or iterative optimization scheme. Comprehensive experiments on benchmarks also demonstrate the superiority of our method. In addition, with the proposed method, we develop an efficient interactive segmentation tool for practical data annotation tasks. The source code and tool is avaliable at https://github.com/PaddlePaddle/PaddleSeg. | 翻訳日:2021-09-21 16:09:46 公開日:2021-09-20 |
# AIによる臨床用シネCMRの根尖および基底切片のセグメンテーションの改善 Improved AI-based segmentation of apical and basal slices from clinical cine CMR ( http://arxiv.org/abs/2109.09421v1 ) ライセンス: Link先を確認 | Jorge Mariscal-Harana, Naomi Kifle, Reza Razavi, Andrew P. King, Bram Ruijsink, Esther Puyol-Ant\'on | (参考訳) 短軸磁気共鳴(CMR)セグメンテーションのための現在の人工知能(AI)アルゴリズムは、心臓の中央に位置するスライスに対して人間のパフォーマンスを実現する。
しかし、しばしば見過ごされる事実は、基底部分と頂部部分の分割がより難しいことである。
手動分析では、基底部分の差異が、ヒトのオブザーバ間変動における不一致の主な原因の1つとして報告されている。
本研究では,aiアルゴリズムのセグメンテーション基礎とapicalスライスにおける性能と,セグメンテーションを改善するための設計戦略について検討する。
我々は,NHS病院2施設(n=4,228)から得られた臨床CMRの大規模なデータセットを用いて,すべてのモデルを訓練し,ACDC(n=100)とM&Ms(n=321)の2つの外部データセットと比較した。
手動セグメンテーションを基準として、CMRスライスを非心臓、ベース、ミドル、頂点の4つの領域の1つに割り当てた。
nnU-Netフレームワークをベースラインとして,(1)非一様バッチサンプリングにより,トレーニング中に異なる領域の画像の出現頻度を選択できる,(2)心臓領域分類モデルに次いで,3つの(ベース,中間,頂点)領域別セグメンテーションモデルを用いて,心臓領域間のセグメンテーション性能ギャップを低減する方法を検討した。
分類とセグメンテーションのアプローチは、すべてのデータセットのパフォーマンスギャップを減らすのに最適であることを示す。
また,分類性能の向上により,セグメント化タスクの性能が著しく向上することを示す。 Current artificial intelligence (AI) algorithms for short-axis cardiac magnetic resonance (CMR) segmentation achieve human performance for slices situated in the middle of the heart. However, an often-overlooked fact is that segmentation of the basal and apical slices is more difficult. During manual analysis, differences in the basal segmentations have been reported as one of the major sources of disagreement in human interobserver variability. In this work, we aim to investigate the performance of AI algorithms in segmenting basal and apical slices and design strategies to improve their segmentation. We trained all our models on a large dataset of clinical CMR studies obtained from two NHS hospitals (n=4,228) and evaluated them against two external datasets: ACDC (n=100) and M&Ms (n=321). Using manual segmentations as a reference, CMR slices were assigned to one of four regions: non-cardiac, base, middle, and apex. Using the nnU-Net framework as a baseline, we investigated two different approaches to reduce the segmentation performance gap between cardiac regions: (1) non-uniform batch sampling, which allows us to choose how often images from different regions are seen during training; and (2) a cardiac-region classification model followed by three (i.e. base, middle, and apex) region-specific segmentation models. We show that the classification and segmentation approach was best at reducing the performance gap across all datasets. We also show that improvements in the classification performance can subsequently lead to a significantly better performance in the segmentation task. | 翻訳日:2021-09-21 16:09:34 公開日:2021-09-20 |
# efficientnetv2によるdem超解像 DEM Super-Resolution with EfficientNetV2 ( http://arxiv.org/abs/2109.09661v1 ) ライセンス: Link先を確認 | Bekir Z Demiray, Muhammed Sit, Ibrahim Demir | (参考訳) 効率的な気候変動モニタリングとモデリングは、高品質な地理空間および環境データセットに依存している。
技術的能力や資源の制限により、多くの環境分野における高品質なデータの取得はコストがかかる。
デジタル標高モデル(DEM)データセットはそのような例であるが、低解像度版は広く利用でき、高解像度版は少ない。
この問題を是正するために,我々はEfficientNetV2ベースのモデルを提案し,評価する。
提案モデルでは,DEMの空間分解能を16倍に向上する。 Efficient climate change monitoring and modeling rely on high-quality geospatial and environmental datasets. Due to limitations in technical capabilities or resources, the acquisition of high-quality data for many environmental disciplines is costly. Digital Elevation Model (DEM) datasets are such examples whereas their low-resolution versions are widely available, high-resolution ones are scarce. In an effort to rectify this problem, we propose and assess an EfficientNetV2 based model. The proposed model increases the spatial resolution of DEMs up to 16times without additional information. | 翻訳日:2021-09-21 16:09:03 公開日:2021-09-20 |
# 深部異常発生 : 異常染色体画像合成のための画像翻訳アプローチ Deep Anomaly Generation: An Image Translation Approach of Synthesizing Abnormal Banded Chromosome Images ( http://arxiv.org/abs/2109.09702v1 ) ライセンス: Link先を確認 | Lukas Uzolas, Javier Rico, Pierrick Coup\'e, Juan C. SanMiguel Gy\"orgy Cserey | (参考訳) ディープラーニングベースのパイプラインの進歩は、さまざまな顕微鏡画像診断のブレークスルーにつながった。
しかしながら、十分な大きなトレーニングデータセットは、アノテーションコストが高いため、通常は取得が困難である。
有帯染色体画像の場合,特定の遺伝疾患の頻度が高いため,複数の病理組織において十分なライブラリーの作成は困難である。
GAN(Generative Adversarial Networks)は,合成画像の生成とトレーニングデータセットの拡張に有効であることが証明されている。
本研究では,ユーザ定義のバンディングパターンに従って現実的な単一染色体画像を生成するための条件付き逆ネットワークを実装した。
この目的のために、自己生成2次元染色体セグメンテーションラベルマップに基づく画像から画像への変換手法を用いる。
検証の結果,未発見のバンディングパターンと同様に,染色体の合成に有望な結果が得られた。
本手法は構造異常を伴う染色体データセットのデータ増大に活用できると考えている。
そこで本手法は, 細胞遺伝学の分野において, データシミュレーション, セグメンテーション, 検出, 分類などの医用画像解析の問題に対処するのに役立つ。 Advances in deep-learning-based pipelines have led to breakthroughs in a variety of microscopy image diagnostics. However, a sufficiently big training data set is usually difficult to obtain due to high annotation costs. In the case of banded chromosome images, the creation of big enough libraries is difficult for multiple pathologies due to the rarity of certain genetic disorders. Generative Adversarial Networks (GANs) have proven to be effective in generating synthetic images and extending training data sets. In our work, we implement a conditional adversarial network that allows generation of realistic single chromosome images following user-defined banding patterns. To this end, an image-to-image translation approach based on self-generated 2D chromosome segmentation label maps is used. Our validation shows promising results when synthesizing chromosomes with seen as well as unseen banding patterns. We believe that this approach can be exploited for data augmentation of chromosome data sets with structural abnormalities. Therefore, the proposed method could help to tackle medical image analysis problems such as data simulation, segmentation, detection, or classification in the field of cytogenetics. | 翻訳日:2021-09-21 16:08:56 公開日:2021-09-20 |
# 図書館における倫理的AIを促進するための行動可能なアプローチ Actionable Approaches to Promote Ethical AI in Libraries ( http://arxiv.org/abs/2109.09672v1 ) ライセンス: Link先を確認 | Helen Bubinger, Jesse David Dinneen | (参考訳) 多くの領域で人工知能(AI)が広く使われていることで、データや設計からデプロイメントまで多くの倫理的問題が明らかになっている。
これに対し、倫理的AIのための無数の幅広い原則とガイドラインが公開され、それに続いて、AIの倫理的成果を促進するための具体的なアプローチが提案されている。
一方、図書館や情報サービスもAIによる情報システムや機械学習による情報システムの利用が増えているが、意図された、あるいはデプロイされたAIの倫理を計画、評価、監査するライブラリのための実践的なガイダンスは存在しない。
そこで我々は,AIを活用した情報サービスやソフトウェアライフサイクルのさまざまな段階に適用可能な倫理的AIを促進するための,有望なアプローチをいくつか報告する。 The widespread use of artificial intelligence (AI) in many domains has revealed numerous ethical issues from data and design to deployment. In response, countless broad principles and guidelines for ethical AI have been published, and following those, specific approaches have been proposed for how to encourage ethical outcomes of AI. Meanwhile, library and information services too are seeing an increase in the use of AI-powered and machine learning-powered information systems, but no practical guidance currently exists for libraries to plan for, evaluate, or audit the ethics of intended or deployed AI. We therefore report on several promising approaches for promoting ethical AI that can be adapted from other contexts to AI-powered information services and in different stages of the software lifecycle. | 翻訳日:2021-09-21 16:08:27 公開日:2021-09-20 |
# ランク異常の学習:スカラパフォーマンス基準と2サンプルランク統計の最大化 Learning to Rank Anomalies: Scalar Performance Criteria and Maximization of Two-Sample Rank Statistics ( http://arxiv.org/abs/2109.09590v1 ) ライセンス: Link先を確認 | Myrto Limnios (CB), Nathan Noiry, St\'ephan Cl\'emen\c{c}on (IDS) | (参考訳) より大規模なデータベースを収集し、保存する能力は、それらを効率的に処理する必要性を伴う。
多くの場合、ほとんどの観測は同一の挙動を持つが、これらの観測のごく一部は異常である。
異常値として定義された後者の検出は、マシンラーニングアプリケーション(不正検出や予測保守など)における大きな課題の1つだ。
本稿では,観測結果の異常度を反映した特徴空間上で定義されたデータ駆動スコアリング関数を学習することにより,異常検出の問題に対処する手法を提案する。
このスコアリング関数は、経験的基準が理論的結果が得られる2サンプルの線形ランク統計の形式をとるよく設計された二項分類問題によって学習される。
本手法を予備的な数値実験で示す。 The ability to collect and store ever more massive databases has been accompanied by the need to process them efficiently. In many cases, most observations have the same behavior, while a probable small proportion of these observations are abnormal. Detecting the latter, defined as outliers, is one of the major challenges for machine learning applications (e.g. in fraud detection or in predictive maintenance). In this paper, we propose a methodology addressing the problem of outlier detection, by learning a data-driven scoring function defined on the feature space which reflects the degree of abnormality of the observations. This scoring function is learnt through a well-designed binary classification problem whose empirical criterion takes the form of a two-sample linear rank statistics on which theoretical results are available. We illustrate our methodology with preliminary encouraging numerical experiments. | 翻訳日:2021-09-21 16:07:41 公開日:2021-09-20 |
# 深部畳み込みニューラルネットワークを組み合わせた非圧縮性流体解法の性能と精度評価 Performance and accuracy assessments of an incompressible fluid solver coupled with a deep Convolutional Neural Network ( http://arxiv.org/abs/2109.09363v1 ) ライセンス: Link先を確認 | Ekhi Ajuria Illarramendi, Micha\"el Bauerheim and B\'en\'edicte Cuenot | (参考訳) ポアソン方程式の解法は通常、非圧縮性流体解法で最も計算集約的なステップの1つである。
近年、ディープラーニング、特に畳み込みニューラルネットワーク(CNN)がこの方程式を解くために導入され、解の正確性に対する保証の欠如による推論時間の大幅な削減につながっている。
この欠点は不正確で不安定なシミュレーションにつながる可能性がある。
また、ネットワークアーキテクチャを変更する際に、異なるエラーレベルでの評価を行うため、CNNのスピードアップを公平に評価することは不可能である。
この問題を回避するために、CNNと従来の反復解法を結合してユーザ定義の精度レベルを確保するハイブリッド戦略を開発した。
CNNハイブリット法は, 変動密度の羽根と障害物のない2つの流れに対して試験を行い, 顕著な一般化能力の低下, シミュレーションの精度と安定性の両立を保証した。
複数のネットワークアーキテクチャを用いた予測の誤差分布について検討した。
その結果,速度場の平均偏差として定義されたハイブリッド戦略のしきい値は,CNNに基づくハイブリッド計算戦略における一貫した物理挙動を確実にすることを示した。
この戦略により、様々なネットワークアーキテクチャにおいて、CNNの性能を同じ精度で体系的に評価することができる。
特に、ネットワークアーキテクチャに複数のスケールを組み込むことの重要性は、feedforward cnnアーキテクチャに比べて精度と推論性能が向上し、これらのネットワークは、従来の反復型解法よりも110-25の高速解を提供することができるため、実証されている。 The resolution of the Poisson equation is usually one of the most computationally intensive steps for incompressible fluid solvers. Lately, Deep Learning, and especially Convolutional Neural Networks (CNN), has been introduced to solve this equation, leading to significant inference time reduction at the cost of a lack of guarantee on the accuracy of the solution. This drawback might lead to inaccuracies and potentially unstable simulations. It also makes impossible a fair assessment of the CNN speedup, for instance, when changing the network architecture, since evaluated at different error levels. To circumvent this issue, a hybrid strategy is developed, which couples a CNN with a traditional iterative solver to ensure a user-defined accuracy level. The CNN hybrid method is tested on two flow cases, consisting of a variable-density plume with and without obstacles, demostrating remarkable generalization capabilities, ensuring both the accuracy and stability of the simulations. The error distribution of the predictions using several network architectures is further investigated. Results show that the threshold of the hybrid strategy defined as the mean divergence of the velocity field is ensuring a consistent physical behavior of the CNN-based hybrid computational strategy. This strategy allows a systematic evaluation of the CNN performance at the same accuracy level for various network architectures. In particular, the importance of incorporating multiple scales in the network architecture is demonstrated, since improving both the accuracy and the inference performance compared with feedforward CNN architectures, as these networks can provide solutions 1 10-25 faster than traditional iterative solvers. | 翻訳日:2021-09-21 16:04:32 公開日:2021-09-20 |
# prediction quality of service (pqos): 完全自律システムのための次のフロンティア Predictive Quality of Service (PQoS): The Next Frontier for Fully Autonomous Systems ( http://arxiv.org/abs/2109.09376v1 ) ライセンス: Link先を確認 | Mate Boban, Marco Giordani, Michele Zorzi | (参考訳) ソフトウェア、ハードウェア、コンピューティング、制御の最近の進歩は、自律システムの分野で大きな進歩をもたらした。
特に、自律的なマシンは、事前に定義された時間枠内で、自分たちの移動と運用のシナリオがどのように進化するかを継続的に見積もり続け、ネットワークが合意されたサービス品質(qos)を満たせるかどうかを予測すべきである。
そうでない場合は、アプリケーション要件を満たすために適切な対策を講じるべきです。
そこで本研究では,自律システムにおいて予測qos(pqos)を実現する手法を提案し,ネットワーク予測の利点となるユースケースについて議論する。
そして、今後の研究のためにまだオープンになっている分野の課題に光を当てた。
ケーススタディでは、異なる計測信号の関数として、遠隔操作運転のようなユースケースで機械学習がPQoSを促進できるかどうかを示す。 Recent advances in software, hardware, computing and control have fueled significant progress in the field of autonomous systems. Notably, autonomous machines should continuously estimate how the scenario in which they move and operate will evolve within a predefined time frame, and foresee whether or not the network will be able to fulfill the agreed Quality of Service (QoS). If not, appropriate countermeasures should be taken to satisfy the application requirements. Along these lines, in this paper we present possible methods to enable predictive QoS (PQoS) in autonomous systems, and discuss which use cases will particularly benefit from network prediction. Then, we shed light on the challenges in the field that are still open for future research. As a case study, we demonstrate whether machine learning can facilitate PQoS in a teleoperated-driving-like use case, as a function of different measurement signals. | 翻訳日:2021-09-21 16:04:06 公開日:2021-09-20 |
# GhostShiftAddNet:エネルギー効率の良い運用の新機能 GhostShiftAddNet: More Features from Energy-Efficient Operations ( http://arxiv.org/abs/2109.09495v1 ) ライセンス: Link先を確認 | Jia Bi, Jonathon Hare, Geoff V. Merrett | (参考訳) deep convolutional neural networks (cnns) は計算量とメモリ集約性がある。
CNNでは、リソース制約のあるエッジデバイスに推論を効果的に展開する能力に挑戦するリソースの影響が強い。
本稿では,GhostShiftAddNetを提案する。ハードウェア効率のよいディープネットワークを実現するためのモチベーションである。
我々は新しいボトルネックブロックであるGhostSAを導入し、ブロック内のすべての乗算を安価な演算に変換する。
ボトルネックは、固有の特徴マップを処理するために、適切な数のビットシフトフィルタを使用し、次に、追加操作を伴うビットシフトからなる一連の変換を適用して、本質的な特徴の根底にある情報をフルに学習する機能マップを生成する。
異なるハードウェアプラットフォームに対するビットシフトと追加操作の数をスケジュールします。
デスクトップおよび組み込み(Jetson Nano)デバイスを用いた広範な実験およびアブレーション実験を行い,実装と測定を行った。
提案するghostsaブロックは,最先端ネットワークアーキテクチャのバックボーンにあるボトルネックブロックを置き換えることができ,画像分類ベンチマークの性能が向上することを示す。
さらに、GhostShiftAddNetは、GhostNetよりもFLOPやパラメータ(最大3倍)が少なく、高い分類精度を得ることができる。
GhostNetと比較して、Jetson Nanoの推論遅延はGPUとCPUでそれぞれ1.3倍と2倍改善される。 Deep convolutional neural networks (CNNs) are computationally and memory intensive. In CNNs, intensive multiplication can have resource implications that may challenge the ability for effective deployment of inference on resource-constrained edge devices. This paper proposes GhostShiftAddNet, where the motivation is to implement a hardware-efficient deep network: a multiplication-free CNN with fewer redundant features. We introduce a new bottleneck block, GhostSA, that converts all multiplications in the block to cheap operations. The bottleneck uses an appropriate number of bit-shift filters to process intrinsic feature maps, then applies a series of transformations that consist of bit-wise shifts with addition operations to generate more feature maps that fully learn to capture information underlying intrinsic features. We schedule the number of bit-shift and addition operations for different hardware platforms. We conduct extensive experiments and ablation studies with desktop and embedded (Jetson Nano) devices for implementation and measurements. We demonstrate the proposed GhostSA block can replace bottleneck blocks in the backbone of state-of-the-art networks architectures and gives improved performance on image classification benchmarks. Further, our GhostShiftAddNet can achieve higher classification accuracy with fewer FLOPs and parameters (reduced by up to 3x) than GhostNet. When compared to GhostNet, inference latency on the Jetson Nano is improved by 1.3x and 2x on the GPU and CPU respectively. | 翻訳日:2021-09-21 16:03:50 公開日:2021-09-20 |
# 非負テンソル完全化と並列実装のための加速確率勾配 Accelerated Stochastic Gradient for Nonnegative Tensor Completion and Parallel Implementation ( http://arxiv.org/abs/2109.09534v1 ) ライセンス: Link先を確認 | Ioanna Siaminou, Ioannis Marios Papagiannakos, Christos Kolomvakis, Athanasios P. Liavas | (参考訳) 我々は非負のテンソル完全化の問題を考える。
我々は交互最適化フレームワークを採用し,加速度勾配アルゴリズムの確率的変動により,各非負行列完了問題を解く。
実世界データと合成データの両方を用いてアルゴリズムの有効性と効率を実験的に検証した。
高速化を実現するマルチスレッドAPI OpenMP を用いて,提案アルゴリズムの共有メモリ実装を開発する。
我々のアプローチは、非常に大きな非負のテンソル完成問題の解に対する非常に競争的な候補であると信じています。 We consider the problem of nonnegative tensor completion. We adopt the alternating optimization framework and solve each nonnegative matrix completion problem via a stochastic variation of the accelerated gradient algorithm. We experimentally test the effectiveness and the efficiency of our algorithm using both real-world and synthetic data. We develop a shared-memory implementation of our algorithm using the multi-threaded API OpenMP, which attains significant speedup. We believe that our approach is a very competitive candidate for the solution of very large nonnegative tensor completion problems. | 翻訳日:2021-09-21 16:03:07 公開日:2021-09-20 |
# グラフ埋め込み技術に基づくレコメンダシステム:包括的レビュー Recommender systems based on graph embedding techniques: A comprehensive review ( http://arxiv.org/abs/2109.09587v1 ) ライセンス: Link先を確認 | Yue Deng | (参考訳) 情報過負荷問題を緩和するための重要なツールであるリコメンダシステムは、観測されたユーザ-イテム関係を分析して、数百万の候補からユーザの好む項目を予測することを目的としている。
近年,レコメンデーションシステムの抱える疎外性やコールドスタート問題に対処する上で,副次的な情報と知識を活用して,副次的な(間接的な)ユーザ・イテム関係の解明が期待でき,その性能は,高度な複雑さと大規模な副次的情報・知識に直面したレコメンデーションモデルのスケーラビリティによって大きく決定されている。
複雑で大規模なデータを効率的に活用するために、グラフ埋め込み技術の研究は重要なトピックである。
グラフ埋め込み技術を用いたレコメンデータシステムの取得は、グラフトポロジ解析に基づいて直接実装する従来のレコメンデーションよりも優れており、近年広く研究されている。
本稿では,二部グラフ,一般グラフ,知識グラフの埋め込み技術からのグラフ埋め込みに基づく推薦を体系的に振り返り,その汎用設計パイプラインを提案する。
さらに、いくつかの代表的なグラフ埋め込みベースのレコメンデーションモデルと、最もよく使われる従来のレコメンデーションモデルを比較して、従来のモデルは、暗黙のユーザ-イテム相互作用を予測するためにグラフ埋め込みベースのレコメンデーションモデルより総合的に優れていることを示し、これらのタスクにおけるグラフ埋め込みベースのレコメンデーションの相対的な弱点を明らかにした。
今後の研究を進めるために,本稿では,グラフ埋め込み型推薦と従来型推奨とのトレードオフを,オープン質問と同様に異なるタスクで作成するための構成的提案を提案する。 Recommender systems, a pivotal tool to alleviate the information overload problem, aim to predict user's preferred items from millions of candidates by analyzing observed user-item relations. As for tackling the sparsity and cold start problems encountered by recommender systems, uncovering hidden (indirect) user-item relations by employing side information and knowledge to enrich observed information for the recommendation has been proven promising recently; and its performance is largely determined by the scalability of recommendation models in the face of the high complexity and large scale of side information and knowledge. Making great strides towards efficiently utilizing complex and large-scale data, research into graph embedding techniques is a major topic. Equipping recommender systems with graph embedding techniques contributes to outperforming the conventional recommendation implementing directly based on graph topology analysis and has been widely studied these years. This article systematically retrospects graph embedding-based recommendation from embedding techniques for bipartite graphs, general graphs, and knowledge graphs, and proposes a general design pipeline of that. In addition, comparing several representative graph embedding-based recommendation models with the most common-used conventional recommendation models, on simulations, manifests that the conventional models overall outperform the graph embedding-based ones in predicting implicit user-item interactions, revealing the relative weakness of graph embedding-based recommendation in these tasks. To foster future research, this article proposes constructive suggestions on making a trade-off between graph embedding-based recommendation and the conventional recommendation in different tasks as well as some open questions. | 翻訳日:2021-09-21 16:03:00 公開日:2021-09-20 |
# 確率的切断ストック問題に対する強化学習アプローチ A Reinforcement Learning Approach to the Stochastic Cutting Stock Problem ( http://arxiv.org/abs/2109.09592v1 ) ライセンス: Link先を確認 | Anselmo R. Pitombeira-Neto, Arthur H. Fonseca Murta | (参考訳) 確率的カットストック問題の定式化を無限水平マルコフ決定過程として提案する。
各決定時期において、現在の在庫が与えられた場合、エージェントは、未知の需要を期待して、在庫物を切り分けるパターンを選択する。
最適解は、各状態と決定を関連付け、期待される総コストを最小化するポリシーに対応する。
正確なアルゴリズムは状態空間次元で指数関数的にスケールするため,強化学習に基づくヒューリスティックな解法を開発した。
本稿では、線形モデルを用いてポリシーのアクション値関数を近似する近似ポリシー反復アルゴリズムを提案する。
予測されたベルマン方程式を、シミュレーションによって得られた状態遷移、決定、コストのサンプルから解いて、政策評価を行う。
大きな意思決定空間のため、クロスエントロピー法による政策改善を行う。
計算実験は、アルゴリズムの応用を説明するために現実的なデータを用いて行われる。
多項式とフーリエ基底関数で得られるヒューリスティックなポリシーは、ミオピックおよびランダムなポリシーと比較される。
その結果, 平均価格で在庫を適切に管理できる政策が, 筋電図法で得られるコストよりも80%も低い可能性が示唆された。 We propose a formulation of the stochastic cutting stock problem as a discounted infinite-horizon Markov decision process. At each decision epoch, given current inventory of items, an agent chooses in which patterns to cut objects in stock in anticipation of the unknown demand. An optimal solution corresponds to a policy that associates each state with a decision and minimizes the expected total cost. Since exact algorithms scale exponentially with the state-space dimension, we develop a heuristic solution approach based on reinforcement learning. We propose an approximate policy iteration algorithm in which we apply a linear model to approximate the action-value function of a policy. Policy evaluation is performed by solving the projected Bellman equation from a sample of state transitions, decisions and costs obtained by simulation. Due to the large decision space, policy improvement is performed via the cross-entropy method. Computational experiments are carried out with the use of realistic data to illustrate the application of the algorithm. Heuristic policies obtained with polynomial and Fourier basis functions are compared with myopic and random policies. Results indicate the possibility of obtaining policies capable of adequately controlling inventories with an average cost up to 80% lower than the cost obtained by a myopic policy. | 翻訳日:2021-09-21 16:02:24 公開日:2021-09-20 |
# 自動運転におけるコーナーケースの記述--目標と課題 Description of Corner Cases in Automated Driving: Goals and Challenges ( http://arxiv.org/abs/2109.09607v1 ) ライセンス: Link先を確認 | Daniel Bogdoll, Jasmin Breitenstein, Florian Heidecker, Maarten Bieshaar, Bernhard Sick, Tim Fingscheidt, J. Marius Z\"ollner | (参考訳) 自動車両の分布を拡大するには、様々な予期せぬ危険な状況、すなわちコーナーケース(CC)を扱う必要がある。
自動運転システムの多くのモジュールは機械学習(ml)に基づいているため、ccはその開発に必要なデータの重要な部分である。
しかし、大規模なデータ収集には限られた量のCCデータしか存在しないため、MLの文脈では困難である。
CCをよりよく理解することで、データセット分析やオンライン手法、例えば自動運転システムの性能向上といったオフラインアプリケーションが改善される。
ccには知識に基づく記述と分類があるが、機械解釈可能な記述についての研究はほとんどない。
この拡張要約では、このような説明の課題と目標について、簡単に概要を説明します。 Scaling the distribution of automated vehicles requires handling various unexpected and possibly dangerous situations, termed corner cases (CC). Since many modules of automated driving systems are based on machine learning (ML), CC are an essential part of the data for their development. However, there is only a limited amount of CC data in large-scale data collections, which makes them challenging in the context of ML. With a better understanding of CC, offline applications, e.g., dataset analysis, and online methods, e.g., improved performance of automated driving systems, can be improved. While there are knowledge-based descriptions and taxonomies for CC, there is little research on machine-interpretable descriptions. In this extended abstract, we will give a brief overview of the challenges and goals of such a description. | 翻訳日:2021-09-21 16:02:06 公開日:2021-09-20 |
# リモートセンシング画像分類のための回路ベースハイブリッド量子ニューラルネットワークについて On Circuit-based Hybrid Quantum Neural Networks for Remote Sensing Imagery Classification ( http://arxiv.org/abs/2109.09484v1 ) ライセンス: Link先を確認 | Alessandro Sebastianelli, Daniela A. Zaidenberg, Dario Spiller, Bertrand Le Saux and Silvia Liberata Ullo | (参考訳) 本稿では,回路ベースハイブリッド量子畳み込みニューラルネットワーク(QCNN)をリモートセンシングの文脈において画像分類器としてうまく活用する方法を検討する。
ハイブリッドQCNNは、標準ニューラルネットワーク内に量子層を導入することで、CNNの古典的なアーキテクチャを豊かにする。
この研究で提案された新しいQCNNは、地球観測(EO)ユースケースとして選択された土地利用と土地被覆(LULC)分類に適用され、基準ベンチマークとして使用されるEuroSATデータセットでテストされる。
マルチクラス分類の結果は,QCNNの性能が従来の性能よりも高いことを示すことによって,提案手法の有効性を証明した。
さらに,量子絡み合いを生かした量子回路が最適な分類スコアを得ることを示す。
この研究は、eoのケーススタディに量子コンピューティングを適用する可能性を示し、将来の研究に理論的および実験的背景を提供する。 This article aims to investigate how circuit-based hybrid Quantum Convolutional Neural Networks (QCNNs) can be successfully employed as image classifiers in the context of remote sensing. The hybrid QCNNs enrich the classical architecture of CNNs by introducing a quantum layer within a standard neural network. The novel QCNN proposed in this work is applied to the Land Use and Land Cover (LULC) classification, chosen as an Earth Observation (EO) use case, and tested on the EuroSAT dataset used as reference benchmark. The results of the multiclass classification prove the effectiveness of the presented approach, by demonstrating that the QCNN performances are higher than the classical counterparts. Moreover, investigation of various quantum circuits shows that the ones exploiting quantum entanglement achieve the best classification scores. This study underlines the potentialities of applying quantum computing to an EO case study and provides the theoretical and experimental background for futures investigations. | 翻訳日:2021-09-21 16:01:00 公開日:2021-09-20 |
# 機械学習による金属合金材料の特性予測 Prediction of properties of metal alloy materials based on machine learning ( http://arxiv.org/abs/2109.09394v1 ) ライセンス: Link先を確認 | Houchen Zuo, Yongquan Jiang, Yan Yang, Jie Hu | (参考訳) 密度汎関数理論とその最適化アルゴリズムは、材料分野の物性を計算する主要な方法である。
計算結果は正確だが、多くの時間と費用がかかる。
この問題を軽減するため,我々は機械学習を用いて材料特性の予測を行う。
本稿では,金属合金の原子体積,原子エネルギー,原子生成エネルギーについて,オープン量子材料データベースを用いて実験を行った。
従来の機械学習モデル、ディープラーニングネットワーク、自動機械学習を通じて、材料特性予測における機械学習の有効性を検証する。
実験の結果,機械学習は材料特性を正確に予測できることがわかった。 Density functional theory and its optimization algorithm are the main methods to calculate the properties in the field of materials. Although the calculation results are accurate, it costs a lot of time and money. In order to alleviate this problem, we intend to use machine learning to predict material properties. In this paper, we conduct experiments on atomic volume, atomic energy and atomic formation energy of metal alloys, using the open quantum material database. Through the traditional machine learning models, deep learning network and automated machine learning, we verify the feasibility of machine learning in material property prediction. The experimental results show that the machine learning can predict the material properties accurately. | 翻訳日:2021-09-21 15:59:26 公開日:2021-09-20 |
# クロスサブジェクト感情認識のための主観不変脳波表現のコントラスト学習 Contrastive Learning of Subject-Invariant EEG Representations for Cross-Subject Emotion Recognition ( http://arxiv.org/abs/2109.09559v1 ) ライセンス: Link先を確認 | Xinke Shen, Xianggen Liu, Xin Hu, Dan Zhang, Sen Song | (参考訳) 感情認識は、人間と機械の相互作用と日々の医療において重要な役割を果たす。
近年、脳波信号は感情認識に有益で信頼性が高いと報告されている。
しかし、感情関連脳波信号の物体間変動は、脳波に基づく感情認識の実用化に大きな課題をもたらす。
近年のサブジェクト間相関に関する神経科学研究に触発されて,信頼できるクロスサブジェクト感情認識のためのコントラスト学習法を提案した。
異なる被験者に対して同じ刺激を受けた被験者間での脳波信号の類似性を最大化することにより、物体間差を最小限に抑えるためにコントラスト学習を用いた。
具体的には,空間的畳み込み層と時間的畳み込み層を有する畳み込みニューラルネットワークを用いて,脳波信号からサブジェクト間アラインされた時空間表現を学習した。
次に、アライメント表現を用いて感情分類のための差分エントロピー特徴を抽出した。
提案手法の性能は,80被験者のTHU-EPデータセットと15被験者のSEEDデータセットを用いて評価した。
比較対象感情認識精度(thu-epデータセットでは72.1%、二分分類では47.0%、三分分類では86.3%)は最先端法と比較して達成された。
提案手法は, 感情刺激の見当たらない場合にも有効である。
したがって,CLISA法は「プラグ・アンド・プレイ」方式で操作することで,脳波に基づく感情認識の実用性を大幅に向上することが期待されている。
さらに、CLISAによる学習時空間表現は、人間の感情処理の神経機構に関する洞察を与えることができる。 Emotion recognition plays a vital role in human-machine interactions and daily healthcare. EEG signals have been reported to be informative and reliable for emotion recognition in recent years. However, the inter-subject variability of emotion-related EEG signals poses a great challenge for the practical use of EEG-based emotion recognition. Inspired by the recent neuroscience studies on inter-subject correlation, we proposed a Contrastive Learning method for Inter-Subject Alignment (CLISA) for reliable cross-subject emotion recognition. Contrastive learning was employed to minimize the inter-subject differences by maximizing the similarity in EEG signals across subjects when they received the same stimuli in contrast to different ones. Specifically, a convolutional neural network with depthwise spatial convolution and temporal convolution layers was applied to learn inter-subject aligned spatiotemporal representations from raw EEG signals. Then the aligned representations were used to extract differential entropy features for emotion classification. The performance of the proposed method was evaluated on our THU-EP dataset with 80 subjects and the publicly available SEED dataset with 15 subjects. Comparable or better cross-subject emotion recognition accuracy (i.e., 72.1% and 47.0% for binary and nine-class classification, respectively, on the THU-EP dataset and 86.3% on the SEED dataset for three-class classification) was achieved as compared to the state-of-the-art methods. The proposed method could be generalized well to unseen emotional stimuli as well. The CLISA method is therefore expected to considerably increase the practicality of EEG-based emotion recognition by operating in a "plug-and-play" manner. Furthermore, the learned spatiotemporal representations by CLISA could provide insights into the neural mechanisms of human emotion processing. | 翻訳日:2021-09-21 15:59:19 公開日:2021-09-20 |
# 学習マスターポリシーによる平均フィールドゲームにおける一般化 Generalization in Mean Field Games by Learning Master Policies ( http://arxiv.org/abs/2109.09717v1 ) ライセンス: Link先を確認 | Sarah Perrin and Mathieu Lauri\`ere and Julien P\'erolat and Romuald \'Elie and Matthieu Geist and Olivier Pietquin | (参考訳) 平均フィールドゲーム(MFG)は、非常に多くのエージェントにマルチエージェントシステムを拡張できる可能性がある。
しかし、ほとんどの文献は、MFGの実用的応用を制限する、エージェントの1つの初期分布を前提としている。
機械学習は、一般化能力によって、より広範なMFG問題を解決する可能性がある。
本研究は,これらの一般化特性を活用して,一般エージェントが任意の集団分布に対して最適に振る舞うことができるような政策を学習する方法について検討する。
mfgs のマスター方程式を参照して、これらを記述するために 'master policy'' という用語をつくり、最初の分布が何であれ単一のマスターポリシーがnash平衡を与えることを証明した。
このようなマスターポリシーを学習する手法を提案する。
提案手法は,現在の人口分布を観察の一部として追加すること,ニューラルネットワークによるマスターポリシーの近似,強化学習とFactitious Playによるトレーニングという3つの要素に依存している。
学習したマスターポリシーの効率だけでなく、学習に使用する分布を超えた一般化能力の数値的な例について説明する。 Mean Field Games (MFGs) can potentially scale multi-agent systems to extremely large populations of agents. Yet, most of the literature assumes a single initial distribution for the agents, which limits the practical applications of MFGs. Machine Learning has the potential to solve a wider diversity of MFG problems thanks to generalizations capacities. We study how to leverage these generalization properties to learn policies enabling a typical agent to behave optimally against any population distribution. In reference to the Master equation in MFGs, we coin the term ``Master policies'' to describe them and we prove that a single Master policy provides a Nash equilibrium, whatever the initial distribution. We propose a method to learn such Master policies. Our approach relies on three ingredients: adding the current population distribution as part of the observation, approximating Master policies with neural networks, and training via Reinforcement Learning and Fictitious Play. We illustrate on numerical examples not only the efficiency of the learned Master policy but also its generalization capabilities beyond the distributions used for training. | 翻訳日:2021-09-21 15:58:50 公開日:2021-09-20 |
# 機械学習の隠れ対称性 Machine-learning hidden symmetries ( http://arxiv.org/abs/2109.09721v1 ) ライセンス: Link先を確認 | Ziming Liu (MIT), Max Tegmark (MIT) | (参考訳) 本研究では,新しい座標系においてのみ現れる対称性として定義される隠れ対称性を自動検出する手法を提案する。
その核となる考え方は、ある偏微分方程式の違反として非対称性を定量化し、そのような違反をすべての可逆変換の空間上で数値的に最小化することである。
例えば、我々の手法は、非回転ブラックホールのシュワルツシルト計量において隠れた翻訳対称性を示す有名なゲルストランド・パインレーヴ計量と、伝統的に対称性とは見なされないハミルトン性、モジュラリティ、その他の単純化特性を再検討する。 We present an automated method for finding hidden symmetries, defined as symmetries that become manifest only in a new coordinate system that must be discovered. Its core idea is to quantify asymmetry as violation of certain partial differential equations, and to numerically minimize such violation over the space of all invertible transformations, parametrized as invertible neural networks. For example, our method rediscovers the famous Gullstrand-Painleve metric that manifests hidden translational symmetry in the Schwarzschild metric of non-rotating black holes, as well as Hamiltonicity, modularity and other simplifying traits not traditionally viewed as symmetries. | 翻訳日:2021-09-21 15:58:34 公開日:2021-09-20 |
# (参考訳) 不均衡データセットに対する自己監督型ニューラルネットワーク探索 Self-Supervised Neural Architecture Search for Imbalanced Datasets ( http://arxiv.org/abs/2109.08580v2 ) ライセンス: CC BY-SA 4.0 | Aleksandr Timofeev, Grigorios G. Chrysos, Volkan Cevher | (参考訳) neural architecture search (nas)は、アノテートされたラベル付きデータセットでトレーニングされた場合、最先端の結果を提供する。
しかし、データの注釈付けやサンプルのバランスの取れた数さえも、医学領域など、さまざまな分野の実践者にとって豪華である。
そのために,3倍のコントリビューションを持つNASベースのフレームワークを提案する。
(a) 自己組織化シナリオ、すなわちアーキテクチャを決定するためにラベルを必要としないことに焦点を当て、
b)データセットが不均衡であると仮定する。
(c) リソース制約されたセットアップ、すなわち単一のGPU(例えばGoogle Colab)上で実行できるように、各コンポーネントを設計する。
我々のコンポーネントは、近年の自己教師型学習 -\citep{zbontar2021barlow}、自己教師型NAS~\citep{kaplan2020self}の上に構築され、不均衡データセットの場合、それらを拡張します。
我々は,CIFAR-10の不均衡なバージョンに対して実験を行い,提案手法が標準的なニューラルネットワークより優れていることを示す。
自然に不均衡なデータセットに対する仮定を検証するために、ChestMNISTとCOVID-19 X線の実験も行います。
結果は,提案手法が不均衡なデータセットでどのように使用できるかを示すとともに,単一のGPU上で完全に動作可能であることを示す。
コードは href{https://github.com/TimofeevAlex/ssnas_im Balanced}{here} で入手できる。 Neural Architecture Search (NAS) provides state-of-the-art results when trained on well-curated datasets with annotated labels. However, annotating data or even having balanced number of samples can be a luxury for practitioners from different scientific fields, e.g., in the medical domain. To that end, we propose a NAS-based framework that bears the threefold contributions: (a) we focus on the self-supervised scenario, i.e., where no labels are required to determine the architecture, and (b) we assume the datasets are imbalanced, (c) we design each component to be able to run on a resource constrained setup, i.e., on a single GPU (e.g. Google Colab). Our components build on top of recent developments in self-supervised learning~\citep{zbontar2021barlow}, self-supervised NAS~\citep{kaplan2020self} and extend them for the case of imbalanced datasets. We conduct experiments on an (artificially) imbalanced version of CIFAR-10 and we demonstrate our proposed method outperforms standard neural networks, while using $27\times$ less parameters. To validate our assumption on a naturally imbalanced dataset, we also conduct experiments on ChestMNIST and COVID-19 X-ray. The results demonstrate how the proposed method can be used in imbalanced datasets, while it can be fully run on a single GPU. Code is available \href{https://github.com/TimofeevAlex/ssnas_imbalanced}{here}. | 翻訳日:2021-09-21 11:33:27 公開日:2021-09-20 |
# 半監督左心房分節に対するクロスドメインデータを用いた適応的階層的二重整合性 Adaptive Hierarchical Dual Consistency for Semi-Supervised Left Atrium Segmentation on Cross-Domain Data ( http://arxiv.org/abs/2109.08311v2 ) ライセンス: Link先を確認 | Jun Chen, Heye Zhang, Raad Mohiaddin, Tom Wong, David Firmin, Jennifer Keegan, and Guang Yang | (参考訳) 半教師付き学習は、ラベル付きデータが不十分な左房分割モデル学習において大きな意味を持つ。
ドメイン間データに対する半教師付き学習の一般化は、モデルの堅牢性をさらに向上させる上で重要である。
しかし、様々なデータ領域間の分布差とサンプルミスマッチは、半教師付き学習の一般化を妨げる。
本研究では,AHDC(Adaptive Hierarchical Dual Consistency)を用いて,クロスドメインデータに基づく半教師付きLAセグメンテーションを提案する。
AHDCは主に双方向適応推論モジュール(BAI)と階層的デュアル一貫性学習モジュール(HDC)で構成されている。
BAIは2つの異なる領域間の分布の違いとサンプルミスマッチを克服する。
主に2つのマッピングネットワークを逆向きに学習し、相互適応により2つのマッチしたドメインを得る。
hdcは、得られたマッチング領域に基づくクロスドメイン半教師付きセグメンテーションのための階層的二重学習パラダイムを検討する。
主にドメイン内およびドメイン間の両方で補完情報をマイニングするための2つのデュアルモデリングネットワークを構築している。
ドメイン内学習では、相補的モデリング情報を利用するために、双対モデリング対象に一貫性制約を適用する。
ドメイン間学習では、2つのデュアルモデリングネットワークによってモデル化されたlasに一貫性制約を適用し、異なるデータドメイン間の補完的知識を利用する。
今回提案したAHDCは, 異なる中心部からの3D遅延心筋MR(LGE-CMR)データセットと3DCTデータセットを用いて, 評価を行った。
他の最先端手法と比較して,提案したAHDCは高いセグメンテーション精度を実現し,クロスドメイン半教師付きLAセグメンテーションの能力を示した。 Semi-supervised learning provides great significance in left atrium (LA) segmentation model learning with insufficient labelled data. Generalising semi-supervised learning to cross-domain data is of high importance to further improve model robustness. However, the widely existing distribution difference and sample mismatch between different data domains hinder the generalisation of semi-supervised learning. In this study, we alleviate these problems by proposing an Adaptive Hierarchical Dual Consistency (AHDC) for the semi-supervised LA segmentation on cross-domain data. The AHDC mainly consists of a Bidirectional Adversarial Inference module (BAI) and a Hierarchical Dual Consistency learning module (HDC). The BAI overcomes the difference of distributions and the sample mismatch between two different domains. It mainly learns two mapping networks adversarially to obtain two matched domains through mutual adaptation. The HDC investigates a hierarchical dual learning paradigm for cross-domain semi-supervised segmentation based on the obtained matched domains. It mainly builds two dual-modelling networks for mining the complementary information in both intra-domain and inter-domain. For the intra-domain learning, a consistency constraint is applied to the dual-modelling targets to exploit the complementary modelling information. For the inter-domain learning, a consistency constraint is applied to the LAs modelled by two dual-modelling networks to exploit the complementary knowledge among different data domains. We demonstrated the performance of our proposed AHDC on four 3D late gadolinium enhancement cardiac MR (LGE-CMR) datasets from different centres and a 3D CT dataset. Compared to other state-of-the-art methods, our proposed AHDC achieved higher segmentation accuracy, which indicated its capability in the cross-domain semi-supervised LA segmentation. | 翻訳日:2021-09-21 11:19:44 公開日:2021-09-20 |
# 認知エージェントの知識源としての言語モデル Language Models as a Knowledge Source for Cognitive Agents ( http://arxiv.org/abs/2109.08270v2 ) ライセンス: Link先を確認 | Robert E. Wray, III and James R. Kirk and John E. Laird | (参考訳) 言語モデル (LM) は大量のコーパスで訓練された文補完エンジンである。
LMは自然言語処理において重要なブレークスルーとして現れており、質問応答、要約、自然言語推論など、文の完成以上の機能を提供する。
これらの能力の多くは認知システムに潜在的な応用をもたらすが、特にタスク学習において、言語モデルをタスク知識の源として活用することは、重要な短期的利益をもたらす。
言語モデルとそれらを適用した様々なタスクを紹介し、言語モデルから知識を抽出する方法について検討する。
得られた分析は、認知システムのための新しい知識源として言語モデルを使用する際の課題と機会を概説する。
また、認知システムが提供する能力を用いて、言語モデルからの知識抽出を改善する方法も特定する。
成功への中心となるのは、認知エージェントが、LMに暗黙的な知識の抽象モデルを学ぶ能力と、高品質な知識を効果的に効率的に抽出する方法である。
本稿では,仮想的なロボットエージェントを紹介し,言語モデルがタスク知識を拡張し,その性能を向上させる方法と,エージェントが言語モデル内の知識を活用できる知識や手法について述べる。 Language models (LMs) are sentence-completion engines trained on massive corpora. LMs have emerged as a significant breakthrough in natural-language processing, providing capabilities that go far beyond sentence completion including question answering, summarization, and natural-language inference. While many of these capabilities have potential application to cognitive systems, exploiting language models as a source of task knowledge, especially for task learning, offers significant, near-term benefits. We introduce language models and the various tasks to which they have been applied and then review methods of knowledge extraction from language models. The resulting analysis outlines both the challenges and opportunities for using language models as a new knowledge source for cognitive systems. It also identifies possible ways to improve knowledge extraction from language models using the capabilities provided by cognitive systems. Central to success will be the ability of a cognitive agent to itself learn an abstract model of the knowledge implicit in the LM as well as methods to extract high-quality knowledge effectively and efficiently. To illustrate, we introduce a hypothetical robot agent and describe how language models could extend its task knowledge and improve its performance and the kinds of knowledge and methods the agent can use to exploit the knowledge within a language model. | 翻訳日:2021-09-21 11:18:52 公開日:2021-09-20 |
# 層にまたがる類似表現のクラスターを示す微調整トランスフォーマー Fine-Tuned Transformers Show Clusters of Similar Representations Across Layers ( http://arxiv.org/abs/2109.08406v2 ) ライセンス: Link先を確認 | Jason Phang, Haokun Liu, Samuel R. Bowman | (参考訳) 下流自然言語理解(NLU)タスクのためのBERTのような微調整済み言語エンコーダの成功にもかかわらず、ニューラルネットワークが微調整後にどのように変化するかはいまだに理解されていない。
本研究では,学習表現の比較手法であるセンタード・カーネルアライメント(cka)を用いて,レイヤ間のタスク調整モデルにおける表現の類似性を測定する。
12のNLUタスクを対象とした実験では、細調整されたRoBERTaとALBERTモデル内の表現の類似性において一貫したブロック対角構造が発見され、初期層と後期層のクラスタ内では強い類似性があるが、それらの間にはない。
後段のレイヤ表現の類似性は、後段のレイヤがタスクパフォーマンスにわずかに寄与することを示し、さらにチューニングを行なわずとも、細調整されたトランスフォーマの上位数層が性能を損なうことなく破棄可能であることを実験で検証する。 Despite the success of fine-tuning pretrained language encoders like BERT for downstream natural language understanding (NLU) tasks, it is still poorly understood how neural networks change after fine-tuning. In this work, we use centered kernel alignment (CKA), a method for comparing learned representations, to measure the similarity of representations in task-tuned models across layers. In experiments across twelve NLU tasks, we discover a consistent block diagonal structure in the similarity of representations within fine-tuned RoBERTa and ALBERT models, with strong similarity within clusters of earlier and later layers, but not between them. The similarity of later layer representations implies that later layers only marginally contribute to task performance, and we verify in experiments that the top few layers of fine-tuned Transformers can be discarded without hurting performance, even with no further tuning. | 翻訳日:2021-09-21 11:18:34 公開日:2021-09-20 |