このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20210808となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 資源制約による量子コンピューティングの限界 Limitations in quantum computing from resource constraints ( http://arxiv.org/abs/2007.01966v3 ) ライセンス: Link先を確認 | Marco Fellous-Asiani, Jing Hao Chai, Robert S. Whitney, Alexia Auff\`eves, and Hui Khoon Ng | (参考訳) フォールトトレラントスキームは、物理コンポーネント当たりのエラーが特定のしきい値よりも小さく、コンピュータサイズに依存していれば、量子計算を任意にキュレートするためにエラー補正を用いることができる。
しかし、現在の実験では、エネルギー、ボリューム、利用可能な帯域幅といった物理的資源の制限は、コンピュータの成長とともに一般的に増加するエラー率を引き起こす。
これらの制約を考慮して,誤り訂正の量がオプティマイズされ,最大到達可能な計算精度が得られることを示す。
ノイズがスケール依存の一般的な状況に対して,この最大値を求める。
論理を反転させることで、与えられた計算精度でアルゴリズムを実行するのに必要な最小のリソースを見つけるためのツールを提供する。
フルスタックの量子コンピューティングモデルと組み合わせることで、将来の大規模量子コンピュータのエネルギー的推定の基礎を提供する。 Fault-tolerant schemes can use error correction to make a quantum computation arbitrarily ac- curate, provided that errors per physical component are smaller than a certain threshold and in- dependent of the computer size. However in current experiments, physical resource limitations like energy, volume or available bandwidth induce error rates that typically grow as the computer grows. Taking into account these constraints, we show that the amount of error correction can be opti- mized, leading to a maximum attainable computational accuracy. We find this maximum for generic situations where noise is scale-dependent. By inverting the logic, we provide experimenters with a tool to finding the minimum resources required to run an algorithm with a given computational accuracy. When combined with a full-stack quantum computing model, this provides the basis for energetic estimates of future large-scale quantum computers. | 翻訳日:2023-05-11 18:14:08 公開日:2021-08-08 |
# 非ポリノミアル振動子の類における古典的および量子力学について On the classical and quantum dynamics of a class of nonpolynomial oscillators ( http://arxiv.org/abs/2008.07134v2 ) ライセンス: Link先を確認 | V. Chithiika Ruby and M. Lakshmanan | (参考訳) 2つの1次元非線形振動子、すなわち
(i)ヒッグス発振器、及び
(ii)$k$に依存しない非多項式有理ポテンシャル、ここで$k$はリーマン多様体の定数曲率である。
どちらの系も位置依存質量形式であり、 m(x) = \frac{1}{(1 + k x^2)^2}}$ は二次li$\acute{e}$nard型非線形振動子に属する。
彼らは古典的なレベルで異なる種類の動きを認める。
システムの量子バージョンを解く一方で、質量項の順序パラメータが任意のものとして扱われる一般化された位置依存質量ハミルトニアンを考える。
本研究では, ヒッグス発振器の量子バージョンは, 順序パラメータの適切な制限下では正確に解けるが, 第2の非線形系は, 順序パラメータの任意性が準多項式解を得る上でも重要な役割を果たすBethe ansatz法を用いて正確に解けることを示す。
これらの非線形発振器の3次元一般化に研究を拡張し、3次元ヒッグス発振器の古典および量子版に対する正確な解を得る。
k$に依存しない非多項ポテンシャルの量子対の3次元一般化は、準完全可解であることが分かる。 We consider two one dimensional nonlinear oscillators, namely (i) Higgs oscillator and (ii) a $k$-dependent nonpolynomial rational potential, where $k$ is the constant curvature of a Riemannian manifold. Both the systems are of position dependent mass form, ${\displaystyle m(x) = \frac{1}{(1 + k x^2)^2}}$, belonging to the quadratic Li$\acute{e}$nard type nonlinear oscillators. They admit different kinds of motions at the classical level. While solving the quantum versions of the systems, we consider a generalized position dependent mass Hamiltonian in which the ordering parameters of the mass term are treated as arbitrary. We observe that the quantum version of the Higgs oscillator is exactly solvable under appropriate restrictions of the ordering parameters, while the second nonlinear system is shown to be quasi exactly solvable using the Bethe ansatz method in which the arbitrariness of ordering parameters also plays an important role to obtain quasi-polynomial solutions. We extend the study to three dimensional generalizations of these nonlinear oscillators and obtain the exact solutions for the classical and quantum versions of the three dimensional Higgs oscillator. The three dimensional generalization of the quantum counterpart of the $k$-dependent nonpolynomial potential is found out to be quasi exactly solvable. | 翻訳日:2023-05-06 01:20:20 公開日:2021-08-08 |
# 長距離$O(N\to\infty)$モデルにおける量子時効と動的普遍性 Quantum aging and dynamical universality in the long-range $O(N\to\infty)$ model ( http://arxiv.org/abs/2008.08583v2 ) ライセンス: Link先を確認 | Jad C. Halimeh and Mohammad F. Maghrebi | (参考訳) 臨界点または近臨界点への量子クエンチは、短い時間と平衡から遠く離れたガラス状力学によって現れる \textit{aging} 現象を引き起こす。
近年、量子多体系の力学に対する関心が高まり、この現象に対する関心が再び高まっている。
新興実験プラットフォームにおけるユビキタスな長距離相互作用によって動機づけられた量子老化の研究は不可欠である。
本研究では,d$-dimensional $o(n)$モデルにおいて,長距離結合 1/x^{d+\sigma}$ と平均場制限 $n\to\infty$ を用いて動的普遍性と老化について検討する。
長距離カップリングの直接的な結果は非線形光円錐の出現である。
相関関数と応答関数に注目し,対応する時空位置が相対的にどのように位置しているか, \textit{local light cone} を経由し,グローバル \textit{quench light cone} を介するクエンチの時間に依存する,豊富なスケーリング動作を特定する。
二点関数の短時間依存を支配する初期スリップ指数を決定する。
我々は、特に光円錐の外側の領域において、長距離結合による老化の新たな定性的特徴を強調した。
長距離結合の重要な結果として、相関関数はクエンチの光円錐の外側で1/x^{d+\sigma}$で崩壊し、クエンチ後の合計時間と共に多項式的に増加する。
この間、短い時間差のため、この光円錐の外側でさえ、二時間応答関数は \textit{all} 距離で「等価」である。
解析結果は正確な数値とよく一致しており、長距離相互作用を持つ現代の実験プラットフォームに有用なベンチマークを提供する。 Quantum quenches to or near criticality give rise to the phenomenon of \textit{aging}, manifested by glassy-like dynamics at short times and far from equilibrium. The recent surge of interest in the dynamics of quantum many-body systems has rejuvenated interest in this phenomenon. Motivated by the ubiquitous long-range interactions in emerging experimental platforms, it is vital to study quantum aging in such settings. In this work, we investigate the dynamical universality and aging in the $d$-dimensional $O(N)$ model with the long-range coupling $1/x^{d+\sigma}$ and in the mean-field limit $N\to\infty$ that allows an exact treatment. An immediate consequence of long-range coupling is the emergence of nonlinear light cones. We focus on the correlation and response functions, and identify a rich scaling behavior depending on how the corresponding space-time positions are located relative to each other, via a \textit{local light cone}, and to the time of the quench via a global \textit{quench light cone}. We determine the initial-slip exponent that governs the short-time dependence of two-point functions. We highlight the new qualitative features of aging due to the long-range coupling, in particular in the region outside the light cones. As an important consequence of long-range coupling, the correlation function decays as $1/x^{d+\sigma}$ outside the quench light cone while increasing polynomially with the total time after quench. This is while, for short time differences, the two-time response function "equilibrates" at \textit{all} distances even outside this light cone. Our analytic findings are in excellent agreement with exact numerics, and provide a useful benchmark for modern experimental platforms with long-range interactions. | 翻訳日:2023-05-05 20:24:40 公開日:2021-08-08 |
# ブラックジャックの量子化:量子基本戦略とアドバンテージ Quantization of Blackjack: Quantum Basic Strategy and Advantage ( http://arxiv.org/abs/2011.12342v3 ) ライセンス: Link先を確認 | Yushi Mura, Hiroki Wada | (参考訳) 量子力学の見事な力を利用して情報を処理する量子コンピュータが実用化されつつある。
将来的には、オンラインカジノゲームなど、さまざまな分野でその影響が感じられるだろう。
これは量子ギャンブル理論がかなりの注目を集めた理由の1つである。
量子ギャンブル理論は古典理論では解釈できない非自明な結果をもたらすことが研究によって示されている。
古典的ブラックジャックを再現する量子回路を考案し,戦略間の量子絡み合いの可能性を見出した。
この回路は、量子コンピュータが一般的な場合、近い将来に実現できる。
さらに,ブラックジャックの基本戦略の量子版である量子基本戦略を用いて,従来のゲームと比較してプレイヤーの期待値が増加することを示した。 Quantum computers that process information by harnessing the remarkable power of quantum mechanics are increasingly being put to practical use. In the future, their impact will be felt in numerous fields, including in online casino games. This is one of the reasons why quantum gambling theory has garnered considerable attention. Studies have shown that the quantum gambling theory often yields nontrivial consequences that classical theory cannot interpret. We devised a quantum circuit reproducing classical blackjack and found possible quantum entanglement between strategies. This circuit can be realized in the near future when quantum computers are commonplace. Furthermore, we showed that the player's expectation increases compared to the classical game using quantum basic strategy, which is a quantum version of the popular basic strategy of blackjack. | 翻訳日:2023-04-23 06:20:14 公開日:2021-08-08 |
# 複雑ネットワークにおける超ラジカル相転移 Superradiant phase transition in complex networks ( http://arxiv.org/abs/2012.03088v3 ) ライセンス: Link先を確認 | Andrei Yu. Bazhenov, Dmitriy V. Tsarev, and Alexander P. Alodjants | (参考訳) 本研究では,スピンスピン相互作用を仮定した複雑なネットワークのディッキン・イジングモデルを一般化したディッキン・イジングモデルに対する超ラジアント相転移問題を考える。
このモデルはスピン(2レベル)系と外部古典(磁気)場と量子化(遷移)場の間の相互作用を記述する。
デルタ関数,ランダム(Poisson)およびパワーロー指数分布を特徴とする,正規,ランダム,スケールフリーなネットワーク構造について検討した。
常磁性 (PM) - 強磁性 (FM) と超強磁性 (SR) 相転移を記述するために,z方向の自発磁化に対応する全重み付きスピンz成分と正規化横磁場振幅の2つの順序パラメータを導入する。
スピン相互作用とネットワーク内の有限サイズ効果の相互作用により、PM-FM相転移の存在下でのSR状態の新たな特徴を初めて解明する。
我々は、SR相転移の臨界温度が、ノードの臨界数に対応する特定の値から単調に成長することを明らかにする。
スケールフリーネットワークでは、量子横磁場での自発磁化とz方向の集団スピン成分の消滅の両方により、この臨界温度は指数関数の上昇とともに上昇する。
さらに,臨界温度が0に近づくと,ネットワークパラメータがスピン系の量子相転移を得る条件を確立する。
古典および量子場のパラメータの臨界値を含む基本的な特徴は、この極限における超放射位相の発生について論じられる。 In this work we consider a superradiant phase transition problem for the Dicke-Ising model, which generalizes the Dicke and Ising models for annealed complex networks presuming spin-spin interaction. The model accounts the interaction between a spin (two-level) system and external classical (magnetic) and quantized (transverse) fields. We examine regular, random, and scale-free network structures characterized by the delta-function, random (Poisson), and power-law exponent degree distributions, respectively. To describe paramagnetic (PM) - ferromagnetic (FM) and superradiant (SR) phase transitions we introduce two order parameters: the total weighted spin z-component and the normalized transverse field amplitude, which correspond to the spontaneous magnetization in z and x directions, respectively. Due to the interplay between the spin interaction and the finite size effects in the networks we first elucidate novel features of the SR state in the presence of the PM-FM phase transition. We reveal that the critical temperature of the SR phase transition grows monotonically from some certain value that corresponds to the critical number of nodes. For the scale-free networks we find that this critical temperature rises with the degree exponent increase accompanied both by establishing spontaneous magnetization in a quantum transverse field and vanishing of the collective spin component in z direction. In addition, we establish the conditions for the network parameters to obtain a quantum phase transition in the spin system when the critical temperature approaches zero. The fundamental features, which involve critical values of the classical and quantum field parameters, are discussed for the occurrence of the superradiance phase in this limit. | 翻訳日:2023-04-22 00:45:35 公開日:2021-08-08 |
# スペクトル推定による多粒子コヒーレンスの密接性 The tightness of multipartite coherence from spectrum estimation ( http://arxiv.org/abs/2104.12094v2 ) ライセンス: Link先を確認 | Qi-Ming Ding, Xiao-Xu Fang, He Lu | (参考訳) 多成分量子コヒーレンスの検出は通常量子状態再構成を必要とするが、大規模量子システムでは極めて非効率である。
この一連の研究とともに、量子状態再構成を伴わない多部量子コヒーレンスを検出するための効率的な手順が提案され、スペクトル推定に基づく手法は様々なコヒーレンス対策に適している。
ここではまず,コヒーレンスの幾何測度に対するスペクトル推定法を一般化する。
次に,コヒーレンス幾何測度,l_1$-ノルム,コヒーレンスのロバスト性,コヒーレンスマルチビットghz状態および線形クラスター状態の凸屋根量化器など,各種コヒーレンス測度の推定下限のタイトネスについて検討した。
最後に,同じ実験データ(ding et al. phys. rev. research 3, 023228 (2021))を用いて,スペクトル推定法と他の2つの効率的な方法を示す。
スペクトル推定に基づく手法は, 様々なコヒーレンス測定において他の手法よりも優れており, 推定精度が著しく向上している。 Detecting multipartite quantum coherence usually requires quantum state reconstruction, which is quite inefficient for large-scale quantum systems. Along this line of research, several efficient procedures have been proposed to detect multipartite quantum coherence without quantum state reconstruction, among which the spectrum-estimation-based method is suitable for various coherence measures. Here, we first generalize the spectrum-estimation-based method for the geometric measure of coherence. Then, we investigate the tightness of the estimated lower bound of various coherence measures, including the geometric measure of coherence, $l_1$-norm of coherence, the robustness of coherence, and some convex roof quantifiers of coherence multiqubit GHZ states and linear cluster states. Finally, we demonstrate the spectrum-estimation-based method as well as the other two efficient methods by using the same experimental data [Ding et al. Phys. Rev. Research 3, 023228 (2021)]. We observe that the spectrum-estimation-based method outperforms other methods in various coherence measures, which significantly enhances the accuracy of estimation. | 翻訳日:2023-04-02 11:08:26 公開日:2021-08-08 |
# 連続等方性測定による曲線位相空間のコヒーレント測定の実施法
I. Spin and the Kraus-operator geometry of $\mathrm{SL}(2,\mathbb{C})$ How to perform the coherent measurement of a curved phase space by continuous isotropic measurement. I. Spin and the Kraus-operator geometry of $\mathrm{SL}(2,\mathbb{C})$ ( http://arxiv.org/abs/2107.12396v2 ) ライセンス: Link先を確認 | Christopher S. Jackson and Carlton M. Caves | (参考訳) スピンコヒーレント状態 (SCS) は, スピン系の全スピン成分 (E. Shojaee, C. S. Jackson, C. A. Riofrio, A. Kalev, I. H. Deutsch, Phys. Rev. Lett. 121, 130404 (2018)] の連続等方性測定により, 任意のスピン系のスピンコヒーレント状態 (POVM) を測定できることが報告された。
入力量子状態に対するSCS POVMの結果確率分布は一般化された$Q$関数であり、SCSの2次元位相空間上で定義される。
本稿は, 連続等方性測定の理論的な詳細を開発し, 量子系に曲面位相空間対応を適用する一般的な文脈に配置し, この測定性能を解析する方法を説明することにより, その実験的有用性を示す。
この解析は、連続等方性測定の過程で発展するクラウス作用素の観点によるものである。
kraus演算子は、$\mathrm{su}(2)$の要素を表す通常のユニタリ作用素の複素バージョンである$\mathrm{sl}(2,\mathbb{c})$のリー群の元を表す。
したがって、関連するPOVM 要素は 3 つの双曲型 $\mathrm{SU}(2)\backslash\mathrm{SL}(2,\mathbb{C})$ の点を表す。
3つの等価確率的手法、経路積分、拡散(フォッカー・プランク)方程式、および確率微分方程式を適用し、POVMがすぐにSCS POVMに制限されることを示す。
クラウス作用素に二つの基本的な数学的ツール、maurer-cartan形式(確率的応用のために修正された)と対称対 $\mathrm{su}(2)\subset\mathrm{sl}(2,\mathbb{c})$に関連するカルタン分解を適用する。
これらのツールから察知された3つの確率的手法は、表現独立で幾何学的(スピン成分のスペクトル情報に依存しない)な方法でクラウス作用素に直接適用される。 Recently it was reported that the spin-coherent state (SCS) positive-operator-valued measure (POVM) can be performed for any spin system by continuous isotropic measurement of the three total spin components [E. Shojaee, C. S. Jackson, C. A. Riofrio, A. Kalev, and I. H. Deutsch, Phys. Rev. Lett. 121, 130404 (2018)]. The outcome probability distribution of the SCS POVM for an input quantum state is the generalized $Q$-function, which is defined on the 2-sphere phase space of SCSs. This article develops the theoretical details of the continuous isotropic measurement and places it within the general context of applying curved-phase-space correspondences to quantum systems, indicating their experimental utility by explaining how to analyze this measurement's performance. The analysis is in terms of the Kraus operators that develop over the course of a continuous isotropic measurement. The Kraus operators represent elements of the Lie group $\mathrm{SL}(2,\mathbb{C})$, a complex version of the usual unitary operators that represent elements of $\mathrm{SU}(2)$. Consequently, the associated POVM elements represent points in the 3-hyperboloid $\mathrm{SU}(2)\backslash\mathrm{SL}(2,\mathbb{C})$. Three equivalent stochastic techniques, path integral, diffusion (Fokker-Planck) equation, and stochastic differential equations, are applied to show that the POVM quickly limits to the SCS POVM. We apply two basic mathematical tools to the Kraus operators, the Maurer-Cartan form, modified for stochastic applications, and the Cartan decomposition associated with the symmetric pair $\mathrm{SU}(2)\subset\mathrm{SL}(2,\mathbb{C})$. Informed by these tools, the three stochastic techniques are applied directly to the Kraus operators in a representation independent, and thus geometric, way (independent of any spectral information about the spin components). | 翻訳日:2023-03-20 21:23:03 公開日:2021-08-08 |
# データ分析:インスタントメッセージングサービスを用いたオフショアベンダーとの通信 Data Analysis: Communicating with Offshore Vendors using Instant Messaging Services ( http://arxiv.org/abs/2108.03560v1 ) ライセンス: Link先を確認 | Jongkil Jay Jeong | (参考訳) 本研究の目的は, 正確な分析プロセスの選択が, 膨大な情報から有意義かつ正確な結論を導き出すのに有効かどうかを確かめることである。
この目的のために、ITビジネスの成功における効果的なコミュニケーションの重要性を調査するための分析フレームワークを設計しました。
アウトソースサービスプロバイダとクライアント間のチャット会話の詳細な分析を通じて、クライアントとオフショアプロバイダ間のインスタントメッセージング環境で使用される言語が高度に断片化され、壊れていることを示す証拠が得られたが、クライアントとオフショアプロバイダの両方がこれらの異常に影響を与えていないように見えた。 The purpose of this study is to find whether the choice of correct analytic process is effective to derive a meaningful and correct conclusion from the vast amount of information. For this purpose, I designed an analytic framework to investigate the importance of effective communication on the success of IT business. Through an detailed analysis of chat conversations between a outsource service provider and client, this study found evidence to suggest that the language used in instant messaging environments between clients & offshore providers was highly fragmented and broken, but both the client and offshore provider did not seemed to be impacted by these anomalies. | 翻訳日:2023-03-19 01:28:19 公開日:2021-08-08 |
# ITオフショアの成功: 場所や企業に依存していますか? Success in IT offshoring: Does it depend on the location or the company? ( http://arxiv.org/abs/2108.03559v1 ) ライセンス: Link先を確認 | Jongkil Jay Jeong | (参考訳) 多くの企業が現在,アウトソーシング要件を満たすために,オフショアベンダを目指している。
この成長に伴い、インドのような特定の国がオフショア市場を支配しているのを見て、オフショア市場における特定のオフショア国の評判がオフショア企業の意思決定プロセスにどのような役割を持つのかを考察する。 Many companies are now looking towards offshore vendors to fulfill their outsourcing requirements. With this growth, we have seen particular countries such as India dominate the offshoring market, and this paper will examine what type of role the reputation of a particular offshoring country has on the decision making process of firms looking to offshore. | 翻訳日:2023-03-19 01:28:07 公開日:2021-08-08 |
# 層内および層間相互作用による二層グラフェンの閉じ込め Confinement in bilayer graphene via intra- and inter-layer interactions ( http://arxiv.org/abs/2108.07221v1 ) ライセンス: Link先を確認 | Miguel Castillo-Celeita, V\'it Jakubsk\'y, Kevin Zelaya | (参考訳) 非均質なオンサイト相互作用, (pseudo-) 磁場, あるいは層間相互作用による二層グラフェン中のディラックフェルミオンの閉じ込めについて検討した。
4バンド近似の枠組みの中で、定常方程式が2\times2$ディラック型ハミルトニアンと補助相互作用を持つ2つの定常方程式に還元可能な系に焦点を当てる。
エネルギー依存ポテンシャルを持つ有効なschr\"odinger方程式を解いて局所状態を見つけることができることを示す。
我々は,二層グラフェンが不均質(pseudo-)磁場,オンサイト相互作用,あるいは層間カップリングを受けるいくつかのシナリオについて考察する。
明示的な例では、局所的なゆらぎや相互作用の周期性欠陥によって局所化された状態の分析解を提供する。 We consider confinement of Dirac fermions in $AB$-stacked bilayer graphene by inhomogeneous on-site interactions, (pseudo-)magnetic field or inter-layer interaction. Working within the framework of four-band approximation, we focus on the systems where the stationary equation is reducible into two stationary equations with $2\times2$ Dirac-type Hamiltonians and auxiliary interactions. We show that it is possible to find localized states by solving an effective Schr\"odinger equation with energy-dependent potential. We consider several scenarios where bilayer graphene is subject to inhomogneous (pseudo-)magnetic field, on-site interactions or inter-layer coupling. In explicit examples, we provide analytical solutions for the states localized by local fluctuations or periodicity defects of the interactions. | 翻訳日:2023-03-19 01:25:19 公開日:2021-08-08 |
# 量子力学における't Hooft'とWolfram'sモデルの不適合性 Incompatibility between 't Hooft's and Wolfram's models of quantum mechanics ( http://arxiv.org/abs/2108.03751v1 ) ライセンス: Link先を確認 | Jos\'e Manuel Rodr\'iguez Caballero | (参考訳) Stephen Wolfram と Gerard't Hooft は量子力学の古典的なモデルを開発した。
各モデルにおける時間関数として記述複雑性が異なることが示される。
したがって、それらは同じ物理系を記述できない。
さらに,計算不能な関数を含む't Hooft'モデルといくつかの特性を共有するWolframモデルの解釈を提案する。 Stephen Wolfram and Gerard 't Hooft developed classical models of quantum mechanics. We show that the descriptive complexity grows differently as a function of time in each model. Therefore, they cannot describe the same physical system. In addition, we propose an interpretation of the Wolfram model, which shares some characteristics with 't Hooft's model, but which involves a non-computable function. | 翻訳日:2023-03-19 01:24:53 公開日:2021-08-08 |
# 量子ハミルトニアンシミュレーションベンチマーク A Quantum Hamiltonian Simulation Benchmark ( http://arxiv.org/abs/2108.03747v1 ) ライセンス: Link先を確認 | Yulong Dong, K. Birgitta Whaley, Lin Lin | (参考訳) ハミルトンシミュレーションは量子計算において最も重要な問題の1つであり、量子特異値変換(qsvt)はハミルトンの一般クラスをシミュレートする効率的な方法である。
しかし、QSVT回路は通常、複数のアンシラ量子ビットとマルチキュービット制御ゲートを含む。
我々は,n$-qubitのランダムハミルトニアンのクラスをシミュレートするために1つのアンシラ量子ビットのみを使用する極小qsvt回路という,大幅に単純化された量子回路を提案する。
量子ユニタリ進化スコア(quantum Unitary Evolution score, QUES)は、スケーラブルな量子ベンチマークであり、古典計算を必要とせずに検証できる。
我々はQUESが回路の忠実度と関連する量子回路サンプリング問題の古典的硬さと直接関係があることを実証する。
理論的解析は、適切な仮定の下では、古典的な硬さを示すのに十分なノイズの多い量子デバイスであっても十分である「最適」シミュレーション時間 $t^{\text{opt}}\approx 4.81$ が存在することを示唆している。 Hamiltonian simulation is one of the most important problems in quantum computation, and quantum singular value transformation (QSVT) is an efficient way to simulate a general class of Hamiltonians. However, the QSVT circuit typically involves multiple ancilla qubits and multi-qubit control gates. We propose a drastically simplified quantum circuit called the minimal QSVT circuit, which uses only one ancilla qubit to simulate a class of $n$-qubit random Hamiltonians. We formulate a simple metric called the quantum unitary evolution score (QUES), which is a scalable quantum benchmark and can be verified without any need for classical computation. We demonstrate that QUES is directly related to the circuit fidelity, and the classical hardness of an associated quantum circuit sampling problem. Theoretical analysis suggests under suitable assumptions, there exists an "optimal" simulation time $t^{\text{opt}}\approx 4.81$, at which even a noisy quantum device may be sufficient to demonstrate the classical hardness. | 翻訳日:2023-03-19 01:24:46 公開日:2021-08-08 |
# 非局所現実理論のテストのためのレゲット型$N$-partiteシナリオ Leggett-type $N$-partite scenarios for testing nonlocal realistic theory ( http://arxiv.org/abs/2108.03665v1 ) ライセンス: Link先を確認 | Abdul Sattar Khan and Ma-Cheng Yang and Cong-Feng Qiao | (参考訳) 非局所現実理論は、量子論に直面する古典物理学の最後の基礎であり、バイパルタイト系(英語版)(Nature 446, 871 (2007))でほとんど観測できなかった。
我々は、レゲット型非局所現実的モデルを偏光子設定で任意の$N$-partiteシステムに拡張し、量子力学と非局所現実的理論を区別するためにいくつかの強い不等式を得る。
例えば、特定の測定設定で、グリーンベルガー=ホルン=ザイリンガー状態(GHZ)にレゲット型不等式が量子違反していることが分かる。
私たちの結果は、マルチパーティイトシステムにおける非局所的リアリズムを実験で検証できる。 The nonlocal realistic theory might be the last cornerstone of classical physics confronting to the quantum theory, which was found mostly untenable in the bipartite system [Nature 446, 871 (2007)]. We extend the Leggett-type nonlocal realistic model to arbitrary $N$-partite systems with polarizer settings, and obtain some stronger inequalities to distinguish quantum mechanics from nonlocal realistic theories. For illustration, with certain measurement settings the quantum violations of Leggett-type inequalities are found for Greenberger-Horne-Zeilinger (GHZ) state. Our results, say the nonlocal realism in multipartite systems, are testable in experiment. | 翻訳日:2023-03-19 01:23:47 公開日:2021-08-08 |
# 混合量子状態の再現性評価の改善 Improving producibility estimation for mixed quantum states ( http://arxiv.org/abs/2108.03605v1 ) ライセンス: Link先を確認 | Luca Lepori, Andrea Trombettoni, Domenico Giuliano, Johannes Kombe, Jorge Yago Malo, Andrew J. Daley, Augusto Smerzi, and Maria Luisa Chiofalo | (参考訳) 混合量子状態の生成可能性を評価する新しい関数を提案する。
応用すれば、この関数は量子フィッシャー情報より優れ、多部絡みによって量子状態や位相を特徴付けるのに有効である。
理論的には、確率は1点と2点の相関関数でしか表現できない。
これは、実験的な測定と他の推定器の数値シミュレーションが到達範囲外であっても困難である場合、特に貴重である。
新しい推定器の理論的なユーザビリティの周囲を追跡し、パラダイム的なスピン例のシミュレーション的な証拠を提供する。 We introduce a new functional to estimate the producibility of mixed quantum states. When applicable, this functional outperforms the quantum Fisher information, and can be operatively exploited to characterize quantum states and phases by multipartite entanglement. The rationale is that producibility is expressible in terms of one- and two-point correlation functions only. This is especially valuable whenever the experimental measurements and the numerical simulation of other estimators result to be difficult, if not out of reach. We trace the theoretical usability perimeter of the new estimator and provide simulational evidence of paradigmatic spin examples. | 翻訳日:2023-03-19 01:22:49 公開日:2021-08-08 |
# 小児閉塞性睡眠時無呼吸データにおける統計的学習手法の検討 A survey of statistical learning techniques as applied to inexpensive pediatric Obstructive Sleep Apnea data ( http://arxiv.org/abs/2002.07873v3 ) ライセンス: Link先を確認 | Emily T. Winn, Marilyn Vazquez, Prachi Loliencar, Kaisa Taipale, Xu Wang and Giseon Heo | (参考訳) 小児閉塞性睡眠時無呼吸は小学生の1-5%に影響し、他の有害な健康問題を引き起こす可能性がある。
迅速な診断と治療は、子供の成長と発達に不可欠であるが、症状の変動と利用可能なデータの複雑さは、これを困難にしている。
アンケートや頭蓋顔面計測による安価なデータに着目し,プロセスの合理化に向けて第一歩を踏み出した。
探索データ解析のプロセスにおいて,相関ネットワーク,トポロジカルデータ解析からのMapperアルゴリズム,特異値分解を適用した。
次に、統計学、機械学習、トポロジーから、サポートベクトルマシンからベイズ分類器、多様体学習まで、様々な教師なし学習手法を適用する。
最後に,これら各手法の結果を分析し,マルチデータソースアルゴリズムの今後の可能性について考察する。 Pediatric obstructive sleep apnea affects an estimated 1-5% of elementary-school aged children and can lead to other detrimental health problems. Swift diagnosis and treatment are critical to a child's growth and development, but the variability of symptoms and the complexity of the available data make this a challenge. We take a first step in streamlining the process by focusing on inexpensive data from questionnaires and craniofacial measurements. We apply correlation networks, the Mapper algorithm from topological data analysis, and singular value decomposition in a process of exploratory data analysis. We then apply a variety of supervised and unsupervised learning techniques from statistics, machine learning, and topology, ranging from support vector machines to Bayesian classifiers and manifold learning. Finally, we analyze the results of each of these methods and discuss the implications for a multi-data-sourced algorithm moving forward. | 翻訳日:2022-12-31 12:45:43 公開日:2021-08-08 |
# バックプロジェクションに基づく目標に対する投影勾配降下の収束速度について On the Convergence Rate of Projected Gradient Descent for a Back-Projection based Objective ( http://arxiv.org/abs/2005.00959v3 ) ライセンス: Link先を確認 | Tom Tirer, Raja Giryes | (参考訳) Ill-posed linear inverse problem は多くの科学的設定に現れ、典型的にはデータ忠実度と事前項からなる最適化問題によって解決される。
近年、いくつかの研究が最小二乗(LS)の代替としてバックプロジェクション(BP)に基づく忠実度項を検討し、一般的な逆問題に対して優れた結果を示した。
これらの研究はまた、ls項よりもbp項を用いる方が最適化アルゴリズムの反復を少なくできることを示した。
本稿では,bp目的の投影勾配降下(pgd)アルゴリズムの収束率について検討する。
本分析により,ls目的よりも収束速度が速い固有源を同定できるとともに,軽度な仮定のみを行うことができる。
また,より一般的な近位勾配法を,前者の近位写像上の緩和収縮条件下で解析した。
この分析は、線形測定演算子がひどい条件下にある場合のBPの利点をさらに強調する。
$\ell_1$-norm と GAN-based priors の2つの数値実験は、我々の理論結果を裏付けるものである。 Ill-posed linear inverse problems appear in many scientific setups, and are typically addressed by solving optimization problems, which are composed of data fidelity and prior terms. Recently, several works have considered a back-projection (BP) based fidelity term as an alternative to the common least squares (LS), and demonstrated excellent results for popular inverse problems. These works have also empirically shown that using the BP term, rather than the LS term, requires fewer iterations of optimization algorithms. In this paper, we examine the convergence rate of the projected gradient descent (PGD) algorithm for the BP objective. Our analysis allows to identify an inherent source for its faster convergence compared to using the LS objective, while making only mild assumptions. We also analyze the more general proximal gradient method under a relaxed contraction condition on the proximal mapping of the prior. This analysis further highlights the advantage of BP when the linear measurement operator is badly conditioned. Numerical experiments with both $\ell_1$-norm and GAN-based priors corroborate our theoretical results. | 翻訳日:2022-12-07 06:05:18 公開日:2021-08-08 |
# 非同期Q-Learningのサンプル複雑性:シャーパ解析とばらつき低減 Sample Complexity of Asynchronous Q-Learning: Sharper Analysis and Variance Reduction ( http://arxiv.org/abs/2006.03041v3 ) ライセンス: Link先を確認 | Gen Li, Yuting Wei, Yuejie Chi, Yuantao Gu, Yuxin Chen | (参考訳) 非同期Q-ラーニングは、行動ポリシーによって誘導されるマルコフサンプルの1つの軌道に基づいて、マルコフ決定過程(MDP)の最適アクション値関数(またはQ-関数)を学習することを目的としている。
Focusing on a $\gamma$-discounted MDP with state space $\mathcal{S}$ and action space $\mathcal{A}$, we demonstrate that the $\ell_{\infty}$-based sample complexity of classical asynchronous Q-learning --- namely, the number of samples needed to yield an entrywise $\varepsilon$-accurate estimate of the Q-function --- is at most on the order of $\frac{1}{\mu_{\min}(1-\gamma)^5\varepsilon^2}+ \frac{t_{mix}}{\mu_{\min}(1-\gamma)}$ up to some logarithmic factor, provided that a proper constant learning rate is adopted.
ここで、$t_{mix}$ と $\mu_{\min}$ はそれぞれ標本軌道の混合時間と最小状態-作用占有確率を表す。
この境界の第一項は、軌道の定常分布から独立したサンプルが引き出される同期の場合のサンプル複雑性と一致する。
第2の用語は、マルコフ軌道が定常状態に達するための経験的分布に要するコストを反映している。
上記の境界は、すべてのシナリオに対して少なくとも$|\mathcal{S}||\mathcal{A}|$の係数と、少なくとも$t_{mix}|\mathcal{S}|||\mathcal{A}|$の係数により、任意の十分小さな精度レベルで$\varepsilon$の係数によって、最先端の結果 \cite{qu2020finite} により改善される。
さらに,実効的なhorizon $\frac{1}{1-\gamma}$のスケーリングが分散還元によって改善できることを実証する。 Asynchronous Q-learning aims to learn the optimal action-value function (or Q-function) of a Markov decision process (MDP), based on a single trajectory of Markovian samples induced by a behavior policy. Focusing on a $\gamma$-discounted MDP with state space $\mathcal{S}$ and action space $\mathcal{A}$, we demonstrate that the $\ell_{\infty}$-based sample complexity of classical asynchronous Q-learning --- namely, the number of samples needed to yield an entrywise $\varepsilon$-accurate estimate of the Q-function --- is at most on the order of $\frac{1}{\mu_{\min}(1-\gamma)^5\varepsilon^2}+ \frac{t_{mix}}{\mu_{\min}(1-\gamma)}$ up to some logarithmic factor, provided that a proper constant learning rate is adopted. Here, $t_{mix}$ and $\mu_{\min}$ denote respectively the mixing time and the minimum state-action occupancy probability of the sample trajectory. The first term of this bound matches the sample complexity in the synchronous case with independent samples drawn from the stationary distribution of the trajectory. The second term reflects the cost taken for the empirical distribution of the Markovian trajectory to reach a steady state, which is incurred at the very beginning and becomes amortized as the algorithm runs. Encouragingly, the above bound improves upon the state-of-the-art result \cite{qu2020finite} by a factor of at least $|\mathcal{S}||\mathcal{A}|$ for all scenarios, and by a factor of at least $t_{mix}|\mathcal{S}||\mathcal{A}|$ for any sufficiently small accuracy level $\varepsilon$. Further, we demonstrate that the scaling on the effective horizon $\frac{1}{1-\gamma}$ can be improved by means of variance reduction. | 翻訳日:2022-11-25 10:02:16 公開日:2021-08-08 |
# 安全臨界自律システム評価のためのニューラルブリッジサンプリング Neural Bridge Sampling for Evaluating Safety-Critical Autonomous Systems ( http://arxiv.org/abs/2008.10581v3 ) ライセンス: Link先を確認 | Aman Sinha, Matthew O'Kelly, Russ Tedrake, John Duchi | (参考訳) 学習ベースの方法論は、自律運転や医療ロボティクスといった安全上重要な分野への応用が増えている。
危険な事象の稀な性質のため、実世界のテストは避けられないほど高価でエスカレーションできない。
本研究では,危険事象の確率を計算し,シミュレーションにおける安全性評価の確率論的アプローチを用いる。
探索, 利用, 最適化技術を組み合わせて, 故障モードを見つけ, 発生率を推定する新しいレアイベントシミュレーション手法を開発した。
統計的および計算効率の両面で,本手法の性能を厳格に保証する。
最後に,安全クリティカルな自律システムの開発とテストに不可欠な迅速感度解析とモデル比較のためのツールとしての有用性を示すとともに,様々なシナリオにおける本手法の有効性を実証する。 Learning-based methodologies increasingly find applications in safety-critical domains like autonomous driving and medical robotics. Due to the rare nature of dangerous events, real-world testing is prohibitively expensive and unscalable. In this work, we employ a probabilistic approach to safety evaluation in simulation, where we are concerned with computing the probability of dangerous events. We develop a novel rare-event simulation method that combines exploration, exploitation, and optimization techniques to find failure modes and estimate their rate of occurrence. We provide rigorous guarantees for the performance of our method in terms of both statistical and computational efficiency. Finally, we demonstrate the efficacy of our approach on a variety of scenarios, illustrating its usefulness as a tool for rapid sensitivity analysis and model comparison that are essential to developing and testing safety-critical autonomous systems. | 翻訳日:2022-10-25 09:16:21 公開日:2021-08-08 |
# Twitterデータからの災害予測におけるBERT埋め込みの有効性 Efficacy of BERT embeddings on predicting disaster from Twitter data ( http://arxiv.org/abs/2108.10698v1 ) ライセンス: Link先を確認 | Ashis Kumar Chanda | (参考訳) Twitterのようなソーシャルメディアは、他の人と個人的な体験を共有し、コミュニケーションするための共通のプラットフォームを提供する。
人々は自分の生活経験、地元のニュース、出来事をソーシャルメディアに投稿して他人に知らせることが多い。
多くの救助機関は、このタイプのデータを定期的に監視し、災害を特定し、生命のリスクを減らす。
しかし、人間が手動で大量のデータをチェックし、リアルタイムで災害を特定することは不可能である。
この目的のために、機械理解可能な表現に単語を提示し、単語表現に機械学習手法を適用してテキストの感情を識別する研究が数多く提案されている。
従来の研究方法は、ある文書からの単語の単一の表現または埋め込みを提供する。
しかし、最近のadvanced context embedded method (bert)は、異なる文脈で同じ単語の異なるベクトルを構成する。
BERTの埋め込みは、異なる自然言語処理(NLP)タスクでうまく使われてきたが、これらの表現が災害時のつぶやき分析にどのように役立つかは具体的には分析されていない。
本研究では,Twitterデータからの災害予測におけるBERT埋め込みの有効性について検討し,従来の文脈自由な単語埋め込み手法(GloVe,Skip-gram,FastText)と比較する。
この目的では、従来の機械学習手法とディープラーニング手法の両方を使用します。
本研究の定量的および定性的な結果を提供する。
以上の結果から,BERT埋め込みは従来の単語埋め込みよりも災害予測に最適であることが示唆された。
私たちのコードは研究コミュニティに自由にアクセスできます。 Social media like Twitter provide a common platform to share and communicate personal experiences with other people. People often post their life experiences, local news, and events on social media to inform others. Many rescue agencies monitor this type of data regularly to identify disasters and reduce the risk of lives. However, it is impossible for humans to manually check the mass amount of data and identify disasters in real-time. For this purpose, many research works have been proposed to present words in machine-understandable representations and apply machine learning methods on the word representations to identify the sentiment of a text. The previous research methods provide a single representation or embedding of a word from a given document. However, the recent advanced contextual embedding method (BERT) constructs different vectors for the same word in different contexts. BERT embeddings have been successfully used in different natural language processing (NLP) tasks, yet there is no concrete analysis of how these representations are helpful in disaster-type tweet analysis. In this research work, we explore the efficacy of BERT embeddings on predicting disaster from Twitter data and compare these to traditional context-free word embedding methods (GloVe, Skip-gram, and FastText). We use both traditional machine learning methods and deep learning methods for this purpose. We provide both quantitative and qualitative results for this study. The results show that the BERT embeddings have the best results in disaster prediction task than the traditional word embeddings. Our codes are made freely accessible to the research community. | 翻訳日:2021-08-29 12:09:42 公開日:2021-08-08 |
# 人口動態を用いたニューラルネットワークによる学生のパフォーマンス予測 Prediction of Students performance with Artificial Neural Network using Demographic Traits ( http://arxiv.org/abs/2108.07717v1 ) ライセンス: Link先を確認 | Adeniyi Jide Kehinde, Abidemi Emmanuel Adeniyi, Roseline Oluwaseun Ogundokun, Himanshu Gupta, Sanjay Misra | (参考訳) 多くの研究者が、多数のデータマイニング技術を用いて教師なし・教師なし学習における学生の学業成績を研究している。
ニューラルネットワークは、十分な予測能力を達成するために、より大きな観測の収集を必要とすることが多い。
卒業率の低さから、成績の悪さや、キャリアの追求の途中で学校を中退することによる繰り返しの頻度を減らすとともに、この脅威を減らすのに役立つシステムを設計する必要がある。
したがって、どちらがより効率的か、どの場合にどちらが好まれるかを判断するために、それぞれの利点と欠点を同時に研究する必要がある。
本研究は,学生層特性を用いた人工ニュートラルネットワークを用いた学生の成績予測システムを開発することを目的として,大学が候補者(学生)を選定する際の支援を行う。
モデルは、選択された変数を入力として開発した。
精度は92.3%を超え、予測ツールとしてのニューラルネットワークの有効性と、大学への入学を求める候補者の選択基準を示している。 Many researchers have studied student academic performance in supervised and unsupervised learning using numerous data mining techniques. Neural networks often need a greater collection of observations to achieve enough predictive ability. Due to the increase in the rate of poor graduates, it is necessary to design a system that helps to reduce this menace as well as reduce the incidence of students having to repeat due to poor performance or having to drop out of school altogether in the middle of the pursuit of their career. It is therefore necessary to study each one as well as their advantages and disadvantages, so as to determine which is more efficient in and in what case one should be preferred over the other. The study aims to develop a system to predict student performance with Artificial Neutral Network using the student demographic traits so as to assist the university in selecting candidates (students) with a high prediction of success for admission using previous academic records of students granted admissions which will eventually lead to quality graduates of the institution. The model was developed based on certain selected variables as the input. It achieved an accuracy of over 92.3 percent, showing Artificial Neural Network potential effectiveness as a predictive tool and a selection criterion for candidates seeking admission to a university. | 翻訳日:2021-08-22 14:39:19 公開日:2021-08-08 |
# 深分化型プランナーによる現実世界のナビゲーションに向けて Towards real-world navigation with deep differentiable planners ( http://arxiv.org/abs/2108.05713v1 ) ライセンス: Link先を確認 | Shu Ishida, Jo\~ao F. Henriques | (参考訳) 私たちは、複雑な3d環境を計画し、ナビゲートするために具体化されたニューラルネットワークを訓練します。
エージェントや環境の事前知識を必要とするのではなく、プランナーは状態遷移と報酬をモデル化することを学ぶ。
強化学習の潜在的に危険な試行錯誤を避けるため、安全な専門家によるデモンストレーションからオフラインでトレーニングされたバリューイテレーションネットワーク(VIN)のような、さまざまなプランナに焦点を当てる。
小さなシミュレーションではうまく動作しますが、デプロイを妨げる2つの大きな制限に対処します。
まず、現在の異なるプランナーは、分岐の複雑さが高い環境で長期計画に苦慮している。
衝突を避けるために障害に対して低い報酬を課すことを理想的に学ばなければならないが、ネットワークに課される制約は、衝突するたびに十分に大きな罰則を学べるほど強力ではないと仮定する。
したがって、バリューイテレーションに構造的な制約を課し、不可能でないアクションを明示的にモデル化することを学びます。
第二に、ロボットの実際の展開に欠かせない翻訳と回転の下で、限られた視点カメラで動くようにモデルを拡張する。
多くのVINライクなプランナーは回転なしで360度またはオーバーヘッドビューを仮定する。
対照的に,本手法はメモリ効率のよい格子マップを用いて部分観測のCNN埋め込みを集約し,3次元状態空間格子(翻訳と回転)を明示的にモデル化する。
提案手法は,いくつかの2次元および3次元環境における意味的ナビゲーションと探索を大幅に改善する。
知る限りでは、ロボットからキャプチャーされた実際の画像からなる難しいActive Vision Datasetにおいて、私たちは初めて、差別化可能な計画を実行しました。 We train embodied neural networks to plan and navigate unseen complex 3D environments, emphasising real-world deployment. Rather than requiring prior knowledge of the agent or environment, the planner learns to model the state transitions and rewards. To avoid the potentially hazardous trial-and-error of reinforcement learning, we focus on differentiable planners such as Value Iteration Networks (VIN), which are trained offline from safe expert demonstrations. Although they work well in small simulations, we address two major limitations that hinder their deployment. First, we observed that current differentiable planners struggle to plan long-term in environments with a high branching complexity. While they should ideally learn to assign low rewards to obstacles to avoid collisions, we posit that the constraints imposed on the network are not strong enough to guarantee the network to learn sufficiently large penalties for every possible collision. We thus impose a structural constraint on the value iteration, which explicitly learns to model any impossible actions. Secondly, we extend the model to work with a limited perspective camera under translation and rotation, which is crucial for real robot deployment. Many VIN-like planners assume a 360 degrees or overhead view without rotation. In contrast, our method uses a memory-efficient lattice map to aggregate CNN embeddings of partial observations, and models the rotational dynamics explicitly using a 3D state-space grid (translation and rotation). Our proposals significantly improve semantic navigation and exploration on several 2D and 3D environments, succeeding in settings that are otherwise challenging for this class of methods. As far as we know, we are the first to successfully perform differentiable planning on the difficult Active Vision Dataset, consisting of real images captured from a robot. | 翻訳日:2021-08-13 14:46:29 公開日:2021-08-08 |
# (参考訳) MuCoMiD:miRNA-disease Association予測のためのマルチタスク畳み込み学習フレームワーク MuCoMiD: A Multitask Convolutional Learning Framework for miRNA-Disease Association Prediction ( http://arxiv.org/abs/2108.04820v1 ) ライセンス: CC BY 4.0 | Thi Ngan Dong and Megha Khosla | (参考訳) 最近の研究から、microRNAやmiRNAが様々な複雑なヒト疾患のバイオマーカーとして機能する可能性が示唆されている。
湿式実験室実験は高価で時間がかかるため,近年,mirna-disease association prediction の計算手法が注目されている。
データ不足は、信頼できる機械学習モデルを構築する上での大きな課題のひとつだ。
データ不足と手作り入力機能の使用が組み合わさって、オーバーフィッティングやデータ漏洩の問題を引き起こしている。
我々は、MuCoMiDと呼ぶ新しいマルチタスク畳み込みベースのアプローチを提案することによって、既存の作品の限界を克服する。
MuCoMiDは、4つの異種生物情報ソース(miRNA/diseasesとタンパク質コード遺伝子(PCG)、miRNAファミリー情報、病気オントロジー)の知識を、新しい視点であり、これまで研究されていないマルチタスク設定に組み込んで、自動的な特徴抽出を可能にする。
マルチチャネル畳み込みを用いることで,モデルが線形かつ単純でありながら表現表現を抽出できる。
モデルの一般化能力を効果的に検証するために,提案する大規模独立テストセットとケーススタディとともに,標準ベンチマークデータセット上の大規模実験を構築した。
MuCoMiDは、HMDDv2.0とHMDDv3.0データセットの5倍CV評価において、少なくとも5%改善し、最先端のアプローチよりも、未確認のmiRNAと疾患を持つ大規模な独立したテストセットでは少なくとも49%改善している。
私たちは、再現性と将来の研究のためのコードをhttps://git.l3s.uni-hannover.de/dong/cmttで共有しています。 Growing evidence from recent studies implies that microRNA or miRNA could serve as biomarkers in various complex human diseases. Since wet-lab experiments are expensive and time-consuming, computational techniques for miRNA-disease association prediction have attracted a lot of attention in recent years. Data scarcity is one of the major challenges in building reliable machine learning models. Data scarcity combined with the use of pre-calculated hand-crafted input features has led to problems of overfitting and data leakage. We overcome the limitations of existing works by proposing a novel multi-tasking convolution-based approach, which we refer to as MuCoMiD. MuCoMiD allows automatic feature extraction while incorporating knowledge from 4 heterogeneous biological information sources (interactions between miRNA/diseases and protein-coding genes (PCG), miRNA family information, and disease ontology) in a multi-task setting which is a novel perspective and has not been studied before. The use of multi-channel convolutions allows us to extract expressive representations while keeping the model linear and, therefore, simple. To effectively test the generalization capability of our model, we construct large-scale experiments on standard benchmark datasets as well as our proposed larger independent test sets and case studies. MuCoMiD shows an improvement of at least 5% in 5-fold CV evaluation on HMDDv2.0 and HMDDv3.0 datasets and at least 49% on larger independent test sets with unseen miRNA and diseases over state-of-the-art approaches. We share our code for reproducibility and future research at https://git.l3s.uni-hannover.de/dong/cmtt. | 翻訳日:2021-08-12 21:50:07 公開日:2021-08-08 |
# (参考訳) 伝達学習とスペクトログラム増強による音声感情認識の改善 Improved Speech Emotion Recognition using Transfer Learning and Spectrogram Augmentation ( http://arxiv.org/abs/2108.02510v2 ) ライセンス: CC BY 4.0 | Sarala Padi, Seyed Omid Sadjadi, Dinesh Manocha, Ram D. Sriram | (参考訳) 自動音声感情認識(ser)は,人間とコンピュータの対話において重要な役割を果たす課題である。
serの主な課題の1つは、データ不足、すなわち感情分類のための複雑なディープラーニングモデルを構築し、完全に探索するために慎重にラベル付けされたデータの不足である。
本稿では,この課題に対して,スペクトログラム拡張と併用した伝達学習戦略を提案する。
具体的には,大量の話者ラベルデータを用いて学習した話者認識から,統計プーリング層を含む事前学習された残差ネットワーク(resnet)モデルを活用する転送学習手法を提案する。
統計プーリング層は、モデルが可変長入力を効率的に処理できるため、serシステムで一般的に使用されるシーケンス切断の必要性をなくすことができる。
さらに,不規則な時間周波数マスクをログメル・スペクトログラムに適用することにより,感情認識モデルの一般化を緩和し,追加のトレーニングデータサンプルを生成するためのスペクトログラム拡張手法も採用した。
対話型情緒的動作キャプチャー(IEMOCAP)データセットにおける提案手法の有効性を評価する。
実験結果から,移動学習とスペクトログラム増強のアプローチにより,SERの性能が向上し,同時に最先端の結果が得られた。 Automatic speech emotion recognition (SER) is a challenging task that plays a crucial role in natural human-computer interaction. One of the main challenges in SER is data scarcity, i.e., insufficient amounts of carefully labeled data to build and fully explore complex deep learning models for emotion classification. This paper aims to address this challenge using a transfer learning strategy combined with spectrogram augmentation. Specifically, we propose a transfer learning approach that leverages a pre-trained residual network (ResNet) model including a statistics pooling layer from speaker recognition trained using large amounts of speaker-labeled data. The statistics pooling layer enables the model to efficiently process variable-length input, thereby eliminating the need for sequence truncation which is commonly used in SER systems. In addition, we adopt a spectrogram augmentation technique to generate additional training data samples by applying random time-frequency masks to log-mel spectrograms to mitigate overfitting and improve the generalization of emotion recognition models. We evaluate the effectiveness of our proposed approach on the interactive emotional dyadic motion capture (IEMOCAP) dataset. Experimental results indicate that the transfer learning and spectrogram augmentation approaches improve the SER performance, and when combined achieve state-of-the-art results. | 翻訳日:2021-08-12 08:33:51 公開日:2021-08-08 |
# (参考訳) 無線ネットワークにおけるマルチタスクフェデレーションエッジ学習(MtFEEL) Multi-task Federated Edge Learning (MtFEEL) in Wireless Networks ( http://arxiv.org/abs/2108.02517v2 ) ライセンス: CC BY 4.0 | Sawan Singh Mahara, Shruti M., B. N. Bharath | (参考訳) フェデレーション学習(federated learning, fl)は、エッジデバイス間の分散機械学習を扱う有望なテクニックとして進化した。
グローバルな目的を最適化する単一のニューラルネットワーク(NN)は、一般的に、エッジデバイスに最適化される可能性のあるFLのほとんどの研究で学習されている。
エッジデバイス固有のタスクにパーソナライズされたNNを見つける作業は存在するが、一般化や収束保証がない。
本稿では,保証付き無線環境での個人化学習のための新しいコミュニケーション効率FLアルゴリズムを提案する。
このアルゴリズムは、異なるデバイス間での損失の重み付け平均を使用して、各デバイスにおける損失の実証的な推定を見つけることに依存する。
それは、提案された経験的損失の観点で真の損失に束縛されたおそらくほぼ正しい(pac)から考案され、(i)ラデマッハ複雑性、(ii)不一致、(iii)ペナルティ項によって境界付けられる。
署名された勾配フィードバックを用いて各デバイスでパーソナライズされたNNを見つけることで、(アップリンクの)レイリー平らなフェージング(英語版)チャネルに収束することが実証され、実験結果により、提案アルゴリズムは実効SNR体制下で使用されるFedAvgおよびFedSGDアルゴリズムと同様に、局所的に訓練されたデバイスよりも優れていることが示された。 Federated Learning (FL) has evolved as a promising technique to handle distributed machine learning across edge devices. A single neural network (NN) that optimises a global objective is generally learned in most work in FL, which could be suboptimal for edge devices. Although works finding a NN personalised for edge device specific tasks exist, they lack generalisation and/or convergence guarantees. In this paper, a novel communication efficient FL algorithm for personalised learning in a wireless setting with guarantees is presented. The algorithm relies on finding a ``better`` empirical estimate of losses at each device, using a weighted average of the losses across different devices. It is devised from a Probably Approximately Correct (PAC) bound on the true loss in terms of the proposed empirical loss and is bounded by (i) the Rademacher complexity, (ii) the discrepancy, (iii) and a penalty term. Using a signed gradient feedback to find a personalised NN at each device, it is also proven to converge in a Rayleigh flat fading (in the uplink) channel, at a rate of the order max{1/SNR,1/sqrt(T)} Experimental results show that the proposed algorithm outperforms locally trained devices as well as the conventionally used FedAvg and FedSGD algorithms under practical SNR regimes. | 翻訳日:2021-08-12 08:19:58 公開日:2021-08-08 |
# (参考訳) 傾斜き裂の同定のための深部移動学習 Deep Transfer Learning for Identifications of Slope Surface Cracks ( http://arxiv.org/abs/2108.04235v1 ) ライセンス: CC BY 4.0 | Yuting Yang, Gang Mei | (参考訳) 地すべりなどのジオハザードは人々の生活や財産の安全性に大きな損失をもたらし、表面の亀裂を伴うことが多い。
このような表面き裂が時間内に特定できれば、ジオハザードの監視と早期警戒にとって非常に重要である。
現在、亀裂同定の最も一般的な方法は手動検出であり、効率と精度は低い。
本稿では, 地すべり等の地すべりの早期警戒とモニタリングのために, 傾斜面亀裂を効果的かつ効率的に検出する深層移動学習フレームワークを提案する。
基本的な考え方は, (a) コンクリートのひび割れの大きなサンプルデータセット, (b) 土と岩の塊き裂の小さなサンプルデータセットを用いて移動学習を行うことである。
提案手法では,(1)コンクリートのひび割れの大規模サンプルデータセットに基づいて事前訓練されたひび割れ同定モデルを構築し,(2)土壌および岩塊ひび割れの小規模サンプルデータセットに基づいて改良されたひび割れ識別モデルを構築する。
提案手法は, 地すべりのモニタリングと早期警戒を実現し, 人々の生活と財産の安全を確保するために, 高地すべり斜面のuav調査を行うことができる。 Geohazards such as landslides have caused great losses to the safety of people's lives and property, which is often accompanied with surface cracks. If such surface cracks could be identified in time, it is of great significance for the monitoring and early warning of geohazards. Currently, the most common method for crack identification is manual detection, which is with low efficiency and accuracy. In this paper, a deep transfer learning framework is proposed to effectively and efficiently identify slope surface cracks for the sake of fast monitoring and early warning of geohazards such as landslides. The essential idea is to employ transfer learning by training (a) the large sample dataset of concrete cracks and (b) the small sample dataset of soil and rock masses cracks. In the proposed framework, (1) pretrained cracks identification models are constructed based on the large sample dataset of concrete cracks; (2) refined cracks identification models are further constructed based on the small sample dataset of soil and rock masses cracks. The proposed framework could be applied to conduct UAV surveys on high-steep slopes to realize the monitoring and early warning of landslides to ensure the safety of people's lives and property. | 翻訳日:2021-08-12 02:44:20 公開日:2021-08-08 |
# tdls:偽の視覚的説明を生成するトップダウン層探索アルゴリズム TDLS: A Top-Down Layer Searching Algorithm for Generating Counterfactual Visual Explanation ( http://arxiv.org/abs/2108.04238v1 ) ライセンス: Link先を確認 | Cong Wang, Haocheng Han and Caleb Chen Cao | (参考訳) AIの説明やアルゴリズムの決定の公平さ、決定モデルの透明性がますます重要になっている。
そして、ブラックボックスモデルを開く際に、効果的で人間フレンドリーなテクニックを設計することが重要です。
カウンターファクトは人間の考え方に適合し、人間に優しい説明を提供し、それに対応する説明アルゴリズムは与えられたデータポイントの戦略的変更を指して、そのモデル出力が「カウントファクト」である。
予測は逆転する。
本稿では,細粒度画像分類問題に対する反実的説明に適応する。
トップダウン層探索アルゴリズム (TDLS) を用いて, 合成した反現実的特徴写像を示すことで, 対実的説明を与える適応的手法を実証した。
我々のTDLSアルゴリズムは、カルテックUCSD Birds 200データセット上のVGG-16モデルを用いて、より柔軟な対実的な視覚的説明を提供することができることを示した。
最後に,反事実的視覚的説明の応用シナリオについて考察した。 Explanation of AI, as well as fairness of algorithms' decisions and the transparency of the decision model, are becoming more and more important. And it is crucial to design effective and human-friendly techniques when opening the black-box model. Counterfactual conforms to the human way of thinking and provides a human-friendly explanation, and its corresponding explanation algorithm refers to a strategic alternation of a given data point so that its model output is "counter-facted", i.e. the prediction is reverted. In this paper, we adapt counterfactual explanation over fine-grained image classification problem. We demonstrated an adaptive method that could give a counterfactual explanation by showing the composed counterfactual feature map using top-down layer searching algorithm (TDLS). We have proved that our TDLS algorithm could provide more flexible counterfactual visual explanation in an efficient way using VGG-16 model on Caltech-UCSD Birds 200 dataset. At the end, we discussed several applicable scenarios of counterfactual visual explanations. | 翻訳日:2021-08-11 14:35:31 公開日:2021-08-08 |
# コードスメル予測におけるNLP法の有効性に関する実証分析 Empirical Analysis on Effectiveness of NLP Methods for Predicting Code Smell ( http://arxiv.org/abs/2108.04656v1 ) ライセンス: Link先を確認 | Himanshu Gupta, Abhiram Anand Gulanikar, Lov Kumar and Lalita Bhanu Murthy Neti | (参考訳) コードの臭いはシステム固有の問題の表面的な指標であり、ほとんどの場合、開発フェーズにおいて、開発者の標準的なコーディングプラクティスから逸脱している。
研究によると、コードの臭いは、コードの臭いを含まないコードよりも、コードに修正や修正を呼びかけるのに敏感だった。
開発初期段階のコードの再構成は、コードの臭いの存在によって引き起こされる問題に対処するために、指数関数的に増加する労力を削減します。
従来の機能を使ってコードの臭いを検知する代わりに、ユーザコメントを使って手動でコードの臭いを予測します。
629パッケージ以上の3つの極端な機械学習マシンカーネルを使用して、8つのコードの臭いを識別します。
以上の結果から,ラジアル基底関数型カーネルは,平均98.52の精度で3つのカーネル法のうち最も優れた性能を示すことがわかった。 A code smell is a surface indicator of an inherent problem in the system, most often due to deviation from standard coding practices on the developers part during the development phase. Studies observe that code smells made the code more susceptible to call for modifications and corrections than code that did not contain code smells. Restructuring the code at the early stage of development saves the exponentially increasing amount of effort it would require to address the issues stemming from the presence of these code smells. Instead of using traditional features to detect code smells, we use user comments to manually construct features to predict code smells. We use three Extreme learning machine kernels over 629 packages to identify eight code smells by leveraging feature engineering aspects and using sampling techniques. Our findings indicate that the radial basis functional kernel performs best out of the three kernel methods with a mean accuracy of 98.52. | 翻訳日:2021-08-11 14:28:30 公開日:2021-08-08 |
# 深層学習モデルを用いたソフトウェアコード臭いの予測可能性に関する実証的研究 An Empirical Study on Predictability of Software Code Smell Using Deep Learning Models ( http://arxiv.org/abs/2108.04659v1 ) ライセンス: Link先を確認 | Himanshu Gupta, Tanmay G. Kulkarni, Lov Kumar, Lalita Bhanu Murthy Neti and Aneesh Krishna | (参考訳) Code Smell(リンク)は、悪臭に似ているが、ソフトウェアを書くという観点では、汚染されているものの表面的な表示である。
このメトリクスは、コードの中に深い問題があることを示しており、受け入れ可能なコーディングプラクティスを持つ経験豊富なソフトウェア開発者にとって顕著な問題と関連しています。
近年の研究では、コードの臭いを伴うコードは、ソフトウェア開発サイクルの変化の確率が高くなる傾向がしばしば見られる。
本稿では,ソースコードから抽出した特徴を用いて8種類の臭いを予測できるコード臭い予測モデルを開発した。
また,クラス不均衡問題に対するデータサンプリング手法と,関連する特徴集合を見つけるための特徴選択手法についても検討した。
これまでの研究では,ナイーブベイやランダムフォレストといったテクニックを使用していたが,コードの臭いを予測する深層学習手法は検討していなかった。
上記の機能とデータセットを使用して、合計576のDeep Learningモデルがトレーニングされた。
この研究は、Synthetic Minority Oversampling Techniqueのデータを使用したディープラーニングモデルは、88.47から96.84に改善されたいくつかのモデルの精度で、精度においてより良い結果をもたらすと結論付けた。 Code Smell, similar to a bad smell, is a surface indication of something tainted but in terms of software writing practices. This metric is an indication of a deeper problem lies within the code and is associated with an issue which is prominent to experienced software developers with acceptable coding practices. Recent studies have often observed that codes having code smells are often prone to a higher probability of change in the software development cycle. In this paper, we developed code smell prediction models with the help of features extracted from source code to predict eight types of code smell. Our work also presents the application of data sampling techniques to handle class imbalance problem and feature selection techniques to find relevant feature sets. Previous studies had made use of techniques such as Naive - Bayes and Random forest but had not explored deep learning methods to predict code smell. A total of 576 distinct Deep Learning models were trained using the features and datasets mentioned above. The study concluded that the deep learning models which used data from Synthetic Minority Oversampling Technique gave better results in terms of accuracy, AUC with the accuracy of some models improving from 88.47 to 96.84. | 翻訳日:2021-08-11 14:28:14 公開日:2021-08-08 |
# 興味のある物体像を有する光学バイオミメティックアイ An optical biomimetic eyes with interested object imaging ( http://arxiv.org/abs/2108.04236v1 ) ライセンス: Link先を確認 | Jun Li, Shimei Chen, Shangyuan Wang, Miao Lei, Xiaofang Dai, Chuangxue Liang, Kunyuan Xu, Shuxin Lin, Yuhui Li, Yuer Fan, Ting Zhong | (参考訳) 動物のような複雑な場面で興味のある物体を撮影するための光学系を提示し,複雑な環境の探索における興味のある獲物の観察を容易にする。
深層学習ネットワークを用いて、対象物の視覚特徴を学習し、それに対応する「画像行列」を設計し、さらに学習した行列を計測行列として機能させて、単画素カメラで圧縮撮像を完了し、最終的に圧縮画像データを用いて、前の深層学習ネットワークでシーンの他のオブジェクトや背景を使わずに、対象物のみを画像化することができる。
この結果から,興味のあるオブジェクトが単一機能であるか,あるいは豊富な詳細であるかに関わらず,干渉の除去に成功し,このアイデアを性能を効果的に向上する一般的なアプリケーションに適用できることが示唆された。
このバイオインスパイアされた光学システムは、興味のあるオブジェクトイメージング、オブジェクト検出、オブジェクト認識、オブジェクト追跡などにおいて、生物の目として機能する。 We presented an optical system to perform imaging interested objects in complex scenes, like the creature easy see the interested prey in the hunt for complex environments. It utilized Deep-learning network to learn the interested objects's vision features and designed the corresponding "imaging matrices", furthermore the learned matrixes act as the measurement matrix to complete compressive imaging with a single-pixel camera, finally we can using the compressed image data to only image the interested objects without the rest objects and backgrounds of the scenes with the previous Deep-learning network. Our results demonstrate that no matter interested object is single feature or rich details, the interference can be successfully filtered out and this idea can be applied in some common applications that effectively improve the performance. This bio-inspired optical system can act as the creature eye to achieve success on interested-based object imaging, object detection, object recognition and object tracking, etc. | 翻訳日:2021-08-11 14:16:38 公開日:2021-08-08 |
# (参考訳) オンラインフォーラムにおける反響検出のためのリカレントグラフニューラルネットワーク Recurrent Graph Neural Networks for Rumor Detection in Online Forums ( http://arxiv.org/abs/2108.03548v1 ) ライセンス: CC BY 4.0 | Di Huang, Jacob Bartel, John Palowitch | (参考訳) 日常生活におけるオンラインソーシャルネットワークの普及により、ユーザー生成コンテンツを効果的に分類する必要性が高まっている。
本研究は,ユーザインタラクション信号のみを用いて,フォーラムサイト(特にニュース記事やブログへのリンク)に散在するリンクコンテンツを分類する手法を提案する。
重要なことは、Redditのようなオンラインフォーラムは、ソーシャルネットワークの行動に基づく分類設定で仮定される、ユーザ生成のソーシャルグラフを持っていないことである。
ケーススタディとしてRedditを用いて、派生ソーシャルグラフの取得方法を示し、このグラフ、Redditポストシーケンス、コメントツリーをリカレントグラフニューラルネットワーク(R-GNN)エンコーダの入力として使用する。
我々は、ニュースリンク分類と噂検出に基づいてR-GNNを訓練し、最近のベースラインに優れた結果を示す。
私たちのコードはhttps://github.com/google-research/social_cascadesで公開されています。 The widespread adoption of online social networks in daily life has created a pressing need for effectively classifying user-generated content. This work presents techniques for classifying linked content spread on forum websites -- specifically, links to news articles or blogs -- using user interaction signals alone. Importantly, online forums such as Reddit do not have a user-generated social graph, which is assumed in social network behavioral-based classification settings. Using Reddit as a case-study, we show how to obtain a derived social graph, and use this graph, Reddit post sequences, and comment trees as inputs to a Recurrent Graph Neural Network (R-GNN) encoder. We train the R-GNN on news link categorization and rumor detection, showing superior results to recent baselines. Our code is made publicly available at https://github.com/google-research/social_cascades. | 翻訳日:2021-08-11 09:04:17 公開日:2021-08-08 |
# (参考訳) 遠絡型高精細物体検出 Disentangled High Quality Salient Object Detection ( http://arxiv.org/abs/2108.03551v1 ) ライセンス: CC BY 4.0 | Lv Tang, Bo Li, Shouhong Ding, Mofei Song | (参考訳) 視覚的シーンから最も特徴的な物体を発見・発見することを目的として、様々なコンピュータビジョンシステムにおいて顕著な物体検出(SOD)が重要な役割を果たす。
高解像度の時代になると、SOD法は新しい課題に直面している。
従来の方法の主な制限は、サルエント領域を識別し、正確なオブジェクト境界を低解像度で単一の回帰タスクと同時に推定しようとすることである。
このプラクティスは、2つの難しい問題に固有の違いを無視し、検出品質が低くなる。
本稿では、高分解能SODタスクのための新しいディープラーニングフレームワークを提案し、そのタスクを低分解能サリエンシ分類ネットワーク(LRSCN)と高分解能改善ネットワーク(HRRN)に分解する。
LRSCNは画素単位の分類タスクとして、解像度の低い十分なセマンティクスをキャプチャして、明確な正像領域、背景領域、不確か像領域を識別するように設計されている。
HRRNはリグレッションタスクであり、不確実領域における画素のサリエンシ値を正確に修正し、GPUメモリに制限された高解像度で明確なオブジェクト境界を維持することを目的としている。
トレーニングプロセスに不確実性を導入することで、HRRNは、高解像度のトレーニングデータを用いることなく、高解像度のリファインメントタスクに対処できることに注意する必要がある。
高分解能saliencyデータセットと広く使用されているsaliencyベンチマークに関する広範囲な実験により、提案手法が最先端法よりも優れた性能を達成していることが示された。 Aiming at discovering and locating most distinctive objects from visual scenes, salient object detection (SOD) plays an essential role in various computer vision systems. Coming to the era of high resolution, SOD methods are facing new challenges. The major limitation of previous methods is that they try to identify the salient regions and estimate the accurate objects boundaries simultaneously with a single regression task at low-resolution. This practice ignores the inherent difference between the two difficult problems, resulting in poor detection quality. In this paper, we propose a novel deep learning framework for high-resolution SOD task, which disentangles the task into a low-resolution saliency classification network (LRSCN) and a high-resolution refinement network (HRRN). As a pixel-wise classification task, LRSCN is designed to capture sufficient semantics at low-resolution to identify the definite salient, background and uncertain image regions. HRRN is a regression task, which aims at accurately refining the saliency value of pixels in the uncertain region to preserve a clear object boundary at high-resolution with limited GPU memory. It is worth noting that by introducing uncertainty into the training process, our HRRN can well address the high-resolution refinement task without using any high-resolution training data. Extensive experiments on high-resolution saliency datasets as well as some widely used saliency benchmarks show that the proposed method achieves superior performance compared to the state-of-the-art methods. | 翻訳日:2021-08-11 08:57:10 公開日:2021-08-08 |
# (参考訳) LeafMask: リーフセグメンテーションの精度向上を目指して LeafMask: Towards Greater Accuracy on Leaf Segmentation ( http://arxiv.org/abs/2108.03568v1 ) ライセンス: CC BY 4.0 | Ruohao Guo, Liao Qu, Dantong Niu, Zhenbo Li, Jun Yue | (参考訳) 葉のセグメンテーションは、高スループット植物表現型データ解析と複雑な形質の定量的研究において最も直接的で効果的な方法である。
現在、植物表現型化の主な目的は、自律表現型測定の精度を高めることである。
本研究は,リーフマスクニューラルネットワーク(LeafMask Neural Network)と,各葉領域をデライン化して葉数をカウントする新しいエンド・ツー・エンドモデル(LeafMask Neural Network)を,(1)非最大抑制(NMS)後に各予測ボックスの位置感性ベースをマージして元のマスクを生成するマスク組立モジュール,(2)点選択戦略と予測器により,マスク組立モジュールから葉境界を組立するマスク精錬モジュールを提案する。
さらに、情報表現を効果的に強化し、より正確なベースを生成するために、デュアルアテンション誘導マスク(DAG-Mask)分岐のための新規で柔軟なマルチスケールアテンションモジュールを設計する。
マスクアセンブリモジュールとマスク精錬モジュールをアンカーフリーインスタンスセグメンテーションパラダイムで組み合わせることで、最終的な改良マスクを生成することを主な目的としています。
我々はLeaf Segmentation Challenge (LSC)データセットの広範な実験を通じてLeafMaskを検証する。
提案モデルでは,90.09%のBestDiceスコアが,他の最先端手法よりも優れていた。 Leaf segmentation is the most direct and effective way for high-throughput plant phenotype data analysis and quantitative researches of complex traits. Currently, the primary goal of plant phenotyping is to raise the accuracy of the autonomous phenotypic measurement. In this work, we present the LeafMask neural network, a new end-to-end model to delineate each leaf region and count the number of leaves, with two main components: 1) the mask assembly module merging position-sensitive bases of each predicted box after non-maximum suppression (NMS) and corresponding coefficients to generate original masks; 2) the mask refining module elaborating leaf boundaries from the mask assembly module by the point selection strategy and predictor. In addition, we also design a novel and flexible multi-scale attention module for the dual attention-guided mask (DAG-Mask) branch to effectively enhance information expression and produce more accurate bases. Our main contribution is to generate the final improved masks by combining the mask assembly module with the mask refining module under the anchor-free instance segmentation paradigm. We validate our LeafMask through extensive experiments on Leaf Segmentation Challenge (LSC) dataset. Our proposed model achieves the 90.09% BestDice score outperforming other state-of-the-art approaches. | 翻訳日:2021-08-11 08:33:59 公開日:2021-08-08 |
# (参考訳) 部分ガウス循環行列を用いたロバスト1ビット圧縮センシングと生成優先 Robust 1-bit Compressive Sensing with Partial Gaussian Circulant Matrices and Generative Priors ( http://arxiv.org/abs/2108.03570v1 ) ライセンス: CC BY 4.0 | Zhaoqiang Liu, Subhroshekhar Ghosh, Jun Han, Jonathan Scarlett | (参考訳) 1ビット圧縮センシングでは、各測定値は1ビット、すなわち未知ベクトルの線形関数の符号に量子化され、その目標はベクトルを正確に回復することである。
1ビット圧縮センシングのための標準ガウスセンシング行列を仮定することは最も一般的であるが、部分ガウス循環行列のような構造化されたセンシング行列を用いることは、より高速な行列演算のために重要な実用的重要性を持つ。
本稿では,ランダムに符号付き部分ガウス循環行列と生成モデルを用いたロバストな1ビット圧縮センシングのための相関に基づく最適化アルゴリズムの復元保証を提案する。
適切な仮定の下では、これまでよりはるかに多くの計算を必要とするガウス行列に対してしか持たなかった保証と一致する。
我々は,実用的な反復アルゴリズムを用いて,画像データセット上で数値実験を行い,理論結果と照合する。 In 1-bit compressive sensing, each measurement is quantized to a single bit, namely the sign of a linear function of an unknown vector, and the goal is to accurately recover the vector. While it is most popular to assume a standard Gaussian sensing matrix for 1-bit compressive sensing, using structured sensing matrices such as partial Gaussian circulant matrices is of significant practical importance due to their faster matrix operations. In this paper, we provide recovery guarantees for a correlation-based optimization algorithm for robust 1-bit compressive sensing with randomly signed partial Gaussian circulant matrices and generative models. Under suitable assumptions, we match guarantees that were previously only known to hold for i.i.d.~Gaussian matrices that require significantly more computation. We make use of a practical iterative algorithm, and perform numerical experiments on image datasets to corroborate our theoretical results. | 翻訳日:2021-08-11 08:22:01 公開日:2021-08-08 |
# (参考訳) BeatNet:オンラインビートダウンビートとメータトラッキングのためのCRNNとパーティクルフィルタ BeatNet: CRNN and Particle Filtering for Online Joint Beat Downbeat and Meter Tracking ( http://arxiv.org/abs/2108.03576v1 ) ライセンス: CC BY 4.0 | Mojtaba Heydari, Frank Cwitkowitz, Zhiyao Duan | (参考訳) ビート位置、ダウンビート位置、メーターなどのリズム情報のオンライン推定は、多くのリアルタイム音楽アプリケーションにとって重要である。
音楽のリズムは、時間にまたがる複雑な階層的な関係を含み、その分析は本質的に挑戦的で、時には主観的である。
さらに、リアルタイムにリズム情報を推定しようとするシステムは因果的であり、迅速かつ効率的に見積もりを生成する必要がある。
本研究では、因果的畳み込み層と再帰的な層を利用した、関節ビート、ダウンビート、メータトラッキングのためのオンラインシステムを導入し、続いて推論中に適用された2つの連続モンテカルロ粒子フィルタを提案する。
提案システムでは、ダウンビートトラッキングを行うために、タイムシグネチャを付ける必要はなく、代わりにメーターを推定し、時間とともに予測を調整することができる。
さらに,提案手法では,従来のサンプリング方式よりも高速に粒子フィルタリングの計算コストを大幅に削減する情報ゲート戦略を提案する。
トレーニング中のGTZANデータセットの実験では、システムは様々なオンラインビートやダウンビートトラッキングシステムより優れており、ベースラインのオフラインジョイントメソッドと同等のパフォーマンスを実現している。 The online estimation of rhythmic information, such as beat positions, downbeat positions, and meter, is critical for many real-time music applications. Musical rhythm comprises complex hierarchical relationships across time, rendering its analysis intrinsically challenging and at times subjective. Furthermore, systems which attempt to estimate rhythmic information in real-time must be causal and must produce estimates quickly and efficiently. In this work, we introduce an online system for joint beat, downbeat, and meter tracking, which utilizes causal convolutional and recurrent layers, followed by a pair of sequential Monte Carlo particle filters applied during inference. The proposed system does not need to be primed with a time signature in order to perform downbeat tracking, and is instead able to estimate meter and adjust the predictions over time. Additionally, we propose an information gate strategy to significantly decrease the computational cost of particle filtering during the inference step, making the system much faster than previous sampling-based methods. Experiments on the GTZAN dataset, which is unseen during training, show that the system outperforms various online beat and downbeat tracking systems and achieves comparable performance to a baseline offline joint method. | 翻訳日:2021-08-11 07:36:42 公開日:2021-08-08 |
# (参考訳) オープンエンドテキスト生成における言語モデルの評価 Language Model Evaluation in Open-ended Text Generation ( http://arxiv.org/abs/2108.03578v1 ) ライセンス: CC BY 4.0 | An Nguyen | (参考訳) 現在の最先端の言語モデルは、多くの自然言語処理タスクにおいて印象的な成果を上げているが、オープンエンドテキスト生成において繰り返し、鈍く、時には矛盾するテキストを生成するという問題を解決できなかった。
研究はしばしばこの問題を最大限の訓練目標とみなし、確率的復号法や訓練目標の変更による代替手法を提案する。
しかし、これらのソリューションの有効性を直接比較する一貫した評価指標がまだ存在しない。
本研究では,機械生成テキストの品質,多様性,一貫性を評価するために提案されている異なる評価指標について検討する。
そこで我々は,オープンエンド生成タスクにおける言語モデル評価のための実践的パイプラインを提案し,様々な補助訓練の目的を活用して,各次元におけるモデルの性能向上に関する研究を行った。 Although current state-of-the-art language models have achieved impressive results in numerous natural language processing tasks, still they could not solve the problem of producing repetitive, dull and sometimes inconsistent text in open-ended text generation. Studies often attribute this problem to the maximum likelihood training objective, and propose alternative approaches by using stochastic decoding methods or altering the training objective. However, there is still a lack of consistent evaluation metrics to directly compare the efficacy of these solutions. In this work, we study different evaluation metrics that have been proposed to evaluate quality, diversity and consistency of machine-generated text. From there, we propose a practical pipeline to evaluate language models in open-ended generation task, and research on how to improve the model's performance in all dimensions by leveraging different auxiliary training objectives. | 翻訳日:2021-08-11 07:22:08 公開日:2021-08-08 |
# (参考訳) 多変量時系列異常検出のためのエンサンブル神経進化に基づくアプローチ Ensemble neuroevolution based approach for multivariate time series anomaly detection ( http://arxiv.org/abs/2108.03585v1 ) ライセンス: CC BY 4.0 | Kamil Faber, Dominik \.Zurek, Marcin Pietro\'n, Kamil Pi\k{e}tak | (参考訳) 多変量時系列異常検出は、故障防止の分野で非常に一般的な問題である。
早期予防は修理コストと損失を減らすことを意味する。
新しい産業システムにおけるセンサーの量は、人間にとって異常検出プロセスが非常に困難である。
異常検出のプロセスを自動化するアルゴリズムは、現代の障害防止システムにおいて不可欠である。
したがって、この問題に対処するために多くの機械学習モデルとディープラーニングモデルが設計されている。
多くの場合、それらは自己エンコーダベースのアーキテクチャであり、いくつかの生成逆元を持つ。
本研究では、新しいモデルやすでに知られているモデルの異常検出スコアを高めるために、神経進化手法を組み込んだフレームワークを示す。
提案したアプローチは、すべてのモデルがデータセンサーのサブグループで動作するアンサンブルモデルの進化戦略に適応する。
神経進化の次の目標は、ウィンドウサイズやレイヤ数、層深さなど、アーキテクチャとハイパーパラメータを最適化することだ。
提案フレームワークは, 異常検出深層学習モデルの大部分を, 適切な時間と完全自動モードで向上させることが可能であることを示す。
テストはSWATとWADIデータセットで実行された。
我々の知る限り、これは神経進化戦略を用いて、アンサンブル深層学習異常検出モデルを完全に自動で構築する最初のアプローチである。 Multivariate time series anomaly detection is a very common problem in the field of failure prevention. Fast prevention means lower repair costs and losses. The amount of sensors in novel industry systems makes the anomaly detection process quite difficult for humans. Algorithms which automates the process of detecting anomalies are crucial in modern failure-prevention systems. Therefore, many machine and deep learning models have been designed to address this problem. Mostly, they are autoencoder-based architectures with some generative adversarial elements. In this work, a framework is shown which incorporates neuroevolution methods to boost the anomaly-detection scores of new and already known models. The presented approach adapts evolution strategies for evolving ensemble model, in which every single model works on a subgroup of data sensors. The next goal of neuroevolution is to optimise architecture and hyperparameters like window size, the number of layers, layer depths, etc. The proposed framework shows that it is possible to boost most of the anomaly detection deep learning models in a reasonable time and a fully automated mode. The tests were run on SWAT and WADI datasets. To our knowledge, this is the first approach in which an ensemble deep learning anomaly detection model is built in a fully automatic way using a neuroevolution strategy. | 翻訳日:2021-08-11 07:21:10 公開日:2021-08-08 |
# (参考訳) MAF-GNN:交通速度予測のための多適応時空間フローグラフニューラルネットワーク MAF-GNN: Multi-adaptive Spatiotemporal-flow Graph Neural Network for Traffic Speed Forecasting ( http://arxiv.org/abs/2108.03594v1 ) ライセンス: CC BY 4.0 | Yaobin Xu, Weitang Liu, Zhongyi Jiang, Zixuan Xu, Tingyun Mao, Lili Chen, Mingwei Zhou | (参考訳) トラフィック予測は、インテリジェントなトラフィック監視システムの中核要素である。
グラフニューラルネットワークに基づくアプローチは、道路網の時間的および時間的依存性を効果的に捉えるために広く利用されている。
しかし、これらのアプローチは複雑なネットワークトポロジーを効果的に定義することはできない。
さらに、それらのカスケードネットワーク構造は、時間と空間次元の異なる特徴を伝達する制限がある。
本稿では,交通速度予測のためのマルチ適応時空間フローグラフニューラルネットワーク(MAF-GNN)を提案する。
MAF-GNNは、トラフィックノード間の複数の遅延空間依存性をキャプチャする効果的なマルチアダプティブ・アジャケーシ・マトリクス機構を導入する。
さらに,時間次元と空間次元の両方における特徴伝達をさらに強化することを目的とした時空間フローモジュールを提案する。
MAF-GNNは、公共交通ネットワークの2つの実世界のデータセットであるMETR-LAとPeMS-Bayの他のモデルよりも優れた性能を実現し、提案手法の有効性を実証している。 Traffic forecasting is a core element of intelligent traffic monitoring system. Approaches based on graph neural networks have been widely used in this task to effectively capture spatial and temporal dependencies of road networks. However, these approaches can not effectively define the complicated network topology. Besides, their cascade network structures have limitations in transmitting distinct features in the time and space dimensions. In this paper, we propose a Multi-adaptive Spatiotemporal-flow Graph Neural Network (MAF-GNN) for traffic speed forecasting. MAF-GNN introduces an effective Multi-adaptive Adjacency Matrices Mechanism to capture multiple latent spatial dependencies between traffic nodes. Additionally, we propose Spatiotemporal-flow Modules aiming to further enhance feature propagation in both time and space dimensions. MAF-GNN achieves better performance than other models on two real-world datasets of public traffic network, METR-LA and PeMS-Bay, demonstrating the effectiveness of the proposed approach. | 翻訳日:2021-08-11 07:11:32 公開日:2021-08-08 |
# (参考訳) ユニバーサルファイティングエンジンにおけるプレイスタイルの同定 Identification of Play Styles in Universal Fighting Engine ( http://arxiv.org/abs/2108.03599v1 ) ライセンス: CC BY 4.0 | Kaori Yuda, Shota Kamei, Riku Tanji, Ryoya Ito, Ippo Wakana and Maxim Mozgovoy | (参考訳) 対戦ゲームにおけるAI制御されたキャラクターは、合理的に高いスキルを持ち、信じられないほど人間らしく振る舞うことが期待され、プレイスタイルや戦略の多様性を示す。
したがって、格闘ゲームAIの開発には、これらの特性を評価する能力が必要である。
例えば、作成したキャラクタが信じられないほど多様であることを保証する必要がある。
本稿では,AIと人間制御された個々のキャラクターのプレイスタイルを自動で比較し,ゲーム参加者の人間類似性や多様性を評価する方法について述べる。 AI-controlled characters in fighting games are expected to possess reasonably high skills and behave in a believable, human-like manner, exhibiting a diversity of play styles and strategies. Thus, the development of fighting game AI requires the ability to evaluate these properties. For instance, it should be possible to ensure that the characters created are believable and diverse. In this paper, we show how an automated procedure can be used to compare play styles of individual AI- and human-controlled characters, and to assess human-likeness and diversity of game participants. | 翻訳日:2021-08-11 06:55:57 公開日:2021-08-08 |
# (参考訳) セネガル小児のマラリア・貧血予測における生物学的変数と社会的決定因子の利用 Using Biological Variables and Social Determinants to Predict Malaria and Anemia among Children in Senegal ( http://arxiv.org/abs/2108.03601v1 ) ライセンス: CC BY 4.0 | Boubacar Sow, Hiroki Suguri, Hamid Mukhtar and Hafiz Farooq Ahmad | (参考訳) 医療における機械学習技術の統合は、現在非常に一般的であり、臨床医療と健康決定計画の改善に積極的に寄与している。
貧血とマラリアは、赤血球に影響を及ぼしヘモグロビン産生を減少させる2つの生命を脅かす病気である。
本稿では,Pythonの4つの機械学習アルゴリズムであるKNN,Random Forests,SVM,Na\"ive Bayesを用いて,セネガルの子どもの健康データを分析することに焦点を当てた。
The Demographic and Health Survey(DHS)の大規模データを調査し,貧血やマラリアの隠れた情報を見つけることを目的としている。
生物学的変数と社会的決定因子を用いた2つの血液疾患の分類モデルを提案する。
本研究の結果は,貧血とマラリアを根絶し,小児死亡率を低下させることにより,セネガルにおける小児医療の改善に寄与する。 Integrating machine learning techniques in healthcare becomes very common nowadays, and it contributes positively to improving clinical care and health decisions planning. Anemia and malaria are two life-threatening diseases in Africa that affect the red blood cells and reduce hemoglobin production. This paper focuses on analyzing child health data in Senegal using four machine learning algorithms in Python: KNN, Random Forests, SVM, and Na\"ive Bayes. Our task aims to investigate large-scale data from The Demographic and Health Survey (DHS) and to find out hidden information for anemia and malaria. We present two classification models for the two blood disorders using biological variables and social determinants. The findings of this research will contribute to improving child healthcare in Senegal by eradicating anemia and malaria, and decreasing the child mortality rate. | 翻訳日:2021-08-11 06:49:58 公開日:2021-08-08 |
# (参考訳) 視覚的推論に基づく計算要求の理解 Understanding the computational demands underlying visual reasoning ( http://arxiv.org/abs/2108.03603v1 ) ライセンス: CC BY 4.0 | Mohit Vaishnav, Remi Cadene, Andrea Alamia, Drew Linsley, Rufin VanRullen and Thomas Serre | (参考訳) 視覚理解にはシーン内のオブジェクト間の複雑な視覚関係を理解する必要がある。
ここでは,抽象的視覚的推論の計算要求を特徴付ける。
我々は、現代の深層畳み込みニューラルネットワーク(CNN)による合成ビジュアル推論テスト(SVRT)課題の解決を体系的に評価することで、これを実現している。
本研究は,視覚推論タスクの新しい分類法を導いており,関係の類型(空間的関係判断と同一)と,基礎となる規則を構成するのに使われる関係の数で説明できる。
認知神経科学の先行研究は、人間の視覚推論能力において注意が重要な役割を担っていることを示唆している。
これをテストするために,CNNを空間的および特徴に基づく注意機構で拡張した。
第2の一連の実験で、SVRTの課題を解決するためにこれらの注意ネットワークの能力を評価し、その結果のアーキテクチャは、これらの視覚的推論タスクの最も難しい問題を解くのにずっと効果的であることがわかった。
最も重要なことは、個々のタスクに対する改善が部分的に分類を説明したことである。
全体として、この研究は視覚的推論の理解を深め、視覚推論における特徴ベース対空間的注意の必要性に関するテスト可能な神経科学予測をもたらす。 Visual understanding requires comprehending complex visual relations between objects within a scene. Here, we seek to characterize the computational demands for abstract visual reasoning. We do this by systematically assessing the ability of modern deep convolutional neural networks (CNNs) to learn to solve the Synthetic Visual Reasoning Test (SVRT) challenge, a collection of twenty-three visual reasoning problems. Our analysis leads to a novel taxonomy of visual reasoning tasks, which can be primarily explained by both the type of relations (same-different vs. spatial-relation judgments) and the number of relations used to compose the underlying rules. Prior cognitive neuroscience work suggests that attention plays a key role in human's visual reasoning ability. To test this, we extended the CNNs with spatial and feature-based attention mechanisms. In a second series of experiments, we evaluated the ability of these attention networks to learn to solve the SVRT challenge and found the resulting architectures to be much more efficient at solving the hardest of these visual reasoning tasks. Most importantly, the corresponding improvements on individual tasks partially explained the taxonomy. Overall, this work advances our understanding of visual reasoning and yields testable Neuroscience predictions regarding the need for feature-based vs. spatial attention in visual reasoning. | 翻訳日:2021-08-11 06:43:44 公開日:2021-08-08 |
# (参考訳) Saliency-Associated Object Tracking Saliency-Associated Object Tracking ( http://arxiv.org/abs/2108.03637v1 ) ライセンス: CC BY 4.0 | Zikun Zhou, Wenjie Pei, Xin Li, Hongpeng Wang, Feng Zheng, Zhenyu He | (参考訳) ディープラーニングに基づくほとんどの既存のトラッカーは、ターゲット全体の深い表現を学習して目標をローカライズすることを目的として、全体戦略で追跡を行う。
このような手法が様々な外観変化で目標を追跡するのは困難である。
この制限に対処するため、別のタイプのメソッドでは、ターゲットを同じパッチに分割し、これらすべてのパッチを並列に追跡するパートベースのトラッキング戦略を採用している。
ターゲット状態は、これらのパッチの追跡結果を要約することで推測される。
このようなトラッカーの潜在的な制限は、すべてのパッチが追跡に等しく有益であるとは限らないことである。
差別的でないいくつかのパッチは、悪影響を及ぼす可能性がある。
本稿では,対象の局所的な局所的な位置をトラッキングするために識別する手法を提案する。
特に,現地の塩分を捕捉するための細粒度塩分マイニングモジュールを提案する。
さらに, 取得した給与を関連付けることで, 実例と探索画像との効果的な相関表現を学習し, 状態推定のためのサリエンシー・アソシエーション・モデリングモジュールを設計する。
5つの多様なデータセットに対する大規模な実験により,提案手法が最先端トラッカーに対して好適に動作することを示した。 Most existing trackers based on deep learning perform tracking in a holistic strategy, which aims to learn deep representations of the whole target for localizing the target. It is arduous for such methods to track targets with various appearance variations. To address this limitation, another type of methods adopts a part-based tracking strategy which divides the target into equal patches and tracks all these patches in parallel. The target state is inferred by summarizing the tracking results of these patches. A potential limitation of such trackers is that not all patches are equally informative for tracking. Some patches that are not discriminative may have adverse effects. In this paper, we propose to track the salient local parts of the target that are discriminative for tracking. In particular, we propose a fine-grained saliency mining module to capture the local saliencies. Further, we design a saliency-association modeling module to associate the captured saliencies together to learn effective correlation representations between the exemplar and the search image for state estimation. Extensive experiments on five diverse datasets demonstrate that the proposed method performs favorably against state-of-the-art trackers. | 翻訳日:2021-08-11 06:22:13 公開日:2021-08-08 |
# (参考訳) 光シート顕微鏡による画像再構成 : 空間的変化を伴うデコンボリューションと混合雑音 Image reconstruction in light-sheet microscopy: spatially varying deconvolution and mixed noise ( http://arxiv.org/abs/2108.03642v1 ) ライセンス: CC BY 4.0 | Bogdan Toader and Jerome Boulanger and Yury Korolev and Martin O. Lenz and James Manton and Carola-Bibiane Schonlieb and Leila Muresan | (参考訳) 本研究では,空間的に変化するぼやけとポアソンノイズとガウス雑音の組み合わせによりデータが劣化する光シート顕微鏡のデコンボリューション問題について検討する。
光シート顕微鏡の点拡散関数(PSF)の空間的変動は、励起シートと検出対象PSFとの相互作用によって決定される。
まず、この相互作用を組み込んだ画像形成過程のモデルを導入し、この画像モダリティの主な特徴を捉える。
次に,l. calatroni et alで最初に紹介された単一雑音フィデリティの無限畳み込みからなるデータ忠実性項を用いて,ポアソン雑音とガウス雑音の組み合わせを考慮した変分モデルを定式化する。
siam journal on imaging sciences 10.3 (2017), 1196-1233。
正規化パラメータの値を選択するための不完全な畳み込み忠実度と相違原理のソース条件の下で,ブレグマン距離の収束率を確立する。
逆問題は、原始双対ハイブリッド勾配(PDHG)アルゴリズムを新しい方法で適用することで解決される。
最後に,シミュレーションデータと実データの両方で行った数値実験により,他の手法と比較して優れた再構成結果が得られた。 We study the problem of deconvolution for light-sheet microscopy, where the data is corrupted by spatially varying blur and a combination of Poisson and Gaussian noise. The spatial variation of the point spread function (PSF) of a light-sheet microscope is determined by the interaction between the excitation sheet and the detection objective PSF. First, we introduce a model of the image formation process that incorporates this interaction, therefore capturing the main characteristics of this imaging modality. Then, we formulate a variational model that accounts for the combination of Poisson and Gaussian noise through a data fidelity term consisting of the infimal convolution of the single noise fidelities, first introduced in L. Calatroni et al. "Infimal convolution of data discrepancies for mixed noise removal", SIAM Journal on Imaging Sciences 10.3 (2017), 1196-1233. We establish convergence rates in a Bregman distance under a source condition for the infimal convolution fidelity and a discrepancy principle for choosing the value of the regularisation parameter. The inverse problem is solved by applying the primal-dual hybrid gradient (PDHG) algorithm in a novel way. Finally, numerical experiments performed on both simulated and real data show superior reconstruction results in comparison with other methods. | 翻訳日:2021-08-11 06:06:27 公開日:2021-08-08 |
# (参考訳) 野生におけるワンショット物体収差検出 One-Shot Object Affordance Detection in the Wild ( http://arxiv.org/abs/2108.03658v1 ) ライセンス: CC BY 4.0 | Wei Zhai, Hongchen Luo, Jing Zhang, Yang Cao, Dacheng Tao | (参考訳) Affordance Detectionは、画像中の物体の潜在的な活動可能性を特定することであり、ロボットの知覚と操作にとって重要な能力である。
そこで本稿では,ロボットにこのような非知覚シナリオの能力を持たせるために,まず,アクション目的を表現した支援画像が与えられた場合,共通のアフォーアンスを持つシーン内のすべての物体を検出すべきである,という課題を考察する。
この目的のために,まず人間の行動目的を推定し,その候補画像から共通価格を検出するワンショットアフォーダンス検出ネットワーク(OSAD-Net)を考案した。
協調学習により、OSAD-Netは、同じ可利用性を持つオブジェクト間の共通特性を捉え、見当たらない可利用性を理解するための優れた適応能力を学ぶことができる。
さらに,39の価格と103のオブジェクトカテゴリから30kの画像を収集,ラベル付けすることで,大規模目的駆動型Affordance Dataset v2(PADv2)を構築する。
複雑なシーンと豊富なアノテーションにより、PADv2データセットはアベイランス検出手法をベンチマークするためのテストベッドとして使用することができ、シーン理解、アクション認識、ロボット操作などの下流視覚タスクも容易になる可能性がある。
具体的には,いくつかの研究分野の11の先進モデルを用いて,padv2データセットの総合的な実験を行った。
実験の結果, 客観的指標と視覚品質の両面で, 従来のモデルよりも優れた結果が得られた。
ベンチマークスイートはhttps://github.com/lhc1224/OSAD Netで公開されている。 Affordance detection refers to identifying the potential action possibilities of objects in an image, which is a crucial ability for robot perception and manipulation. To empower robots with this ability in unseen scenarios, we first study the challenging one-shot affordance detection problem in this paper, i.e., given a support image that depicts the action purpose, all objects in a scene with the common affordance should be detected. To this end, we devise a One-Shot Affordance Detection Network (OSAD-Net) that firstly estimates the human action purpose and then transfers it to help detect the common affordance from all candidate images. Through collaboration learning, OSAD-Net can capture the common characteristics between objects having the same underlying affordance and learn a good adaptation capability for perceiving unseen affordances. Besides, we build a large-scale Purpose-driven Affordance Dataset v2 (PADv2) by collecting and labeling 30k images from 39 affordance and 103 object categories. With complex scenes and rich annotations, our PADv2 dataset can be used as a test bed to benchmark affordance detection methods and may also facilitate downstream vision tasks, such as scene understanding, action recognition, and robot manipulation. Specifically, we conducted comprehensive experiments on PADv2 dataset by including 11 advanced models from several related research fields. Experimental results demonstrate the superiority of our model over previous representative ones in terms of both objective metrics and visual quality. The benchmark suite is available at https://github.com/lhc1224/OSAD Net. | 翻訳日:2021-08-11 06:04:44 公開日:2021-08-08 |
# (参考訳) #StayHomeか#Marathonか?
ソーシャルメディアによる時空間動的グラフのパンデミックサーベイランス #StayHome or #Marathon? Social Media Enhanced Pandemic Surveillance on Spatial-temporal Dynamic Graphs ( http://arxiv.org/abs/2108.03670v1 ) ライセンス: CC BY 4.0 | Yichao Zhou, Jyun-yu Jiang, Xiusi Chen, Wei Wang | (参考訳) 新型コロナウイルス(covid-19)は、公衆衛生、社会、経済のほぼすべての領域に永続的な被害をもたらした。
パンデミックの傾向を監視するため、既存の研究は従来の統計モデルと流行拡散理論の集約に依存している。
言い換えれば、COVID-19の歴史的統計と人口移動データは、パンデミックの傾向を監視する上で不可欠な知識となっている。
しかし、これらのソリューションは長期的な疾病監視に関する正確な予測と十分な説明をほとんど提供せず、ユビキタスなソーシャルメディアリソースがこの問題を解決するための鍵となる。
例えば、いくつかの破壊的な出来事が起こる前後のソーシャルメディアで深刻な議論が起こることがある。
マラソンやパレードなどのイベントはウイルスの感染拡大に影響を及ぼす可能性がある。
To take advantage of the social media data, we propose a novel framework, Social Media enhAnced pandemic suRveillance Technique (SMART), which is composed of two modules: (i) information extraction module to construct heterogeneous knowledge graphs based on the extracted events and relationships among them; (ii) time series prediction module to provide both short-term and long-term forecasts of the confirmed cases and fatality at the state-level in the United States and to discover risk factors for COVID-19 interventions.
広範な実験により,本手法は既知のベースラインを7.3%,7.4%上回った。 COVID-19 has caused lasting damage to almost every domain in public health, society, and economy. To monitor the pandemic trend, existing studies rely on the aggregation of traditional statistical models and epidemic spread theory. In other words, historical statistics of COVID-19, as well as the population mobility data, become the essential knowledge for monitoring the pandemic trend. However, these solutions can barely provide precise prediction and satisfactory explanations on the long-term disease surveillance while the ubiquitous social media resources can be the key enabler for solving this problem. For example, serious discussions may occur on social media before and after some breaking events take place. These events, such as marathon and parade, may impact the spread of the virus. To take advantage of the social media data, we propose a novel framework, Social Media enhAnced pandemic suRveillance Technique (SMART), which is composed of two modules: (i) information extraction module to construct heterogeneous knowledge graphs based on the extracted events and relationships among them; (ii) time series prediction module to provide both short-term and long-term forecasts of the confirmed cases and fatality at the state-level in the United States and to discover risk factors for COVID-19 interventions. Extensive experiments show that our method largely outperforms the state-of-the-art baselines by 7.3% and 7.4% in confirmed case/fatality prediction, respectively. | 翻訳日:2021-08-11 05:30:12 公開日:2021-08-08 |
# (参考訳) AMDet: 病理組織スライドにおけるミトコンドリア細胞検出ツール AMDet: A Tool for Mitotic Cell Detection in Histopathology Slides ( http://arxiv.org/abs/2108.03676v1 ) ライセンス: CC BY 4.0 | Walt Williams and Jimmy Hall | (参考訳) 乳癌は世界で最も多いがんである。
世界保健機関(who)は、低所得国と中所得国の大半で死亡率が上昇していることを理由に、この病気はいまだ発展途上国の大部分に影響を与えていると報告している。
乳がんの診断に使用される最も一般的な議定書は、腫瘍の増殖を3つの主要な基準に基づいて評価するnottingham grading systemである。
病理学者が細胞数を評価する方法は、組織の染色されたスライドに存在する細胞を主観的かつ定性的に分析し、その分裂状態を決定することである。
このプロセスは、病理学者にとって極めて非効率であり、診断を助けるための効率的で正確で完全に自動化されたツールとして非常に望ましい。
幸いにも、そのようなツールの作成は、microsoft azureから利用可能なautomlツールによって大幅に簡単になっていますが、私たちの知る限りでは、automlツールは、組織病理画像における分裂細胞検出に使用するために公式に評価されたことはありません。
本稿では、この目的のためにAutoMLツールの評価を行い、そのツールがこの困難な問題にどのように対処するかを第一に示す。
すべてのコードはhttps://github.com/WaltAFWilliams/AMDetで入手できる。 Breast Cancer is the most prevalent cancer in the world. The World Health Organization reports that the disease still affects a significant portion of the developing world citing increased mortality rates in the majority of low to middle income countries. The most popular protocol pathologists use for diagnosing breast cancer is the Nottingham grading system which grades the proliferation of tumors based on 3 major criteria, the most important of them being mitotic cell count. The way in which pathologists evaluate mitotic cell count is to subjectively and qualitatively analyze cells present in stained slides of tissue and make a decision on its mitotic state i.e. is it mitotic or not?This process is extremely inefficient and tiring for pathologists and so an efficient, accurate, and fully automated tool to aid with the diagnosis is extremely desirable. Fortunately, creating such a tool is made significantly easier with the AutoML tool available from Microsoft Azure, however to the best of our knowledge the AutoML tool has never been formally evaluated for use in mitotic cell detection in histopathology images. This paper serves as an evaluation of the AutoML tool for this purpose and will provide a first look on how the tool handles this challenging problem. All code is available athttps://github.com/WaltAFWilliams/AMDet | 翻訳日:2021-08-11 05:11:18 公開日:2021-08-08 |
# (参考訳) ニューロモルフィックチップを用いたUAVのイベント駆動ビジョンと制御 Event-driven Vision and Control for UAVs on a Neuromorphic Chip ( http://arxiv.org/abs/2108.03694v1 ) ライセンス: CC0 1.0 | Antonio Vitale, Alpha Renner, Celine Nauer, Davide Scaramuzza, and Yulia Sandamirskaya | (参考訳) イベントベースのビジョンセンサは、従来のイメージセンサと比較して、uavの高速制御における消費電力のトレードオフを最大3桁向上させる。
イベントベースのカメラは、画像よりも効率的に、低レイテンシで処理可能なイベントのスパースストリームを生成し、超高速ビジョン駆動制御を可能にする。
本稿では,イベントベースの視覚アルゴリズムをニューロモルフィックチップ上でスパイキング神経ネットワークとして実装し,ドローンコントローラとして利用する方法について検討する。
イベントベースの認識をチップにシームレスに統合することで、制御速度が向上し、レイテンシが低下する様子を示す。
さらに,SNNコントローラのオンライン適応をオンチップ学習を用いて実現可能であることを示す。
我々のチップ上のスパイクニューロンネットワークは、高速UAV制御タスクを解くニューロモルフィック視覚ベースのコントローラの最初の例である。
ニューロモルフィックハードウェアにおける処理の優れたスケーラビリティは、将来的により困難な視覚的タスクを解決し、高速な制御ループに視覚知覚を統合する可能性を開く。 Event-based vision sensors achieve up to three orders of magnitude better speed vs. power consumption trade off in high-speed control of UAVs compared to conventional image sensors. Event-based cameras produce a sparse stream of events that can be processed more efficiently and with a lower latency than images, enabling ultra-fast vision-driven control. Here, we explore how an event-based vision algorithm can be implemented as a spiking neuronal network on a neuromorphic chip and used in a drone controller. We show how seamless integration of event-based perception on chip leads to even faster control rates and lower latency. In addition, we demonstrate how online adaptation of the SNN controller can be realised using on-chip learning. Our spiking neuronal network on chip is the first example of a neuromorphic vision-based controller solving a high-speed UAV control task. The excellent scalability of processing in neuromorphic hardware opens the possibility to solve more challenging visual tasks in the future and integrate visual perception in fast control loops. | 翻訳日:2021-08-11 05:00:23 公開日:2021-08-08 |
# (参考訳) 音響スペクトル強調:低遅延音声列の低レイテンシ再構成のためのオートエンコーダの活用 Audio Spectral Enhancement: Leveraging Autoencoders for Low Latency Reconstruction of Long, Lossy Audio Sequences ( http://arxiv.org/abs/2108.03703v1 ) ライセンス: CC BY 4.0 | Darshan Deshpande and Harshavardhan Abichandani | (参考訳) オーディオ圧縮技術の活発な研究により、低品質のオーディオ波のスペクトル再構成は、いまだにあまり語られていない。
本稿では,低品質mp3音声波の長いシーケンスから高い周波数を再構成する新しい手法を提案する。
本手法では,個々の振幅と位相値を知覚的差異に応じて操作することにより,残差重み付きオートエンコーダブロックによる音声スペクトログラムの塗布を行う。
本アーキテクチャは,スキップ接続による音声波のスペクトル構造を保ちながら,いくつかのボトルネックを生じさせる。
また、いくつかのタスクメトリクスを比較し、損失選択のための視覚的ガイドを示します。
さらに,実世界のアプリケーションにおいて重要な推論時間を削減すると同時に,初期モデルサイズを半分以上削減するための微分量子化手法の活用法を示す。 With active research in audio compression techniques yielding substantial breakthroughs, spectral reconstruction of low-quality audio waves remains a less indulged topic. In this paper, we propose a novel approach for reconstructing higher frequencies from considerably longer sequences of low-quality MP3 audio waves. Our technique involves inpainting audio spectrograms with residually stacked autoencoder blocks by manipulating individual amplitude and phase values in relation to perceptual differences. Our architecture presents several bottlenecks while preserving the spectral structure of the audio wave via skip-connections. We also compare several task metrics and demonstrate our visual guide to loss selection. Moreover, we show how to leverage differential quantization techniques to reduce the initial model size by more than half while simultaneously reducing inference time, which is crucial in real-world applications. | 翻訳日:2021-08-11 04:44:47 公開日:2021-08-08 |
# (参考訳) 認知エージェントを用いた強化学習を用いた確率的行動の学習 Learning Proxemic Behavior Using Reinforcement Learning with Cognitive Agents ( http://arxiv.org/abs/2108.03730v1 ) ライセンス: CC BY 4.0 | Cristian Mill\'an-Arias, Bruno Fernandes, Francisco Cruz | (参考訳) プロキソミクス(proxemics)は、人間や動物の空間的行動を研究する非言語コミュニケーションの一分野である。
この行動は、他の人間と対話するために許容される距離を逸脱するため、コミュニケーションプロセスの不可欠な部分である。
人間とエージェントの相互作用に関する研究が増えているため、最適なコミュニケーションを可能にし、不快感を回避できる新しい代替手段が求められている。
いくつかの研究は、人間とロボットの相互作用技術と機械学習が実装される認知エージェントとのプロキシマティックな行動について検討している。
しかし、環境は固定された個人的な空間を考慮し、エージェントは以前それを知っていた。
本研究では, エージェントが環境においてどのように振る舞うのかを, プロキソミックな振る舞いに基づいて検討し, その目的に改良されたグリッドワールドを提案する。
この環境は、エージェントに不一致信号を提供するプロキシな振る舞いを持つ発行者を考える。
その結果,学習エージェントは,エージェントのパフォーマンスに関するフィードバックを発行者が与えると,プロキシ空間を識別できることがわかった。 Proxemics is a branch of non-verbal communication concerned with studying the spatial behavior of people and animals. This behavior is an essential part of the communication process due to delimit the acceptable distance to interact with another being. With increasing research on human-agent interaction, new alternatives are needed that allow optimal communication, avoiding agents feeling uncomfortable. Several works consider proxemic behavior with cognitive agents, where human-robot interaction techniques and machine learning are implemented. However, environments consider fixed personal space and that the agent previously knows it. In this work, we aim to study how agents behave in environments based on proxemic behavior, and propose a modified gridworld to that aim. This environment considers an issuer with proxemic behavior that provides a disagreement signal to the agent. Our results show that the learning agent can identify the proxemic space when the issuer gives feedback about agent performance. | 翻訳日:2021-08-11 04:34:34 公開日:2021-08-08 |
# (参考訳) 偽ニュースの分類とクレームの検査性判定における常識知識の活用 Leveraging Commonsense Knowledge on Classifying False News and Determining Checkworthiness of Claims ( http://arxiv.org/abs/2108.03731v1 ) ライセンス: CC BY 4.0 | Ipek Baris Schlicht, Erhan Sezerer, Selma Tekir, Oul Han, Zeyd Boukhers | (参考訳) 偽ニュースの広範かつ急速な拡散は、事実確認を必須の要件とした。
その時間と労働集約性を考えると、このタスクは需要を満たすための自動支援を要求する。
本稿では,偽ニュース分類とチェック価値の高いクレーム検出のタスクに共通センス知識を活用することを提案する。
共感覚知識が人間の信頼性の要因であることに疑問を呈し、マルチタスク学習環境における共通感覚質問応答タスクと上記のタスクを、BERT言語モデルに微調整する。
きめ細かな偽ニュースのタイプを予測するために,提案する微調整モデルの性能と,公開データセット上の偽ニュース分類モデルと,新たに収集したデータセットを比較した。
我々は,本モデルの性能を単一タスクBERTモデルと最先端のチェック値クレーム検出ツールと比較し,チェック値クレーム検出を評価する。
実験により,コモンセンス知識が両タスクのパフォーマンスを向上させることを示す。 Widespread and rapid dissemination of false news has made fact-checking an indispensable requirement. Given its time-consuming and labor-intensive nature, the task calls for an automated support to meet the demand. In this paper, we propose to leverage commonsense knowledge for the tasks of false news classification and check-worthy claim detection. Arguing that commonsense knowledge is a factor in human believability, we fine-tune the BERT language model with a commonsense question answering task and the aforementioned tasks in a multi-task learning environment. For predicting fine-grained false news types, we compare the proposed fine-tuned model's performance with the false news classification models on a public dataset as well as a newly collected dataset. We compare the model's performance with the single-task BERT model and a state-of-the-art check-worthy claim detection tool to evaluate the check-worthy claim detection. Our experimental analysis demonstrates that commonsense knowledge can improve performance in both tasks. | 翻訳日:2021-08-11 04:30:00 公開日:2021-08-08 |
# (参考訳) 低リソースインド・ヨーロッパ言語の機械翻訳 Machine Translation of Low-Resource Indo-European Languages ( http://arxiv.org/abs/2108.03739v1 ) ライセンス: CC BY 4.0 | Wei-Rui Chen, Muhammad Abdul-Mageed | (参考訳) トランスファーラーニングは低リソースのニューラルマシン翻訳において重要な技術である。
本研究では,関係性が翻訳性能にどのような影響を与えるかを検討するため,二つのシステムを構築した。
プライマリシステムは、関連言語ペアで事前学習された機械翻訳モデルを採用し、コントラストシステムは、非関連言語ペアで事前学習した機械翻訳モデルを採用する。
転向学習の作業に関連性は必要ないが,性能に有益であることを示す。 Transfer learning has been an important technique for low-resource neural machine translation. In this work, we build two systems to study how relatedness can benefit the translation performance. The primary system adopts machine translation model pre-trained on related language pair and the contrastive system adopts that pre-trained on unrelated language pair. We show that relatedness is not required for transfer learning to work but does benefit the performance. | 翻訳日:2021-08-11 04:12:41 公開日:2021-08-08 |
# 深層学習モデルの表現力と損失面 Expressive Power and Loss Surfaces of Deep Learning Models ( http://arxiv.org/abs/2108.03579v1 ) ライセンス: Link先を確認 | Simant Dube | (参考訳) この論文の目標は2つある。
最初の目標は、ディープラーニングの成功の理由に関する幾何学的直観を強調するディープラーニングモデルの作業に関する解説チュートリアルとして機能することである。
第2の目標は、ディープラーニングモデルとその損失面の表現力に関する現在の結果を、新たな洞察と結果で補完することである。
特に、深部ニューラルネットワークが乗算ニューロンを導入したときに多様体をどう彫るのかを述べる。
乗算はドット製品や注意機構で使われ、カプセルネットワークや自己注意に基づく変換器で使用される。
また,損失面上のランダム多項式,ランダム行列,スピングラス,計算複雑性の観点が相互に結合されていることも述べる。 The goals of this paper are two-fold. The first goal is to serve as an expository tutorial on the working of deep learning models which emphasizes geometrical intuition about the reasons for success of deep learning. The second goal is to complement the current results on the expressive power of deep learning models and their loss surfaces with novel insights and results. In particular, we describe how deep neural networks carve out manifolds especially when the multiplication neurons are introduced. Multiplication is used in dot products and the attention mechanism and it is employed in capsule networks and self-attention based transformers. We also describe how random polynomial, random matrix, spin glass and computational complexity perspectives on the loss surfaces are interconnected. | 翻訳日:2021-08-10 15:51:45 公開日:2021-08-08 |
# Stimulated Raman Histology を用いたSkull Base tumor の術中迅速診断のためのコントラスト表現学習 Contrastive Representation Learning for Rapid Intraoperative Diagnosis of Skull Base Tumors Imaged Using Stimulated Raman Histology ( http://arxiv.org/abs/2108.03555v1 ) ライセンス: Link先を確認 | Cheng Jiang, Abhishek Bhattacharya, Joseph Linzey, Rushikesh Joshi, Sung Jik Cha, Sudharsan Srinivasan, Daniel Alber, Akhil Kondepudi, Esteban Urias, Balaji Pandian, Wajd Al-Holou, Steve Sullivan, B. Gregory Thompson, Jason Heth, Chris Freudiger, Siri Khalsa, Donato Pacione, John G. Golfinos, Sandra Camelo-Piragua, Daniel A. Orringer, Honglak Lee, Todd Hollon | (参考訳) 背景: 頭蓋底腫瘍の正確な診断は, パーソナライズされた外科的治療戦略の提供に不可欠である。
術中診断は腫瘍の多様性と術中病理資源の不足により困難である。
目的: ラベルのない光学画像と人工知能(AI)を用いて, 迅速かつ正確な頭蓋底腫瘍診断を可能とする, 独立かつ並列な術中病理ワークフローを開発すること。
方法: 刺激Raman histology (SRH) と呼ばれるファイバーレーザーを用いた非接触型高分解能顕微鏡法 (<$60 sec per 1 $\times$ 1 mm$^\text{2}$) を用いて, 頭蓋底腫瘍患者の連続的多心コホートを画像化した。
SRH画像は、クロスエントロピー、自己教師付きコントラスト学習、教師付きコントラスト学習という3つの表現学習戦略を使用して、畳み込みニューラルネットワーク(CNN)モデルをトレーニングするために使用される。
トレーニングされたCNNモデルは、保持されたマルチセンターSRHデータセットでテストされた。
結果: SRHは良性および悪性の頭蓋底腫瘍の診断像が得られた。
3つの表現学習戦略のうち, 教師付き対照学習は, 頭蓋底腫瘍タイプごとにsrh画像の特徴と診断的特徴を最も効果的に学習した。
マルチセンターテストセットでは、クロスエントロピーは91.5%の診断精度、自己監督型コントラスト学習83.9%、教師型コントラスト学習96.6%を達成した。
訓練したモデルでは,腫瘍の正常マージンを同定し,全スライドsrh画像中の微小腫瘍浸潤部位を検出できた。
結論: 比較表現学習を用いて訓練されたAIモデルを用いたSRHは,頭蓋底腫瘍の迅速かつ正確な術中診断を可能にする。 Background: Accurate diagnosis of skull base tumors is essential for providing personalized surgical treatment strategies. Intraoperative diagnosis can be challenging due to tumor diversity and lack of intraoperative pathology resources. Objective: To develop an independent and parallel intraoperative pathology workflow that can provide rapid and accurate skull base tumor diagnoses using label-free optical imaging and artificial intelligence (AI). Method: We used a fiber laser-based, label-free, non-consumptive, high-resolution microscopy method ($<$ 60 sec per 1 $\times$ 1 mm$^\text{2}$), called stimulated Raman histology (SRH), to image a consecutive, multicenter cohort of skull base tumor patients. SRH images were then used to train a convolutional neural network (CNN) model using three representation learning strategies: cross-entropy, self-supervised contrastive learning, and supervised contrastive learning. Our trained CNN models were tested on a held-out, multicenter SRH dataset. Results: SRH was able to image the diagnostic features of both benign and malignant skull base tumors. Of the three representation learning strategies, supervised contrastive learning most effectively learned the distinctive and diagnostic SRH image features for each of the skull base tumor types. In our multicenter testing set, cross-entropy achieved an overall diagnostic accuracy of 91.5%, self-supervised contrastive learning 83.9%, and supervised contrastive learning 96.6%. Our trained model was able to identify tumor-normal margins and detect regions of microscopic tumor infiltration in whole-slide SRH images. Conclusion: SRH with AI models trained using contrastive representation learning can provide rapid and accurate intraoperative diagnosis of skull base tumors. | 翻訳日:2021-08-10 15:51:33 公開日:2021-08-08 |
# 強化学習における政策評価のためのオンラインブートストラップ推論 Online Bootstrap Inference For Policy Evaluation in Reinforcement Learning ( http://arxiv.org/abs/2108.03706v1 ) ライセンス: Link先を確認 | Pratik Ramprasad, Yuantong Li, Zhuoran Yang, Zhaoran Wang, Will Wei Sun, Guang Cheng | (参考訳) 近年の強化学習の出現により、これらのアルゴリズムを用いて計算されたパラメータ推定に対するロバストな統計的推論法が求められている。
オンライン学習における既存の統計的推論手法は、独立にサンプリングされた観察を含む設定に制限されるが、強化学習における既存の統計的推論手法はバッチ設定に制限される。
オンラインブートストラップは線形確率近似アルゴリズムにおける統計的推論に対する柔軟かつ効率的なアプローチであるが、rlのようなマルコフノイズを含む設定での有効性はまだ検討されていない。
本稿では,RLにおける統計的推論にオンラインブートストラップ法を用いることを検討した。
特に,マルコフ雑音下での線形確率近似の特別な例である時間差(TD)学習と勾配(GTD)学習アルゴリズムに着目した。
本手法は, 政策評価における統計的推論に分布的に一貫性があることを示し, 実際のrl環境における統計的推論タスクにおけるこのアルゴリズムの有効性を示す数値実験を含む。 The recent emergence of reinforcement learning has created a demand for robust statistical inference methods for the parameter estimates computed using these algorithms. Existing methods for statistical inference in online learning are restricted to settings involving independently sampled observations, while existing statistical inference methods in reinforcement learning (RL) are limited to the batch setting. The online bootstrap is a flexible and efficient approach for statistical inference in linear stochastic approximation algorithms, but its efficacy in settings involving Markov noise, such as RL, has yet to be explored. In this paper, we study the use of the online bootstrap method for statistical inference in RL. In particular, we focus on the temporal difference (TD) learning and Gradient TD (GTD) learning algorithms, which are themselves special instances of linear stochastic approximation under Markov noise. The method is shown to be distributionally consistent for statistical inference in policy evaluation, and numerical experiments are included to demonstrate the effectiveness of this algorithm at statistical inference tasks across a range of real RL environments. | 翻訳日:2021-08-10 15:50:40 公開日:2021-08-08 |
# OVIS:ビジュアルセマンティック適応表現学習によるオープン語彙ビジュアルインスタンス検索 OVIS: Open-Vocabulary Visual Instance Search via Visual-Semantic Aligned Representation Learning ( http://arxiv.org/abs/2108.03704v1 ) ライセンス: Link先を確認 | Sheng Liu, Kevin Lin, Lijuan Wang, Junsong Yuan, Zicheng Liu | (参考訳) オープン語彙ビジュアルインスタンス検索(OVIS)の課題を紹介する。
任意のテキスト検索クエリが与えられた場合、Open-vocabulary Visual Instance Search (OVIS) は、画像データベースからの検索意図を満たす画像パッチ(英語版)のランキングリストを返すことを目的としている。
オープン語彙」という言葉は、検索すべきビジュアルインスタンスの制限も、テキスト検索クエリを構成するために使用できる単語の制限も存在しないことを意味する。
そこで本研究では,このような探索課題に対して視覚指向型表現学習 (visa) を用いて対処する。
ViSAは、画像インスタンス(画像ではない)とテキストクエリの表現が一致したリッチなモーダルなセマンティック空間を学習するために、画像レベルの弱い(インスタンスレベルではない)監督として、大規模な画像キャプチャペアを活用し、任意のビジュアルインスタンスと任意のテキストクエリの類似性を計測する。
ViSAの性能を評価するため,OVIS40とOVIS1600という2つのデータセットを構築し,エラー解析のためのパイプラインを導入する。
2つのデータセットに関する広範な実験を通じて、トレーニング中に利用できない画像の視覚的インスタンスを検索するViSAの機能を示す。
実験の結果、ViSAはOVIS40で21.9%のmAP@50を最も困難な設定で達成し、OVIS1600データセットで14.9%のmAP@6を達成している。 We introduce the task of open-vocabulary visual instance search (OVIS). Given an arbitrary textual search query, Open-vocabulary Visual Instance Search (OVIS) aims to return a ranked list of visual instances, i.e., image patches, that satisfies the search intent from an image database. The term "open vocabulary" means that there are neither restrictions to the visual instance to be searched nor restrictions to the word that can be used to compose the textual search query. We propose to address such a search challenge via visual-semantic aligned representation learning (ViSA). ViSA leverages massive image-caption pairs as weak image-level (not instance-level) supervision to learn a rich cross-modal semantic space where the representations of visual instances (not images) and those of textual queries are aligned, thus allowing us to measure the similarities between any visual instance and an arbitrary textual query. To evaluate the performance of ViSA, we build two datasets named OVIS40 and OVIS1600 and also introduce a pipeline for error analysis. Through extensive experiments on the two datasets, we demonstrate ViSA's ability to search for visual instances in images not available during training given a wide range of textual queries including those composed of uncommon words. Experimental results show that ViSA achieves an mAP@50 of 21.9% on OVIS40 under the most challenging setting and achieves an mAP@6 of 14.9% on OVIS1600 dataset. | 翻訳日:2021-08-10 15:49:27 公開日:2021-08-08 |
# 広範および非パラメトリック環境におけるメタ強化学習 Meta-Reinforcement Learning in Broad and Non-Parametric Environments ( http://arxiv.org/abs/2108.03718v1 ) ライセンス: Link先を確認 | Zhenshan Bing, Lukas Knak, Fabrice Oliver Robin, Kai Huang, Alois Knoll | (参考訳) 最近の最先端の人工エージェントは、特定の目的のためにのみ訓練され、新しいスキルを学ぶために大量の相互作用を必要とするため、新しいタスクに迅速に適応する能力が欠けている。
メタ強化学習(Meta-RL)は、トレーニングタスクから学んだ知識を活用して、これまで見つからなかったタスクでうまく機能する。
しかし、現在のメタRLアプローチでは、現実世界で発生するタスク間の質的な差異を無視して、狭いパラメトリックなタスク分布に制限されている。
本稿では,Gaussian Mixed Model (GMM)とgate Recurrent Unitを用いたタスク推論に基づくメタRLアルゴリズムであるTIGRを紹介する。
我々は,タスクの多モード性を捉えるために,GMMを含む生成モデルを用いる。
我々は,タスク推論学習から政策訓練を分離し,教師なしの再構築目標に基づいて推論機構を効率的に訓練する。
半チータ環境に基づく定性的に異なるタスクのベンチマークを行い,非パラメトリック環境におけるサンプル効率(3~10倍高速),漸近性能,適用性(0ショット適応)の観点からTIGRの優れた性能を示す。 Recent state-of-the-art artificial agents lack the ability to adapt rapidly to new tasks, as they are trained exclusively for specific objectives and require massive amounts of interaction to learn new skills. Meta-reinforcement learning (meta-RL) addresses this challenge by leveraging knowledge learned from training tasks to perform well in previously unseen tasks. However, current meta-RL approaches limit themselves to narrow parametric task distributions, ignoring qualitative differences between tasks that occur in the real world. In this paper, we introduce TIGR, a Task-Inference-based meta-RL algorithm using Gaussian mixture models (GMM) and gated Recurrent units, designed for tasks in non-parametric environments. We employ a generative model involving a GMM to capture the multi-modality of the tasks. We decouple the policy training from the task-inference learning and efficiently train the inference mechanism on the basis of an unsupervised reconstruction objective. We provide a benchmark with qualitatively distinct tasks based on the half-cheetah environment and demonstrate the superior performance of TIGR compared to state-of-the-art meta-RL approaches in terms of sample efficiency (3-10 times faster), asymptotic performance, and applicability in non-parametric environments with zero-shot adaptation. | 翻訳日:2021-08-10 15:48:15 公開日:2021-08-08 |
# セマンティックセグメンテーションのオンラインインクリメンタル学習のためのEMフレームワーク An EM Framework for Online Incremental Learning of Semantic Segmentation ( http://arxiv.org/abs/2108.03613v1 ) ライセンス: Link先を確認 | Shipeng Yan, Jiale Zhou, Jiangwei Xie, Songyang Zhang, Xuming He | (参考訳) セマンティックセグメンテーションのインクリメンタルな学習は、オープンワールド設定における視覚シーン解釈の有望な戦略として現れてきた。
しかし, セグメンテーションタスクにおいて, 連続的に進化するセグメンテーションラベル空間, 部分ピクセル単位の接地トルースアノテーション, 制約付きデータ可用性など, 新たなクラスをオンラインで獲得することは依然として困難である。
そこで我々は,新たなクラスにのみ画素アノテーションを付加したストリーミング入力データを用いて,破滅的忘れを伴わずに深層セグメンテーションモデルを高速に適応できる漸進的学習戦略を提案する。
そこで本研究では,モデルの安定性と可塑性のバランスをとるリハーサルベースのインクリメンタル学習ステップと,欠落ラベルにllsを付加した反復的リラベリング戦略とを統合した,期待最大化(em)フレームワークに基づく単一ed学習戦略を開発した。
さらに,emアルゴリズムでは,インクリメンタルモデル更新において有益なトレインイングデータを選択する適応サンプリング手法とクラスバランストレーニング戦略を採用し,モデル学習の適性を改善した。
PASCAL VOC 2012とADE20Kデータセットに対するアプローチを検証するとともに,既存のインクリメンタルメソッドよりも優れた性能を示す。 Incremental learning of semantic segmentation has emerged as a promising strategy for visual scene interpretation in the open- world setting. However, it remains challenging to acquire novel classes in an online fashion for the segmentation task, mainly due to its continuously-evolving semantic label space, partial pixelwise ground-truth annotations, and constrained data availability. To ad- dress this, we propose an incremental learning strategy that can fast adapt deep segmentation models without catastrophic forgetting, using a streaming input data with pixel annotations on the novel classes only. To this end, we develop a uni ed learning strategy based on the Expectation-Maximization (EM) framework, which integrates an iterative relabeling strategy that lls in the missing labels and a rehearsal-based incremental learning step that balances the stability-plasticity of the model. Moreover, our EM algorithm adopts an adaptive sampling method to select informative train- ing data and a class-balancing training strategy in the incremental model updates, both improving the e cacy of model learning. We validate our approach on the PASCAL VOC 2012 and ADE20K datasets, and the results demonstrate its superior performance over the existing incremental methods. | 翻訳日:2021-08-10 15:45:02 公開日:2021-08-08 |
# FederatedNILM:Federated Deep Learningに基づく非侵入的負荷モニタリングのための分散およびプライバシ保護フレームワーク FederatedNILM: A Distributed and Privacy-preserving Framework for Non-intrusive Load Monitoring based on Federated Deep Learning ( http://arxiv.org/abs/2108.03591v1 ) ライセンス: Link先を確認 | Shuang Dai, Fanlin Meng, Qian Wang, Xizhong Chen | (参考訳) 非侵入負荷監視(NILM)は、通常機械学習手法を用いており、家庭レベルでのスマートメーターの読み出しを家電レベルでの消費に分散させるのに有効であり、ユーザの消費電力の挙動を分析し、実用的なスマートエネルギーとスマートグリッドアプリケーションを実現するのに役立つ。
しかし、スマートメーターは個人所有で配布されており、NILMの実際の応用は困難である。
そこで本稿では,家庭家電の典型的分類にnilmを適用するために,連合学習と最先端のディープラーニングアーキテクチャを組み合わせた分散・プライバシー保全型学習フレームワークであるnilm(federatednilm)を開発した。
広範な比較実験により,federatednilmフレームワークの有効性が実証された。 Non-intrusive load monitoring (NILM), which usually utilizes machine learning methods and is effective in disaggregating smart meter readings from the household-level into appliance-level consumptions, can help to analyze electricity consumption behaviours of users and enable practical smart energy and smart grid applications. However, smart meters are privately owned and distributed, which make real-world applications of NILM challenging. To this end, this paper develops a distributed and privacy-preserving federated deep learning framework for NILM (FederatedNILM), which combines federated learning with a state-of-the-art deep learning architecture to conduct NILM for the classification of typical states of household appliances. Through extensive comparative experiments, the effectiveness of the proposed FederatedNILM framework is demonstrated. | 翻訳日:2021-08-10 15:41:58 公開日:2021-08-08 |
# GPUクラスタにおけるディープラーニングワークロードスケジューリングのためのオンライン進化的バッチサイズオーケストレーション Online Evolutionary Batch Size Orchestration for Scheduling Deep Learning Workloads in GPU Clusters ( http://arxiv.org/abs/2108.03645v1 ) ライセンス: Link先を確認 | Zhengda Bian and Shenggui Li and Wei Wang and Yang You | (参考訳) 効率的なGPUリソーススケジューリングは、リソース利用の最大化と、共有GPUクラスタにおけるディープラーニングワークロードの増加に対するトレーニングコストの削減に不可欠である。
既存のGPUスケジューラは、ディープラーニングジョブのパフォーマンス特性を活用するための静的ポリシーに大きく依存している。
しかし、弾性の欠如により最適な効率に達することはほとんどない。
この問題に対処するために,弾力的なバッチサイズオーケストレーションのためのオンライン進化スケジューラであるoneを提案する。
バッチサイズをトレーニングすることで、各ジョブの弾力性を自動的に管理し、gpuの利用を最大化し、スケジューリング効率を向上させる。
スケジューリング決定を継続的に最適化するオンライン進化探索を通じて、各ジョブのバッチサイズを決定する。
TACCのLonghornスーパーコンピュータにおける64GPUを用いたONESの有効性を評価する。
その結果、ONESは従来のディープラーニングスケジューラよりもはるかに短い平均ジョブ完了時間で性能を向上できることがわかった。 Efficient GPU resource scheduling is essential to maximize resource utilization and save training costs for the increasing amount of deep learning workloads in shared GPU clusters. Existing GPU schedulers largely rely on static policies to leverage the performance characteristics of deep learning jobs. However, they can hardly reach optimal efficiency due to the lack of elasticity. To address the problem, we propose ONES, an ONline Evolutionary Scheduler for elastic batch size orchestration. ONES automatically manages the elasticity of each job based on the training batch size, so as to maximize GPU utilization and improve scheduling efficiency. It determines the batch size for each job through an online evolutionary search that can continuously optimize the scheduling decisions. We evaluate the effectiveness of ONES with 64 GPUs on TACC's Longhorn supercomputers. The results show that ONES can outperform the prior deep learning schedulers with a significantly shorter average job completion time. | 翻訳日:2021-08-10 15:41:44 公開日:2021-08-08 |
# 実世界の飛行時間データによる共同深度と正常推定 Joint Depth and Normal Estimation from Real-world Time-of-flight Raw Data ( http://arxiv.org/abs/2108.03649v1 ) ライセンス: Link先を確認 | Rongrong Gao, Na Fan, Changlin Li, Wentao Liu, Qifeng Chen | (参考訳) 飛行時間(ToF)センサの関節深度と正常推定に対する新しいアプローチを提案する。
提案モデルでは,ToFの生センサデータから高品質の深度と正常マップを共同で予測する。
これを実現するために,産業用深度カメラで提供されるToFデータと地上の高解像度深度マップを組み合わせて,最初の大規模データセット(ToF-100)を構築した。
さらに,本モデルの性能向上のために,ジッタリングによる頑健なシャムファー損失を適用し,関節深度と正常推定のための簡易かつ効果的なフレームワークを設計した。
提案手法は,高分解能の深さと正規分布を効率的に再現し,最先端のアプローチを著しく上回ることを実証する。
コードとデータは \url{https://github.com/hkustVisionRr/JointlyDepthNormalEstimation} で利用可能になります。 We present a novel approach to joint depth and normal estimation for time-of-flight (ToF) sensors. Our model learns to predict the high-quality depth and normal maps jointly from ToF raw sensor data. To achieve this, we meticulously constructed the first large-scale dataset (named ToF-100) with paired raw ToF data and ground-truth high-resolution depth maps provided by an industrial depth camera. In addition, we also design a simple but effective framework for joint depth and normal estimation, applying a robust Chamfer loss via jittering to improve the performance of our model. Our experiments demonstrate that our proposed method can efficiently reconstruct high-resolution depth and normal maps and significantly outperforms state-of-the-art approaches. Our code and data will be available at \url{https://github.com/hkustVisionRr/JointlyDepthNormalEstimation} | 翻訳日:2021-08-10 15:39:21 公開日:2021-08-08 |
# ファジィ認知地図を用いた糖尿病と甲状腺疾患の分類 Symptom based Hierarchical Classification of Diabetes and Thyroid disorders using Fuzzy Cognitive Maps ( http://arxiv.org/abs/2108.03760v1 ) ライセンス: Link先を確認 | Anand M. Shukla, Pooja D. Pandit, Vasudev M. Purandare and Anuradha Srinivasaraghavan | (参考訳) ファジィ認知マップ(fcms)は、人間の推論や人間の意思決定プロセスに類似したアプローチに従うソフトコンピューティング技術であり、モデリングやシミュレーションの方法論として有用である。
医療判断システムは相補的、相反的、競争力のある多くの要因からなる複雑なシステムであり、これらの要因は互いに影響を与え、異なる程度で総合的な診断を決定する。
したがって、FCMは医療意思決定支援システムをモデル化するのに適している。
提案した研究は、階層構造に配置されたFCMを用いて、糖尿病、甲状腺疾患とそのサブタイプを分類する。
1型と2型は糖尿病、甲状腺機能亢進症、甲状腺機能低下症である。 Fuzzy Cognitive Maps (FCMs) are soft computing technique that follows an approach similar to human reasoning and human decision-making process, making them a valuable modeling and simulation methodology. Medical Decision Systems are complex systems consisting of many factors that may be complementary, contradictory, and competitive; these factors influence each other and determine the overall diagnosis with a different degree. Thus, FCMs are suitable to model Medical Decision Support Systems. The proposed work therefore uses FCMs arranged in hierarchical structure to classify between Diabetes, Thyroid disorders and their subtypes. Subtypes include type 1 and type 2 for diabetes and hyperthyroidism and hypothyroidism for thyroid. | 翻訳日:2021-08-10 15:36:15 公開日:2021-08-08 |
# 特定領域適応のための自己逆転ディアンタングリング Self-Adversarial Disentangling for Specific Domain Adaptation ( http://arxiv.org/abs/2108.03553v1 ) ライセンス: Link先を確認 | Qianyu Zhou, Qiqi Gu, Jiangmiao Pang, Zhengyang Feng, Guangliang Cheng, Xuequan Lu, Jianping Shi, Lizhuang Ma | (参考訳) ドメイン適応は、ソースとターゲットドメイン間のドメインシフトをブリッジすることを目的としています。
これらの変化は霧や降雨など様々な次元にまたがる可能性がある。
しかし、最近の手法は特定の次元について明示的な事前知識を考慮せず、望まれない適応性能をもたらす。
本稿では、要求された特定次元のソースドメインとターゲットドメインを整列させる、特定ドメイン適応(SDA)と呼ばれる実践的な設定について検討する。
この設定では、異なる領域性(すなわち、この次元の数値等級)によって引き起こされるドメイン内ギャップが、特定の領域に適応する際に重要であることを観察する。
この問題に対処するため,我々は新たな自己逆距離(SAD)フレームワークを提案する。
特に、特定の次元が与えられた場合、我々はまず、追加の監視信号を提供するドメイン性クリエータを導入することで、ソースドメインを強化します。
生成したドメイン性に導かれ、潜在表現をドメイン性固有の特徴とドメイン性不変特徴に結合し、ドメイン内ギャップを緩和するために、自己相反正規化子と2つの損失関数を設計する。
提案手法は,プラグイン・アンド・プレイのフレームワークとして容易に利用でき,推論時間に余分なコストがかからない。
オブジェクト検出とセマンティクスセグメンテーションタスクの両方において,最先端メソッドよりも一貫した改善を実現する。 Domain adaptation aims to bridge the domain shifts between the source and target domains. These shifts may span different dimensions such as fog, rainfall, etc. However, recent methods typically do not consider explicit prior knowledge on a specific dimension, thus leading to less desired adaptation performance. In this paper, we study a practical setting called Specific Domain Adaptation (SDA) that aligns the source and target domains in a demanded-specific dimension. Within this setting, we observe the intra-domain gap induced by different domainness (i.e., numerical magnitudes of this dimension) is crucial when adapting to a specific domain. To address the problem, we propose a novel Self-Adversarial Disentangling (SAD) framework. In particular, given a specific dimension, we first enrich the source domain by introducing a domainness creator with providing additional supervisory signals. Guided by the created domainness, we design a self-adversarial regularizer and two loss functions to jointly disentangle the latent representations into domainness-specific and domainness-invariant features, thus mitigating the intra-domain gap. Our method can be easily taken as a plug-and-play framework and does not introduce any extra costs in the inference time. We achieve consistent improvements over state-of-the-art methods in both object detection and semantic segmentation tasks. | 翻訳日:2021-08-10 15:30:03 公開日:2021-08-08 |
# ドメイン適応意味セグメンテーションのためのコンテキストアウェアミックスアップ Context-Aware Mixup for Domain Adaptive Semantic Segmentation ( http://arxiv.org/abs/2108.03557v1 ) ライセンス: Link先を確認 | Qianyu Zhou, Zhengyang Feng, Qiqi Gu, Jiangmiao Pang, Guangliang Cheng, Xuequan Lu, Jianping Shi, Lizhuang Ma | (参考訳) Unsupervised domain adapt (UDA) は、ラベル付きソースドメインのモデルをラベル付きターゲットドメインに適応させることを目的としている。
ドメインシフトは外観やテクスチャなどさまざまな次元に存在するかもしれないが、一般的に異なるドメイン間で共有されるコンテキスト依存は、最近の手法では無視されている。
本稿では,この重要な手がかりを明示的な事前知識として活用し,ドメイン適応意味セグメンテーションのためのエンドツーエンド・コンテキスト・アウェア・ミックスアップ(camix)を提案する。
まず,蓄積した空間分布とコンテキスト関係を利用して,コンテキストマスク生成戦略を設計する。
この作業では、生成されたコンテキストマスクが重要であり、ドメインミックスアップをガイドします。
さらに,画素がどこにあるかを示すために重要マスクを定義する。
オーバーアライメント(例えば、初期の性能劣化)を緩和するために、コンテキストマスクに基づいてソース及びターゲット重要度マスクを混合重要度マスクに混合し、重み付けされた一貫性損失を導入する。
提案手法は,GTAV $\rightarrow $ Cityscapes とSynTHIA $\rightarrow $ Cityscapes の2つの領域適応ベンチマークにおいて,最先端の手法よりも高い性能を示すことを示す。 Unsupervised domain adaptation (UDA) aims to adapt a model of the labeled source domain to an unlabeled target domain. Although the domain shifts may exist in various dimensions such as appearance, textures, etc, the contextual dependency, which is generally shared across different domains, is neglected by recent methods. In this paper, we utilize this important clue as explicit prior knowledge and propose end-to-end Context-Aware Mixup (CAMix) for domain adaptive semantic segmentation. Firstly, we design a contextual mask generation strategy by leveraging accumulated spatial distributions and contextual relationships. The generated contextual mask is critical in this work and will guide the domain mixup. In addition, we define the significance mask to indicate where the pixels are credible. To alleviate the over-alignment (e.g., early performance degradation), the source and target significance masks are mixed based on the contextual mask into the mixed significance mask, and we introduce a significance-reweighted consistency loss on it. Experimental results show that the proposed method outperforms the state-of-the-art methods by a large margin on two widely-used domain adaptation benchmarks, i.e., GTAV $\rightarrow $ Cityscapes and SYNTHIA $\rightarrow $ Cityscapes. | 翻訳日:2021-08-10 15:29:40 公開日:2021-08-08 |
# 自己校正による可視的透かし除去と背景微細化 Visible Watermark Removal via Self-calibrated Localization and Background Refinement ( http://arxiv.org/abs/2108.03581v1 ) ライセンス: Link先を確認 | Jing Liang, Li Niu, Fengjun Guo, Teng Long, Liqing Zhang | (参考訳) 画像に透かしを埋め込むことは、著作権問題に対処するための強力な武器となる。
透かし除去技術は, 目に見える透かしの頑丈さを逆向きに強化し, 研究の関心を高めている。
現代のウォーターマーク除去法は,マルチタスク学習問題と見なすことができるウォーターマークのローカライズと背景復元を同時に行う。
しかし, 既存の手法では, 不完全に検出された透かしや, 復元された背景のテクスチャ品質の低下に苦しむ。
そこで我々は,上記の問題に対処する2段階のマルチタスクネットワークを設計する。
粗いステージは透かし分岐部と背景分岐部からなり、透かし分岐部は概算されたマスクを自己調整し、校正されたマスクを背景分岐部へ通過して透かし領域を再構築する。
改良段階では,マルチレベル機能を統合し,透かし領域のテクスチャ品質を向上させる。
2つのデータセットに対する実験により,提案手法の有効性が示された。 Superimposing visible watermarks on images provides a powerful weapon to cope with the copyright issue. Watermark removal techniques, which can strengthen the robustness of visible watermarks in an adversarial way, have attracted increasing research interest. Modern watermark removal methods perform watermark localization and background restoration simultaneously, which could be viewed as a multi-task learning problem. However, existing approaches suffer from incomplete detected watermark and degraded texture quality of restored background. Therefore, we design a two-stage multi-task network to address the above issues. The coarse stage consists of a watermark branch and a background branch, in which the watermark branch self-calibrates the roughly estimated mask and passes the calibrated mask to background branch to reconstruct the watermarked area. In the refinement stage, we integrate multi-level features to improve the texture quality of watermarked area. Extensive experiments on two datasets demonstrate the effectiveness of our proposed method. | 翻訳日:2021-08-10 15:29:14 公開日:2021-08-08 |
# ZiGAN:Few-shotスタイル転送による微粒中国書道フォント生成 ZiGAN: Fine-grained Chinese Calligraphy Font Generation via a Few-shot Style Transfer Approach ( http://arxiv.org/abs/2108.03596v1 ) ライセンス: Link先を確認 | Qi Wen, Shuang Li, Bingfeng Han, Yi Yuan | (参考訳) 英語の文字と比較すると、グリフの形状や基本構造が複雑で、多数の文字が存在しているため、漢字のスタイル変換は非常に難しい問題である。
また、書道師匠の筆跡はより不規則なストロークであり、現実のシナリオでは入手が困難である。
近年, フォント合成のためのいくつかのGAN法が提案されているが, その一部には多数の参照データが必要であり, その他の部分では, 文字を異なる部分に分割し, 個別に学習し, 転送する作業が煩雑である。
本稿では、手動操作や冗長な前処理を必要とせず、少ない参照で微粒なターゲットスタイルの文字を生成する簡易かつ強力な中国語書体生成フレームワークZiGANを提案する。
具体的には、異なるキャラクタスタイルのいくつかのペアサンプルを活用して、異なるグリフの構造間のきめ細かい相関を得る。
対象に価値あるスタイル知識を取り込み,文字内容の粗い理解を強化するため,複数の非ペアサンプルを用いて,異なるキャラクタスタイルに属する特徴分布の調整を行う。
これにより、期待されたスタイルの転写文字を生成するには、少数の漢字が必要とされる。
実験により,この手法は,漢字の文字変換における最先端の一般化能力を有することを示す。 Chinese character style transfer is a very challenging problem because of the complexity of the glyph shapes or underlying structures and large numbers of existed characters, when comparing with English letters. Moreover, the handwriting of calligraphy masters has a more irregular stroke and is difficult to obtain in real-world scenarios. Recently, several GAN-based methods have been proposed for font synthesis, but some of them require numerous reference data and the other part of them have cumbersome preprocessing steps to divide the character into different parts to be learned and transferred separately. In this paper, we propose a simple but powerful end-to-end Chinese calligraphy font generation framework ZiGAN, which does not require any manual operation or redundant preprocessing to generate fine-grained target-style characters with few-shot references. To be specific, a few paired samples from different character styles are leveraged to attain a fine-grained correlation between structures underlying different glyphs. To capture valuable style knowledge in target and strengthen the coarse-grained understanding of character content, we utilize multiple unpaired samples to align the feature distributions belonging to different character styles. By doing so, only a few target Chinese calligraphy characters are needed to generated expected style transferred characters. Experiments demonstrate that our method has a state-of-the-art generalization ability in few-shot Chinese character style transfer. | 翻訳日:2021-08-10 15:28:57 公開日:2021-08-08 |
# 脳腫瘍分類のためのトリプルトコントラスト学習 Triplet Contrastive Learning for Brain Tumor Classification ( http://arxiv.org/abs/2108.03611v1 ) ライセンス: Link先を確認 | Tian Yu Liu and Jiashi Feng | (参考訳) 脳腫瘍は、大人と子供の両方に影響を与える一般的な致命的ながんである。
脳腫瘍を異なるタイプに分類することは、医師が処方する治療に大きな影響を与えるため、重要な課題である。
これを踏まえ、特に深層畳み込みネットワークと分類層を併用した医用イメージング技術が開発され、脳腫瘍タイプのコンピュータ支援分類が可能になった。
本稿では,脳腫瘍の深層埋め込みを直接学習する新しい手法を提案する。
本研究では,脳腫瘍画像解析領域におけるデータ問題の欠如を効果的に改善するために,非教師なし事前学習とレアケースデータ拡張モジュールを組み合わせることで,三重項損失変種を用いる。
本手法は,27の異なる腫瘍クラスからなる広範脳腫瘍データセットについて検討し,そのうち13を稀に定義した。
すべての実験において共通エンコーダを用いて, ベースライン分類層モデルとの比較を行い, 結果から, 全測定値に対するアプローチの有効性が明らかとなった。 Brain tumor is a common and fatal form of cancer which affects both adults and children. The classification of brain tumors into different types is hence a crucial task, as it greatly influences the treatment that physicians will prescribe. In light of this, medical imaging techniques, especially those applying deep convolutional networks followed by a classification layer, have been developed to make possible computer-aided classification of brain tumor types. In this paper, we present a novel approach of directly learning deep embeddings for brain tumor types, which can be used for downstream tasks such as classification. Along with using triplet loss variants, our approach applies contrastive learning to performing unsupervised pre-training, combined with a rare-case data augmentation module to effectively ameliorate the lack of data problem in the brain tumor imaging analysis domain. We evaluate our method on an extensive brain tumor dataset which consists of 27 different tumor classes, out of which 13 are defined as rare. With a common encoder during all the experiments, we compare our approach with a baseline classification-layer based model, and the results well prove the effectiveness of our approach across all measured metrics. | 翻訳日:2021-08-10 15:28:33 公開日:2021-08-08 |
# 物体検出における不確かさモデリングのためのモンテカルロドロップブロック Monte Carlo DropBlock for Modelling Uncertainty in Object Detection ( http://arxiv.org/abs/2108.03614v1 ) ライセンス: Link先を確認 | Kumari Deepshikha, Sai Harsha Yelleni, P.K. Srijith, C Krishna Mohan | (参考訳) ディープラーニングの進歩により、オブジェクト検出やセグメンテーションといったコンピュータビジョンの問題は、パフォーマンスが大幅に向上している。
しかし、自動運転車のような現実世界の多くのアプリケーションでは、オブジェクトの誤った予測に関連するリスクは非常に高い。
YOLOモデルのようなオブジェクト検出のための標準的なディープラーニングモデルは、しばしば予測を過信しており、分布外データの予測の不確実性を考慮していない。
本研究では,モンテカルロDropBlock (MC-DropBlock) を用いたオブジェクト検出およびセグメンテーションタスクにおける不確実性をモデル化するための効率的かつ効果的な手法を提案する。
提案手法は、YOLOのようなディープラーニングモデルの畳み込み層において、トレーニング時間とテスト時間の間にドロップブロックを適用する。
これにより,ベイズ的畳み込みニューラルネットワークが,そのモデルにおけるてんかんの不確かさを捉えることができることを示す。
さらに,ガウス的確率を用いてアリュータ的不確かさを捉える。
分布外実験を用いたオブジェクト検出およびセグメント化タスクにおけるモデリングの不確実性に対する提案手法の有効性を示す。
実験結果から, MC-DropBlockは, オブジェクト検出およびセグメンテーションにおけるYOLOモデルの一般化, 校正, 不確実性モデリング能力を向上させることが示された。 With the advancements made in deep learning, computer vision problems like object detection and segmentation have seen a great improvement in performance. However, in many real-world applications such as autonomous driving vehicles, the risk associated with incorrect predictions of objects is very high. Standard deep learning models for object detection such as YOLO models are often overconfident in their predictions and do not take into account the uncertainty in predictions on out-of-distribution data. In this work, we propose an efficient and effective approach to model uncertainty in object detection and segmentation tasks using Monte-Carlo DropBlock (MC-DropBlock) based inference. The proposed approach applies drop-block during training time and test time on the convolutional layer of the deep learning models such as YOLO. We show that this leads to a Bayesian convolutional neural network capable of capturing the epistemic uncertainty in the model. Additionally, we capture the aleatoric uncertainty using a Gaussian likelihood. We demonstrate the effectiveness of the proposed approach on modeling uncertainty in object detection and segmentation tasks using out-of-distribution experiments. Experimental results show that MC-DropBlock improves the generalization, calibration, and uncertainty modeling capabilities of YOLO models in object detection and segmentation. | 翻訳日:2021-08-10 15:28:14 公開日:2021-08-08 |
# MPI:有能な物体検出のためのマルチレセプティブ・並列統合 MPI: Multi-receptive and Parallel Integration for Salient Object Detection ( http://arxiv.org/abs/2108.03618v1 ) ライセンス: Link先を確認 | Han Sun, Jun Cen, Ningzhong Liu, Dong Liang, Huiyu Zhou | (参考訳) 深い特徴のセマンティック表現は、画像コンテキスト理解に不可欠であり、異なるセマンティック表現を持つ特徴の効果的な融合は、有能なオブジェクト検出におけるモデルの性能を著しく向上させる。
本稿では,salient object detectionのためのmpiと呼ばれる新しい手法を提案する。
まず、MRE(Multi-receptive enhancement Module)は、異なる層から特徴の受容領域を効果的に拡張し、異なる受容領域で特徴を生成するように設計されている。
MREは意味表現を強化し、画像コンテキストに対するモデルの認識を改善し、モデルが正常なオブジェクトを正確に特定できるようにする。
次に, 複雑なトップダウン融合法における冗長情報の再利用を削減し, 意味的特徴の違いを弱めるため, 比較的単純かつ効果的な並列融合戦略(pfs)を提案する。
これによって、マルチスケールな機能が相互によりよいインタラクションが可能になり、モデル全体のパフォーマンスが向上する。
複数のデータセットにおける実験結果から,提案手法は評価基準の異なる最先端手法よりも優れていることが示された。 The semantic representation of deep features is essential for image context understanding, and effective fusion of features with different semantic representations can significantly improve the model's performance on salient object detection. In this paper, a novel method called MPI is proposed for salient object detection. Firstly, a multi-receptive enhancement module (MRE) is designed to effectively expand the receptive fields of features from different layers and generate features with different receptive fields. MRE can enhance the semantic representation and improve the model's perception of the image context, which enables the model to locate the salient object accurately. Secondly, in order to reduce the reuse of redundant information in the complex top-down fusion method and weaken the differences between semantic features, a relatively simple but effective parallel fusion strategy (PFS) is proposed. It allows multi-scale features to better interact with each other, thus improving the overall performance of the model. Experimental results on multiple datasets demonstrate that the proposed method outperforms state-of-the-art methods under different evaluation metrics. | 翻訳日:2021-08-10 15:27:57 公開日:2021-08-08 |
# 動作検出のためのクロスモーダル知識蒸留による拡張RGB表現の学習 Learning an Augmented RGB Representation with Cross-Modal Knowledge Distillation for Action Detection ( http://arxiv.org/abs/2108.03619v1 ) ライセンス: Link先を確認 | Rui Dai, Srijan Das, Francois Bremond | (参考訳) ビデオ理解において、ほとんどのクロスモーダルな知識蒸留(KD)法は、トリミングされたビデオの識別的表現に焦点をあてて分類作業に適合している。
しかし、アクション検出には、アクションを分類するだけでなく、未トリミングビデオにローカライズする必要がある。
したがって、それまでのクロスモーダルkdフレームワークに欠けているこのタスクには、時間的関係に関する知識の伝達が不可欠である。
そこで本研究では,KD による学習時間に付加的なモダリティを生かして,行動検出のための拡張 RGB 表現の学習を目指す。
2つの蒸留レベルからなるKDフレームワークを提案する。
一方、原子レベルの蒸留では、RGBの学生が教師の行動のサブ表現を対照的に学習することを奨励している。
一方、シーケンスレベルの蒸留は、グローバル・コンテクスト関係とアクション・バウンダリ・サリエンシ(Action Boundary Saliency)を移譲することからなる時間的知識を教師から学ぶことを奨励する。
その結果、Augmented-RGBストリームは、推論時にのみRGBを使用しながら、2ストリームネットワークとして競合性能を達成することができる。
大規模実験により,提案手法は汎用的であり,他の一般的なクロスモーダル蒸留法よりも優れた性能を示した。 In video understanding, most cross-modal knowledge distillation (KD) methods are tailored for classification tasks, focusing on the discriminative representation of the trimmed videos. However, action detection requires not only categorizing actions, but also localizing them in untrimmed videos. Therefore, transferring knowledge pertaining to temporal relations is critical for this task which is missing in the previous cross-modal KD frameworks. To this end, we aim at learning an augmented RGB representation for action detection, taking advantage of additional modalities at training time through KD. We propose a KD framework consisting of two levels of distillation. On one hand, atomic-level distillation encourages the RGB student to learn the sub-representation of the actions from the teacher in a contrastive manner. On the other hand, sequence-level distillation encourages the student to learn the temporal knowledge from the teacher, which consists of transferring the Global Contextual Relations and the Action Boundary Saliency. The result is an Augmented-RGB stream that can achieve competitive performance as the two-stream network while using only RGB at inference time. Extensive experimental analysis shows that our proposed distillation framework is generic and outperforms other popular cross-modal distillation methods in action detection task. | 翻訳日:2021-08-10 15:27:38 公開日:2021-08-08 |
# WideCaps: 画像分類のためのワイドアテンションベースのカプセルネットワーク WideCaps: A Wide Attention based Capsule Network for Image Classification ( http://arxiv.org/abs/2108.03627v1 ) ライセンス: Link先を確認 | Pawan S J, Rishi Sharma, Hemanth Sai Ram Reddy, M Vani, Jeny Rajan | (参考訳) カプセルネットワークはニューラルネットワークファミリーの独特で有望なセグメントであり、特徴間の空間的関係を保ちながら等分散性を維持するユニークな能力によって注目を集めた。
カプセルネットワークは、MNISTやaffNISTのようなデータセットによる画像分類タスクよりも、その特徴をカプセルにエンコードし、パースツリー構造を構築することで、前例のない成功を収めた。
しかし、CIFAR-10のような複雑な前景と背景領域を含むデータセットでは、カプセルネットワークの性能は、その素質的なデータルーティングポリシーと複雑な特徴の抽出に対する非能率のため、準最適である。
本稿では,複雑な画像を効率的に処理するためのカプセルネットワークアーキテクチャの設計手法を提案する。
提案手法では, 広範囲のボトルネック残差モジュールと, fmルーティングアルゴリズムが支持するスクイーズ・励磁アテンションブロックを組み込んで, 問題の解決法を提案する。
広いボトルネック残差モジュールは、複雑な特徴の抽出と、スクイズ及び励磁注意ブロックの抽出を容易とし、自明な特徴を抑制してチャネル毎の注目を可能にする。
このセットアップにより、チャネル間依存をほぼ計算コストで実現し、複雑な画像上のカプセルの表現能力を高めることができる。
CIFAR-10, Fashion MNIST, SVHNの3つの公開データセットにおいて提案モデルの性能を広範囲に評価し, CIFAR-10 と Fashion MNIST の上位5つの性能をSVHNデータセット上で高い競争性能で比較した。 The capsule network is a distinct and promising segment of the neural network family that drew attention due to its unique ability to maintain the equivariance property by preserving the spatial relationship amongst the features. The capsule network has attained unprecedented success over image classification tasks with datasets such as MNIST and affNIST by encoding the characteristic features into the capsules and building the parse-tree structure. However, on the datasets involving complex foreground and background regions such as CIFAR-10, the performance of the capsule network is sub-optimal due to its naive data routing policy and incompetence towards extracting complex features. This paper proposes a new design strategy for capsule network architecture for efficiently dealing with complex images. The proposed method incorporates wide bottleneck residual modules and the Squeeze and Excitation attention blocks upheld by the modified FM routing algorithm to address the defined problem. A wide bottleneck residual module facilitates extracting complex features followed by the squeeze and excitation attention block to enable channel-wise attention by suppressing the trivial features. This setup allows channel inter-dependencies at almost no computational cost, thereby enhancing the representation ability of capsules on complex images. We extensively evaluate the performance of the proposed model on three publicly available datasets, namely CIFAR-10, Fashion MNIST, and SVHN, to outperform the top-5 performance on CIFAR-10 and Fashion MNIST with highly competitive performance on the SVHN dataset. | 翻訳日:2021-08-10 15:27:14 公開日:2021-08-08 |
# マスクガイド付き点雲用アンカーフリー3d単段検出器 Anchor-free 3D Single Stage Detector with Mask-Guided Attention for Point Cloud ( http://arxiv.org/abs/2108.03634v1 ) ライセンス: Link先を確認 | Jiale Li and Hang Dai and Ling Shao and Yong Ding | (参考訳) 既存の1段階および2段階の3d物体検出器のほとんどはアンカーベースであるが、効率的だが挑戦的なアンカーフリーな1段階の3d物体検出は十分に研究されていない。
2次元物体検出に関する最近の研究は、アンカーフリー法も大きな可能性を示唆している。
しかし、点雲の無秩序でスパースな性質は、3次元点雲の高度な2D手法を直接活用することを妨げる。
ボクセルベースのスパース3D特徴量からスパース2D特徴量マップに変換することでこれを克服する。
本稿では, 変形可能な畳み込み塔と監視マスク誘導による注意を通して, 主に対象領域に密集したスパース特徴写像に適合する注意モジュールを提案する。
拡張された高密度特徴写像から3D境界ボックスを直接回帰することにより、点雲をアンカーフリーで検出する新しい1段3D検出器を構築する。
検出信頼度スコアとバウンディングボックス回帰の精度との相関性を改善するために,IoUに基づく検出信頼度再校正手法を提案する。
我々のコードは \url{https://github.com/jialeli1/MGAF-3DSSD} で公開されている。 Most of the existing single-stage and two-stage 3D object detectors are anchor-based methods, while the efficient but challenging anchor-free single-stage 3D object detection is not well investigated. Recent studies on 2D object detection show that the anchor-free methods also are of great potential. However, the unordered and sparse properties of point clouds prevent us from directly leveraging the advanced 2D methods on 3D point clouds. We overcome this by converting the voxel-based sparse 3D feature volumes into the sparse 2D feature maps. We propose an attentive module to fit the sparse feature maps to dense mostly on the object regions through the deformable convolution tower and the supervised mask-guided attention. By directly regressing the 3D bounding box from the enhanced and dense feature maps, we construct a novel single-stage 3D detector for point clouds in an anchor-free manner. We propose an IoU-based detection confidence re-calibration scheme to improve the correlation between the detection confidence score and the accuracy of the bounding box regression. Our code is publicly available at \url{https://github.com/jialeli1/MGAF-3DSSD}. | 翻訳日:2021-08-10 15:26:46 公開日:2021-08-08 |
# Spatio-Angular Dense Networkによる高効率光場再構成 Efficient Light Field Reconstruction via Spatio-Angular Dense Network ( http://arxiv.org/abs/2108.03635v1 ) ライセンス: Link先を確認 | Zexi Hu, Henry Wing Fung Yeung, Xiaoming Chen, Yuk Ying Chung, Haisheng Li | (参考訳) 画像センシング機器としては、単眼画像に比べて余分な角情報の提供が可能であり、幅広い計測応用が容易である。
光電界撮像装置は通常、角分解能と空間分解能との固有のトレードオフに苦しむ。
この問題に対処するために,光電界再構成法や光電界超解法などの手法が提案されているが,領域非対称性と効率的な情報フローという2つの問題に対処できない。
本稿では,2つの新しいコンポーネント,すなわち相関ブロックとスポース-角密スキップ接続を用いた光電場再構成のためのエンドツーエンドのスポース-Angular Dense Network (SADenseNet)を提案する。
前者は、領域非対称性に適合する方法で相関情報の効果的なモデリングを行う。
そして後者は2つの領域内の情報フローを高める3種類の接続からなる。
実世界のデータセットと合成データセットの両方に対する大規模な実験を行い、提案したSADenseNetの最先端性能がメモリと計算のコストを大幅に削減したことを示した。
定性的な結果は、再構成された光場画像が正確な詳細でシャープであり、関連する測定アプリケーションの精度を向上させるための前処理として機能することを示している。 As an image sensing instrument, light field images can supply extra angular information compared with monocular images and have facilitated a wide range of measurement applications. Light field image capturing devices usually suffer from the inherent trade-off between the angular and spatial resolutions. To tackle this problem, several methods, such as light field reconstruction and light field super-resolution, have been proposed but leaving two problems unaddressed, namely domain asymmetry and efficient information flow. In this paper, we propose an end-to-end Spatio-Angular Dense Network (SADenseNet) for light field reconstruction with two novel components, namely correlation blocks and spatio-angular dense skip connections to address them. The former performs effective modeling of the correlation information in a way that conforms with the domain asymmetry. And the latter consists of three kinds of connections enhancing the information flow within two domains. Extensive experiments on both real-world and synthetic datasets have been conducted to demonstrate that the proposed SADenseNet's state-of-the-art performance at significantly reduced costs in memory and computation. The qualitative results show that the reconstructed light field images are sharp with correct details and can serve as pre-processing to improve the accuracy of related measurement applications. | 翻訳日:2021-08-10 15:26:21 公開日:2021-08-08 |
# AdaAttN: Arbitrary Neural Style Transferにおける再留意機構 AdaAttN: Revisit Attention Mechanism in Arbitrary Neural Style Transfer ( http://arxiv.org/abs/2108.03647v1 ) ライセンス: Link先を確認 | Songhua Liu, Tianwei Lin, Dongliang He, Fu Li, Meiling Wang, Xin Li, Zhengxing Sun, Qian Li, Errui Ding | (参考訳) 高速な任意の神経様式の伝達は、様々な応用を可能にする柔軟性から、学術、産業、芸術のコミュニティから広く注目を集めている。
既存のソリューションは、特徴分布を考慮せずに、ディープなスタイルの機能をディープなコンテンツ機能に意図的に融合させるか、グローバルな統計が一致するスタイルに従ってディープなコンテンツ機能に適応的に正規化する。
浅度の特徴は探索されず、特徴統計をローカルに考慮することなく有効であるが、局所的な歪みを伴わずに不自然な出力をする傾向がある。
そこで本稿では,注意正規化モジュールであるadaptive attention normalization (adaattn)を提案し,ポイント単位の注意正規化を適応的に行う。
特に、コンテンツとスタイル画像の浅い特徴と深い特徴の両方から、空間的注意スコアを学習する。
そして、すべてのスタイル特徴点の注目重み付き出力の分布として、スタイル特徴点に関するポイントごとの重み付き統計を算出する。
最後に、コンテンツ機能は正規化され、計算されたポイント毎の重み付きスタイル特徴統計と同じ局所特徴統計を示す。
さらに、AdaAttNに基づく新たな局所的特徴損失が導出され、局所的な視覚的品質が向上する。
また、AdaAttNを少し修正してビデオスタイルの転送に対応できるように拡張します。
実験により,本手法が任意の画像/ビデオスタイルの転送を実現することを示す。
コードとモデルは利用可能である。 Fast arbitrary neural style transfer has attracted widespread attention from academic, industrial and art communities due to its flexibility in enabling various applications. Existing solutions either attentively fuse deep style feature into deep content feature without considering feature distributions, or adaptively normalize deep content feature according to the style such that their global statistics are matched. Although effective, leaving shallow feature unexplored and without locally considering feature statistics, they are prone to unnatural output with unpleasing local distortions. To alleviate this problem, in this paper, we propose a novel attention and normalization module, named Adaptive Attention Normalization (AdaAttN), to adaptively perform attentive normalization on per-point basis. Specifically, spatial attention score is learnt from both shallow and deep features of content and style images. Then per-point weighted statistics are calculated by regarding a style feature point as a distribution of attention-weighted output of all style feature points. Finally, the content feature is normalized so that they demonstrate the same local feature statistics as the calculated per-point weighted style feature statistics. Besides, a novel local feature loss is derived based on AdaAttN to enhance local visual quality. We also extend AdaAttN to be ready for video style transfer with slight modifications. Experiments demonstrate that our method achieves state-of-the-art arbitrary image/video style transfer. Codes and models are available. | 翻訳日:2021-08-10 15:25:58 公開日:2021-08-08 |
# VoxelからPointへ:Voxel-to-Pointデコーダを用いたIoU誘導3次元物体検出 From Voxel to Point: IoU-guided 3D Object Detection for Point Cloud with Voxel-to-Point Decoder ( http://arxiv.org/abs/2108.03648v1 ) ライセンス: Link先を確認 | Jiale Li and Hang Dai and Ling Shao and Yong Ding | (参考訳) 本稿では,voxel-to-pointデコーダを用いたiou誘導型2段物体検出器を提案する。
全ての原点から必要な情報を保存し、voxelベース領域提案ネットワーク(rpn)において高いボックスリコールを維持するため、voxelベースのrpnからマップビュー機能に加えてポイント特徴を抽出するために、残差voxel-to-pointデコーダを提案する。
我々は、3D Region of Interest (RoI)アライメントを作物に使用し、その特徴を提案ボックスにアライメントしてオブジェクトの位置を正確に知覚する。
RoI-Aligned の機能は最終的にコーナージオメトリの埋め込みで集約され、ボックスリファインメント段階における潜在的に欠落するコーナー情報を提供することができる。
本稿では,推定したIoUと改良された提案ボックスをより関連性の高いローカライゼーション信頼度として整列する簡易かつ効率的な手法を提案する。
KITTI と Waymo Open Dataset に関する包括的実験により,本手法が既存手法に対する新しいアーキテクチャによる大幅な改善を実現することを示す。
コードはgithub url\footnote{\url{https://github.com/jialeli1/from-voxel-to-point}}で入手できる。 In this paper, we present an Intersection-over-Union (IoU) guided two-stage 3D object detector with a voxel-to-point decoder. To preserve the necessary information from all raw points and maintain the high box recall in voxel based Region Proposal Network (RPN), we propose a residual voxel-to-point decoder to extract the point features in addition to the map-view features from the voxel based RPN. We use a 3D Region of Interest (RoI) alignment to crop and align the features with the proposal boxes for accurately perceiving the object position. The RoI-Aligned features are finally aggregated with the corner geometry embeddings that can provide the potentially missing corner information in the box refinement stage. We propose a simple and efficient method to align the estimated IoUs to the refined proposal boxes as a more relevant localization confidence. The comprehensive experiments on KITTI and Waymo Open Dataset demonstrate that our method achieves significant improvements with novel architectures against the existing methods. The code is available on Github URL\footnote{\url{https://github.com/jialeli1/From-Voxel-to-Point}}. | 翻訳日:2021-08-10 15:25:35 公開日:2021-08-08 |
# 骨格コントラスト3次元行動表現学習 Skeleton-Contrastive 3D Action Representation Learning ( http://arxiv.org/abs/2108.03656v1 ) ライセンス: Link先を確認 | Fida Mohammad Thoker, Hazel Doughty, Cees G.M. Snoek | (参考訳) 本稿では,骨格に基づく行動認識に適した特徴空間の自己教師型学習を目指す。
提案手法は,ノイズコントラスト推定による入力スケルトン表現と各種スケルトン拡張に対する不変性の学習に基づく。
特に,複数の異なる入力骨格表現からクロスコントラスト的に学習する骨格間コントラスト学習を提案する。
さらに,スケルトンデータの時空間的ダイナミクスをモデルに学ばせるために,いくつかのスケルトン特有の空間的および時間的拡張を寄与する。
異なるスケルトン表現の類似性と、同じシーケンスの強化ビューを学習することにより、ネットワークは、拡張ビューのみを使用する場合よりも、スケルトンデータの高度なセマンティクスを学習することが奨励される。
提案手法は,動作認識,行動検索,半教師付き学習など,複数の下流タスクを伴うPKUおよびNTUデータセット上の骨格データから,自己教師付き学習の最先端性能を実現する。
コードはhttps://github.com/fmthoker/skeleton-contrastで入手できる。 This paper strives for self-supervised learning of a feature space suitable for skeleton-based action recognition. Our proposal is built upon learning invariances to input skeleton representations and various skeleton augmentations via a noise contrastive estimation. In particular, we propose inter-skeleton contrastive learning, which learns from multiple different input skeleton representations in a cross-contrastive manner. In addition, we contribute several skeleton-specific spatial and temporal augmentations which further encourage the model to learn the spatio-temporal dynamics of skeleton data. By learning similarities between different skeleton representations as well as augmented views of the same sequence, the network is encouraged to learn higher-level semantics of the skeleton data than when only using the augmented views. Our approach achieves state-of-the-art performance for self-supervised learning from skeleton data on the challenging PKU and NTU datasets with multiple downstream tasks, including action recognition, action retrieval and semi-supervised learning. Code is available at https://github.com/fmthoker/skeleton-contrast. | 翻訳日:2021-08-10 15:25:11 公開日:2021-08-08 |
# ビデオキャプションのための識別潜在セマンティックグラフ Discriminative Latent Semantic Graph for Video Captioning ( http://arxiv.org/abs/2108.03662v1 ) ライセンス: Link先を確認 | Yang Bai, Junyan Wang, Yang Long, Bingzhang Hul Yang Song, Maurice Pagnucco, Yu Guan | (参考訳) ビデオキャプションは、与えられたビデオの視覚コンテンツを記述できる自然言語文を自動的に生成することを目的としている。
エンコーダ・デコーダフレームワークのような既存の生成モデルでは、複雑な時空間データからオブジェクトレベルのインタラクションやフレームレベルの情報を明示的に探り出して意味に富んだキャプションを生成することはできない。
我々の主な貢献は、将来のビデオ要約タスクのための統合フレームワークにおける3つの重要な問題を特定することである。
1)強化されたオブジェクトの提案:我々は時空間情報を潜在オブジェクト提案に融合できる新しい条件付きグラフを提案する。
2)視覚知識:より高度な意味レベルを持つ視覚単語を動的に抽出する潜在提案集約を提案する。
3)文の検証: 生成したキャプションを検証し, 重要な意味概念を効果的に保存するために, 新たな判別言語検証器を提案する。
特にBLEU-4とCIDErの2つの公開データセット(MVSDとMSR-VTT)に対する実験は、すべての指標に対する最先端のアプローチよりも顕著に改善されている。
私たちのコードはhttps://github.com/baiyang4/d-lsg-video-captionで利用可能です。 Video captioning aims to automatically generate natural language sentences that can describe the visual contents of a given video. Existing generative models like encoder-decoder frameworks cannot explicitly explore the object-level interactions and frame-level information from complex spatio-temporal data to generate semantic-rich captions. Our main contribution is to identify three key problems in a joint framework for future video summarization tasks. 1) Enhanced Object Proposal: we propose a novel Conditional Graph that can fuse spatio-temporal information into latent object proposal. 2) Visual Knowledge: Latent Proposal Aggregation is proposed to dynamically extract visual words with higher semantic levels. 3) Sentence Validation: A novel Discriminative Language Validator is proposed to verify generated captions so that key semantic concepts can be effectively preserved. Our experiments on two public datasets (MVSD and MSR-VTT) manifest significant improvements over state-of-the-art approaches on all metrics, especially for BLEU-4 and CIDEr. Our code is available at https://github.com/baiyang4/D-LSG-Video-Caption. | 翻訳日:2021-08-10 15:24:50 公開日:2021-08-08 |
# RECALL: セマンティックセグメンテーションにおけるリプレイベースの継続的学習 RECALL: Replay-based Continual Learning in Semantic Segmentation ( http://arxiv.org/abs/2108.03673v1 ) ライセンス: Link先を確認 | Andrea Maracani, Umberto Michieli, Marco Toldo, Pietro Zanuttigh | (参考訳) ディープネットワークはセマンティックセグメンテーションにおいて優れた結果を得ることができるが、大量のデータで単一のショットでトレーニングする必要がある。
新しいクラスがインクリメンタルなステップで学習され、以前のトレーニングデータが利用できない継続的学習設定は、破滅的な忘れ去現象のために難しい。
既存のアプローチは通常、いくつかの段階的なステップが実行されたり、バックグラウンドクラスの分散シフトがあった場合に失敗する。
従来のクラスでは利用できないデータを再作成し、バックグラウンドクラスにコンテンツインペイントスキームを概説することで、これらの問題に対処する。
再生データのソースを2つ提案する。
1つ目は、過去の学習ステップのクラス空間からサンプルをサンプリングする生成的対向ネットワークである。
2つ目は、オンラインデータベースから古いクラスの例を含む画像を取得するために、Webcrawledデータに依存している。
どちらのシナリオでも過去のステップのサンプルは保存されないため、プライバシー上の懸念は回避される。
リプレイデータは、インクリメンタルステップ中に新しいサンプルとブレンドされる。
我々のアプローチであるRECALLは最先端の手法よりも優れています。 Deep networks allow to obtain outstanding results in semantic segmentation, however they need to be trained in a single shot with a large amount of data. Continual learning settings where new classes are learned in incremental steps and previous training data is no longer available are challenging due to the catastrophic forgetting phenomenon. Existing approaches typically fail when several incremental steps are performed or in presence of a distribution shift of the background class. We tackle these issues by recreating no longer available data for the old classes and outlining a content inpainting scheme on the background class. We propose two sources for replay data. The first resorts to a generative adversarial network to sample from the class space of past learning steps. The second relies on web-crawled data to retrieve images containing examples of old classes from online databases. In both scenarios no samples of past steps are stored, thus avoiding privacy concerns. Replay data are then blended with new samples during the incremental steps. Our approach, RECALL, outperforms state-of-the-art methods. | 翻訳日:2021-08-10 15:24:20 公開日:2021-08-08 |
# ビデオオブジェクトセグメンテーションのための共同帰納学習とトランスダクティブ学習 Joint Inductive and Transductive Learning for Video Object Segmentation ( http://arxiv.org/abs/2108.03679v1 ) ライセンス: Link先を確認 | Yunyao Mao, Ning Wang, Wengang Zhou, Houqiang Li | (参考訳) 半教師付きビデオオブジェクトセグメンテーション(半教師付きビデオオブジェクトセグメンテーション)は、第1のフレームにマスクアノテーションのみを付与するビデオシーケンスでターゲットオブジェクトをセグメンテーションするタスクである。
利用可能な限られた情報は、非常に困難なタスクになります。
従来のベストパフォーマンス手法の多くは、マッチングベースのトランスダクティブ推論やオンラインインダクティブ学習を採用している。
それでも、同様の事例では差別的でないか、時空間情報の利用に不十分である。
本研究では,トランスダクティブ学習とインダクティブ学習を統合したフレームワークに統合し,それら間の相補性を利用して,高精度でロバストなビデオオブジェクトセグメンテーションを提案する。
提案手法は2つの機能分岐からなる。
トランスダクションブランチは、リッチな時空間キューを集約する軽量なトランスフォーマーアーキテクチャを採用し、インダクションブランチはオンライン誘導学習を行い、識別対象情報を得る。
これら2つの分岐をブリッジするために、2つのヘッドラベルエンコーダを導入し、それぞれに適切なターゲットを学習する。
生成されたマスクエンコーディングは、その相補性を維持するためにさらに切り離される。
いくつかの一般的なベンチマーク実験では、合成トレーニングデータを必要としないため、提案手法は一連の新しい最先端記録を設定する。
コードはhttps://github.com/maoyunyao/JOINT.comで入手できる。 Semi-supervised video object segmentation is a task of segmenting the target object in a video sequence given only a mask annotation in the first frame. The limited information available makes it an extremely challenging task. Most previous best-performing methods adopt matching-based transductive reasoning or online inductive learning. Nevertheless, they are either less discriminative for similar instances or insufficient in the utilization of spatio-temporal information. In this work, we propose to integrate transductive and inductive learning into a unified framework to exploit the complementarity between them for accurate and robust video object segmentation. The proposed approach consists of two functional branches. The transduction branch adopts a lightweight transformer architecture to aggregate rich spatio-temporal cues while the induction branch performs online inductive learning to obtain discriminative target information. To bridge these two diverse branches, a two-head label encoder is introduced to learn the suitable target prior for each of them. The generated mask encodings are further forced to be disentangled to better retain their complementarity. Extensive experiments on several prevalent benchmarks show that, without the need of synthetic training data, the proposed approach sets a series of new state-of-the-art records. Code is available at https://github.com/maoyunyao/JOINT. | 翻訳日:2021-08-10 15:24:03 公開日:2021-08-08 |
# 学習画像圧縮のための拡張可逆符号化 Enhanced Invertible Encoding for Learned Image Compression ( http://arxiv.org/abs/2108.03690v1 ) ライセンス: Link先を確認 | Yueqi Xie, Ka Leong Cheng, Qifeng Chen | (参考訳) 近年,深層学習に基づく画像圧縮法は将来的な進歩を遂げているが,その性能は最新の圧縮標準であるVersatile Video Coding (VVC) に匹敵するものではない。
最近の開発のほとんどは、潜在機能の分布をよりよくパラメータ化できる、より正確で柔軟なエントロピーモデルの設計に集中している。
しかし、画像空間と潜在機能空間の間のより良い変換を構築することに費やす努力はほとんどない。
本稿では,従来のオートエンコーダ方式のネットワークを用いてこのトランスフォーメーションを構築するのではなく,インバータブルニューラルネットワーク(inn)を用いた拡張インバータブルエンコーディングネットワークを提案する。
Kodak, CLIC, Tecnick のデータセットによる実験結果から,本手法はVVC (VTM 12.1) を含む既存の学習画像圧縮手法や圧縮標準よりも優れており,特に高解像度画像に対して優れていた。
ソースコードはhttps://github.com/xyq7/invcompressで入手できます。 Although deep learning based image compression methods have achieved promising progress these days, the performance of these methods still cannot match the latest compression standard Versatile Video Coding (VVC). Most of the recent developments focus on designing a more accurate and flexible entropy model that can better parameterize the distributions of the latent features. However, few efforts are devoted to structuring a better transformation between the image space and the latent feature space. In this paper, instead of employing previous autoencoder style networks to build this transformation, we propose an enhanced Invertible Encoding Network with invertible neural networks (INNs) to largely mitigate the information loss problem for better compression. Experimental results on the Kodak, CLIC, and Tecnick datasets show that our method outperforms the existing learned image compression methods and compression standards, including VVC (VTM 12.1), especially for high-resolution images. Our source code is available at https://github.com/xyq7/InvCompress. | 翻訳日:2021-08-10 15:23:39 公開日:2021-08-08 |
# BIGRoC:ロバスト分類器による画像生成 BIGRoC: Boosting Image Generation via a Robust Classifier ( http://arxiv.org/abs/2108.03702v1 ) ライセンス: Link先を確認 | Roy Ganz and Michael Elad | (参考訳) 近年、画像合成における機械学習コミュニティの関心は、幅広い深層生成モデルを導入し、それらを訓練する手段として大きく成長している。
そのような機械の最終的な目標は、与えられた訓練画像と合成画像の分布を一致させることである。
本研究では,任意の生成モデルによって得られた画像の画質と分布忠実性を改善する汎用モデル非依存手法を提案する。
BIGRoC (boosting image generation via a robust classifier) と呼ばれる本手法は, 与えられたロバスト分類器の指導による後処理をベースとし, 生成モデルの追加訓練を必要としない。
合成画像が与えられた場合,頑健な分類器上での勾配を投影し,その認識を改良する手法を提案する。
様々な画像合成法において,この後処理アルゴリズムを実証し,定量的および定性的に生成画像の大幅な改善を示す。 The interest of the machine learning community in image synthesis has grown significantly in recent years, with the introduction of a wide range of deep generative models and means for training them. Such machines' ultimate goal is to match the distributions of the given training images and the synthesized ones. In this work, we propose a general model-agnostic technique for improving the image quality and the distribution fidelity of generated images, obtained by any generative model. Our method, termed BIGRoC (boosting image generation via a robust classifier), is based on a post-processing procedure via the guidance of a given robust classifier and without a need for additional training of the generative model. Given a synthesized image, we propose to update it through projected gradient steps over the robust classifier, in an attempt to refine its recognition. We demonstrate this post-processing algorithm on various image synthesis methods and show a significant improvement of the generated images, both quantitatively and qualitatively. | 翻訳日:2021-08-10 15:23:19 公開日:2021-08-08 |
# 階層ビュー予測器:非順序ビュー間の階層予測による教師なし3次元グローバル特徴学習 Hierarchical View Predictor: Unsupervised 3D Global Feature Learning through Hierarchical Prediction among Unordered Views ( http://arxiv.org/abs/2108.03743v1 ) ライセンス: Link先を確認 | Zhizhong Han and Xiyang Wang and Yu-Shen Liu and Matthias Zwicker | (参考訳) 3次元形状解析のためのグローバルな特徴の教師なし学習は、教師付き情報収集のための手作業を避けるため、重要な研究課題である。
本稿では,階層ビュー予測器(HVP)と呼ばれる視点に基づくディープラーニングモデルを提案し,教師なし視点から3次元形状の特徴を学習する。
非順序ビューから高度に識別された情報をマイニングするために、HVPはビューペアに対して新しい階層的なビュー予測を行い、すべてのビューペアの予測から得られた知識をグローバルな特徴に集約する。
ビューペアでは、階層的なビュー予測を、その補完的なパッチセットから現在のビュー内のイメージパッチの集合を階層的に予測するタスクとして、さらに、現在のビューの完了と2つのパッチのいずれとも反対のタスクとして提案する。
階層的予測は、パッチへのパッチ、ビュー・ビュー・オブ・ビューのパッチにおいて、同一ビューにおけるパッチ間の相関と1対の補完ビュー間の相関から3次元形状の構造を効果的に学習する。
さらに、すべてのビューペアに対する暗黙の集約によって、HVPは順序のないビューからグローバルな機能を学ぶことができる。
以上の結果から,HVPは形状分類と検索において,大規模3次元形状ベンチマークにおいて最先端の手法より優れていることが示された。 Unsupervised learning of global features for 3D shape analysis is an important research challenge because it avoids manual effort for supervised information collection. In this paper, we propose a view-based deep learning model called Hierarchical View Predictor (HVP) to learn 3D shape features from unordered views in an unsupervised manner. To mine highly discriminative information from unordered views, HVP performs a novel hierarchical view prediction over a view pair, and aggregates the knowledge learned from the predictions in all view pairs into a global feature. In a view pair, we pose hierarchical view prediction as the task of hierarchically predicting a set of image patches in a current view from its complementary set of patches, and in addition, completing the current view and its opposite from any one of the two sets of patches. Hierarchical prediction, in patches to patches, patches to view and view to view, facilitates HVP to effectively learn the structure of 3D shapes from the correlation between patches in the same view and the correlation between a pair of complementary views. In addition, the employed implicit aggregation over all view pairs enables HVP to learn global features from unordered views. Our results show that HVP can outperform state-of-the-art methods under large-scale 3D shape benchmarks in shape classification and retrieval. | 翻訳日:2021-08-10 15:23:01 公開日:2021-08-08 |
# 2次元投影マッチングによる3次元点雲の微細構造生成の教師なし学習 Unsupervised Learning of Fine Structure Generation for 3D Point Clouds by 2D Projection Matching ( http://arxiv.org/abs/2108.03746v1 ) ライセンス: Link先を確認 | Chen Chao and Zhizhong Han and Yu-Shen Liu and Matthias Zwicker | (参考訳) 3Dの監督なしに3Dポイントクラウドを生成することを学ぶことは重要だが、難しい問題だ。
現在のソリューションでは、さまざまな微分可能なレンダラを活用して、生成された3dポイントクラウドを2dイメージプレーンに投影し、ピクセル単位の差分と2dグランド真実イメージを使用してディープニューラルネットワークをトレーニングする。
しかし、これらの溶液は薄いチューブや平面のような3d形状の微細な構造を完全に回復するのに苦戦している。
この問題を解決するために,細かな構造を持つ3次元点雲生成のための教師なしアプローチを提案する。
具体的には,2次元投影マッチング問題として3Dポイントクラウド・ラーニングを挙げた。
2次元シルエット画像全体を通常の画素監視として使用するのではなく、無作為な点監督としてシルエット内の2次元点をランダムにサンプリングする構造適応サンプリングを導入し、異なる角度からのサンプリングの一貫性問題を緩和する。
提案手法はニューラルネットワークに2次元投影が異なる視点から不規則な点監督と一致する3次元点雲を生成する。
2次元投影マッチングアプローチにより,ニューラルネットワークはピクセル単位の差,特に微細で薄い3d構造を用いた場合よりも正確な構造情報を得ることができる。
異なる解像度で2次元シルエット画像から微細な3次元構造を復元でき,不規則な点監督において異なるサンプリング法と点数に頑健である。
本手法は広く使用されているベンチマークで他の手法よりも優れている。
私たちのコード、データ、モデルはhttps://github.com/chenchao15/2d\_projection\_matchingで利用可能です。 Learning to generate 3D point clouds without 3D supervision is an important but challenging problem. Current solutions leverage various differentiable renderers to project the generated 3D point clouds onto a 2D image plane, and train deep neural networks using the per-pixel difference with 2D ground truth images. However, these solutions are still struggling to fully recover fine structures of 3D shapes, such as thin tubes or planes. To resolve this issue, we propose an unsupervised approach for 3D point cloud generation with fine structures. Specifically, we cast 3D point cloud learning as a 2D projection matching problem. Rather than using entire 2D silhouette images as a regular pixel supervision, we introduce structure adaptive sampling to randomly sample 2D points within the silhouettes as an irregular point supervision, which alleviates the consistency issue of sampling from different view angles. Our method pushes the neural network to generate a 3D point cloud whose 2D projections match the irregular point supervision from different view angles. Our 2D projection matching approach enables the neural network to learn more accurate structure information than using the per-pixel difference, especially for fine and thin 3D structures. Our method can recover fine 3D structures from 2D silhouette images at different resolutions, and is robust to different sampling methods and point number in irregular point supervision. Our method outperforms others under widely used benchmarks. Our code, data and models are available at https://github.com/chenchao15/2D\_projection\_matching. | 翻訳日:2021-08-10 15:22:39 公開日:2021-08-08 |
# DNN(Deep Neural Network for DrawiNg Networks, DNN)^2 Deep Neural Network for DrawiNg Networks, (DNN)^2 ( http://arxiv.org/abs/2108.03632v1 ) ライセンス: Link先を確認 | Loann Giovannangeli, Frederic Lalanne, David Auber, Romain Giot and Romain Bourqui | (参考訳) 確率勾配降下法の最近の進歩を生かして、グラフを最適目的関数の最適化によって効率的にレイアウトできることがいくつかの研究で示されている。
一方、Deep Learning (DL)技術は多くのアプリケーションで大きなパフォーマンスを実現した。
本稿では,グラフ関連目的関数により,DL手法を用いてグラフからレイアウトまでの操作列を学習できることを実証する。
本稿では,(dnn)^2: deep neural network for drawing networksという新しいグラフ描画フレームワークを提案する。
本手法では,モデル学習にグラフ畳み込みネットワークを用いる。
学習は、トレーニング中に(DNN)^2生成したレイアウトを評価するグラフトポロジ関連損失関数を最適化することで達成される。
トレーニングが完了すると、(DNN)^モデルは任意の入力グラフを素早くレイアウトすることができる。
dnn^2を実験し,最適化に基づく正規グラフレイアウトアルゴリズムと比較した。
その結果,(DNN)^2 はグラフ描画への深層学習アプローチが新鮮であり,将来的な研究の先駆けとなるものが多いことが示唆された。 By leveraging recent progress of stochastic gradient descent methods, several works have shown that graphs could be efficiently laid out through the optimization of a tailored objective function. In the meantime, Deep Learning (DL) techniques achieved great performances in many applications. We demonstrate that it is possible to use DL techniques to learn a graph-to-layout sequence of operations thanks to a graph-related objective function. In this paper, we present a novel graph drawing framework called (DNN)^2: Deep Neural Network for DrawiNg Networks. Our method uses Graph Convolution Networks to learn a model. Learning is achieved by optimizing a graph topology related loss function that evaluates (DNN)^2 generated layouts during training. Once trained, the (DNN)^ model is able to quickly lay any input graph out. We experiment (DNN)^2 and statistically compare it to optimization-based and regular graph layout algorithms. The results show that (DNN)^2 performs well and are encouraging as the Deep Learning approach to Graph Drawing is novel and many leads for future works are identified. | 翻訳日:2021-08-10 15:13:05 公開日:2021-08-08 |
# 組合せ最適化のための強化学習フレームワークの一般化の難しさについて On the Difficulty of Generalizing Reinforcement Learning Framework for Combinatorial Optimization ( http://arxiv.org/abs/2108.03713v1 ) ライセンス: Link先を確認 | Mostafa Pashazadeh, Kui Wu | (参考訳) 現実の応用とグラフ上の組合せ最適化問題(COP)は、コンピュータサイエンスにおける標準的な課題である。
問題インスタンスの品質ラベルを見つけることの難しさは、組合せ問題にまたがる教師あり学習を活用することを妨げる。
強化学習(RL)アルゴリズムはこの課題を自動解決するために最近採用されている。
このアプローチの基本原理は、環境の現在の状態をキャプチャするために、ノードのローカル情報とグラフ構造化データの両方を符号化するグラフニューラルネットワーク(GNN)をデプロイすることである。
次に、アクターは、問題固有のヒューリスティックを自分自身で学習し、最終的に良い解に到達するために各州で情報的決定を行う。
近年の研究では、トラベルセールスマン問題(英語版)のようなグラフ上の組合せ問題群に焦点をあて、与えられた目的関数を最適化する頂点の順序を求めることを目的としている。
我々は,クラウド上のセキュリティ対応電話機のクローン割り当てを古典的二次代入問題 (QAP) として,深層RLモデルが他の難題の解法に一般的に適用可能であるか否かを調査する。
大規模な経験的評価は、既存のRLモデルがQAPに一般化されないことを示している。 Combinatorial optimization problems (COPs) on the graph with real-life applications are canonical challenges in Computer Science. The difficulty of finding quality labels for problem instances holds back leveraging supervised learning across combinatorial problems. Reinforcement learning (RL) algorithms have recently been adopted to solve this challenge automatically. The underlying principle of this approach is to deploy a graph neural network (GNN) for encoding both the local information of the nodes and the graph-structured data in order to capture the current state of the environment. Then, it is followed by the actor to learn the problem-specific heuristics on its own and make an informed decision at each state for finally reaching a good solution. Recent studies on this subject mainly focus on a family of combinatorial problems on the graph, such as the travel salesman problem, where the proposed model aims to find an ordering of vertices that optimizes a given objective function. We use the security-aware phone clone allocation in the cloud as a classical quadratic assignment problem (QAP) to investigate whether or not deep RL-based model is generally applicable to solve other classes of such hard problems. Extensive empirical evaluation shows that existing RL-based model may not generalize to QAP. | 翻訳日:2021-08-10 15:12:49 公開日:2021-08-08 |
# セマンティックな説明可能なAI: セマンティックなシーングラフの活用と説明ロボットの失敗に対するペアワイズランキング Semantic-Based Explainable AI: Leveraging Semantic Scene Graphs and Pairwise Ranking to Explain Robot Failures ( http://arxiv.org/abs/2108.03554v1 ) ライセンス: Link先を確認 | Devleena Das, Sonia Chernova | (参考訳) 非構造な人間の環境で対話する場合、ロボットの故障は避けられない。
このような失敗が発生した場合、訓練を受けた技術者ではなく、日々の人々が最初に対応します。
既存の自然言語説明は、日常の人々がロボットの失敗を理解するのに役立つ環境からの文脈情報に注釈を付ける。
しかし、この手法には一般化性と拡張性がない。
本研究では,より汎用的な意味説明フレームワークを導入する。
我々のフレームワークは、シーン内の意味情報を自律的にキャプチャして、日常のユーザに対して意味記述的な説明を生成する。
セマンティクス的に根拠づけられた障害中心の説明を生成するために,セマンティクスシーングラフを利用して,環境から空間関係と対象属性を抽出する。
その結果,これらの意味論的記述的説明は,既存の状況に基づく説明よりも,日常ユーザの障害識別能力と回復支援能力が大幅に向上することが示された。 When interacting in unstructured human environments, occasional robot failures are inevitable. When such failures occur, everyday people, rather than trained technicians, will be the first to respond. Existing natural language explanations hand-annotate contextual information from an environment to help everyday people understand robot failures. However, this methodology lacks generalizability and scalability. In our work, we introduce a more generalizable semantic explanation framework. Our framework autonomously captures the semantic information in a scene to produce semantically descriptive explanations for everyday users. To generate failure-focused explanations that are semantically grounded, we leverages both semantic scene graphs to extract spatial relations and object attributes from an environment, as well as pairwise ranking. Our results show that these semantically descriptive explanations significantly improve everyday users' ability to both identify failures and provide assistance for recovery than the existing state-of-the-art context-based explanations. | 翻訳日:2021-08-10 15:09:45 公開日:2021-08-08 |
# コンプライアンス推定による簡易機器からの推論の改善 Improving Inference from Simple Instruments through Compliance Estimation ( http://arxiv.org/abs/2108.03726v1 ) ライセンス: Link先を確認 | Stephen Coussens, Jann Spiess | (参考訳) インストゥルメンタル変数(iv)回帰は、治療の受け取りが完全にランダムでない設定において因果的治療効果を推定するために広く用いられるが、治療被曝において外因的変動を発生させる装置が存在する。
ivは一貫した治療効果の推定を回復できるが、しばしば騒がしい。
生物統計学における先行研究(joffe and brensinger, 2003)と、計量学における進化文学(abadie et al., 2019; huntington-klein, 2020; borusyak and hull, 2020)に基づいて、測定器の強度の予測可能な変動を利用してiv推定の効率を改善する方法について検討する。
両処理と計器が2値であり,計器が基線共変量に依存しない場合には,各観測の重み付けを,その推定コンプライアンス(すなわち,計器の影響を受けやすい条件付き確率)に基づいて検討し,第1段予測問題の(制約付き)解から第4段予測問題の暗黙的解を導出する。
その結果得られた推定器は、ベースライン共変量の関数としてコンプライアンスを推定するために機械学習を利用することができる。
重み付きIV推定器の特定の実装における大きなサンプル特性を潜在的結果と局所平均処理効果(LATE)フレームワークで導き出し、重みが非パラメトリックに見積もっても有効である推論ツールを提供する。
理論結果とシミュレーション研究の両方で、コンプライアンス重み付けは第一段階の不均一性が存在する場合のIV推定値の分散を有意に低減し、この改善はコンプライアンス重み付けと未重み付けIV推定値の差を上回ることが示されている。
これらの結果から,様々な適用条件において,コンプライアンス推定を組み込むことでiv推定の精度を大幅に向上できることが示唆された。 Instrumental variables (IV) regression is widely used to estimate causal treatment effects in settings where receipt of treatment is not fully random, but there exists an instrument that generates exogenous variation in treatment exposure. While IV can recover consistent treatment effect estimates, they are often noisy. Building upon earlier work in biostatistics (Joffe and Brensinger, 2003) and relating to an evolving literature in econometrics (including Abadie et al., 2019; Huntington-Klein, 2020; Borusyak and Hull, 2020), we study how to improve the efficiency of IV estimates by exploiting the predictable variation in the strength of the instrument. In the case where both the treatment and instrument are binary and the instrument is independent of baseline covariates, we study weighting each observation according to its estimated compliance (that is, its conditional probability of being affected by the instrument), which we motivate from a (constrained) solution of the first-stage prediction problem implicit to IV. The resulting estimator can leverage machine learning to estimate compliance as a function of baseline covariates. We derive the large-sample properties of a specific implementation of a weighted IV estimator in the potential outcomes and local average treatment effect (LATE) frameworks, and provide tools for inference that remain valid even when the weights are estimated nonparametrically. With both theoretical results and a simulation study, we demonstrate that compliance weighting meaningfully reduces the variance of IV estimates when first-stage heterogeneity is present, and that this improvement often outweighs any difference between the compliance-weighted and unweighted IV estimands. These results suggest that in a variety of applied settings, the precision of IV estimates can be substantially improved by incorporating compliance estimation. | 翻訳日:2021-08-10 15:05:20 公開日:2021-08-08 |
# M5予測競争の評価設定について A Look at the Evaluation Setup of the M5 Forecasting Competition ( http://arxiv.org/abs/2108.03588v1 ) ライセンス: Link先を確認 | Hansika Hewamalage, Pablo Montero-Manso, Christoph Bergmeir, Rob J Hyndman | (参考訳) 予測評価は、経験的証拠が規律の発展をいかに形作るかにおいて重要な役割を果たす。
ドメインの専門家は、意思決定のニーズに関連するエラー対策に興味を持っています。
このような措置は信頼できない結果をもたらす可能性がある。
いくつかのメトリクスの信頼性特性は既に議論されているが、客観的に定量化されることはほとんどない。
本研究では,モデルと誤差が一定である場合,実験のランクが類似したデータセット間でどの程度異なるかを評価する,ランク安定性という尺度を提案する。
これを用いて,M5の評価設定について検討する。
M5の評価設定は他の測定方法よりも信頼性が低いことがわかった。
不安定の主な要因は階層的集約とスケーリングである。
価格重み付けは、すべてのテストされたエラー測定の安定性を低下させる。
M5誤差測定のスケール正規化は、他のスケールフリーエラーよりも安定性が低い。
分離した階層レベルは凝集度が高いほど安定せず、それらの組み合わせは個々のレベルよりも不安定である。
また,安定性を損なうことなく,集約の重要性を維持するというポジティブなトレードオフを示す。
集約と安定性は、議論の多かったマジックナンバーの影響と結びつくことができる。
私たちの発見の多くは、一般的な階層的予測ベンチマークに適用できます。 Forecast evaluation plays a key role in how empirical evidence shapes the development of the discipline. Domain experts are interested in error measures relevant for their decision making needs. Such measures may produce unreliable results. Although reliability properties of several metrics have already been discussed, it has hardly been quantified in an objective way. We propose a measure named Rank Stability, which evaluates how much the rankings of an experiment differ in between similar datasets, when the models and errors are constant. We use this to study the evaluation setup of the M5. We find that the evaluation setup of the M5 is less reliable than other measures. The main drivers of instability are hierarchical aggregation and scaling. Price-weighting reduces the stability of all tested error measures. Scale normalization of the M5 error measure results in less stability than other scale-free errors. Hierarchical levels taken separately are less stable with more aggregation, and their combination is even less stable than individual levels. We also show positive tradeoffs of retaining aggregation importance without affecting stability. Aggregation and stability can be linked to the influence of much debated magic numbers. Many of our findings can be applied to general hierarchical forecast benchmarking. | 翻訳日:2021-08-10 15:03:37 公開日:2021-08-08 |
# テキストベースコード埋め込みによる異種電子健康記録システムの統合 Unifying Heterogenous Electronic Health Records Systems via Text-Based Code Embedding ( http://arxiv.org/abs/2108.03625v1 ) ライセンス: Link先を確認 | Kyunghoon Hur, Jiyoung Lee, Jungwoo Oh, Wesley Price, Young-Hak Kim, Edward Choi | (参考訳) 電子健康記録(EHR)の使用の実質的な増加は、予測医療のための新たなフロンティアを開拓した。
しかし、EHRシステムはユビキタスに近いが、医療概念を表現するための統一コードシステムがない。
EHRの不均一なフォーマットは、最先端のディープラーニングモデルを大規模にトレーニングし、デプロイするための大きな障壁となる。
本稿では,ehl上での予測モデリングを行うための,コードに依存しない記述ベース表現学習フレームワークdescembを紹介する。
DescEmbは、タスク固有の表現学習や予測モデリングの以前のフレームワークと組み合わせられる中立的なアプローチを維持しながら、ニューラルネットワーク理解モデルの柔軟性を活用する。
予測タスクや転校学習,プール学習など,さまざまな実験でモデルのキャパシティをテストした。
DescEmbは、EHR構造や特別なドメイン知識に制約されない予測医療研究において、テキストベースのアプローチへの扉を開く、コードベースのアプローチと比較して、全体的な実験のパフォーマンスを示している。 Substantial increase in the use of Electronic Health Records (EHRs) has opened new frontiers for predictive healthcare. However, while EHR systems are nearly ubiquitous, they lack a unified code system for representing medical concepts. Heterogeneous formats of EHR present a substantial barrier for the training and deployment of state-of-the-art deep learning models at scale. To overcome this problem, we introduce Description-based Embedding, DescEmb, a code-agnostic description-based representation learning framework for predictive modeling on EHR. DescEmb takes advantage of the flexibility of neural language understanding models while maintaining a neutral approach that can be combined with prior frameworks for task-specific representation learning or predictive modeling. We tested our model's capacity on various experiments including prediction tasks, transfer learning and pooled learning. DescEmb shows higher performance in overall experiments compared to code-based approach, opening the door to a text-based approach in predictive healthcare research that is not constrained by EHR structure nor special domain knowledge. | 翻訳日:2021-08-10 15:03:23 公開日:2021-08-08 |
# 平行移動による変形伝達を用いたトラクトグラフィーストリームラインの配向 Alignment of Tractography Streamlines using Deformation Transfer via Parallel Transport ( http://arxiv.org/abs/2108.03697v1 ) ライセンス: Link先を確認 | Andrew Lizarraga, David Lee, Antoni Kubicki, Ashish Sahib, Elvis Nunez, Katherine Narr, Shantanu H. Joshi | (参考訳) 白色物質繊維を配向させる幾何学的枠組みを提案する。
脳間の繊維路を登録することで、しばしば被験者間で有意義な比較を提供する解剖学的構造が重なり合うことを期待する。
しかし, 白色物質路の形状は非常に異質であり, 複数の個体にまたがる直接的経路応答の発見は難しい課題である。
本稿では, トラクト間を同時に比較しながら, トラクト間における新規な変形測定値を提案する。
これを達成するために、繊維路は、平均から接ベクトルで表される変形場と共に固有平均で表される。
この設定では、トラクト間の平行移動を決定し、対応する接ベクトルを登録することができる。
本研究は,健常成人43名を対象にバンドルアライメントを行った結果である。 We present a geometric framework for aligning white matter fiber tracts. By registering fiber tracts between brains, one expects to see overlap of anatomical structures that often provide meaningful comparisons across subjects. However, the geometry of white matter tracts is highly heterogeneous, and finding direct tract-correspondence across multiple individuals remains a challenging problem. We present a novel deformation metric between tracts that allows one to compare tracts while simultaneously obtaining a registration. To accomplish this, fiber tracts are represented by an intrinsic mean along with the deformation fields represented by tangent vectors from the mean. In this setting, one can determine a parallel transport between tracts and then register corresponding tangent vectors. We present the results of bundle alignment on a population of 43 healthy adult subjects. | 翻訳日:2021-08-10 14:59:02 公開日:2021-08-08 |
# 雑音部分観測による予測力学系への機械学習とデータ同化の併用 Combining machine learning and data assimilation to forecast dynamical systems from noisy partial observations ( http://arxiv.org/abs/2108.03561v1 ) ライセンス: Link先を確認 | Georg A. Gottwald and Sebastian Reich | (参考訳) 本稿では,部分的および雑音的観測から力学系のプロパゲータマップを学ぶための教師付き学習法を提案する。
計算量的に安価で実装が容易なフレームワークでは、ランダム特徴マップからなるニューラルネットワークは、データ同化手順内の入射観測によって順次訓練される。
Takensの埋め込み定理を用いることで、ネットワークは遅延座標に基づいて訓練される。
RAFDAと呼ばれるランダムな特徴マップとデータ同化の組み合わせは、バッチデータを用いて動的に学習する標準的なランダムな特徴マップよりも優れていることを示す。 We present a supervised learning method to learn the propagator map of a dynamical system from partial and noisy observations. In our computationally cheap and easy-to-implement framework a neural network consisting of random feature maps is trained sequentially by incoming observations within a data assimilation procedure. By employing Takens' embedding theorem, the network is trained on delay coordinates. We show that the combination of random feature maps and data assimilation, called RAFDA, outperforms standard random feature maps for which the dynamics is learned using batch data. | 翻訳日:2021-08-10 14:58:30 公開日:2021-08-08 |
# 動的モード分解の一般化:クープマン近似の精度と表現性 Generalizing Dynamic Mode Decomposition: Balancing Accuracy and Expressiveness in Koopman Approximations ( http://arxiv.org/abs/2108.03712v1 ) ライセンス: Link先を確認 | Masih Haseli, Jorge Cort\'es | (参考訳) 本稿では、koopman-operator法を用いて未知力学系のデータ駆動近似を行う。
関数の辞書が与えられたとき、これらのメソッドは、辞書に散らばる有限次元部分空間上の作用素の作用の射影を近似する。
本稿では,その表現性と精度のバランスを保ち,辞書を洗練するためのTunable Symmetric Subspace Decompositionアルゴリズムを提案する。
表現力は可能な限り多くの可観測物の進化を記述する辞書の能力に対応し、精度はそれらの進化を正確に予測する能力に対応する。
コープマン不変部分空間が正確な予測をもたらすという観測に基づいて、予測精度は辞書が生成する部分空間の不変性度の関数であると考え、不変性近接を測定するデータ駆動測度を提供する。
提案アルゴリズムは、初期関数空間を反復的にプルークし、元の表現力を最大限に保ちつつ、所望の精度を満足する関数の洗練された辞書を識別する。
アルゴリズム特性の完全なキャラクタリゼーションを提供し,拡張動的モード分解と対称部分空間分解の両方を一般化することを示す。
平面系のシミュレーションは, 動的システムに関する関連情報を捕捉する調整可能な精度のクープマン近似を作成する上で, 提案手法の有効性を示す。 This paper tackles the data-driven approximation of unknown dynamical systems using Koopman-operator methods. Given a dictionary of functions, these methods approximate the projection of the action of the operator on the finite-dimensional subspace spanned by the dictionary. We propose the Tunable Symmetric Subspace Decomposition algorithm to refine the dictionary, balancing its expressiveness and accuracy. Expressiveness corresponds to the ability of the dictionary to describe the evolution of as many observables as possible and accuracy corresponds to the ability to correctly predict their evolution. Based on the observation that Koopman-invariant subspaces give rise to exact predictions, we reason that prediction accuracy is a function of the degree of invariance of the subspace generated by the dictionary and provide a data-driven measure to measure invariance proximity. The proposed algorithm iteratively prunes the initial functional space to identify a refined dictionary of functions that satisfies the desired level of accuracy while retaining as much of the original expressiveness as possible. We provide a full characterization of the algorithm properties and show that it generalizes both Extended Dynamic Mode Decomposition and Symmetric Subspace Decomposition. Simulations on planar systems show the effectiveness of the proposed methods in producing Koopman approximations of tunable accuracy that capture relevant information about the dynamical system. | 翻訳日:2021-08-10 14:56:24 公開日:2021-08-08 |